Rivalry2

HTML Diff

0 added 5 removed

Original 2026-01-01

Modified 2026-02-21

1 - Обозреватель Skillbox Media. Магистр по научной коммуникации, интересуется социологией науки, историей и будущим образования.

2 Исследователи из НИУ ВШЭ разработали новый подход к тестированию генеративных нейросетей и проверили его, предложив русскоязычной версии GPT-4 тест педагогических компетенций. Исследование<a>опубликовано</a>в виде препринта, о деталях работы сообщает пресс-служба вуза.

1 Исследователи из НИУ ВШЭ разработали новый подход к тестированию генеративных нейросетей и проверили его, предложив русскоязычной версии GPT-4 тест педагогических компетенций. Исследование<a>опубликовано</a>в виде препринта, о деталях работы сообщает пресс-служба вуза.

3 В исследовании авторы из НИУ ВШЭ ответили на вопрос, способен ли генеративный искусственный интеллект (ГИИ) сегодня быть для учителя помощником, на которого можно положиться. Среди способностей нейросети, интересовавших исследователей, - умение составлять индивидуализированные программы обучения и готовить проверочные задания, подбирать или генерировать материал для уроков.

2 В исследовании авторы из НИУ ВШЭ ответили на вопрос, способен ли генеративный искусственный интеллект (ГИИ) сегодня быть для учителя помощником, на которого можно положиться. Среди способностей нейросети, интересовавших исследователей, - умение составлять индивидуализированные программы обучения и готовить проверочные задания, подбирать или генерировать материал для уроков.

4 Но на самом деле применение ГИИ в педагогике - только частный пример. А вообще, исследователи создали единую модель для новых бенчмарков (так называют тесты для больших языковых моделей) в различных профессиональных областях:

3 Но на самом деле применение ГИИ в педагогике - только частный пример. А вообще, исследователи создали единую модель для новых бенчмарков (так называют тесты для больших языковых моделей) в различных профессиональных областях:

5 <ul><li>При создании учли принципы<a>психометрики</a> - науки об анализе данных о поведении и способностях людей. Результаты тестов, созданных в соответствии с психометрическими правилами, позволяют объяснить, почему человек (или нейросеть) успешно решает одни задания и испытывает трудности с другими. Также по ним можно предсказать, как участник тестирования будет в дальнейшем справляться с аналогичными задачами.</li>

4 <ul><li>При создании учли принципы<a>психометрики</a> - науки об анализе данных о поведении и способностях людей. Результаты тестов, созданных в соответствии с психометрическими правилами, позволяют объяснить, почему человек (или нейросеть) успешно решает одни задания и испытывает трудности с другими. Также по ним можно предсказать, как участник тестирования будет в дальнейшем справляться с аналогичными задачами.</li>

6 <li>Авторы пользовались<a>таксономией Блума</a>, чтобы задания из каждой тематической области охватывали разные уровни компетенций: воспроизведение, понимание, использование на практике. Это важно, потому что многие профессиональные тесты, с которыми ГИИ успешно<a>справляется</a>, учитывают только фактические знания. А понимание реальных процессов и соответствующие навыки при таких экзаменах недооценивают.</li>

5 <li>Авторы пользовались<a>таксономией Блума</a>, чтобы задания из каждой тематической области охватывали разные уровни компетенций: воспроизведение, понимание, использование на практике. Это важно, потому что многие профессиональные тесты, с которыми ГИИ успешно<a>справляется</a>, учитывают только фактические знания. А понимание реальных процессов и соответствующие навыки при таких экзаменах недооценивают.</li>

7 </ul>Чтобы разработать бенчмарк для оценки ГИИ для образовательных задач, исследователи собрали группу из 34 экспертов по педагогике и психологии. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. По каждой из областей эксперты подготовили от 240 до 250 вопросов с выбором ответа. Как правило, вопрос представлял собой описание проблемной ситуации в классе или в индивидуальной работе с учеником, а от ГИИ требовалось выбрать способ её разрешения.

6 </ul>Чтобы разработать бенчмарк для оценки ГИИ для образовательных задач, исследователи собрали группу из 34 экспертов по педагогике и психологии. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. По каждой из областей эксперты подготовили от 240 до 250 вопросов с выбором ответа. Как правило, вопрос представлял собой описание проблемной ситуации в классе или в индивидуальной работе с учеником, а от ГИИ требовалось выбрать способ её разрешения.

8 Помимо тем и уровней по таксономии Блума (воспроизведение фактов, понимание и применение), вопросы различались ещё и по уровню сложности. Лёгкими считались те, что, по мнению экспертов, решили бы более 70% обычных студентов профильной специальности, трудными - доступные менее чем 30% студентов. Но на студентах вопросы не проверяли: бенчмарк составляли исключительно для тестирования ГИИ, и он не предназначен для прохождения людьми.Всего в тест вошло 3963 вопроса.

7 Помимо тем и уровней по таксономии Блума (воспроизведение фактов, понимание и применение), вопросы различались ещё и по уровню сложности. Лёгкими считались те, что, по мнению экспертов, решили бы более 70% обычных студентов профильной специальности, трудными - доступные менее чем 30% студентов. Но на студентах вопросы не проверяли: бенчмарк составляли исключительно для тестирования ГИИ, и он не предназначен для прохождения людьми.Всего в тест вошло 3963 вопроса.

9 Бенчмарк проверили на генеративной нейросети GPT-4: ей предложили пройти экзамен по педагогике в роли профессионального учителя, работающего в России. Нейросеть правильноответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.

8 Бенчмарк проверили на генеративной нейросети GPT-4: ей предложили пройти экзамен по педагогике в роли профессионального учителя, работающего в России. Нейросеть правильноответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.

10 Исследователи отмечают, что, похоже, у ГИИ недостаточно "знаний" и о педагогических теориях, и о практических сценариях работы с классом. Ожидаемо хуже всего нейросеть справлялась с заданиями на применение знаний (41% верных ответов), а лучше всего ей дались вопросы на понимание (48% правильных ответов). В итоге исследователи сделали вывод, что пока уровень экспертности у изученной нейросети недостаточен, чтобы учителя полагались на неё: введение в образовательный процесс помощников на такой базе приведёт только к дополнительным расходам.

9 Исследователи отмечают, что, похоже, у ГИИ недостаточно "знаний" и о педагогических теориях, и о практических сценариях работы с классом. Ожидаемо хуже всего нейросеть справлялась с заданиями на применение знаний (41% верных ответов), а лучше всего ей дались вопросы на понимание (48% правильных ответов). В итоге исследователи сделали вывод, что пока уровень экспертности у изученной нейросети недостаточен, чтобы учителя полагались на неё: введение в образовательный процесс помощников на такой базе приведёт только к дополнительным расходам.

11 "Мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым всё необходимо перепроверять - а сейчас это так и есть, - вряд ли вызовет желание его использовать", - прокомментировал результаты один из авторов работы, научный руководитель НИУ ВШЭ Ярослав Кузьминов.

10 "Мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым всё необходимо перепроверять - а сейчас это так и есть, - вряд ли вызовет желание его использовать", - прокомментировал результаты один из авторов работы, научный руководитель НИУ ВШЭ Ярослав Кузьминов.

12 В будущем исследователи планируют разработать на основе нового подхода бенчмарки по другим профессиональным областям, а также описать техники для дообучения ГИИ - чтобы устранить риски галлюцинаций и ошибок в базовых для дисциплины вопросах.

11 В будущем исследователи планируют разработать на основе нового подхода бенчмарки по другим профессиональным областям, а также описать техники для дообучения ГИИ - чтобы устранить риски галлюцинаций и ошибок в базовых для дисциплины вопросах.

13 Ранее эксперт американского сообщества специалистов в сфере образовательных технологий EdTech Insiders Алекс Сарлин<a>предложил</a>методику оценки ИИ-инструментов для школьного образования с точки зрения их безопасности.

12 Ранее эксперт американского сообщества специалистов в сфере образовательных технологий EdTech Insiders Алекс Сарлин<a>предложил</a>методику оценки ИИ-инструментов для школьного образования с точки зрения их безопасности.

14 Больше интересного про образование ― в нашем<a>телеграм-канале</a>. Подписывайтесь!

13 Больше интересного про образование ― в нашем<a>телеграм-канале</a>. Подписывайтесь!

15 - Профессия Методист с нуля до PRO

16 - Вы прокачаете навыки в разработке учебных программ для онлайн- и офлайн-курсов. Освоите современные педагогические практики, структурируете опыт и станете более востребованным специалистом.

17 - <a>Узнать подробнее</a>

18 - <a>Курс с трудоустройством: "Профессия Методист с нуля до PRO" Узнать о курсе</a>