HTML Diff
0 added 5 removed
Original 2026-01-01
Modified 2026-02-21
1 - <p>Обозреватель Skillbox Media. Магистр по научной коммуникации, интересуется социологией науки, историей и будущим образования.</p>
 
2 <p>Исследователи из НИУ ВШЭ разработали новый подход к тестированию генеративных нейросетей и проверили его, предложив русскоязычной версии GPT-4 тест педагогических компетенций. Исследование<a>опубликовано</a>в виде препринта, о деталях работы сообщает пресс-служба вуза.</p>
1 <p>Исследователи из НИУ ВШЭ разработали новый подход к тестированию генеративных нейросетей и проверили его, предложив русскоязычной версии GPT-4 тест педагогических компетенций. Исследование<a>опубликовано</a>в виде препринта, о деталях работы сообщает пресс-служба вуза.</p>
3 <p>В исследовании авторы из НИУ ВШЭ ответили на вопрос, способен ли генеративный искусственный интеллект (ГИИ) сегодня быть для учителя помощником, на которого можно положиться. Среди способностей нейросети, интересовавших исследователей, - умение составлять индивидуализированные программы обучения и готовить проверочные задания, подбирать или генерировать материал для уроков.</p>
2 <p>В исследовании авторы из НИУ ВШЭ ответили на вопрос, способен ли генеративный искусственный интеллект (ГИИ) сегодня быть для учителя помощником, на которого можно положиться. Среди способностей нейросети, интересовавших исследователей, - умение составлять индивидуализированные программы обучения и готовить проверочные задания, подбирать или генерировать материал для уроков.</p>
4 <p>Но на самом деле применение ГИИ в педагогике - только частный пример. А вообще, исследователи создали единую модель для новых бенчмарков (так называют тесты для больших языковых моделей) в различных профессиональных областях:</p>
3 <p>Но на самом деле применение ГИИ в педагогике - только частный пример. А вообще, исследователи создали единую модель для новых бенчмарков (так называют тесты для больших языковых моделей) в различных профессиональных областях:</p>
5 <ul><li>При создании учли принципы<a>психометрики</a> - науки об анализе данных о поведении и способностях людей. Результаты тестов, созданных в соответствии с психометрическими правилами, позволяют объяснить, почему человек (или нейросеть) успешно решает одни задания и испытывает трудности с другими. Также по ним можно предсказать, как участник тестирования будет в дальнейшем справляться с аналогичными задачами.</li>
4 <ul><li>При создании учли принципы<a>психометрики</a> - науки об анализе данных о поведении и способностях людей. Результаты тестов, созданных в соответствии с психометрическими правилами, позволяют объяснить, почему человек (или нейросеть) успешно решает одни задания и испытывает трудности с другими. Также по ним можно предсказать, как участник тестирования будет в дальнейшем справляться с аналогичными задачами.</li>
6 <li>Авторы пользовались<a>таксономией Блума</a>, чтобы задания из каждой тематической области охватывали разные уровни компетенций: воспроизведение, понимание, использование на практике. Это важно, потому что многие профессиональные тесты, с которыми ГИИ успешно<a>справляется</a>, учитывают только фактические знания. А понимание реальных процессов и соответствующие навыки при таких экзаменах недооценивают.</li>
5 <li>Авторы пользовались<a>таксономией Блума</a>, чтобы задания из каждой тематической области охватывали разные уровни компетенций: воспроизведение, понимание, использование на практике. Это важно, потому что многие профессиональные тесты, с которыми ГИИ успешно<a>справляется</a>, учитывают только фактические знания. А понимание реальных процессов и соответствующие навыки при таких экзаменах недооценивают.</li>
7 </ul><p>Чтобы разработать бенчмарк для оценки ГИИ для образовательных задач, исследователи собрали группу из 34 экспертов по педагогике и психологии. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. По каждой из областей эксперты подготовили от 240 до 250 вопросов с выбором ответа. Как правило, вопрос представлял собой описание проблемной ситуации в классе или в индивидуальной работе с учеником, а от ГИИ требовалось выбрать способ её разрешения.</p>
6 </ul><p>Чтобы разработать бенчмарк для оценки ГИИ для образовательных задач, исследователи собрали группу из 34 экспертов по педагогике и психологии. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. По каждой из областей эксперты подготовили от 240 до 250 вопросов с выбором ответа. Как правило, вопрос представлял собой описание проблемной ситуации в классе или в индивидуальной работе с учеником, а от ГИИ требовалось выбрать способ её разрешения.</p>
8 <p>Помимо тем и уровней по таксономии Блума (воспроизведение фактов, понимание и применение), вопросы различались ещё и по уровню сложности. Лёгкими считались те, что, по мнению экспертов, решили бы более 70% обычных студентов профильной специальности, трудными - доступные менее чем 30% студентов. Но на студентах вопросы не проверяли: бенчмарк составляли исключительно для тестирования ГИИ, и он не предназначен для прохождения людьми.<strong>Всего в тест вошло 3963 вопроса.</strong></p>
7 <p>Помимо тем и уровней по таксономии Блума (воспроизведение фактов, понимание и применение), вопросы различались ещё и по уровню сложности. Лёгкими считались те, что, по мнению экспертов, решили бы более 70% обычных студентов профильной специальности, трудными - доступные менее чем 30% студентов. Но на студентах вопросы не проверяли: бенчмарк составляли исключительно для тестирования ГИИ, и он не предназначен для прохождения людьми.<strong>Всего в тест вошло 3963 вопроса.</strong></p>
9 <p>Бенчмарк проверили на генеративной нейросети GPT-4: ей предложили пройти экзамен по педагогике в роли профессионального учителя, работающего в России. Нейросеть правильно<strong>ответила на 39,2% вопросов</strong>, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.</p>
8 <p>Бенчмарк проверили на генеративной нейросети GPT-4: ей предложили пройти экзамен по педагогике в роли профессионального учителя, работающего в России. Нейросеть правильно<strong>ответила на 39,2% вопросов</strong>, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.</p>
10 <p>Исследователи отмечают, что, похоже, у ГИИ недостаточно "знаний" и о педагогических теориях, и о практических сценариях работы с классом. Ожидаемо хуже всего нейросеть справлялась с заданиями на применение знаний (41% верных ответов), а лучше всего ей дались вопросы на понимание (48% правильных ответов). В итоге исследователи сделали вывод, что пока уровень экспертности у изученной нейросети недостаточен, чтобы учителя полагались на неё: введение в образовательный процесс помощников на такой базе приведёт только к дополнительным расходам.</p>
9 <p>Исследователи отмечают, что, похоже, у ГИИ недостаточно "знаний" и о педагогических теориях, и о практических сценариях работы с классом. Ожидаемо хуже всего нейросеть справлялась с заданиями на применение знаний (41% верных ответов), а лучше всего ей дались вопросы на понимание (48% правильных ответов). В итоге исследователи сделали вывод, что пока уровень экспертности у изученной нейросети недостаточен, чтобы учителя полагались на неё: введение в образовательный процесс помощников на такой базе приведёт только к дополнительным расходам.</p>
11 <p>"Мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым всё необходимо перепроверять - а сейчас это так и есть, - вряд ли вызовет желание его использовать", - прокомментировал результаты один из авторов работы, научный руководитель НИУ ВШЭ Ярослав Кузьминов.</p>
10 <p>"Мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым всё необходимо перепроверять - а сейчас это так и есть, - вряд ли вызовет желание его использовать", - прокомментировал результаты один из авторов работы, научный руководитель НИУ ВШЭ Ярослав Кузьминов.</p>
12 <p>В будущем исследователи планируют разработать на основе нового подхода бенчмарки по другим профессиональным областям, а также описать техники для дообучения ГИИ - чтобы устранить риски галлюцинаций и ошибок в базовых для дисциплины вопросах.</p>
11 <p>В будущем исследователи планируют разработать на основе нового подхода бенчмарки по другим профессиональным областям, а также описать техники для дообучения ГИИ - чтобы устранить риски галлюцинаций и ошибок в базовых для дисциплины вопросах.</p>
13 <p>Ранее эксперт американского сообщества специалистов в сфере образовательных технологий EdTech Insiders Алекс Сарлин<a>предложил</a>методику оценки ИИ-инструментов для школьного образования с точки зрения их безопасности.</p>
12 <p>Ранее эксперт американского сообщества специалистов в сфере образовательных технологий EdTech Insiders Алекс Сарлин<a>предложил</a>методику оценки ИИ-инструментов для школьного образования с точки зрения их безопасности.</p>
14 <p>Больше интересного про образование ― в нашем<a>телеграм-канале</a>. Подписывайтесь!</p>
13 <p>Больше интересного про образование ― в нашем<a>телеграм-канале</a>. Подписывайтесь!</p>
15 - <p>Профессия Методист с нуля до PRO</p>
 
16 - <p>Вы прокачаете навыки в разработке учебных программ для онлайн- и офлайн-курсов. Освоите современные педагогические практики, структурируете опыт и станете более востребованным специалистом.</p>
 
17 - <p><a>Узнать подробнее</a></p>
 
18 - <a>Курс с трудоустройством: "Профессия Методист с нуля до PRO" Узнать о курсе</a>