Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-21

1 Исследователи из Университета Джорджии проанализировали бесплатную LLM-модель с открытым исходным кодом от французской компании Mistral -Mixtral-8x7B-instructи выяснили, как она будет действовать в оценке письменных работ учеников. Учёные использовали несколько подходов, чтобы научить нейросеть вырабатывать правила для проверки, но и в наилучшем варианте ИИ-оценки совпали с теми, что выставили педагоги, только на 54%. Работа<a>опубликована</a>в журнале Technology, Knowledge and Learning, а её полный текст<a>доступен</a>на сервисе предпринтов arXiv.

2 В ходе исследования учёные поручили модели оценить письменные ответы учеников средней школы по естественно-научным предметам, в основном по физике. Всего использовалось 12 заданий, для каждого из которых выбрали по 800 ответов учащихся. Исследователи стремились понять, как именно рассуждает нейросеть при выполнении такой задачи. Потому они запрашивали у неё не только итоговые оценки, но ирубрики, которые модель генерировала для проверки. В<a>критериальном оценивании</a>рубрики - это наборы параметров (критериев), по которым оценивают работу учеников. В частности, бывают аналитические рубрики (по ним оценивают отдельные аспекты работы) и холистические (оценивают работу как целое).

3 Исследователи использовали несколько разных подходов:

4 <ul><li>От Mixtral требовалось без подсказок разработать рубрики для оценки какого-либо задания и использовать их для проверки.</li>

5 <li>Нейросеть просили оценить работы по критериям, подготовленным людьми для этих конкретных заданий.</li>

6 <li>Нейросети предлагали разработать аналитические рубрики для одного задания и провести проверку по ним, а для примера ей предоставляли критерии для остальных 11 заданий, прописанные людьми.</li>

7 <li>В дополнение к предыдущему варианту нейросети предоставили примеры работ, уже оценённых людьми.</li>

8 </ul>При каждом экспериментальном условии авторы сравнивали сгенерированные нейросетью рубрики с теми, что разработали педагоги, а также проверяли, насколько точно нейросеть оценивает ученические работы по этим критериям. Такой подход позволил заглянуть в "мыслительный процесс" модели.

9 Выяснилось, что Mixtral быстро адаптировалась к задачам, но в её рассуждениях зачастую не хватало логики. Например, при одном из экспериментальных условий нейросеть предложила для задания "Объясни, как твоя модель показывает, что передача тепловой энергии меняет движение молекул воды и её температуру" такие бессмысленные критерии оценки: "Модель показывает молекулы воды до и после нагревания" и "Модель показывает кинетическую энергию молекул воды до и после нагревания". То есть нейросеть в качестве критериев для оценки предлагала использовать ключевые слова из задания. Оценивая работы учеников с применением этой рубрики, она засчитывала как правильные все ответы, где эти термины употреблялись.

10 В итоге эксперимент показал, что точность работы Mixtral в оценке работ учеников варьировалась:

11 <ul><li>без каких-либо заранее прописанных критериев проверки она составила 34,8%;</li>

12 <li>с использованием аналитических рубрик, написанных человеком, - 50,4%.</li>

13 </ul>Чуть более высокая точность оценки получилась, когда нейросеть проверила задание пособственным критериям, разработанным на примерах аналитических рубрик для остальных 11 заданий, а также с учётом написанной людьми для этого задания холистической рубрики. В таком варианте выставленные нейросетью оценки совпали с учительскимина 54,6%. Авторы связывают результат с тем, что в таком варианте, с одной стороны, имелись подробные подготовленные профессионалами примеры критериев, а с другой -аналитические рубрики для оценки этого задания нейросеть сгенерировала в стиле, который, предположительно, лучше подходит для машинного восприятия.

14 А вот примеры оценённых учителями работ не помогли нейросети в проверке. В таком варианте эксперимента у Mixtral тоже были примеры аналитических рубрик для остальных 11 заданий, а вместо холистической рубрики для проверяемого задания нейросети выдавали примеры оценённых работ. Точность оценок при этом снизилась до 48,4%, а в разработанных аналитических рубриках появились нелогичные критерии. Исследователи считают, что при наличии готовых примеров оценки нейросеть использует самый простой вариант - комбинирует ключевые слова из высоко оценённых работ.

15 Итак, авторы не рекомендуют обучать нейросети для автоматической проверки заданий на проверенных работах учеников. Вместо этого они советуют предоставлять ИИ-моделям качественные и подробные аналитические рубрики, а также использовать смешанные подходы, где ИИ будет разрабатывать критерии оценки под контролем человека. Стоит, однако, отметить ограничение исследования: в нём использовали бесплатную модель Mixtral-8x7B-instruct и не работали с другими нейросетями. Можно предположить, что результаты с использованием других нейросетевых моделей или специально обученных инструментов могли бы быть лучше (впрочем, они могли быть и хуже).

16 Ранее исследователи НИУ ВШЭ<a>разработали</a>бенчмарк для оценки генеративного ИИ для образовательных задач. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. Нейросеть GPT-4 правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.

17 Больше интересного про образование ― в нашем <a>телеграм-канале</a>. Подписывайтесь!