0 added
0 removed
Original
2026-01-01
Modified
2026-02-21
1
<p>Исследователи из Университета Джорджии проанализировали бесплатную LLM-модель с открытым исходным кодом от французской компании Mistral -<strong>Mixtral-8x7B-instruct</strong>и выяснили, как она будет действовать в оценке письменных работ учеников. Учёные использовали несколько подходов, чтобы научить нейросеть вырабатывать правила для проверки, но и в наилучшем варианте ИИ-оценки совпали с теми, что выставили педагоги, только на 54%. Работа<a>опубликована</a>в журнале Technology, Knowledge and Learning, а её полный текст<a>доступен</a>на сервисе предпринтов arXiv.</p>
1
<p>Исследователи из Университета Джорджии проанализировали бесплатную LLM-модель с открытым исходным кодом от французской компании Mistral -<strong>Mixtral-8x7B-instruct</strong>и выяснили, как она будет действовать в оценке письменных работ учеников. Учёные использовали несколько подходов, чтобы научить нейросеть вырабатывать правила для проверки, но и в наилучшем варианте ИИ-оценки совпали с теми, что выставили педагоги, только на 54%. Работа<a>опубликована</a>в журнале Technology, Knowledge and Learning, а её полный текст<a>доступен</a>на сервисе предпринтов arXiv.</p>
2
<p>В ходе исследования учёные поручили модели оценить письменные ответы учеников средней школы по естественно-научным предметам, в основном по физике. Всего использовалось 12 заданий, для каждого из которых выбрали по 800 ответов учащихся. Исследователи стремились понять, как именно рассуждает нейросеть при выполнении такой задачи. Потому они запрашивали у неё не только итоговые оценки, но и<strong>рубрики</strong>, которые модель генерировала для проверки. В<a>критериальном оценивании</a>рубрики - это наборы параметров (критериев), по которым оценивают работу учеников. В частности, бывают аналитические рубрики (по ним оценивают отдельные аспекты работы) и холистические (оценивают работу как целое).</p>
2
<p>В ходе исследования учёные поручили модели оценить письменные ответы учеников средней школы по естественно-научным предметам, в основном по физике. Всего использовалось 12 заданий, для каждого из которых выбрали по 800 ответов учащихся. Исследователи стремились понять, как именно рассуждает нейросеть при выполнении такой задачи. Потому они запрашивали у неё не только итоговые оценки, но и<strong>рубрики</strong>, которые модель генерировала для проверки. В<a>критериальном оценивании</a>рубрики - это наборы параметров (критериев), по которым оценивают работу учеников. В частности, бывают аналитические рубрики (по ним оценивают отдельные аспекты работы) и холистические (оценивают работу как целое).</p>
3
<p>Исследователи использовали несколько разных подходов:</p>
3
<p>Исследователи использовали несколько разных подходов:</p>
4
<ul><li>От Mixtral требовалось без подсказок разработать рубрики для оценки какого-либо задания и использовать их для проверки.</li>
4
<ul><li>От Mixtral требовалось без подсказок разработать рубрики для оценки какого-либо задания и использовать их для проверки.</li>
5
<li>Нейросеть просили оценить работы по критериям, подготовленным людьми для этих конкретных заданий.</li>
5
<li>Нейросеть просили оценить работы по критериям, подготовленным людьми для этих конкретных заданий.</li>
6
<li>Нейросети предлагали разработать аналитические рубрики для одного задания и провести проверку по ним, а для примера ей предоставляли критерии для остальных 11 заданий, прописанные людьми.</li>
6
<li>Нейросети предлагали разработать аналитические рубрики для одного задания и провести проверку по ним, а для примера ей предоставляли критерии для остальных 11 заданий, прописанные людьми.</li>
7
<li>В дополнение к предыдущему варианту нейросети предоставили примеры работ, уже оценённых людьми.</li>
7
<li>В дополнение к предыдущему варианту нейросети предоставили примеры работ, уже оценённых людьми.</li>
8
</ul><p>При каждом экспериментальном условии авторы сравнивали сгенерированные нейросетью рубрики с теми, что разработали педагоги, а также проверяли, насколько точно нейросеть оценивает ученические работы по этим критериям. Такой подход позволил заглянуть в "мыслительный процесс" модели.</p>
8
</ul><p>При каждом экспериментальном условии авторы сравнивали сгенерированные нейросетью рубрики с теми, что разработали педагоги, а также проверяли, насколько точно нейросеть оценивает ученические работы по этим критериям. Такой подход позволил заглянуть в "мыслительный процесс" модели.</p>
9
<p>Выяснилось, что Mixtral быстро адаптировалась к задачам, но в её рассуждениях зачастую не хватало логики. Например, при одном из экспериментальных условий нейросеть предложила для задания "Объясни, как твоя модель показывает, что передача тепловой энергии меняет движение молекул воды и её температуру" такие бессмысленные критерии оценки: "Модель показывает молекулы воды до и после нагревания" и "Модель показывает кинетическую энергию молекул воды до и после нагревания". То есть нейросеть в качестве критериев для оценки предлагала использовать ключевые слова из задания. Оценивая работы учеников с применением этой рубрики, она засчитывала как правильные все ответы, где эти термины употреблялись.</p>
9
<p>Выяснилось, что Mixtral быстро адаптировалась к задачам, но в её рассуждениях зачастую не хватало логики. Например, при одном из экспериментальных условий нейросеть предложила для задания "Объясни, как твоя модель показывает, что передача тепловой энергии меняет движение молекул воды и её температуру" такие бессмысленные критерии оценки: "Модель показывает молекулы воды до и после нагревания" и "Модель показывает кинетическую энергию молекул воды до и после нагревания". То есть нейросеть в качестве критериев для оценки предлагала использовать ключевые слова из задания. Оценивая работы учеников с применением этой рубрики, она засчитывала как правильные все ответы, где эти термины употреблялись.</p>
10
<p>В итоге эксперимент показал, что точность работы Mixtral в оценке работ учеников варьировалась:</p>
10
<p>В итоге эксперимент показал, что точность работы Mixtral в оценке работ учеников варьировалась:</p>
11
<ul><li>без каких-либо заранее прописанных критериев проверки она составила 34,8%;</li>
11
<ul><li>без каких-либо заранее прописанных критериев проверки она составила 34,8%;</li>
12
<li>с использованием аналитических рубрик, написанных человеком, - 50,4%.</li>
12
<li>с использованием аналитических рубрик, написанных человеком, - 50,4%.</li>
13
</ul><p>Чуть более высокая точность оценки получилась, когда нейросеть проверила задание по<strong>собственным критериям, разработанным на примерах аналитических рубрик для остальных 11 заданий</strong>, а также с учётом написанной людьми для этого задания холистической рубрики. В таком варианте выставленные нейросетью оценки совпали с учительскими<strong>на 54,6%</strong>. Авторы связывают результат с тем, что в таком варианте, с одной стороны, имелись подробные подготовленные профессионалами примеры критериев, а с другой -<strong>аналитические рубрики для оценки этого задания нейросеть сгенерировала в стиле, который, предположительно, лучше подходит для машинного восприятия</strong>.</p>
13
</ul><p>Чуть более высокая точность оценки получилась, когда нейросеть проверила задание по<strong>собственным критериям, разработанным на примерах аналитических рубрик для остальных 11 заданий</strong>, а также с учётом написанной людьми для этого задания холистической рубрики. В таком варианте выставленные нейросетью оценки совпали с учительскими<strong>на 54,6%</strong>. Авторы связывают результат с тем, что в таком варианте, с одной стороны, имелись подробные подготовленные профессионалами примеры критериев, а с другой -<strong>аналитические рубрики для оценки этого задания нейросеть сгенерировала в стиле, который, предположительно, лучше подходит для машинного восприятия</strong>.</p>
14
<p>А вот примеры оценённых учителями работ не помогли нейросети в проверке. В таком варианте эксперимента у Mixtral тоже были примеры аналитических рубрик для остальных 11 заданий, а вместо холистической рубрики для проверяемого задания нейросети выдавали примеры оценённых работ. Точность оценок при этом снизилась до 48,4%, а в разработанных аналитических рубриках появились нелогичные критерии. Исследователи считают, что при наличии готовых примеров оценки нейросеть использует самый простой вариант - комбинирует ключевые слова из высоко оценённых работ.</p>
14
<p>А вот примеры оценённых учителями работ не помогли нейросети в проверке. В таком варианте эксперимента у Mixtral тоже были примеры аналитических рубрик для остальных 11 заданий, а вместо холистической рубрики для проверяемого задания нейросети выдавали примеры оценённых работ. Точность оценок при этом снизилась до 48,4%, а в разработанных аналитических рубриках появились нелогичные критерии. Исследователи считают, что при наличии готовых примеров оценки нейросеть использует самый простой вариант - комбинирует ключевые слова из высоко оценённых работ.</p>
15
<p>Итак, авторы не рекомендуют обучать нейросети для автоматической проверки заданий на проверенных работах учеников. Вместо этого они советуют предоставлять ИИ-моделям качественные и подробные аналитические рубрики, а также использовать смешанные подходы, где ИИ будет разрабатывать критерии оценки под контролем человека. Стоит, однако, отметить ограничение исследования: в нём использовали бесплатную модель Mixtral-8x7B-instruct и не работали с другими нейросетями. Можно предположить, что результаты с использованием других нейросетевых моделей или специально обученных инструментов могли бы быть лучше (впрочем, они могли быть и хуже).</p>
15
<p>Итак, авторы не рекомендуют обучать нейросети для автоматической проверки заданий на проверенных работах учеников. Вместо этого они советуют предоставлять ИИ-моделям качественные и подробные аналитические рубрики, а также использовать смешанные подходы, где ИИ будет разрабатывать критерии оценки под контролем человека. Стоит, однако, отметить ограничение исследования: в нём использовали бесплатную модель Mixtral-8x7B-instruct и не работали с другими нейросетями. Можно предположить, что результаты с использованием других нейросетевых моделей или специально обученных инструментов могли бы быть лучше (впрочем, они могли быть и хуже).</p>
16
<p>Ранее исследователи НИУ ВШЭ<a>разработали</a>бенчмарк для оценки генеративного ИИ для образовательных задач. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. Нейросеть GPT-4 правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.</p>
16
<p>Ранее исследователи НИУ ВШЭ<a>разработали</a>бенчмарк для оценки генеративного ИИ для образовательных задач. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. Нейросеть GPT-4 правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.</p>
17
<p>Больше интересного про образование ― в нашем <a>телеграм-канале</a>. Подписывайтесь!</p>
17
<p>Больше интересного про образование ― в нашем <a>телеграм-канале</a>. Подписывайтесь!</p>