Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-21

1 Исследователи из Школы управления "Сколково" и Тюменского государственного университета сравнили разные генеративные нейросети для образовательных задач. Основной частью этого проекта былучебный курс с чат-ботом на основе ИИ вместо преподавателя, а затем авторы определили, какие ИИ-модели дают наиболее полезные ответы на вопросы студентов. Отчёт с результатами исследования<a>доступен</a>на сайте школы.

2 Курс с ИИ-преподавателем "Биология поведения человека" на бизнес-бакалавриате Школы управления "Сколково" и МФТИ - только один из экспериментов, в которых чат-ботам на основе генеративных нейросетей выборочно передавали преподавательские функции. Подробнее о замысле и первых выводах из этих экспериментов<a>рассказала</a>ранее в интервью Skillbox Media директор Школы образования и Центра образовательных разработок на основе технологий искусственного интеллекта в составе Школы перспективных исследований ТюмГУ Ульяна Раведовская.

3 Курс "Биология поведения человека" представлял собой недельный интенсив для студентов бакалавриата - его ввели в программу для формирования у будущих предпринимателей более глубокого понимания поведения человека.В 2023 году его проводили в обычном формате, с лекциями преподавателя, а в 2024-м - с ИИ-персоной по имени Роберт.

4 Роберт не читал лекций, интенсив проводили в формате перевёрнутого класса. Чтобы решить кейсы, поучаствовать в групповой дискуссии и выполнить индивидуальные задания, студенты готовились заранее по книгам, видеолекциям и статьям. Человека-преподавателя на курсе не было, но учащимся помогал в организации занятий медиатор - профессиональный педагог, однако не специалист по биологии. Поэтому и на занятиях, и при самостоятельной подготовке студентам приходилось обращаться к ИИ-персоне как к источнику знаний, так как задать вопросы по теме больше было некому.

5 Интервью со студентами после окончания курса показали, что с помощью ИИ-персоны они хорошо освоили темы курса.Они лучше, чем предыдущий поток, запомнили основные идеи и научились оперировать научной терминологией. Однако обучение в таком формате многим не понравилось. Учащимся, по их словам, не хватало авторитета в предметной области - эксперта, который мог бы точно сказать, что правильно, а что нет. Ответам чат-бота они не очень доверяли и в целом чувствовали себя растерянными.

6 В<a>подкасте</a>"Позовите человека" организаторы сообщили, чтоподробные ответы ИИ-персоны, в которых тема раскрывалась с позиций разных дисциплин, казались студентам слишком расплывчатыми. И за конкретикой они шли к другим, неспециализированным инструментам на основе генеративных нейросетей.

7 Исследователи решили проверить, на самом ли деле ответы чат-бота, в основе которого лежит специализированная ИИ-модель, проигрывают результатам обычных, доступных массово чат-ботов. Для этого провели дополнительные эксперименты.

8 Вначале эксперты по биологии с помощью ИИ составили 1782 вопроса по темам курса. На них ответилипять разных версий ИИ-персоны Роберта- на основе Gemini 1.5 Pro, ChatGPT-4o, Claude 3.5 Sonnet, YandexGPT Pro 4 поколения и GigaChat Pro. Затем полученные ответы оценили эксперты (им не сообщили, какой модели какой ответ принадлежит) и выбрали из них лучшие как в целом, так и по различным критериям. Согласно итоговому рейтингу по усреднённым оценкам экспертов,лучшие результаты в общем показала YandexGPT.

9 Затем те же ответы проверила настроенная оценивать их по тем же критериям модель GPT-4o Mini.Она оценила ответы совершенно иначе- победителем в итоговом зачёте здесь оказалась ChatGPT-4о. Это заставило исследователей задуматься над субъективностью оценок ИИ (получается, GPT-4o Mini выбрала своего "сородича").

10 Несмотря на разрыв в качестве ответов, которые дали разные ИИ-модели, получены они все были в одной когнитивной архитектуре чат-бота. ИИ-персона Роберт разработана в подходе с генерацией, дополненной поиском (Retrieval-Augmented Generation, RAG). Подход RAG подразумевает, чтодля ответа на вопрос чат-бот обращается к внешним базам данных. У Роберта это были базы по разным научным дисциплинам: генетика, зоосоциология, нейронаука, эндокринология, молекулярная генетика, патология, поведенческая эволюция и нейролингвистика. Для каждого запроса бот выбирал три наиболее близкие к его теме базы и обращался к ним по очереди, то естьготовый ответ бот конструировал в каждом случае из трёх дисциплинарных перспектив. Именно такая разносторонняя подача, видимо, и отпугивала студентов, желавших получить один ясный ответ.

11 Но какие именно ответы получали студенты, когда в поисках простых объяснений обращались не к ИИ-персоне Роберту, а к доступным онлайн чат-ботам? Чтобы выяснить это, исследователи сравнили ответы моделей, оказавшихся лучшими, согласно оценке GPT-4o Mini в предыдущем эксперименте, с ответами на те же вопросы от неспециализированной модели OpenAI o3-mini-high. Сравнивала ответы по заданным критериям вновь нейросеть.Ответы моделей, работавших в подходе RAG, оказались по всем критериям лучше, чем у неспециализированной нейросети. Так, по критерию "Соответствие научному стилю речи и способу аргументации" Claude 3.5 Sonnet во всех случаях получила оценку выше, чем OpenAI o3-mini-high. По критерию "Междисциплинарность" неспециализированную модель в 96,7% случаев обошла ChatGPT-4o.

12 Однако по критериям "Понятность" и "Конкретность" у победителя предыдущего эксперимента GigaChat Pro побед над OpenAI o3-mini-high оказалось заметно меньше. В 65,5% случаев GigaChat опередил неспециализированную модель по понятности и лишь в 50,5% ответов - по конкретности. Так что у недовольства студентов ответами ИИ-персоны Роберта были, вероятно, основания.

13 Но авторы исследования считают широту и междисциплинарность ответов (пусть и в ущерб ясности) не проблемой, а преимуществом подхода RAG. Они полагают, что включать нейросети в образовательный процесс надо не для того, чтобы настроить студентов на зазубривание, а чтобы "научить учиться, задавать вопросы, разбирать противоречивую информацию, строить суждения в сотрудничестве с ИИ".

14 Ранее американские исследователи<a>обучили</a>ИИ-модель оценивать развёрнутые работы школьников по физике и выяснили, что её оценки редко совпадают с теми, которые выставляют профессиональные учителя. Немного повышают точность примеры критериев, по которым нужно оценивать работы, а вот примеры проверенных заданий с выставленными оценками этому не помогают.

15 Больше интересного про образование ― в нашем <a>телеграм-канале</a>. Подписывайтесь!