HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-21
1 <p>Исследователи из Школы управления "Сколково" и Тюменского государственного университета сравнили разные генеративные нейросети для образовательных задач. Основной частью этого проекта был<strong>учебный курс с чат-ботом на основе ИИ вместо преподавателя</strong>, а затем авторы определили, какие ИИ-модели дают наиболее полезные ответы на вопросы студентов. Отчёт с результатами исследования<a>доступен</a>на сайте школы.</p>
1 <p>Исследователи из Школы управления "Сколково" и Тюменского государственного университета сравнили разные генеративные нейросети для образовательных задач. Основной частью этого проекта был<strong>учебный курс с чат-ботом на основе ИИ вместо преподавателя</strong>, а затем авторы определили, какие ИИ-модели дают наиболее полезные ответы на вопросы студентов. Отчёт с результатами исследования<a>доступен</a>на сайте школы.</p>
2 <p>Курс с ИИ-преподавателем "Биология поведения человека" на бизнес-бакалавриате Школы управления "Сколково" и МФТИ - только один из экспериментов, в которых чат-ботам на основе генеративных нейросетей выборочно передавали преподавательские функции. Подробнее о замысле и первых выводах из этих экспериментов<a>рассказала</a>ранее в интервью Skillbox Media директор Школы образования и Центра образовательных разработок на основе технологий искусственного интеллекта в составе Школы перспективных исследований ТюмГУ Ульяна Раведовская.</p>
2 <p>Курс с ИИ-преподавателем "Биология поведения человека" на бизнес-бакалавриате Школы управления "Сколково" и МФТИ - только один из экспериментов, в которых чат-ботам на основе генеративных нейросетей выборочно передавали преподавательские функции. Подробнее о замысле и первых выводах из этих экспериментов<a>рассказала</a>ранее в интервью Skillbox Media директор Школы образования и Центра образовательных разработок на основе технологий искусственного интеллекта в составе Школы перспективных исследований ТюмГУ Ульяна Раведовская.</p>
3 <p>Курс "Биология поведения человека" представлял собой недельный интенсив для студентов бакалавриата - его ввели в программу для формирования у будущих предпринимателей более глубокого понимания поведения человека.<strong>В 2023 году его проводили в обычном формате, с лекциями преподавателя, а в 2024-м - с ИИ-персоной по имени Роберт</strong>.</p>
3 <p>Курс "Биология поведения человека" представлял собой недельный интенсив для студентов бакалавриата - его ввели в программу для формирования у будущих предпринимателей более глубокого понимания поведения человека.<strong>В 2023 году его проводили в обычном формате, с лекциями преподавателя, а в 2024-м - с ИИ-персоной по имени Роберт</strong>.</p>
4 <p>Роберт не читал лекций, интенсив проводили в формате перевёрнутого класса. Чтобы решить кейсы, поучаствовать в групповой дискуссии и выполнить индивидуальные задания, студенты готовились заранее по книгам, видеолекциям и статьям. Человека-преподавателя на курсе не было, но учащимся помогал в организации занятий медиатор - профессиональный педагог, однако не специалист по биологии. Поэтому и на занятиях, и при самостоятельной подготовке студентам приходилось обращаться к ИИ-персоне как к источнику знаний, так как задать вопросы по теме больше было некому.</p>
4 <p>Роберт не читал лекций, интенсив проводили в формате перевёрнутого класса. Чтобы решить кейсы, поучаствовать в групповой дискуссии и выполнить индивидуальные задания, студенты готовились заранее по книгам, видеолекциям и статьям. Человека-преподавателя на курсе не было, но учащимся помогал в организации занятий медиатор - профессиональный педагог, однако не специалист по биологии. Поэтому и на занятиях, и при самостоятельной подготовке студентам приходилось обращаться к ИИ-персоне как к источнику знаний, так как задать вопросы по теме больше было некому.</p>
5 <p>Интервью со студентами после окончания курса показали, что с помощью ИИ-персоны они хорошо освоили темы курса.<strong>Они лучше, чем предыдущий поток, запомнили основные идеи и научились оперировать научной терминологией</strong>. Однако обучение в таком формате многим не понравилось. Учащимся, по их словам, не хватало авторитета в предметной области - эксперта, который мог бы точно сказать, что правильно, а что нет. Ответам чат-бота они не очень доверяли и в целом чувствовали себя растерянными.</p>
5 <p>Интервью со студентами после окончания курса показали, что с помощью ИИ-персоны они хорошо освоили темы курса.<strong>Они лучше, чем предыдущий поток, запомнили основные идеи и научились оперировать научной терминологией</strong>. Однако обучение в таком формате многим не понравилось. Учащимся, по их словам, не хватало авторитета в предметной области - эксперта, который мог бы точно сказать, что правильно, а что нет. Ответам чат-бота они не очень доверяли и в целом чувствовали себя растерянными.</p>
6 <p>В<a>подкасте</a>"Позовите человека" организаторы сообщили, что<strong>подробные ответы ИИ-персоны, в которых тема раскрывалась с позиций разных дисциплин, казались студентам слишком расплывчатыми</strong>. И за конкретикой они шли к другим, неспециализированным инструментам на основе генеративных нейросетей.</p>
6 <p>В<a>подкасте</a>"Позовите человека" организаторы сообщили, что<strong>подробные ответы ИИ-персоны, в которых тема раскрывалась с позиций разных дисциплин, казались студентам слишком расплывчатыми</strong>. И за конкретикой они шли к другим, неспециализированным инструментам на основе генеративных нейросетей.</p>
7 <p>Исследователи решили проверить, на самом ли деле ответы чат-бота, в основе которого лежит специализированная ИИ-модель, проигрывают результатам обычных, доступных массово чат-ботов. Для этого провели дополнительные эксперименты.</p>
7 <p>Исследователи решили проверить, на самом ли деле ответы чат-бота, в основе которого лежит специализированная ИИ-модель, проигрывают результатам обычных, доступных массово чат-ботов. Для этого провели дополнительные эксперименты.</p>
8 <p>Вначале эксперты по биологии с помощью ИИ составили 1782 вопроса по темам курса. На них ответили<strong>пять разных версий ИИ-персоны Роберта</strong>- на основе Gemini 1.5 Pro, ChatGPT-4o, Claude 3.5 Sonnet, YandexGPT Pro 4 поколения и GigaChat Pro. Затем полученные ответы оценили эксперты (им не сообщили, какой модели какой ответ принадлежит) и выбрали из них лучшие как в целом, так и по различным критериям. Согласно итоговому рейтингу по усреднённым оценкам экспертов,<strong>лучшие результаты в общем показала YandexGPT</strong>.</p>
8 <p>Вначале эксперты по биологии с помощью ИИ составили 1782 вопроса по темам курса. На них ответили<strong>пять разных версий ИИ-персоны Роберта</strong>- на основе Gemini 1.5 Pro, ChatGPT-4o, Claude 3.5 Sonnet, YandexGPT Pro 4 поколения и GigaChat Pro. Затем полученные ответы оценили эксперты (им не сообщили, какой модели какой ответ принадлежит) и выбрали из них лучшие как в целом, так и по различным критериям. Согласно итоговому рейтингу по усреднённым оценкам экспертов,<strong>лучшие результаты в общем показала YandexGPT</strong>.</p>
9 <p>Затем те же ответы проверила настроенная оценивать их по тем же критериям модель GPT-4o Mini.<strong>Она оценила ответы совершенно иначе</strong>- победителем в итоговом зачёте здесь оказалась ChatGPT-4о. Это заставило исследователей задуматься над субъективностью оценок ИИ (получается, GPT-4o Mini выбрала своего "сородича").</p>
9 <p>Затем те же ответы проверила настроенная оценивать их по тем же критериям модель GPT-4o Mini.<strong>Она оценила ответы совершенно иначе</strong>- победителем в итоговом зачёте здесь оказалась ChatGPT-4о. Это заставило исследователей задуматься над субъективностью оценок ИИ (получается, GPT-4o Mini выбрала своего "сородича").</p>
10 <p>Несмотря на разрыв в качестве ответов, которые дали разные ИИ-модели, получены они все были в одной когнитивной архитектуре чат-бота. ИИ-персона Роберт разработана в подходе с генерацией, дополненной поиском (Retrieval-Augmented Generation, RAG). Подход RAG подразумевает, что<strong>для ответа на вопрос чат-бот обращается к внешним базам данных</strong>. У Роберта это были базы по разным научным дисциплинам: генетика, зоосоциология, нейронаука, эндокринология, молекулярная генетика, патология, поведенческая эволюция и нейролингвистика. Для каждого запроса бот выбирал три наиболее близкие к его теме базы и обращался к ним по очереди, то есть<strong>готовый ответ бот конструировал в каждом случае из трёх дисциплинарных перспектив</strong>. Именно такая разносторонняя подача, видимо, и отпугивала студентов, желавших получить один ясный ответ.</p>
10 <p>Несмотря на разрыв в качестве ответов, которые дали разные ИИ-модели, получены они все были в одной когнитивной архитектуре чат-бота. ИИ-персона Роберт разработана в подходе с генерацией, дополненной поиском (Retrieval-Augmented Generation, RAG). Подход RAG подразумевает, что<strong>для ответа на вопрос чат-бот обращается к внешним базам данных</strong>. У Роберта это были базы по разным научным дисциплинам: генетика, зоосоциология, нейронаука, эндокринология, молекулярная генетика, патология, поведенческая эволюция и нейролингвистика. Для каждого запроса бот выбирал три наиболее близкие к его теме базы и обращался к ним по очереди, то есть<strong>готовый ответ бот конструировал в каждом случае из трёх дисциплинарных перспектив</strong>. Именно такая разносторонняя подача, видимо, и отпугивала студентов, желавших получить один ясный ответ.</p>
11 <p>Но какие именно ответы получали студенты, когда в поисках простых объяснений обращались не к ИИ-персоне Роберту, а к доступным онлайн чат-ботам? Чтобы выяснить это, исследователи сравнили ответы моделей, оказавшихся лучшими, согласно оценке GPT-4o Mini в предыдущем эксперименте, с ответами на те же вопросы от неспециализированной модели OpenAI o3-mini-high. Сравнивала ответы по заданным критериям вновь нейросеть.<strong>Ответы моделей, работавших в подходе RAG, оказались по всем критериям лучше, чем у неспециализированной нейросети</strong>. Так, по критерию "Соответствие научному стилю речи и способу аргументации" Claude 3.5 Sonnet во всех случаях получила оценку выше, чем OpenAI o3-mini-high. По критерию "Междисциплинарность" неспециализированную модель в 96,7% случаев обошла ChatGPT-4o.</p>
11 <p>Но какие именно ответы получали студенты, когда в поисках простых объяснений обращались не к ИИ-персоне Роберту, а к доступным онлайн чат-ботам? Чтобы выяснить это, исследователи сравнили ответы моделей, оказавшихся лучшими, согласно оценке GPT-4o Mini в предыдущем эксперименте, с ответами на те же вопросы от неспециализированной модели OpenAI o3-mini-high. Сравнивала ответы по заданным критериям вновь нейросеть.<strong>Ответы моделей, работавших в подходе RAG, оказались по всем критериям лучше, чем у неспециализированной нейросети</strong>. Так, по критерию "Соответствие научному стилю речи и способу аргументации" Claude 3.5 Sonnet во всех случаях получила оценку выше, чем OpenAI o3-mini-high. По критерию "Междисциплинарность" неспециализированную модель в 96,7% случаев обошла ChatGPT-4o.</p>
12 <p>Однако по критериям "Понятность" и "Конкретность" у победителя предыдущего эксперимента GigaChat Pro побед над OpenAI o3-mini-high оказалось заметно меньше. В 65,5% случаев GigaChat опередил неспециализированную модель по понятности и лишь в 50,5% ответов - по конкретности. Так что у недовольства студентов ответами ИИ-персоны Роберта были, вероятно, основания.</p>
12 <p>Однако по критериям "Понятность" и "Конкретность" у победителя предыдущего эксперимента GigaChat Pro побед над OpenAI o3-mini-high оказалось заметно меньше. В 65,5% случаев GigaChat опередил неспециализированную модель по понятности и лишь в 50,5% ответов - по конкретности. Так что у недовольства студентов ответами ИИ-персоны Роберта были, вероятно, основания.</p>
13 <p>Но авторы исследования считают широту и междисциплинарность ответов (пусть и в ущерб ясности) не проблемой, а преимуществом подхода RAG. Они полагают, что включать нейросети в образовательный процесс надо не для того, чтобы настроить студентов на зазубривание, а чтобы "<strong>научить учиться, задавать вопросы, разбирать противоречивую информацию, строить суждения в сотрудничестве с ИИ</strong>".</p>
13 <p>Но авторы исследования считают широту и междисциплинарность ответов (пусть и в ущерб ясности) не проблемой, а преимуществом подхода RAG. Они полагают, что включать нейросети в образовательный процесс надо не для того, чтобы настроить студентов на зазубривание, а чтобы "<strong>научить учиться, задавать вопросы, разбирать противоречивую информацию, строить суждения в сотрудничестве с ИИ</strong>".</p>
14 <p>Ранее американские исследователи<a>обучили</a>ИИ-модель оценивать развёрнутые работы школьников по физике и выяснили, что её оценки редко совпадают с теми, которые выставляют профессиональные учителя. Немного повышают точность примеры критериев, по которым нужно оценивать работы, а вот примеры проверенных заданий с выставленными оценками этому не помогают.</p>
14 <p>Ранее американские исследователи<a>обучили</a>ИИ-модель оценивать развёрнутые работы школьников по физике и выяснили, что её оценки редко совпадают с теми, которые выставляют профессиональные учителя. Немного повышают точность примеры критериев, по которым нужно оценивать работы, а вот примеры проверенных заданий с выставленными оценками этому не помогают.</p>
15 <p>Больше интересного про образование ― в нашем <a>телеграм-канале</a>. Подписывайтесь!</p>
15 <p>Больше интересного про образование ― в нашем <a>телеграм-канале</a>. Подписывайтесь!</p>