0 added
0 removed
Original
2026-01-01
Modified
2026-02-21
1
<p>Искусственный интеллект отлично справляется с задачами вроде программирования или создания подкастов. Однако, как<a>показало</a>новое исследование, сдача сложных экзаменов по истории для него пока остаётся трудной задачей.</p>
1
<p>Искусственный интеллект отлично справляется с задачами вроде программирования или создания подкастов. Однако, как<a>показало</a>новое исследование, сдача сложных экзаменов по истории для него пока остаётся трудной задачей.</p>
2
<p>Группа учёных разработала уникальный бенчмарк для оценки возможностей трёх ведущих языковых моделей - это GPT-4 от OpenAI, Llama от Meta* и Gemini от Google. Новый инструмент, получивший название Hist-LLM, измеряет точность ответов моделей на основе данных из Seshat Global History Databank. Так называется масштабная база знаний, посвящённая мировой истории и названная в честь древнеегипетской богини мудрости.</p>
2
<p>Группа учёных разработала уникальный бенчмарк для оценки возможностей трёх ведущих языковых моделей - это GPT-4 от OpenAI, Llama от Meta* и Gemini от Google. Новый инструмент, получивший название Hist-LLM, измеряет точность ответов моделей на основе данных из Seshat Global History Databank. Так называется масштабная база знаний, посвящённая мировой истории и названная в честь древнеегипетской богини мудрости.</p>
3
<p>Результаты исследования,<a>представленные</a>на конференции NeurIPS, оказались неутешительными. Лучшая из протестированных моделей, GPT-4 Turbo, смогла добиться точности в 46%, а это совсем немного превышает уровень случайных угадываний.</p>
3
<p>Результаты исследования,<a>представленные</a>на конференции NeurIPS, оказались неутешительными. Лучшая из протестированных моделей, GPT-4 Turbo, смогла добиться точности в 46%, а это совсем немного превышает уровень случайных угадываний.</p>
4
<p>"Основной вывод состоит в том, что большие языковые модели, несмотря на их впечатляющие достижения, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но, когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей".</p>
4
<p>"Основной вывод состоит в том, что большие языковые модели, несмотря на их впечатляющие достижения, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но, когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей".</p>
5
<p><strong>Мария дель Рио-Чанона</strong>, доцент компьютерных наук Университетского колледжа Лондона, один из авторов исследования</p>
5
<p><strong>Мария дель Рио-Чанона</strong>, доцент компьютерных наук Университетского колледжа Лондона, один из авторов исследования</p>
6
<p>В рамках эксперимента исследователи выявили ошибки моделей при ответах на исторические вопросы. Например, GPT-4 Turbo неправильно ответила на вопрос о наличии брони в Древнем Египте в конкретный период, утверждая, что она уже использовалась, хотя на самом деле эта технология появилась спустя 1500 лет.</p>
6
<p>В рамках эксперимента исследователи выявили ошибки моделей при ответах на исторические вопросы. Например, GPT-4 Turbo неправильно ответила на вопрос о наличии брони в Древнем Египте в конкретный период, утверждая, что она уже использовалась, хотя на самом деле эта технология появилась спустя 1500 лет.</p>
7
<p>Почему языковые модели демонстрируют успехи в программировании, но не справляются со сложными историческими вопросами? Мария дель Рио-Чанона считает, что причина кроется в том, что модели склонны обобщать данные, опираясь на популярные факты, и испытывают трудности при работе с редкими или малоизвестными сведениями.</p>
7
<p>Почему языковые модели демонстрируют успехи в программировании, но не справляются со сложными историческими вопросами? Мария дель Рио-Чанона считает, что причина кроется в том, что модели склонны обобщать данные, опираясь на популярные факты, и испытывают трудности при работе с редкими или малоизвестными сведениями.</p>
8
<p>Например, ИИ-система ошибочно заявила, что в Древнем Египте существовала профессиональная постоянная армия в определённый исторический период. Вероятно, ошибка связана с наличием большого объёма информации о постоянных армиях других древних империй, таких как Персия.</p>
8
<p>Например, ИИ-система ошибочно заявила, что в Древнем Египте существовала профессиональная постоянная армия в определённый исторический период. Вероятно, ошибка связана с наличием большого объёма информации о постоянных армиях других древних империй, таких как Персия.</p>
9
<p>"Когда вам сто раз говорят A и B, а про C упоминают лишь однажды, вероятность правильного ответа на вопрос о C значительно снижается", - пояснила дель Рио-Чанона.</p>
9
<p>"Когда вам сто раз говорят A и B, а про C упоминают лишь однажды, вероятность правильного ответа на вопрос о C значительно снижается", - пояснила дель Рио-Чанона.</p>
10
<p>Исследователи также выявили тенденцию к снижению точности моделей в отношении исторических данных, касающихся таких регионов, как, например, Субсахарская Африка. Это может говорить о предвзятости в их обучающих данных.</p>
10
<p>Исследователи также выявили тенденцию к снижению точности моделей в отношении исторических данных, касающихся таких регионов, как, например, Субсахарская Африка. Это может говорить о предвзятости в их обучающих данных.</p>
11
<p>По словам Питера Тёрчина, руководителя исследования и сотрудника австрийского исследовательского института Complexity Science Hub, результаты указывают на то, что ИИ-модели пока не способны заменить людей в некоторых областях.</p>
11
<p>По словам Питера Тёрчина, руководителя исследования и сотрудника австрийского исследовательского института Complexity Science Hub, результаты указывают на то, что ИИ-модели пока не способны заменить людей в некоторых областях.</p>
12
<p>Тем не менее учёные полагают, что ИИ может стать полезным инструментом для историков в будущем. Сейчас они работают над улучшением бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.</p>
12
<p>Тем не менее учёные полагают, что ИИ может стать полезным инструментом для историков в будущем. Сейчас они работают над улучшением бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.</p>
13
<p><em>* Решением суда запрещена "деятельность компании Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности".</em></p>
13
<p><em>* Решением суда запрещена "деятельность компании Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности".</em></p>