HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-21
1 <p>Искусственный интеллект отлично справляется с задачами вроде программирования или создания подкастов. Однако, как<a>показало</a>новое исследование, сдача сложных экзаменов по истории для него пока остаётся трудной задачей.</p>
1 <p>Искусственный интеллект отлично справляется с задачами вроде программирования или создания подкастов. Однако, как<a>показало</a>новое исследование, сдача сложных экзаменов по истории для него пока остаётся трудной задачей.</p>
2 <p>Группа учёных разработала уникальный бенчмарк для оценки возможностей трёх ведущих языковых моделей - это GPT-4 от OpenAI, Llama от Meta* и Gemini от Google. Новый инструмент, получивший название Hist-LLM, измеряет точность ответов моделей на основе данных из Seshat Global History Databank. Так называется масштабная база знаний, посвящённая мировой истории и названная в честь древнеегипетской богини мудрости.</p>
2 <p>Группа учёных разработала уникальный бенчмарк для оценки возможностей трёх ведущих языковых моделей - это GPT-4 от OpenAI, Llama от Meta* и Gemini от Google. Новый инструмент, получивший название Hist-LLM, измеряет точность ответов моделей на основе данных из Seshat Global History Databank. Так называется масштабная база знаний, посвящённая мировой истории и названная в честь древнеегипетской богини мудрости.</p>
3 <p>Результаты исследования,<a>представленные</a>на конференции NeurIPS, оказались неутешительными. Лучшая из протестированных моделей, GPT-4 Turbo, смогла добиться точности в 46%, а это совсем немного превышает уровень случайных угадываний.</p>
3 <p>Результаты исследования,<a>представленные</a>на конференции NeurIPS, оказались неутешительными. Лучшая из протестированных моделей, GPT-4 Turbo, смогла добиться точности в 46%, а это совсем немного превышает уровень случайных угадываний.</p>
4 <p>"Основной вывод состоит в том, что большие языковые модели, несмотря на их впечатляющие достижения, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но, когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей".</p>
4 <p>"Основной вывод состоит в том, что большие языковые модели, несмотря на их впечатляющие достижения, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но, когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей".</p>
5 <p><strong>Мария дель Рио-Чанона</strong>, доцент компьютерных наук Университетского колледжа Лондона, один из авторов исследования</p>
5 <p><strong>Мария дель Рио-Чанона</strong>, доцент компьютерных наук Университетского колледжа Лондона, один из авторов исследования</p>
6 <p>В рамках эксперимента исследователи выявили ошибки моделей при ответах на исторические вопросы. Например, GPT-4 Turbo неправильно ответила на вопрос о наличии брони в Древнем Египте в конкретный период, утверждая, что она уже использовалась, хотя на самом деле эта технология появилась спустя 1500 лет.</p>
6 <p>В рамках эксперимента исследователи выявили ошибки моделей при ответах на исторические вопросы. Например, GPT-4 Turbo неправильно ответила на вопрос о наличии брони в Древнем Египте в конкретный период, утверждая, что она уже использовалась, хотя на самом деле эта технология появилась спустя 1500 лет.</p>
7 <p>Почему языковые модели демонстрируют успехи в программировании, но не справляются со сложными историческими вопросами? Мария дель Рио-Чанона считает, что причина кроется в том, что модели склонны обобщать данные, опираясь на популярные факты, и испытывают трудности при работе с редкими или малоизвестными сведениями.</p>
7 <p>Почему языковые модели демонстрируют успехи в программировании, но не справляются со сложными историческими вопросами? Мария дель Рио-Чанона считает, что причина кроется в том, что модели склонны обобщать данные, опираясь на популярные факты, и испытывают трудности при работе с редкими или малоизвестными сведениями.</p>
8 <p>Например, ИИ-система ошибочно заявила, что в Древнем Египте существовала профессиональная постоянная армия в определённый исторический период. Вероятно, ошибка связана с наличием большого объёма информации о постоянных армиях других древних империй, таких как Персия.</p>
8 <p>Например, ИИ-система ошибочно заявила, что в Древнем Египте существовала профессиональная постоянная армия в определённый исторический период. Вероятно, ошибка связана с наличием большого объёма информации о постоянных армиях других древних империй, таких как Персия.</p>
9 <p>"Когда вам сто раз говорят A и B, а про C упоминают лишь однажды, вероятность правильного ответа на вопрос о C значительно снижается", - пояснила дель Рио-Чанона.</p>
9 <p>"Когда вам сто раз говорят A и B, а про C упоминают лишь однажды, вероятность правильного ответа на вопрос о C значительно снижается", - пояснила дель Рио-Чанона.</p>
10 <p>Исследователи также выявили тенденцию к снижению точности моделей в отношении исторических данных, касающихся таких регионов, как, например, Субсахарская Африка. Это может говорить о предвзятости в их обучающих данных.</p>
10 <p>Исследователи также выявили тенденцию к снижению точности моделей в отношении исторических данных, касающихся таких регионов, как, например, Субсахарская Африка. Это может говорить о предвзятости в их обучающих данных.</p>
11 <p>По словам Питера Тёрчина, руководителя исследования и сотрудника австрийского исследовательского института Complexity Science Hub, результаты указывают на то, что ИИ-модели пока не способны заменить людей в некоторых областях.</p>
11 <p>По словам Питера Тёрчина, руководителя исследования и сотрудника австрийского исследовательского института Complexity Science Hub, результаты указывают на то, что ИИ-модели пока не способны заменить людей в некоторых областях.</p>
12 <p>Тем не менее учёные полагают, что ИИ может стать полезным инструментом для историков в будущем. Сейчас они работают над улучшением бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.</p>
12 <p>Тем не менее учёные полагают, что ИИ может стать полезным инструментом для историков в будущем. Сейчас они работают над улучшением бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.</p>
13 <p><em>* Решением суда запрещена "деятельность компании Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности".</em></p>
13 <p><em>* Решением суда запрещена "деятельность компании Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности".</em></p>