Исследователи Epoch AI представили набор сложных математических задач для нейросетей
2026-02-21 01:17 Diff

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Исследовательская группа компании Epoch AI представила набор математических задач FrontierMath. В его состав входят задачи, которые нейросети не могут решить и на которые ведущие профессора по математике тратят несколько часов или дней. Набор FrontierMath планируют использовать для оценки способностей ИИ-моделей и отслеживания динамики их развития.

Инфографика: Epoch AI

Над подготовкой задач работали ведущие профессора математики, авторы Международной математической олимпиады и медалисты Филдсовской премии. В работе над FrontierMath участвовали более 60 человек. Задачи из этого набора включают в себя такие разделы предмета, как алгебраическая геометрия и вычислительная теория чисел.

«[Эти задачи] чрезвычайно сложны. Я думаю, что в ближайшей перспективе единственный способ решить их, не имея настоящего эксперта в данной области, — это сочетание полуэксперта, например аспиранта в смежной области, в паре с современным ИИ и множеством паков по алгебре».

Теренс Тао, математик, обладатель Филдсовской премии 2006 года

Согласно исследованию Epoch AI, многие популярные ИИ-модели не способны решить задачи из набора, разработанного компанией. Например, Claude 3.5 Sonnet и Gemini 1.5 Pro смогли правильно решить только 2% задач, а нейросети o1 и GPT-4o — всего лишь 1%. Что касается других математических тестов, таких как GSM-8K и MATH, те же нейросети справляются с 90% их задач.

Инфографика: Epoch AI

Команда исследователей Epoch AI наметила дальнейшие шаги по работе над пакетом задач FrontierMath. Среди них:

  • Регулярная оценка — анализ ведущих ИИ-моделей и публикация результатов для обеспечения стандартизированного измерения прогресса.
  • Расширение бенчмарка — добавление новых задач при сохранении строгих стандартов и текущего распределения типов задач, уровней сложности и математических областей.
  • Публичный выпуск задач — команда планирует выпустить дополнительные задачи в ближайшие месяцы для привлечения сообщества и облегчения сравнительного анализа.
  • Усиление контроля качества за счёт расширения экспертной оценки, увеличения вознаграждения за обнаруженные ошибки и улучшения процессов рецензирования.
Бесплатный курс по Python ➞
Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу