Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-21

1 Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

2 Исследовательская группа компании Epoch AI <a>представила</a>набор математических задач FrontierMath. В его состав входят задачи, которые нейросети не могут решить и на которые ведущие профессора по математике тратят несколько часов или дней. Набор FrontierMath планируют использовать для оценки способностей ИИ-моделей и отслеживания динамики их развития.

3 Инфографика:<a>Epoch AI</a>Над подготовкой задач работали ведущие профессора математики, авторы Международной математической олимпиады и медалисты Филдсовской премии. В работе над FrontierMath участвовали более 60 человек. Задачи из этого набора включают в себя такие разделы предмета, как алгебраическая геометрия и вычислительная теория чисел.

4 "[Эти задачи] чрезвычайно сложны. Я думаю, что в ближайшей перспективе единственный способ решить их, не имея настоящего эксперта в данной области, - это сочетание полуэксперта, например аспиранта в смежной области, в паре с современным ИИ и множеством паков по алгебре".

5 Теренс Тао, математик, обладатель Филдсовской премии 2006 года

6 Согласно исследованию Epoch AI, многие популярные ИИ-модели не способны решить задачи из набора, разработанного компанией. Например, Claude 3.5 Sonnet и Gemini 1.5 Pro смогли правильно решить только 2% задач, а нейросети o1 и GPT-4o - всего лишь 1%. Что касается других математических тестов, таких как GSM-8K и MATH, те же нейросети справляются с 90% их задач.

7 Инфографика:<a>Epoch AI</a>Команда исследователей Epoch AI наметила дальнейшие шаги по работе над пакетом задач FrontierMath. Среди них:

8 <ul><li>Регулярная оценка - анализ ведущих ИИ-моделей и публикация результатов для обеспечения стандартизированного измерения прогресса.</li>

9 <li>Расширение бенчмарка - добавление новых задач при сохранении строгих стандартов и текущего распределения типов задач, уровней сложности и математических областей.</li>

10 <li>Публичный выпуск задач - команда планирует выпустить дополнительные задачи в ближайшие месяцы для привлечения сообщества и облегчения сравнительного анализа.</li>

11 <li>Усиление контроля качества за счёт расширения экспертной оценки, увеличения вознаграждения за обнаруженные ошибки и улучшения процессов рецензирования.</li>

12 </ul><a>Бесплатный курс по Python ➞Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу</a>