0 added
0 removed
Original
2026-01-01
Modified
2026-02-21
1
<p>Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.</p>
1
<p>Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.</p>
2
<p>Исследовательская группа компании Epoch AI <a>представила</a>набор математических задач FrontierMath. В его состав входят задачи, которые нейросети не могут решить и на которые ведущие профессора по математике тратят несколько часов или дней. Набор FrontierMath планируют использовать для оценки способностей ИИ-моделей и отслеживания динамики их развития.</p>
2
<p>Исследовательская группа компании Epoch AI <a>представила</a>набор математических задач FrontierMath. В его состав входят задачи, которые нейросети не могут решить и на которые ведущие профессора по математике тратят несколько часов или дней. Набор FrontierMath планируют использовать для оценки способностей ИИ-моделей и отслеживания динамики их развития.</p>
3
<em>Инфографика:<a>Epoch AI</a></em><p>Над подготовкой задач работали ведущие профессора математики, авторы Международной математической олимпиады и медалисты Филдсовской премии. В работе над FrontierMath участвовали более 60 человек. Задачи из этого набора включают в себя такие разделы предмета, как алгебраическая геометрия и вычислительная теория чисел.</p>
3
<em>Инфографика:<a>Epoch AI</a></em><p>Над подготовкой задач работали ведущие профессора математики, авторы Международной математической олимпиады и медалисты Филдсовской премии. В работе над FrontierMath участвовали более 60 человек. Задачи из этого набора включают в себя такие разделы предмета, как алгебраическая геометрия и вычислительная теория чисел.</p>
4
<p>"[Эти задачи] чрезвычайно сложны. Я думаю, что в ближайшей перспективе единственный способ решить их, не имея настоящего эксперта в данной области, - это сочетание полуэксперта, например аспиранта в смежной области, в паре с современным ИИ и множеством паков по алгебре".</p>
4
<p>"[Эти задачи] чрезвычайно сложны. Я думаю, что в ближайшей перспективе единственный способ решить их, не имея настоящего эксперта в данной области, - это сочетание полуэксперта, например аспиранта в смежной области, в паре с современным ИИ и множеством паков по алгебре".</p>
5
<p><strong>Теренс Тао</strong>, математик, обладатель Филдсовской премии 2006 года</p>
5
<p><strong>Теренс Тао</strong>, математик, обладатель Филдсовской премии 2006 года</p>
6
<p>Согласно исследованию Epoch AI, многие популярные ИИ-модели не способны решить задачи из набора, разработанного компанией. Например, Claude 3.5 Sonnet и Gemini 1.5 Pro смогли правильно решить только 2% задач, а нейросети o1 и GPT-4o - всего лишь 1%. Что касается других математических тестов, таких как GSM-8K и MATH, те же нейросети справляются с 90% их задач.</p>
6
<p>Согласно исследованию Epoch AI, многие популярные ИИ-модели не способны решить задачи из набора, разработанного компанией. Например, Claude 3.5 Sonnet и Gemini 1.5 Pro смогли правильно решить только 2% задач, а нейросети o1 и GPT-4o - всего лишь 1%. Что касается других математических тестов, таких как GSM-8K и MATH, те же нейросети справляются с 90% их задач.</p>
7
<em>Инфографика:<a>Epoch AI</a></em><p>Команда исследователей Epoch AI наметила дальнейшие шаги по работе над пакетом задач FrontierMath. Среди них:</p>
7
<em>Инфографика:<a>Epoch AI</a></em><p>Команда исследователей Epoch AI наметила дальнейшие шаги по работе над пакетом задач FrontierMath. Среди них:</p>
8
<ul><li>Регулярная оценка - анализ ведущих ИИ-моделей и публикация результатов для обеспечения стандартизированного измерения прогресса.</li>
8
<ul><li>Регулярная оценка - анализ ведущих ИИ-моделей и публикация результатов для обеспечения стандартизированного измерения прогресса.</li>
9
<li>Расширение бенчмарка - добавление новых задач при сохранении строгих стандартов и текущего распределения типов задач, уровней сложности и математических областей.</li>
9
<li>Расширение бенчмарка - добавление новых задач при сохранении строгих стандартов и текущего распределения типов задач, уровней сложности и математических областей.</li>
10
<li>Публичный выпуск задач - команда планирует выпустить дополнительные задачи в ближайшие месяцы для привлечения сообщества и облегчения сравнительного анализа.</li>
10
<li>Публичный выпуск задач - команда планирует выпустить дополнительные задачи в ближайшие месяцы для привлечения сообщества и облегчения сравнительного анализа.</li>
11
<li>Усиление контроля качества за счёт расширения экспертной оценки, увеличения вознаграждения за обнаруженные ошибки и улучшения процессов рецензирования.</li>
11
<li>Усиление контроля качества за счёт расширения экспертной оценки, увеличения вознаграждения за обнаруженные ошибки и улучшения процессов рецензирования.</li>
12
</ul><a><b>Бесплатный курс по Python ➞</b>Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу</a>
12
</ul><a><b>Бесплатный курс по Python ➞</b>Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу</a>