0 added
0 removed
Original
2026-01-01
Modified
2026-02-21
1
<p>Исследовательская группа Microsoft Research Asia, специализирующаяся на математике и искусственном интеллекте,<a>разработала</a>малую языковую модель (SLM) под названием rStar-Math для решения математических задач. В своей статье, опубликованной на сервере препринтов arXiv, команда подробно описала технологические аспекты, математические принципы и результаты тестирования нового инструмента.</p>
1
<p>Исследовательская группа Microsoft Research Asia, специализирующаяся на математике и искусственном интеллекте,<a>разработала</a>малую языковую модель (SLM) под названием rStar-Math для решения математических задач. В своей статье, опубликованной на сервере препринтов arXiv, команда подробно описала технологические аспекты, математические принципы и результаты тестирования нового инструмента.</p>
2
<p>Малые языковые модели (SLM) характеризуются низкой ресурсозатратностью и способны работать локально на устройстве. Такие модели оптимально применять для узкоспециализированных задач и ответов на вопросы в определённых областях. Microsoft сфокусировала внимание на обучении SLM не только в области, касающейся математических навыков, - разработчики сконцентрировались на развитии навыка формировать логические рассуждения при анализе проблемы.</p>
2
<p>Малые языковые модели (SLM) характеризуются низкой ресурсозатратностью и способны работать локально на устройстве. Такие модели оптимально применять для узкоспециализированных задач и ответов на вопросы в определённых областях. Microsoft сфокусировала внимание на обучении SLM не только в области, касающейся математических навыков, - разработчики сконцентрировались на развитии навыка формировать логические рассуждения при анализе проблемы.</p>
3
<em>Изображение: rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking / Xinyu Guan / Li Lyna Zhang / Yifei Liu / Ning Shang / Youran Sun / Yi Zhu / Fan Yang / Mao Yang</em><p>Одной из целей разработки rStar-Math стала интеграция SLM в более крупные языковые модели (LLM), которая может открыть перспективы для их совместного использования. Примечательно, что выпуск rStar-Math последовал вскоре за презентацией другой компактной модели Microsoft - Phi-4, также ориентированной на математические задачи.</p>
3
<em>Изображение: rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking / Xinyu Guan / Li Lyna Zhang / Yifei Liu / Ning Shang / Youran Sun / Yi Zhu / Fan Yang / Mao Yang</em><p>Одной из целей разработки rStar-Math стала интеграция SLM в более крупные языковые модели (LLM), которая может открыть перспективы для их совместного использования. Примечательно, что выпуск rStar-Math последовал вскоре за презентацией другой компактной модели Microsoft - Phi-4, также ориентированной на математические задачи.</p>
4
<p>rStar-Math отличается от Phi-4 использованием метода Монте-Карло. Этот подход имитирует человеческое пошаговое мышление, позволяя разбивать сложные задачи на более простые элементы. Выводы модели представлены как в виде Python-кода, так и на естественном языке.</p>
4
<p>rStar-Math отличается от Phi-4 использованием метода Монте-Карло. Этот подход имитирует человеческое пошаговое мышление, позволяя разбивать сложные задачи на более простые элементы. Выводы модели представлены как в виде Python-кода, так и на естественном языке.</p>
5
<p>В rStar-Math реализованы три ключевых новшества:</p>
5
<p>В rStar-Math реализованы три ключевых новшества:</p>
6
<p>1. Метод синтеза данных с дополнением кода - с помощью метода Монте-Карло создаются пошаговые рассуждения.</p>
6
<p>1. Метод синтеза данных с дополнением кода - с помощью метода Монте-Карло создаются пошаговые рассуждения.</p>
7
<p>2. Метод обучения с вознаграждением за процесс - он исключает необходимость аннотирования промежуточных шагов.</p>
7
<p>2. Метод обучения с вознаграждением за процесс - он исключает необходимость аннотирования промежуточных шагов.</p>
8
<p>3. Рецепт саморазвития - модель и её предпочтения развиваются по итеративному принципу с нуля.</p>
8
<p>3. Рецепт саморазвития - модель и её предпочтения развиваются по итеративному принципу с нуля.</p>
9
<p>После четырёх раундов обучения на миллионах синтезированных решений для 747 тысяч задач rStar-Math продемонстрировала значительные результаты. На тесте MATH точность моделей Qwen2.5-Math-7B и Phi3-mini-3.8B возросла с 58,8% до 90,0% и с 41,4% до 86,4% соответственно, превзойдя показатели o1-preview на 4,5% и 0,9%. На математической олимпиаде США (AIME) rStar-Math решила в среднем 53,3% задач (8 из 15).</p>
9
<p>После четырёх раундов обучения на миллионах синтезированных решений для 747 тысяч задач rStar-Math продемонстрировала значительные результаты. На тесте MATH точность моделей Qwen2.5-Math-7B и Phi3-mini-3.8B возросла с 58,8% до 90,0% и с 41,4% до 86,4% соответственно, превзойдя показатели o1-preview на 4,5% и 0,9%. На математической олимпиаде США (AIME) rStar-Math решила в среднем 53,3% задач (8 из 15).</p>
10
<p>Команда планирует<a>опубликовать</a>исходный код и данные rStar-Math на GitHub, сделав их общедоступными.</p>
10
<p>Команда планирует<a>опубликовать</a>исходный код и данные rStar-Math на GitHub, сделав их общедоступными.</p>