0 added
0 removed
Original
2026-01-01
Modified
2026-02-21
1
<p>Исследователи "Яндекса", Высшей школы экономики (Россия), Массачусетского технологического института (США), Научно-технологического университет имени короля Абдаллы (Саудовская Аравия) и Австрийского института науки и технологий (Австрия)<a>представили</a>новый метод сжатия языковых моделей. Его главная особенность в том, что после сжатия качество сгенерированных ответов не снижается.</p>
1
<p>Исследователи "Яндекса", Высшей школы экономики (Россия), Массачусетского технологического института (США), Научно-технологического университет имени короля Абдаллы (Саудовская Аравия) и Австрийского института науки и технологий (Австрия)<a>представили</a>новый метод сжатия языковых моделей. Его главная особенность в том, что после сжатия качество сгенерированных ответов не снижается.</p>
2
<p>Главная проблема больших языковых моделей в том, что для работы им нужно много вычислительных ресурсов. Например, нейросети DeepSeek R1 надо очень много свободной памяти, и её бывает сложно разместить даже на дорогих серверах. Поэтому, если нейросеть находится в открытом доступе, это не значит, что её могут воспользоваться все желающие. На развёртывание могут потребоваться миллионы долларов.</p>
2
<p>Главная проблема больших языковых моделей в том, что для работы им нужно много вычислительных ресурсов. Например, нейросети DeepSeek R1 надо очень много свободной памяти, и её бывает сложно разместить даже на дорогих серверах. Поэтому, если нейросеть находится в открытом доступе, это не значит, что её могут воспользоваться все желающие. На развёртывание могут потребоваться миллионы долларов.</p>
3
<p>Если сжать нейросеть, то её можно будет развернуть на более бюджетном оборудовании. Другая проблема в том, что в процессе сжатия языковые модели теряют свои способности и начинают хуже работать.</p>
3
<p>Если сжать нейросеть, то её можно будет развернуть на более бюджетном оборудовании. Другая проблема в том, что в процессе сжатия языковые модели теряют свои способности и начинают хуже работать.</p>
4
<p>Для решения этих проблем исследователи "Яндекса" и ведущих технических университетов разработали HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS) - метод сжатия нейросетей без потери качества сгенерированных ответов. HIGGS преобразует модель в специальный формат, в котором не нужны дополнительные данные для округления весов.</p>
4
<p>Для решения этих проблем исследователи "Яндекса" и ведущих технических университетов разработали HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS) - метод сжатия нейросетей без потери качества сгенерированных ответов. HIGGS преобразует модель в специальный формат, в котором не нужны дополнительные данные для округления весов.</p>
5
<p>Метод протестировали на больших языковых моделях Llama 3, Llama 4 и Qwen2.5. Тесты показали, что метод справляется лучше известных способов сжатия, например GPTQ и AWQ. Итоговый размер нейросетей заметно уменьшается, а качество генерации остаётся на том же уровне. Это позволяет запускать языковые нейросети на более слабых серверах, чем те, что требовались раньше.</p>
5
<p>Метод протестировали на больших языковых моделях Llama 3, Llama 4 и Qwen2.5. Тесты показали, что метод справляется лучше известных способов сжатия, например GPTQ и AWQ. Итоговый размер нейросетей заметно уменьшается, а качество генерации остаётся на том же уровне. Это позволяет запускать языковые нейросети на более слабых серверах, чем те, что требовались раньше.</p>
6
<p>Подробное описание метода<a>опубликовали</a>на портале Hugging Face, а реализация доступна в библиотеке<a>FLUTE</a>на GitHub. В конце апреля исследователи представят HIGGS на конференции NAACL, которая пройдёт в Нью-Мексико, США.</p>
6
<p>Подробное описание метода<a>опубликовали</a>на портале Hugging Face, а реализация доступна в библиотеке<a>FLUTE</a>на GitHub. В конце апреля исследователи представят HIGGS на конференции NAACL, которая пройдёт в Нью-Мексико, США.</p>