Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-02-21

1 Исследователи "Яндекса", Высшей школы экономики (Россия), Массачусетского технологического института (США), Научно-технологического университет имени короля Абдаллы (Саудовская Аравия) и Австрийского института науки и технологий (Австрия)<a>представили</a>новый метод сжатия языковых моделей. Его главная особенность в том, что после сжатия качество сгенерированных ответов не снижается.

2 Главная проблема больших языковых моделей в том, что для работы им нужно много вычислительных ресурсов. Например, нейросети DeepSeek R1 надо очень много свободной памяти, и её бывает сложно разместить даже на дорогих серверах. Поэтому, если нейросеть находится в открытом доступе, это не значит, что её могут воспользоваться все желающие. На развёртывание могут потребоваться миллионы долларов.

3 Если сжать нейросеть, то её можно будет развернуть на более бюджетном оборудовании. Другая проблема в том, что в процессе сжатия языковые модели теряют свои способности и начинают хуже работать.

4 Для решения этих проблем исследователи "Яндекса" и ведущих технических университетов разработали HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS) - метод сжатия нейросетей без потери качества сгенерированных ответов. HIGGS преобразует модель в специальный формат, в котором не нужны дополнительные данные для округления весов.

5 Метод протестировали на больших языковых моделях Llama 3, Llama 4 и Qwen2.5. Тесты показали, что метод справляется лучше известных способов сжатия, например GPTQ и AWQ. Итоговый размер нейросетей заметно уменьшается, а качество генерации остаётся на том же уровне. Это позволяет запускать языковые нейросети на более слабых серверах, чем те, что требовались раньше.

6 Подробное описание метода<a>опубликовали</a>на портале Hugging Face, а реализация доступна в библиотеке<a>FLUTE</a>на GitHub. В конце апреля исследователи представят HIGGS на конференции NAACL, которая пройдёт в Нью-Мексико, США.