HTML Diff
0 added 0 removed
Original 2026-01-01
Modified 2026-02-21
1 <p>Компания NVIDIA<a>выпустила</a>собственную мультимодальную большую языковую модель NVLM 1.0 (NVIDIA Vision Language Model). Новая нейросеть содержит в себе до 72 миллиардов параметров. Разработчик выпустил ИИ-модель в трёх версиях:</p>
1 <p>Компания NVIDIA<a>выпустила</a>собственную мультимодальную большую языковую модель NVLM 1.0 (NVIDIA Vision Language Model). Новая нейросеть содержит в себе до 72 миллиардов параметров. Разработчик выпустил ИИ-модель в трёх версиях:</p>
2 <ul><li>NVLM-D (Decoder-Only Model) - использует предобученный энкодер для генерации картинок и более экономна относительно количества параметров;</li>
2 <ul><li>NVLM-D (Decoder-Only Model) - использует предобученный энкодер для генерации картинок и более экономна относительно количества параметров;</li>
3 <li>NVLM-X (X-attention Model) - оптимизирована для работы с изображениями в высоком разрешении;</li>
3 <li>NVLM-X (X-attention Model) - оптимизирована для работы с изображениями в высоком разрешении;</li>
4 <li>NVLM-H (Hybrid Model) - гибридная модель, которая сочетает в себе черты двух предыдущих моделей.</li>
4 <li>NVLM-H (Hybrid Model) - гибридная модель, которая сочетает в себе черты двух предыдущих моделей.</li>
5 </ul><p>NVLM 1.0 очень хорошо показывает себя в визуальных задачах. Это продемонстрировал тест OCRBench, который проверяет способность модели считывать текст с картинки. Так, в ходе бенчмарка модель NVLM-D обогнала GPT‑4o - последнюю на сегодняшний день мультимодальную модель от OpenAI.</p>
5 </ul><p>NVLM 1.0 очень хорошо показывает себя в визуальных задачах. Это продемонстрировал тест OCRBench, который проверяет способность модели считывать текст с картинки. Так, в ходе бенчмарка модель NVLM-D обогнала GPT‑4o - последнюю на сегодняшний день мультимодальную модель от OpenAI.</p>
6 <p>Стоит также отметить, что нейросеть от NVIDIA способна понимать мемы, разбирать человеческий почерк, а ещё она хорошо отвечает на вопросы, связанные с точным расположением объектов на картинке.</p>
6 <p>Стоит также отметить, что нейросеть от NVIDIA способна понимать мемы, разбирать человеческий почерк, а ещё она хорошо отвечает на вопросы, связанные с точным расположением объектов на картинке.</p>
7 <em>Скриншот:<a>NVLM-Project</a>/ Skillbox Media</em><p>Кроме того, NVLM 1.0 хорошо показывает себя и в математических задачах. Так, бенчмарк MathVista показал, что ИИ-модель от NVIDIA опережает нейросеть Gemini 1.5 Pro от Google и всего на пару пунктов отстаёт от модели Claude 3.5 от стартапа Anthropic.</p>
7 <em>Скриншот:<a>NVLM-Project</a>/ Skillbox Media</em><p>Кроме того, NVLM 1.0 хорошо показывает себя и в математических задачах. Так, бенчмарк MathVista показал, что ИИ-модель от NVIDIA опережает нейросеть Gemini 1.5 Pro от Google и всего на пару пунктов отстаёт от модели Claude 3.5 от стартапа Anthropic.</p>
8 <p>Все три версии модели NVLM 1.0 имеют схожую архитектуру, но у каждой из них есть свои особенности, в частности это касается механизма обработки изображений. Так, модель NVLM‑D использует для картинок предобученный энкодер, который соединён с обычным двухслойным перцептроном. Версия NVLM‑Х для обработки изображений использует механизм cross-attention.</p>
8 <p>Все три версии модели NVLM 1.0 имеют схожую архитектуру, но у каждой из них есть свои особенности, в частности это касается механизма обработки изображений. Так, модель NVLM‑D использует для картинок предобученный энкодер, который соединён с обычным двухслойным перцептроном. Версия NVLM‑Х для обработки изображений использует механизм cross-attention.</p>
9 <p>У каждого из этих механизмов обработки есть свои недостатки и преимущества. Например, NVLM-D использует меньшее количество параметров, однако потребляет больше ресурсов графического процессора и хуже, чем NVLM‑X, обрабатывает картинки с высоким разрешением. В свою очередь версия модели NVLM‑H стала золотой серединой между эффективной и быстрой NVLM‑D и более точной NVLM‑Х.</p>
9 <p>У каждого из этих механизмов обработки есть свои недостатки и преимущества. Например, NVLM-D использует меньшее количество параметров, однако потребляет больше ресурсов графического процессора и хуже, чем NVLM‑X, обрабатывает картинки с высоким разрешением. В свою очередь версия модели NVLM‑H стала золотой серединой между эффективной и быстрой NVLM‑D и более точной NVLM‑Х.</p>
10 <p>Модель NVLM 1.0 можно<a>скачать</a>на GitHub, данные о весовых коэффициентах каждой из версий ИИ‑модели будут в скором времени доступны на Hugging Face.</p>
10 <p>Модель NVLM 1.0 можно<a>скачать</a>на GitHub, данные о весовых коэффициентах каждой из версий ИИ‑модели будут в скором времени доступны на Hugging Face.</p>
11 <p>* Решением суда запрещена "деятельность компании Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности".</p>
11 <p>* Решением суда запрещена "деятельность компании Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории Российской Федерации по основаниям осуществления экстремистской деятельности".</p>