Выпустили нейросеть, которая генерирует видео по текстовому запросу
2026-02-21 08:13 Diff

Шеф-редактор Skillbox Media «Код». Пишет о разработке, софт-скиллах и культовых личностях в IT. Обожает Swift, продукты Apple и мемы про код.

Вы наверняка слышали про Midjourney — нейросеть, которая рисует картинки по текстовому описанию. Технологии зашли чуть дальше, и теперь таким же способом можно создавать и видео. Новая нейронка, которая умеет так делать, называется Gen-2 — и вот в каких режимах она работает:

  • Текст → видео. Тут всё просто: на входе нейросеть получает текстовый запрос и рендерит видео на его основе.
  • Картинка → видео. То же самое, только с картинкой.
  • Текст + картинка → видео. Уже сложнее: прикрепляете картинку и рассказываете чат-боту, как именно её нужно анимировать.
  • Стилизация. Пример: вы загружаете видео, в котором вы танцуете на лужайке, а рядом заливаете фотку Железного человека. Получается видео с Железным человеком, танцующим на лужайке.
  • По шаблону. Можно превратить в видео готовый 3D-рендер, а можно собрать «мокап» из подручных средств — например, сфотографировать предметы на столе, чтобы потом ИИ превратил их в панораму ночного города.
  • «Тонкая настройка». Этот режим позволяет дообучить нейросеть с помощью тренировочных картинок для более точного результата.

Авторы проекта — стартап Runway Ai, который до этого участвовал в создании Stable Diffusion, другой популярной нейросети для генерации изображений. Новая технология может быть полезна, например, режиссёрам и аниматорам, которые хотят сначала представить сцену, прежде чем её визуализировать.

Посмотреть, как работает нейросетка, можно на сайте проекта или в этом демонстрационном видео:

Бесплатный курс по Python ➞
Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу