9 новых нейросетей: для генерации видео, создания качественных картинок и не только
2026-02-21 07:33 Diff

#статьи

  • 10 апр 2024
  • 0

Всё, что вы могли пропустить.

Иллюстрация: Полина Честнова для Skillbox Media

Журналистка. Пишет новости про дизайн, а в свободное время курирует выставки и рассказывает про современное искусство.

За всеми новомодными нейросетями не уследишь, но мы попробовали. Собрали самые многообещающие анонсы последних месяцев в одной подборке.

Эту нейросеть сделали в Huawei. От предыдущих версий её отличает качество изображения. PixArt-Σ может создавать изображения размером до 3840×2560 пикселей с любым соотношением сторон без промежуточного масштабирования.

Изображение: PixArt-Σ

Правда, создатели не показали, какие текстовые промпты были в их примерах изображений. PixArt на самом деле может работать хуже или медленнее других моделей, потому что его обучение сосредоточено на фотографиях с высоким разрешением. Более раннюю версию, PixArt-α, в итоге выпустили с открытым исходным кодом, но пока неизвестно, будет ли то же самое с PixArt-Σ.

Нейросеть не требует обучения на фотографиях каждого конкретного человека, не полагается на распознавание лица, генерирует полное изображение (а не только лицо или губы) и работает, если на фото видно торс или присутствуют другие люди. С её помощью можно создать фотореалистичное видео заданной длины, изображающее речь персонажа фотографии, включая его мимику и жесты.

Изображение: Vlogger

Эту нейросеть анонсировали в Adobe. Инструмент будет создавать музыку на основе текстового запроса. Например, «мощный рок», «грустный джаз» или «весёлый танец». Затем результат можно будет отредактировать. Например, скорректировать темп, структуру и паттерны, увеличить или уменьшить интенсивность звука, увеличить длину трека, микшировать её часть или создать плавно повторяемый цикл.

Её сделал разработчик чат-бота ChatGPT, американская компания OpenAI. Sora по промпту может создать видео длиной до минуты с сохранением визуального качества. Сейчас она в бета-версии. Её тестируют на предмет вреда или рисков. А ещё к ней дали доступ ряду художников, дизайнеров и режиссёров для сбора обратной связи.

Скриншот: сайт Sora / Skillbox Media

С помощью нового инструмента можно быстро делать пресс-киты и рекламные посты для разных соцсетей, сохраняя тон-оф-войс бренда. Общедоступная версия появится в этом году. По словам Adobe, цены не фиксированы и будут варьироваться в зависимости от компании.

Забавный онлайн-инструмент позволяет превратить любое изображение в звуковой файл. Пользователи также могут повлиять на результат, выбрав одну из трёх моделей для решения задачи — MAGNet, AudioLDM-2 и AudioGen: у каждой свои преимущества.

Скриншот: сайт Hugging Face / Skillbox Media

Сейчас такая функция доступна премиум-подписчикам Spotify в Великобритании и Австралии. Выбрав опцию «AI-плейлист», пользователи могут ввести промпт, например «музыка для чтения в холодный дождливый день», чтобы получить список из 30 песен, соответствующих этой атмосфере. Результаты можно настроить с помощью дополнительных подсказок, например «грустнее».

Скриншот: сайт PlaylistAi / Skillbox Media

Google DeepMind обучили эту нейросеть на таких играх, как Valheim, No Man’s Sky и Goat Simulator. Со временем она научится проходить какие угодно видеоигры, включая игры с открытым миром и игры с нелинейным повествованием. Её тренируют понимать естественный язык и распознавать изображения и трёхмерные миры. Причём скорее в играх без чёткого нарратива. Например, в таких, как симулятор козла: там нужно делать спонтанные поступки.

Изображение: SIMA Team / Google DeepMindИзображение: SIMA Team / Google DeepMind

Сейчас SIMA имеет около 600 базовых навыков, таких как поворот налево, подъём по лестнице и открытие игрового меню для использования карты. Со временем она станет ещё одним полноценным игроком, влияющим на результат.

Модель разрабатывают с конца 2022 года и учат читать вслух в ChatGPT. Сейчас бета-версию тестируют первые пользователи — десять разработчиков. Нейросеть может создавать синтетический голос на основе 15-секундного фрагмента чьей-либо речи.

Изображение: Voice Engine

Разумеется, использование подобного ИИ вызывает массу этических вопросов. По данным OpenAI, разработчики приняли политику использования Voice Engine, где обещали не использовать нейросеть для выдачи себя за людей или организации без их согласия. Для этого нужно получить «явное и осознанное согласие» первоначального говорящего и раскрывать слушателям, что голос был сгенерирован искусственным интеллектом.

OpenAI предлагает несколько вариантов того, как можно ограничить риски, связанные с подобными инструментами. Например, постепенно отказаться от голосовой аутентификации для доступа к банковским счетам, разработать правила защиты голосов людей, повышать информированность о дипфейках и создать системы отслеживания ИИ-контента.

Попробуйте бесплатно 4 топовые профессии в дизайне
Пройдите бесплатный курс по дизайну. Добавьте 4 крутых кейса в портфолио и решите, в каком направлении развиваться дальше. Пройти курс→