Emu Video и Emu Edit — два инструмента от Meta* на базе ИИ для создания и редактирования видео

Американская компания Meta AI*, представила два новых инструмента на базе искусственного интеллекта (ИИ): Emu Video — для генерации текста в видео, и Emu Edit — для точного редактирования изображений с помощью текста.

Emu Video — это простой метод преобразования текста в видео, основанный на моделях диффузии, разделяющий генерацию на два этапа:

  • Сначала генерируется изображение на основе текстовой подсказки.
  • Затем создается видео с учетом подсказки и сгенерированного изображения.

Ключевой инновацией Emu Video является «факторизованный» подход. Он требует только этих двух диффузионных моделей для создания видео размером 512 пикселей, длительностью 4 секунды и частотой 16 кадров в секунду. При этом, факторизованная генерация позволяет эффективно обучать модели генерации высококачественного видео.


Такой подход упрощает процесс создания видео, позволяя отказаться от более сложных многомодельных методов, использовавшихся в предыдущем инструменте Meta* Make-A-Video.

По данным Meta*, Emu Video значительно превзошла предыдущие модели преобразования текста в видео, включая Imagen Video от Google, PYOCO от NVIDIA и Gen2 от Runway, по качеству видео и соответствию текстовым подсказкам. Факторизованный подход позволяет также анимировать изображения, предоставленные пользователем.

Наряду с Emu Video, компания Meta* продемонстрировала возможности Emu Edit.

Emu Edit — это многозадачная модель редактирования изображений, которая выходит на новый уровень в редактировании изображений на основе инструкций.

«Для разработки Emu Edit мы адаптируем его архитектуру для многозадачного обучения и обучаем его беспрецедентному набору задач, таких как редактирование на основе региона, редактирование в произвольной форме и задачи компьютерного зрения, такие как обнаружение и сегментация — все они сформулированы как генеративные задачи», — говорится в описании продукта.


Emu Edit позволяет пользователям редактировать изображения с высокой точностью и гибкостью. Точность Emu Edit повышается за счет использования диффузоров — передовой технологии ИИ, получившей распространение в Stable Diffusion. Такой подход позволяет сохранить визуальную целостность исходных изображений.

Emu Edit может изменять только релевантные пиксели и оставлять нетронутыми области в соответствии с инструкциями. Он был обучен на наборе данных из 10 млн. триплетов изображений, содержащих входные данные, инструкции и конечный результат. По результатам человеческой и автоматической оценки он значительно превзошел существующие методы редактирования на основе инструкций.


По мнению Meta*, эти достижения позволят создавать такие творческие приложения, как создание собственных анимированных стикеров, легкое редактирование личных фотографий и более выразительное визуальное общение.

* Продукт Meta, деятельность признана экстремистской, запрещена на территории России

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *