Emu Video и Emu Edit - два инструмента от Meta* на базе ИИ для создания и редактирования видео

Американская компания Meta AI*, представила два новых инструмента на базе искусственного интеллекта (ИИ). Emu Video — для генерации текста в видео, и Emu Edit — для точного редактирования изображений с помощью текста.

Emu Video

Emu Video —это простой метод преобразования текста в видео, основанный на моделях диффузии, разделяющий генерацию на два этапа:

Сначала генерируется изображение на основе текстовой подсказки.
Затем создается видео с учетом подсказки и сгенерированного изображения.

Ключевой инновацией Emu Video является «факторизованный» подход. Он требует только этих двух диффузионных моделей для создания видео размером 512 пикселей, длительностью 4 секунды и частотой 16 кадров в секунду. При этом, факторизованная генерация позволяет эффективно обучать модели генерации высококачественного видео.

Такой подход упрощает процесс создания видео, позволяя отказаться от более сложных многомодельных методов, использовавшихся в предыдущем инструменте Meta* Make-A-Video.

По данным Meta*, Emu Video значительно превзошла предыдущие модели преобразования текста в видео, включая Imagen Video от Google, PYOCO от NVIDIA и Gen2 от Runway, как по качеству видео, так и соответствию текстовым подсказкам.

Кроме того, факторизованный подход позволяет также анимировать изображения, предоставленные пользователем.

Emu Edit

Наряду с Emu Video, компания Meta* продемонстрировала возможности Emu Edit.

Emu Edit — это многозадачная модель редактирования изображений, которая выходит на новый уровень в редактировании изображений на основе инструкций.

«Для разработки Emu Edit мы адаптируем его архитектуру для многозадачного обучения и обучаем его беспрецедентному набору задач, таких как редактирование на основе региона, редактирование в произвольной форме и задачи компьютерного зрения, такие как обнаружение и сегментация — все они сформулированы как генеративные задачи», — говорится в описании продукта.

Emu Edit позволяет пользователям редактировать изображения с высокой точностью и гибкостью.

Точность Emu Edit повышается за счет использования диффузоров — передовой технологии ИИ, получившей распространение в Stable Diffusion. Такой подход позволяет сохранить визуальную целостность исходных изображений.

Emu Edit может изменять только релевантные пиксели и оставлять нетронутыми области в соответствии с инструкциями. Он был обучен на наборе данных из 10 млн. триплетов изображений, содержащих входные данные, инструкции и конечный результат.

По результатам человеческой и автоматической оценки он значительно превзошел существующие методы редактирования на основе инструкций.

По мнению Meta*, эти достижения позволят создавать такие творческие приложения, как создание собственных анимированных стикеров, легкое редактирование личных фотографий и более выразительное визуальное общение.

* Продукт Meta, деятельность признана экстремистской, запрещена на территории России