Американская компания Meta AI*, представила два новых инструмента на базе искусственного интеллекта (ИИ). Emu Video — для генерации текста в видео, и Emu Edit — для точного редактирования изображений с помощью текста.
Emu Video
Emu Video —это простой метод преобразования текста в видео, основанный на моделях диффузии, разделяющий генерацию на два этапа:
- Сначала генерируется изображение на основе текстовой подсказки.
- Затем создается видео с учетом подсказки и сгенерированного изображения.
Ключевой инновацией Emu Video является «факторизованный» подход. Он требует только этих двух диффузионных моделей для создания видео размером 512 пикселей, длительностью 4 секунды и частотой 16 кадров в секунду. При этом, факторизованная генерация позволяет эффективно обучать модели генерации высококачественного видео.
Такой подход упрощает процесс создания видео, позволяя отказаться от более сложных многомодельных методов, использовавшихся в предыдущем инструменте Meta* Make-A-Video.
По данным Meta*, Emu Video значительно превзошла предыдущие модели преобразования текста в видео, включая Imagen Video от Google, PYOCO от NVIDIA и Gen2 от Runway, как по качеству видео, так и соответствию текстовым подсказкам.
Кроме того, факторизованный подход позволяет также анимировать изображения, предоставленные пользователем.
Emu Edit
Наряду с Emu Video, компания Meta* продемонстрировала возможности Emu Edit.
Emu Edit — это многозадачная модель редактирования изображений, которая выходит на новый уровень в редактировании изображений на основе инструкций.
«Для разработки Emu Edit мы адаптируем его архитектуру для многозадачного обучения и обучаем его беспрецедентному набору задач, таких как редактирование на основе региона, редактирование в произвольной форме и задачи компьютерного зрения, такие как обнаружение и сегментация — все они сформулированы как генеративные задачи», — говорится в описании продукта.
Emu Edit позволяет пользователям редактировать изображения с высокой точностью и гибкостью.
Точность Emu Edit повышается за счет использования диффузоров — передовой технологии ИИ, получившей распространение в Stable Diffusion. Такой подход позволяет сохранить визуальную целостность исходных изображений.
Emu Edit может изменять только релевантные пиксели и оставлять нетронутыми области в соответствии с инструкциями. Он был обучен на наборе данных из 10 млн. триплетов изображений, содержащих входные данные, инструкции и конечный результат.
По результатам человеческой и автоматической оценки он значительно превзошел существующие методы редактирования на основе инструкций.
По мнению Meta*, эти достижения позволят создавать такие творческие приложения, как создание собственных анимированных стикеров, легкое редактирование личных фотографий и более выразительное визуальное общение.
* Продукт Meta, деятельность признана экстремистской, запрещена на территории России