Исследователи из команды Google Brain рассказывают о новой технологии в области сверхвысокого разрешения изображений.
Обычно, задачи синтеза изображений выполняются «глубокими генеративными моделями», такими как GAN , VAE и авторегрессионные модели. Однако, каждая из этих генеративных моделей имеет свои недостатки при обучении синтезировать высококачественные выборки на сложных наборах данных с высоким разрешением.
В своем исследовании, команда использует «диффузионные модели», первоначально предложенные в 2015 году.
Модели диффузии работают, искажая обучающие данные, постепенно добавляя гауссовский шум, медленно стирая детали в данных, пока они не станут чистым шумом, а затем обучая нейронную сеть обращать вспять этот процесс искажения.
При выполнении этого процесса обратного искажения данные синтезируются из чистого шума путем постепенного снижения шума до тех пор, пока не будет получен чистый образец.
Для улучшения качества изображений используется два связанных подхода: сверхразрешение посредством повторных уточнений (SR3) и модель для синтеза, обусловленного классом, называемая каскадными диффузионными моделями (CDM).
Первый подход SR3
SR3 — это модель диффузии со сверхвысоким разрешением, которая на входе принимает изображение с низким разрешением и строит соответствующее изображение с высоким разрешением из чистого шума. Модель обучается процессу искажения изображения, в котором шум постепенно добавляется к изображению с высоким разрешением, пока не останется только чистый шум. Затем он учится обращать этот процесс вспять, начиная с чистого шума и постепенно удаляя его.
Второй подход CDM
CDM представляет собой модель условной диффузии с классами, обученную на данных ImageNet для создания естественных изображений с высоким разрешением.
«Поскольку ImageNet представляет собой сложный набор данных с высокой энтропией, мы построили CDM как каскад нескольких моделей распространения. Этот каскадный подход включает объединение в цепочку нескольких генеративных моделей с несколькими пространственными разрешениями: одна модель диффузии, которая генерирует данные с низким разрешением, за которой следует последовательность моделей диффузии со сверхвысоким разрешением SR3, которые постепенно повышают разрешение сгенерированного изображения до самого высокого разрешения» — пишут авторы.
Результаты нового метода превосходят существующие технологии.
С помощью SR3 и CDM, удалось повысить производительность моделей распространения до самого современного уровня в тестах поколения ImageNet со сверхвысоким разрешением и условным классом.
Что дальше
Несмотря на достигнутые результаты, исследователи продолжают тестирование границ диффузионных моделей для широкого круга задач генеративного моделирования.
Ну а мы с нетерпением будем ждать новых разработок в этой сфере.
Читайте другие наши статьи в рубрике «Новости технологий», отправляйте комментарии, задавайте вопросы.
Удачи и успехов!