Google анонсировала нейросеть Imagen

Корпорация Google презентовала нейросеть Imagen, которая способна преобразить текстовый запрос в изображение. У программы DALL-E от компании Open-Al появился конкурент, и в некоторых аспектах он функционирует даже лучше.

Чтобы распознать текстовый запрос, система задействует огромные языковые модели, на которых базируются алгоритмы обработки естественной речи, наподобие GPT-3. Сама программа действует в 3 этапа. На 1 этапе прорисовывается небольшое изображение в 64х64 пикселя, затем она дорабатывается до тех пор, пока не будет соответствовать исходному запросу.

На 2 этапе размер картинки увеличивают до 256х256 пикселей, и Imagen осуществляет доработку деталей. На 3 этапе то же самое повторяется уже с холстом финального размера — 1024х1024 пикселя.

В отчетах сообщается, что программа от Google способна справиться со сложными запросами лучше DALL-E 2. Например, по запросу «Панда делает латте-арт» DALL-E 2 продемонстрировал только латте-арт с пандами, в то время как Imagen смогла показать в основном правильные результаты:

Но Google также признаёт, что с текстовым запросом «лошадь верхом на астронавте» справиться не смог никто: обе программы ставили астронавта на лошадь, а не наоборот. Так что нейросетям все еще есть куда развиваться.

Результаты оценки независимыми зрителями продемонстрировали, что Imagen обходит DALL-E 2 по точности и соответствию запросам. Несмотря на субъективность подобных оценок, результат всё равно впечатляющий, так как до этого DALL-E 2 находился на недостижимых высотах, и с ним не могли сравниться другие подобные нейросети.

Пока что Imagen остаётся экспериментальным проектом, с закрытым доступом. Дата презентации сервиса в открытый доступ пока неизвестна.