Google представил нейросеть, генерирующую изображения по текстовым описаниям

Google представил нейросеть, генерирующую изображения по текстовым описаниям

Google представил нейросеть Imagen, которая способна генерировать изображения на основе текстового описания. Например, по описанию «собака смотрится в зеркало и видит кошку» нейросеть создала вот такую картинку:

Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.

Далее алгоритмы улучшают схематичную картинку размером 64×64 до тех пор, пока искусственный интеллект не поймет, что уже не может сделать ее лучше по заданным параметрам. После этого размер изображения увеличивается 256 х 256 пикселей.

В результате изображение уже в высоком качестве доходит до размера 1024×1024. Это происходит не путем масштабирования — каждый из трех этапов нейросеть улучшает детали на картинке.

Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По данным Google, тестировщики при сравнении изображений от Imagen и DALL-E 2 чаще выбирали Imagen за более точную и достоверную работу.

Пока Imagen работает в режиме закрытой бета-версии и недоступна для всех желающих. Разработчики опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых изображений, тем самым усугубляя принятые обществом предрассудки и стереотипы.

Отметим, за последние полгода Google представил много новинок в области визуального поиска и обработки изображений. В их числе интеграция инструмента Google Lens в мобильную и десктопную версию браузера Chrome, его добавление в поиск на десктопах и запуск мультипоиска – с одновременным использованием в запросе текста и изображения.

Похожие статьи:

Читайте также

Комментирование закрыто.