快好知 kuaihz

微软Obj-GAN可将文字转换成复杂的场景

正如任何热心的读者都会做到的那样,人类只要精心挑选几个词,就能想象出复杂的场景。然而,人工智能系统在将文本描述转换成图片的任务上遇到了困难。现在,来自微软和JD人工智能实验室的研究人员提出了一种基于对象驱动的专注生成对抗网络(Obj-GAN)的新模型,该模型能够基于一个简短的短语或描述性文本句子生成相对复杂的场景。

Obj-GAN的生成器识别描述性单词和对象级信息,逐步细化合成图像,在图像细节和成分元素之间的关系方面改进了之前的前沿模型。

下面是使用不同人工智能技术生成的真实图片和文本描述图像的比较。研究结果表明,随着描述的复杂化,Obj-GAN与其他GANs相比,越来越能够将文本转换成逼真的图像

通过测试Obj-GAN的泛化能力,研究人员发现,该模型会根据在现实世界中没有多大意义的文本输入生成物理或关系不合理的图像。例如:

从文本生成图像的一个困难是,如何让人工智能系统理解场景中多个对象之间的关系。以前的方法使用图像描述对,它们仅为单个对象提供粗粒度的信号,因此即使是这种类型的最佳模型也难以生成包含以合理配置排列的多个对象的图像

为了解决这个问题,研究人员提出了一种新的目标驱动注意力机制,将图像生成分为两个步骤:

首先,研究人员使用seq2seq关注模型,将文本转换为语义布局,比如边框和形状。

然后,一个多级注意力图像生成器在上述布局的基础上创建一个低分辨率的图像,通过关注最相关的单词和预先生成的类标签,在不同区域细化细节。研究人员还设计了分段和对象分类器,以确定合成的图像是否与文本描述和预先生成的布局匹配。

在他们的实验中,研究人员发现Obj-GAN在各种COCO基准测试任务上优于之前的SOTA方法,使Inception的分数提高了27%。

该论文通过对抗性训练,实现了基于对象驱动的文本到图像的合成。Obj-GAN模型和代码已经在GitHub上开源。

来源:新浪VR

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:可将  可将词条  微软  微软词条  场景  场景词条  复杂  复杂词条  转换  转换词条  
科技

 “江湖”还在,已无金庸

“金庸走了,这个时代最后一位武侠大师走了”。根据港媒报道,金庸今天于香港逝世,享年94岁,这位曾经写出了《射雕英雄传》《神雕侠侣》《笑傲江湖》《倚天屠龙记》等诸...(展开)

科技

 KITH x KILLSPENC...

KITH x KILLSPENCER 释出第二波联乘系列 ,自早前释出第一波联名后,来自洛杉矶的人气潮牌 KILLSPENCER 于近日再次联手人气店铺 KIT...(展开)