微软研究院、京东人工智能研究院和奥尔巴尼大学的研究人员在一篇论文中提出了一个机器学习框架—— ObjGAN ——可以理解文字,草图布局,并根据确切的措辞细节场景。这意味着人工智能已能绘制出与文字描述相对应的图像。

该论文名为《通过对抗性训练进行对象驱动的文本到图像合成》(Object-driven Text-to-Image Synthesis via Adversarial Training),计划在 2019 年 IEEE 计算机学会计算机视觉与模式识别会议(CVPR 2019)上发表。

研究人员声称,与之前最先进的技术相比,他们的方法可大大提高图像质量。“Our 生成器能够利用细粒度的单词和对象级信息逐步细化合成图像,大量的实验证明了 ObjGAN 在复杂场景的文本到图像生成方面的有效性和泛化能力。”论文写道。

研究团队指出,开发文本到图像的 AI 的一个巨大挑战是,让系统理解对象类型,以及让它理解场景中多个对象之间的关系。以前的方法使用的图像标题对仅为单个对象提供粗粒度信号,即使是性能最好的模型也难以生成包含多个对象的语义有意义的图片。

ObjGAN 生成的图像

为了克服这些障碍,研究人员给 ObjGAN 注入了一种生成对抗网络(GAN),这是一种由生成样本的生成器和试图区分生成的样本和真实样本的鉴别器两部分组成的神经网络。随着时间的推移,AI 系统将对象的外观内化,并学会从语料库中同时出现的模式中综合它们的布局,最终以预先生成的布局为条件生成图像。

为了在图像生成方面达到人类水平的表现,该团队使用 ObjGAN 建模,让其模仿艺术家绘制和细化复杂场景的方式。该系统将输入的文本分解成单独的单词,并将这些单词与图像中的特定对象进行匹配,它利用了两个鉴别器——一个是基于对象的鉴别器,另一个是基于片段的鉴别器——来判断作品是否真实,是否与句子描述相符。

结果并不完美——ObjGAN 偶尔会吐出逻辑上不一致的样本,就像一列火车被困在一个草坡上,标题是“一列客车沿着铁轨滚下”——但考虑到它们是由整块材料合成的,它们仍然令人印象深刻。

微软动力 365 研究院、杜克大学、腾讯人工智能研究院和卡内基梅隆大学的研究人员在另一篇论文(《StoryGAN:故事可视化的序贯条件 GAN》)中进一步推动了图像生成。该论文描述了一个名为 StoryGAN 的系统,它能够从多句段落中生成类似漫画的故事板。StoryGAN 也构建在 GAN 之上,但包含动态跟踪故事流的上下文编码器以及故事和图像级别的两个鉴别器,以增强所生成序列的质量和一致性。

该团队指出,StoryGAN 可以扩展用于交互式图像编辑,其中输入图像可以根据文本指令顺序编辑。

【数字叙事 黎雾编译】