人工智能模型倾向于通过学习复杂的数据,来获得生成类似人类语言和令人信服的图像的能力。但是,制作庞大的标记数据集是一项繁重的任务。谷歌和苏黎世联邦理工学院的研究人员提出了一种方法,可用较少的标记数据生成高质量图像。

研究人员在预印版服务器 Arxiv.org 上发表的一篇论文中(《用较少的标签生成高保真图像》),描述了一种“语义提取器”,可以从训练数据中提取特征,从而从一小部分带标签的图像中推断出整个训练集的标签。他们说,将自我监督和半监督等技术结合在一起,可以在像 ImageNet 这样的流行基准测试上胜过最先进的方法。

“简而言之,我们不是向鉴别器提供手工标注的真实图像的标签,而是提供推断出来的。”论文写道。

研究人员提出了数种无监督方法,在其中一种方法中,他们首先使用特征提取器在目标训练数据集上提取特征表示(一组自动发现原始数据分类所需表示的技术),然后执行聚类分析——即,将表示形式分组,使同一组中的表示形式比其他组中的表示形式具有更多的共同点。最后,通过推断标签来训练 GAN——一个由生成样本的生成器和试图区分生成的样本和真实样本的识别器组成的两部分神经网络。

在另一种被称为“联合训练”的预训练方法中,研究人员利用无监督、半监督和自我监督方法的组合来推断与 GAN 训练同时发生的标签信息。在无监督的步骤中,他们采取两种方法的一种:完全删除标签,或者为真实图像分配随机标签。相比之下,在半监督阶段,当标签可用于真实数据的子集时,他们在鉴别器的特征表示上训练分类器,使之用这些标签来预测未标记真实图像的标签。

为了测试这些技术的性能,研究人员开发了 ImageNet——一个包含 130 多万张训练图像和 5 万张测试图像的数据库,每个图像对应于 1000 个对象类中的一个——并从每个图像类(比如“消防车”、“山脉”等)中随机选择一部分样本来获得部分标记的数据集层级。在使用无人监督、预训练和联合训练方法对第三代谷歌张量处理单元(TPU)的 1,280 个核心上的每个 GAN 进行三次训练后,他们将输出质量与两个评分指标(Frechet Inception Distance (FID)和 Inception Score (IS))进行了比较。

无监督的方法并不是特别成功——它们分别获得了 25 和 20 个 FID,而基线值分别为 8.4 和 75。使用自我监督和聚类的预训练,FID 降低了 10%,IS 增加了约 10%,而联合训练方法的 FID 为 13.9,IS 为 49.2。但到目前为止,最成功的是自我监督:它用 20%的标记数据实现了最先进的性能。

接下来,研究人员希望研究这些技术如何应用于更大和更多样化的数据集。“未来的工作有几个重要的方向,”研究人员在论文中写道,“我们相信,这是朝着实现使用极少数据生成高质量图像这一最终目标迈出的重要的一步。”

【数字叙事 黎雾】