北卡罗来纳州立大:一种新的最先进的方法来控制人工智能 (AI) 系统如何创建图像。

北卡罗来纳州立大学的研究人员开发了一种新的最先进的方法来控制人工智能 (AI) 系统如何创建图像。这项工作适用于从自主机器人到人工智能培训等领域。


其中一种称为条件图像生成的 AI 任务,该 AI 系统创建满足一组特定条件的图像。例如,可以训练系统根据用户请求的动物创建猫或狗的原始图像。最近的技术已经建立在此基础上以合并有关图像布局的条件。这允许用户指定他们想要在屏幕上的特定位置显示哪些类型的对象。例如,天空可能在一个盒子里,一棵树可能在另一个盒子里,一条溪流可能在一个单独的盒子里等等。


新工作建立在这些技术的基础上,让用户可以更好地控制生成的图像,并在一系列图像中保留某些特征。


“我们的方法是高度可重构的,”该工作论文的合著者、北卡罗来纳州立大学计算机工程助理教授吴天福说: “与以前的方法一样,我们的方法允许用户让系统根据一组特定的条件生成图像。但我们的方法还允许您保留该图像并添加到其中。例如,用户可以让 AI 创建一个山景。然后用户可以让系统将滑雪者添加到该场景中。”


此外,新方法允许用户让 AI 操纵特定元素,以便它们可以识别相同,但以某种方式移动或更改。例如,人工智能可能会创建一系列图像,显示滑雪者在穿越景观时转向观众。


“这方面的一个应用是帮助自主机器人‘想象’在他们开始给定任务之前最终结果可能是什么样子,”吴说。 “您还可以使用该系统生成用于 AI 训练的图像。因此,您可以使用该系统来创建用于训练其他 AI 系统的图像,而不是从外部来源编译图像。”


研究人员使用 COCO-Stuff 数据集和 Visual Genome 数据集测试了他们的新方法。基于图像质量的标准测量,新方法优于以前最先进的图像创建技术。


“我们的下一步是看看我们是否可以将这项工作扩展到视频和 3D 图像。”吴说。


新方法的训练需要大量的计算能力;研究人员使用了一个 4-GPU 工作站。然而,部署该系统的计算成本较低。


“我们发现一个 GPU 可以为您提供几乎实时的速度。”吴说:“除了我们的论文,我们还在 GitHub 上提供了这种方法的源代码。也就是说,我们始终愿意与行业合作伙伴合作。”