
人工智能研究小组OpenAI创建了新版本的DALL-E,这是其文本到图像生成程序。DALL-E 2具有原始系统的更高分辨率和低延迟版本,可生成描绘用户编写的描述的图片。它还包括新功能,例如编辑现有图像。与之前的OpenAI工作一样,该工具不会直接向公众发布。但研究人员可以在线注册以预览该系统,OpenAI希望以后将其用于第三方应用程序。
最初的DALL-E是艺术家“Salvador Dalí”和机器人“WALL-E”的波特曼托,于2021年1月首次亮相。这是对人工智能视觉表现概念能力的一次 有限但令人着迷的测试 ,从穿着法兰绒衬衫的人体模特的平凡描绘到“制成的长颈鹿”或萝卜遛狗的插图。当时,OpenAI表示将继续建立在该系统的基础上,同时检查潜在的危险,如图像生成中的偏见或错误信息的产生。它试图使用技术保护措施和新的内容策略来解决这些问题,同时减少其计算负载并推进模型的基本功能。

DALL-E 2结果为“柴犬戴着贝雷帽和黑色高领毛衣”。
DALL-E 2 的新功能之一,即内嵌,在更精细的级别上应用了 DALL-E 的文本到图像功能。用户可以从现有图片开始,选择一个区域,然后告诉模型对其进行编辑。例如,您可以遮挡客厅墙上的一幅画,然后用不同的图片替换它,或者在咖啡桌上添加一个花瓶。该模型可以填充(或删除)对象,同时考虑房间中阴影的方向等细节。另一个功能,变体,有点像一个图像搜索工具,用于不存在的图片。用户可以上传起始图像,然后创建一系列与其类似的变体。它们还可以混合两个图像,生成具有两者元素的图片。生成的图像为 1,024 x 1,024 像素,比原始模型提供的 256 x 256 像素大一步。
DALL-E 2建立在CLIP之上,CLIP是OpenAI去年也宣布的计算机视觉系统。“DALL-E 1只是从语言中采用了我们的GPT-3方法,并将其应用于生成图像:我们将图像压缩成一系列单词,我们刚刚学会了预测接下来会发生什么,”OpenAI研究科学家Prafulla Dhariwal说,他指的是许多文本AI应用程序使用的GPT模型。但是单词匹配并不一定能捕捉到人类认为最重要的品质,预测过程也限制了图像的真实感。CLIP旨在以人类的方式查看图像并总结其内容,OpenAI迭代此过程以创建“unCLIP” - 一个从描述开始的倒置版本,并朝着图像的方向发展。DALL-E 2使用称为扩散的过程生成图像,Dhariwal将其描述为从“一袋点”开始,然后填充具有越来越多细节的图案。

在一个角落添加了火烈鸟的房间的现有图像。
有趣的是,unCLIP上的一篇草稿文件说,它部分*制抵**了CLIP的一个非常有趣的弱点:人们可以通过用一个表示其他东西(如iPod)的单词标记一个物体(如格兰尼史密斯苹果)来欺骗模型的识别能力。作者说,变体工具“仍然生成高概率的苹果图片”,即使使用CLIP无法识别为格兰尼史密斯的错误标记图片。相反,“该模型从不生成iPod的图片,尽管这个标题的相对预测概率非常高。
DALL-E的完整模型从未公开发布,但其他开发人员在过去一年中已经磨练了自己的工具,模仿了它的一些功能。最受欢迎的主流应用程序之一是Wombo的Dream移动应用程序,它可以生成用户以各种艺术风格描述的任何图片。OpenAI今天没有发布任何新模型,但开发人员可以使用其技术发现来更新自己的工作。

DALL-E 2结果为“一碗看起来像怪物的汤,用羊毛编织而成。
OpenAI已经实施了一些内置的保护措施。该模型是在清除了一些令人反感的材料的数据上进行训练的,理想情况下限制了其产生令人反感的内容的能力。有一个水印表明AI生成的工作性质,尽管理论上可以将其裁剪掉。作为一项先发制人的反滥用功能,该模型也无法根据名字生成任何可识别的面孔 - 即使要求像 蒙娜丽莎 这样的东西显然也会从画作中返回实际面部的变体。
DALL-E 2将由经过审查的合作伙伴进行测试,但有一些注意事项。禁止用户上传或生成“非G级”和“可能造成伤害”的图像,包括任何涉及仇恨符号,裸体,淫秽手势或“与重大正在进行的地缘政治事件相关的重大阴谋或事件”的内容。他们还必须披露人工智能在生成图像中的作用,并且他们无法通过应用程序或网站向其他人提供生成的图像 - 因此您最初不会看到像Dream这样的DALL-E驱动的版本。但OpenAI希望以后将其添加到该小组的API工具集中,使其能够为第三方应用程序提供支持,“我们希望继续在这里进行分阶段的过程,这样我们就可以继续从反馈中评估如何安全地发布这项技术,”Dhariwal说。
James Vincent的补充报道。
原文标题:OpenAI’s DALL-E AI image generator can now edit pictures, too
原文链接:https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing
作者:Adi Robertson
编译:LCR