认识 DALL-E,AI 可以随心所欲地绘制任何东西

旧金山——在世界上最雄心勃勃的人工智能实验室之一的 OpenAI,研究人员正在开发一种技术,让你只需描述你想看到的东西就可以创建数字图像。

他们称其为 DALL-E,以向 2008 年关于自主机器人的动画电影“WALL-E”和超现实主义画家萨尔瓦多·达利致敬。

OpenAI 得到了微软 10 亿美元资金的支持,但尚未与公众分享这项技术。 但在最近的一个下午,该系统背后的研究人员之一亚历克斯尼科尔展示了它的工作原理。

当他要求“一个鳄梨形状的茶壶”时,将这些词输入到一个基本上是空的电脑屏幕上,系统会创建 10 个不同的深绿色鳄梨茶壶图像,有些有坑,有些没有。 “DALL-E 擅长鳄梨,”尼科尔先生说。

当他输入“猫下棋”时,它会将两只毛茸茸的小猫放在棋盘的两侧,它们之间排列着 32 个棋子。 当他召唤“一只在水下吹喇叭的泰迪熊”时,一张图片显示从熊的喇叭末端向水面上升的微小气泡。

DALL-E 还可以编辑照片。 当尼科尔先生抹去泰迪熊的小号并要一把吉他时,一把吉他出现在毛茸茸的手臂之间。

一个由七名研究人员组成的团队花了两年时间开发这项技术,OpenAI 计划最终将其作为一种工具提供给像图形艺术家这样的人,在他们创建和编辑数字图像时提供新的捷径和新的想法。 计算机程序员已经使用 Copilot(一种基于 OpenAI 类似技术的工具)来生成软件代码片段。

但对于许多专家来说,DALL-E 令人担忧。 他们说,随着这种技术的不断改进,它可能有助于在互联网上传播虚假信息,助长那些可能有助于影响 2016 年总统大选的在线活动。

亚利桑那州立大学计算机科学教授 Subbarao Kambhampati 说:“你可以将它用于好事,但当然可以将它用于各种其他疯狂、令人担忧的应用程序,其中包括深度造假”,例如误导性照片和视频。大学。

五年前,世界领先的 AI 实验室构建了可以识别数字图像中的物体甚至自己生成图像的系统,包括鲜花、狗、汽车和人脸。 几年后,他们构建的系统可以在书面语言、总结文章、回答问题、生成推文甚至撰写博客文章方面做同样的事情。

现在,研究人员正在结合这些技术来创建新形式的 AI DALL-E 是向前迈出的显着一步,因为它兼顾了语言和图像,并且在某些情况下,掌握了两者之间的关系。

“我们现在可以使用多个交叉的信息流来创造越来越好的技术,”西雅图人工智能实验室艾伦人工智能研究所的首席执行官奥伦·埃齐奥尼 (Oren Etzioni) 说。

技术并不完美。 当 Nichol 先生要求 DALL-E “把埃菲尔铁塔放在月球上”时,它并没有完全理解这个想法。 它将月亮放在塔上方的天空中。 当他要求“一个装满沙子的客厅”时,它产生的场景看起来更像是建筑工地而不是客厅。

但是当尼科尔先生稍微调整他的要求时,在这里或那里增加或减少几个词,它提供了他想要的东西。 当他要求“客厅里装满沙子的钢琴”时,这张照片看起来更像是客厅里的海滩。

DALL-E 是人工智能研究人员所说的神经网络,它是一个松散地模拟大脑神经元网络的数学系统。 这种技术可以识别智能手机发出的命令,并在自动驾驶汽车在城市街道上行驶时识别行人的存在。

神经网络通过分析大量数据来学习技能。 例如,通过精确定位数千张鳄梨照片中的模式,它可以学会识别鳄梨。 DALL-E 在分析数百万张数字图像以及描述每张图像所描绘内容的文本标题时寻找模式。 通过这种方式,它学会了识别图像和文字之间的联系。

当有人描述 DALL-E 的图像时,它会生成该图像可能包含的一组关键特征。 一个特征可能是喇叭边缘的线条。 另一个可能是泰迪熊耳朵顶部的曲线。

然后,称为扩散模型的第二个神经网络创建图像并生成实现这些特征所需的像素。 最新版本的 DALL-E 于周三发布,并附有描述该系统的新研究论文,可生成在许多情况下看起来像照片的高分辨率图像。

尽管 DALL-E 经常无法理解某人所描述的内容,并且有时会破坏它产生的图像,但 OpenAI 仍在继续改进这项技术。 研究人员通常可以通过为其提供更大量的数据来改进神经网络的技能。

他们还可以通过将相同的概念应用于新类型的数据来构建更强大的系统。 艾伦研究所最近创建了一个可以分析音频以及图像和文本的系统。 在分析了数以百万计的 YouTube 视频(包括音轨和字幕)后,它学会了识别电视节目或电影中的特定时刻,例如吠叫的狗或关上的门。

专家认为,研究人员将继续磨练此类系统。 最终,这些系统可以帮助公司改进搜索引擎、数字助理和其他通用技术,并为图形艺术家、程序员和其他专业人士自动完成新任务。

但对这种潜力有一些警告。 人工智能系统可能对女性和有色人种表现出偏见,部分原因是他们从大量的在线文本、图像和其他显示偏见的数据中学习技能。 它们可用于生成色情、仇恨言论和其他攻击性材料。 许多专家认为,这项技术最终将使制造虚假信息变得如此容易,人们将不得不对他们在网上看到的几乎所有内容持怀疑态度。

“我们可以伪造文本。 我们可以将文本放入某人的声音中。 我们可以伪造图像和视频,”Etzioni 博士说。 “网上已经有虚假信息,但令人担忧的是,这会将虚假信息扩大到新的水平。”

OpenAI 对 DALL-E 保持着严格的控制。 它不会让外人自行使用该系统。 它会在生成的每张图像的角落放置一个水印。 尽管实验室计划在本周向测试人员开放该系统,但该小组的规模很小。

该系统还包括过滤器,可防止用户生成它认为不合适的图像。 当被问及“一头羊头的猪”时,它拒绝提供图像。 据实验室称,“猪”和“头”这两个词的组合很可能会触发 OpenAI 的反欺凌过滤器。

“这不是一个产品,”OpenAI 的研究主管 Mira Murati 说。 “我们的想法是了解能力和局限性,让我们有机会进行缓解。”

OpenAI 可以通过某些方式控制系统的行为。 但全球其他地区可能很快就会创造出类似的技术,将同样的权力交到几乎任何人手中。 休斯顿的独立研究员鲍里斯·戴玛(Boris Dayma)从描述 DALL-E 早期版本的研究论文开始,已经构建并发布了该技术的更简单版本。

“人们需要知道他们看到的图像可能不是真实的,”他说。

分享

最新更新

重要新闻

相关文章