过去的 2020 年,旧金山人工智能研究组织 OpenAI 打造的 1750 亿参数文本生成器 GPT-3 火爆全球。用它撰写的博客文章成功欺骗了很多人类读者。不少业内人士认为,GPT-3 对 AI 行业具有颠覆力量。可以看到,自然语言处理的神经网络规模越来越大,功能也越来越丰富。

 

当地时间 2021 年 1 月 5 日,OpenAI 又放出大招。据报道,OpenAI 已经开发了一种新系统,能根据短文本来生成图像。

 

OpenAI 在官方博客中表示,这个新系统名为 DALL-E,名称来源于艺术家萨尔瓦多·达利(Salvador Dali)和皮克斯的机器人英雄瓦力(WALL-E)的结合。新系统展示了“为一系列广泛的概念”创造图像的能力,创作的作品包括牛油果形状的扶手椅等。

 

通过神经网络去生成图像,这种技术并不新颖。此前,生成对抗网络(GAN)已被广泛用于创建真实的人、宠物、租赁房产和食物的照片。

 

 

不过,DALL-E 的独特之处在于可以根据输入的文本来创作图像。该系统基于文字生成系统 GPT-3 的一个版本,该系统此前被用于撰写诗歌和新闻文章等。利用配对好的文本和图像数据集进行训练,DALL-E 可以根据新的文字提示生成图像,此外还展示了创造多种风格图片的能力。

 

OpenAI 还发布了图像识别系统 Clip。Clip 通用性比当前针对单个任务的系统更好,可以用网上公开的文字图像配对数据集来训练。

 

 

DALL-E 还需要继续优化。OpenAI 指出,DALL-E 目前的可靠性还存在问题,对类似“glass”等有多个含义的名词常常会混淆,文字中不同的语法也可能会造成不同的结果。

 

此外还有更深层次的问题需要解决。OpenAI 表示:“我们注意到,涉及生成模型的工作可能会产生重大而广泛的社会影响。”未来可能的举措包括研究对就业岗位的影响,生成结果的偏见,以及技术的长期道德挑战。

 

长期以来,公众一直担心人工智能生成的媒体内容被滥用,例如神经网络被用来制造虚假的音视频和图像,用于不道德的目的,例如政治上的假信息和欺诈活动等。