了解人工智能如何从文本生成图像

生成式人工智能算法使用概率从噪声中创建视觉效果

Person surrounded by black boxes. Each black box has a glowing screen with a similar base image projected on it. A few versions of the image are crisp. One includes static.

马修·特温布利

加入我们的科学爱好者社区!


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


去年,互联网首次体验了图像生成人工智能。突然之间,曾经只提供给专家的技术现在对任何有网络连接的人都可用。这种热情没有减弱的迹象,人工智能生成的图像赢得了重要的摄影比赛,制作了电视剧的片头字幕,并欺骗人们相信教皇穿着时尚的羽绒服外出。然而,批评人士指出,用现有作品训练算法可能会侵犯版权,而使用它们可能会危及艺术家的工作。生成式人工智能也可能使虚假新闻的影响力倍增:教皇外套很有趣,但一张据称显示五角大楼遭受袭击的生成照片短暂地引发了股市下跌。

DALL-E 2、Midjourney 和 Stable Diffusion 等程序是如何一下子变得如此出色的?尽管人工智能已经发展了几十年,但当今最流行的图像生成器使用一种称为扩散模型的技术,这种技术在人工智能领域相对较新。以下是它的工作原理

鸣谢:马修·特温布利(图形),阿曼达·霍布斯(研究

索菲·布什威克《大众科学》的科技编辑。她负责网站的日常技术新闻报道,撰写从人工智能到跳跃机器人等各种主题的文章,用于数字和印刷出版物,录制 YouTube 和 TikTok 视频,并主持播客《Tech, Quickly》。布什威克还经常出现在广播节目(如《科学星期五》)和电视网络(包括 CBS、MSNBC 和国家地理)上。她拥有十年以上在纽约市担任科学记者的经验,此前曾在《大众科学》《发现》和 Gizmodo 等媒体工作过。在 X(以前称为 Twitter)上关注布什威克 @sophiebushwick

更多作者:索菲·布什威克

马修·特温布利 是一位自由插画家和信息图设计师。他的作品可以在 www.matthewtwombly.com 上查看

更多作者:马修·特温布利

阿曼达·霍布斯 是一位自由研究员、作家和视觉内容编辑,专门从事通过艺术和信息图讲故事。她的作品可以在 www.athcreative.com 上查看

更多作者:阿曼达·霍布斯
大众科学杂志 第 329 卷 第 3 期本文最初以 “人工智能如何从文本生成图像” 为题发表于 《大众科学杂志》 第 329 卷 第 3 期 (),第 66 页
doi:10.1038/scientificamerican1023-66
© . All rights reserved.