不要怪人工智能。剽窃正在将数字新闻变成垃圾

一篇拙劣的讣告突显了人工智能和数字剽窃工厂对新闻业的威胁,它们可能会用虚假信息污染新闻

Robotic hand pressing a keyboard on a laptop in dark blue background 3D rendering

很少有编辑会在标题中使用“废物”来称呼某人。更少的人会在讣告中这样做。然而,当一位前 NBA 篮球运动员本周倒地去世时,MSN 网站上赫然写着:“布兰登·亨特 42 岁去世,毫无价值。”

那些继续阅读的人很快意识到这篇文章有些严重问题;撰写这篇文章的匿名编辑似乎几乎但不完全不熟悉英语的运作方式。“亨特的专业知识使他成为选择,因为第 56 位总会在 2003 年 NBA 选秀中决定,”讣告解释道。“在他的 NBA 职业生涯中,他参加了两个赛季的 67 场比赛,并在 2004 年对阵密尔沃基雄鹿队的比赛中获得了职业生涯最高的 17 分。”

精明的读者意识到编辑很可能是一台机器。“人工智能不应该撰写讣告,”一位愤怒的体育迷在 X/Twitter 上写道。“付钱给你们的作家,@MSN。” 尽管第一批现场记者推测讣告“似乎是人工智能生成的”,但真相却更加平淡无奇。事实上,让 MSN 感到尴尬的算法的粗糙性恰恰表明了现代媒体机构为何如此容易受到人工智能虚假信息的影响。


关于支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保未来能够持续报道关于塑造我们当今世界的发现和思想的具有影响力的故事。


生成布兰登·亨特讣告的计算机程序可能是一种遗留物,而不是尖端人工智能(通过一位发言人,MSN 拒绝回答问题)。十多年来,不择手段的网站设计师一直在使用名为“文章润色器”的软件,从窃取的文字中创建看似新颖的内容。在最简单的情况下,这些程序通过自由使用同义词词典来掩盖剽窃;用同义词替换足够多的单词,希望没有人会找到原始来源。

布兰登·亨特的讣告过度使用了罗热词典,但仍然可以找到原始讣告“布兰登·亨特 42 岁去世”,该讣告发布在一个小型专业网站 TalkBasket.net 上(反过来,它与 TMZ 的这篇报道非常相似)。文章写道:“亨特的天赋使他入选 2003 年 NBA 选秀大会的第 56 顺位。” “在他的 NBA 职业生涯中,他参加了两个赛季的 67 场比赛,并在 2004 年对阵密尔沃基雄鹿队的比赛中获得了职业生涯最高的 17 分。” 将其与 MSN 版本进行比较,很明显可以看出润色器算法是多么笨拙和简单。

尽管任何人类编辑都会立即将此类文章扔进数字垃圾箱,但在过去一周,MSN 发布了数十篇此类剽窃和同义词化的文章,内容涉及体育(“[曼联球员杰登]桑乔在 10 月份开始的五个月期间因伤病而受到影响,当时他没有为曼联效力。”)、汽车购买建议(“然而,假设资金只允许购买一辆,我们可以首先排除前两代,因为它们现在已经很老了,所以要找到一辆好的意味着非常仔细地购买。”)和商业(“通用汽车周四向美国汽车工人联合会提出的第一份工资和福利方案远未达到工会的初步要求。”)直到“废物”标题引发众怒,MSN 似乎没有人意识到他们的新闻页面上充斥着胡言乱语。(所有这些文章和许多其他文章此后已被删除。)

袭击 MSN 的文章润色器仅仅是几十年前的计算机技术,而不是现代机器学习。相比之下,现代人工智能(如 ChatGPT)在语法和句法方面非常出色,以至于它可以比许多人类编辑更快、更好地写作。这些人工智能算法参与的抄袭行为非常微妙,以至于超过了普通意义上的抄袭:它采用其他人的作品,并以通常无法追踪的方式综合来源。

尽管如此,人工智能无法产生新颖的见解,也无法生成尚未输入其电子大脑的新信息。但是,它可以制作出极具说服力的假新闻。

例如,当我要求 ChatGPT 为亨特撰写讣告时,文字在语法上很干净。甚至可以说是枯燥乏味。没有任何新信息,而且充满了陈词滥调,以至于它永远不会冒犯任何人,即使是意外冒犯。“他的才华、坚韧和富有魅力的个性在比赛和那些有幸观看他比赛的人身上留下了不可磨灭的印记……”该算法吐露道。“他成立了布兰登·亨特基金会,这是一个旨在通过体育和教育为贫困青年提供机会的慈善组织。”

剧透一下,根本没有这样的基金会。这比使用同义词词典的文章润色器要复杂得多的欺诈行为。但从本质上讲,人工智能的威胁与文章润色器的威胁相同——未来虚假信息将淹没现实。两者都生成它们所输入信息的近乎无限的变化,吐出成千上万看似新颖的文字,但其中没有任何新内容。两者都可以满足任何新闻媒体以及广告商的愿望,用看似新鲜的内容填满我们的眼球。两者都可以生成足够多的“新闻”来填满地球上最大的新闻漏洞数百万次。而且两者基本上都是免费的。对于任何寻求将受众注意力转化为美元的网站来说,这都是非常诱人的。这就是现代媒体网站如此脆弱的原因。

甚至在复杂的机器学习算法出现之前,新闻媒体就已经尝试发布机器生成作品。然而,所有这些计算机生成的新闻,即使是最新的人工智能创造的新闻,也并非真正的新闻,而更多的是对人类收集的信息的重新混合——而人类通常都有要求为其工作获得报酬的胆量。更糟糕的是,人类,尽管价格昂贵,却是唯一能够区分真假信息的方法。

现在很容易且廉价地用模仿真实新闻的无信息内容充斥互联网。这意味着内容策展对于筛选掉无稽之谈变得越来越重要。但随着伪造品变得越来越复杂,这个角色也变得越来越困难。所有这些都使媒体机构容易以病毒般的速度传播虚假信息。换句话说,MSN 面临着与 Facebook 和前 Twitter 相同困境:一旦您尝试在没有能够处理如此大容量的良好(人工)策展系统的情况下聚合大量信息,您就会开始成为垃圾的传播媒介。

新闻媒体似乎在一场注定失败且代价高昂的战斗中,可能会受到诱惑,为了节省一些资金,完全放弃,选择普遍聚合而不是精心策展。几年前,MSN 开始使用算法而不是记者来策划其主页。但算法,甚至是尖端人工智能,也无法拯救局面。当然,ChatGPT 非常复杂,但它无法找到伪造品;需要一位优秀的策展人才能检测到布兰登·亨特基金会根本不存在。人们可以查看 IRS 出版物 78,或查找 Form-990 备案、州慈善机构注册或公司组织章程——但那里什么也没有。很可能是假的。

然而,有一个关于这个基金会的在线参考资料可能会让任何事实核查员犹豫。它来自 Kanwasinews9 网站上布兰登·亨特的讣告,该网站似乎是一个新闻网站:“他的慈善体育事业超越了篮球场。他成立了布兰登·亨特基金会,这是一个致力于通过体育、教育和培训项目改善贫困儿童生活的非营利性雇主,”它说。“通过他的基金会,他通过为许多孩子提供成功的机会和他们应得的方向,从而改变了他们的生活。”

废物。

这是一篇观点和分析文章,作者或作者表达的观点不一定代表《大众科学》的观点。

© . All rights reserved.