艺术家和作家们正在奋起反抗生成式人工智能系统——这是可以理解的。这些机器学习模型之所以能够生成图像和文本,仅仅是因为它们接受了大量真实人物的创意作品的训练,其中很多作品都受版权保护。包括OpenAI、Meta和Stability AI在内的主要人工智能开发商现在面临多起相关诉讼。独立的分析也支持这些法律诉讼;例如,今年8月,《大西洋月刊》报道称,Meta在训练其大型语言模型(LLM)时,部分使用了名为Books3的数据集,该数据集包含超过17万本盗版和受版权保护的书籍。
这些模型的训练数据集不仅包括书籍。在竞相构建和训练更大规模的人工智能模型的过程中,开发者们席卷了大部分可搜索的互联网。这不仅有可能侵犯版权,还威胁到数十亿在线分享个人信息的人的隐私。这也意味着,本应保持中立的模型可能会在有偏见的数据上进行训练。企业缺乏透明度使得准确了解公司从何处获取训练数据变得困难——但《大众科学》采访了一些人工智能专家,他们对此有大致的了解。
人工智能训练数据来自哪里?
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事能够继续存在。
为了构建大型生成式人工智能模型,开发者们转向面向公众的互联网。但华盛顿大学研究计算语言学和语言技术的语言学家艾米丽·M·本德尔说,“没有一个地方可以让你下载整个互联网。”相反,开发者们通过自动化工具来收集和提取互联网上的数据,从而积累他们的训练集。网络“爬虫”在链接之间跳转,索引数据库中信息的位置,而网络“抓取器”则下载并提取相同的信息。
非营利组织艾伦人工智能研究所的机器学习研究员杰西·道奇表示,像谷歌的所有者Alphabet这样资源非常雄厚的公司,由于已经构建了网络爬虫来支持其搜索引擎,可以选择使用自己的工具来完成这项任务。然而,其他公司则转向现有资源,例如Common Crawl,它帮助提供了 OpenAI的GPT-3的数据,或者像大规模人工智能开放网络(LAION)这样的数据库,其中包含图像及其随附标题的链接。Common Crawl和LAION均未回复置评请求。想要使用LAION作为人工智能资源的公司(道奇表示,它是图像生成器Stable Diffusion训练集的一部分)可以关注这些链接,但必须自行下载内容。
网络爬虫和抓取器可以轻松访问几乎任何地方的数据,只要不是在登录页面之后。设置为私人的社交媒体个人资料不包括在内。但道奇表示,在搜索引擎中可见或无需登录网站即可查看的数据,例如公开的LinkedIn个人资料,仍然可能被抓取。然后,他补充说,“绝对会出现在这些网络抓取中的内容类型”包括博客、个人网页和公司网站。这包括热门照片分享网站Flickr、在线市场、选民登记数据库、政府网页、维基百科、Reddit、研究库、新闻媒体和学术机构上的任何内容。此外,还有盗版内容汇编和网络档案,其中通常包含自原始网络位置删除的数据。抓取的数据库不会消失。“如果2018年从公共网站抓取了文本,那么无论[该网站或帖子是否]已被删除,它都将永远可用,”道奇指出。
芝加哥大学的计算机科学家本·赵表示,一些数据爬虫和抓取器甚至能够通过伪装成付费帐户来绕过付费墙(包括大众科学的)。赵说,“你会惊讶于这些爬虫和模型训练者为了获得更多数据愿意走多远。”根据《华盛顿邮报》和艾伦研究所的联合分析,付费新闻网站是谷歌的C4数据库(用于训练谷歌的LLM T5和Meta的LLaMA)中包含的主要数据来源之一。
网络抓取器还可以搜集到来源不明的、令人惊讶的个人信息。赵指出一个特别引人注目的例子,一位艺术家发现她自己的私人诊断医学图像被包含在LAION数据库中。Ars Technica的报道证实了这位艺术家的说法,并且同一数据集包含了数千名其他人的医疗记录照片。虽然不可能确切知道这些图像是如何被包含在LAION中的,但赵指出,数据错放、隐私设置通常宽松以及泄漏和泄露事件都很常见。并非旨在公开互联网的信息最终会出现在那里。
除了来自这些网络抓取的数据外,人工智能公司可能会有目的地将其他来源(包括他们自己的内部数据)纳入其模型训练中。OpenAI根据用户与其聊天机器人的互动来微调其模型。Meta表示,其最新的AI是部分基于公开的Facebook和Instagram帖子进行训练的。据埃隆·马斯克称,社交媒体平台X(前身为Twitter)计划对其自身用户的内容采取同样的做法。亚马逊也表示,它将使用来自客户Alexa对话的语音数据来训练其新的LLM。
但除了这些承认之外,近几个月来,各公司在透露其数据集的详细信息方面变得越来越谨慎。尽管Meta在其关于LLaMA第一个版本的技术论文中提供了总体数据细分,但在几个月后发布的LLaMA 2包含的信息要少得多。谷歌也在最近发布的PaLM2人工智能模型中没有具体说明其数据来源,只是表示用于训练PaLM2的数据比训练原始版本的PaLM的数据要多得多。OpenAI写道,出于对竞争的主要担忧,它不会披露关于其GPT-4的训练数据集或方法的任何细节。
为什么不可靠的训练数据会成为问题?
人工智能模型可以重新生成用于训练它们的相同材料——包括敏感的个人数据和受版权保护的作品。许多广泛使用的生成式人工智能模型都有旨在阻止它们分享个人身份信息的模块,但研究人员已多次证明了绕过这些限制的方法。对于创意工作者来说,即使人工智能的输出不完全构成剽窃,赵说它们也会蚕食付费机会,例如,模仿特定艺术家独特的视觉技巧。但是,由于缺乏关于数据来源的透明度,很难将此类输出归咎于人工智能的训练;毕竟,它可能是“碰巧”“幻觉”出了有问题的内容。
纽约大学研究人工智能的数据新闻记者梅雷迪思·布鲁萨德说,缺乏关于训练数据的透明度也引发了与数据偏见相关的严重问题。“我们都知道互联网上有美好的东西,也有极其有害的材料,”她说。例如,Common Crawl等数据集包括白人至上主义者网站和仇恨言论。即使是不那么极端的数据来源也包含宣传刻板印象的内容。此外,网上还有大量色情内容。因此,布鲁萨德指出,人工智能图像生成器倾向于生成女性的性化图像。“偏见输入,偏见输出,”她说。
本德尔也表达了这种担忧,并指出这种偏见甚至更深——深入到谁可以在互联网上发布内容。她说,“这将偏向富裕、偏向西方、偏向某些年龄段等等。”本德尔补充说,网络骚扰加剧了这个问题,迫使边缘群体退出一些在线空间。这意味着从互联网上抓取的数据未能代表真实世界的全部多样性。本德尔说,很难理解如此沉浸在有偏见的信息中的技术的价值和适当应用,特别是如果公司不坦诚地说明潜在的偏见来源。
你如何保护你的数据免受人工智能侵害?
不幸的是,目前几乎没有有效的方法可以将数据排除在人工智能模型的“胃口”之外。赵和他的同事开发了一种名为Glaze的工具,可用于使图像对人工智能模型有效不可读。但研究人员只能在部分人工智能图像生成器上测试其有效性,并且其用途有限。首先,它只能保护以前未在网上发布的图像。任何其他内容都可能已被网络抓取和训练数据集吸纳。至于文本,目前还没有类似的工具。
赵说,网站所有者可以插入数字标志,告知网络爬虫和抓取器不要收集网站数据。然而,是否遵守这些通知取决于抓取器开发者。
在加利福尼亚州和其他少数州,最近通过的数字隐私法赋予消费者要求公司删除其数据的权利。在欧盟,人们也有权删除数据。然而,斯坦福大学的隐私和数据研究员詹妮弗·金表示,到目前为止,人工智能公司通过声称数据的来源无法证明,或者通过完全无视这些请求来抵制此类请求。
赵说,即使公司尊重此类请求并从训练集中删除您的信息,也没有明确的策略让人工智能模型忘记它以前吸收的内容。道奇说,要真正从这些人工智能模型中删除所有受版权保护的或潜在敏感的信息,就必须有效地从头开始重新训练人工智能,这可能花费高达数千万美元。
目前,没有任何重要的人工智能政策或法律裁决要求科技公司采取此类行动——这意味着他们没有动力回到绘图板。