这位计算机科学家寻求人工智能发展重视版权的未来

新的非营利组织Fairly Trained 认证人工智能模型许可了受版权保护的数据——但这通常并非如此

Cover peeling back revealing coding representing artificial intelligence learning data

Just_Super/Getty Images

使用强大的文本或图像生成人工智能,感觉就像亲眼目睹了雅典娜的神话诞生,她全身披挂盔甲,大步从宙斯的额头中走出。写一个简短的提示,瞬间之后,清晰的段落或逼真的图像就会出现在屏幕上(可能很快还会加上令人信服的视频)。这些第一印象可能是令人震惊的,仿佛你的电脑被雷神之火触碰过。

但希腊神话的另一个版本将宙斯描绘成一个更像反刍者而非创造者。他吃掉了他怀孕的妻子墨提斯,墨提斯完成了孕育雅典娜的劳动,并为她锻造了盔甲。只有在墨提斯在宙斯的脑海中分娩后,雅典娜才破壳而出。生成式人工智能系统除非它们也以已存在的事物为食,否则无法产生任何东西。首先,它们将人类创作的句子、艺术品和其他内容原子化,然后在这些消化后的碎片之间建立联系。例如,为了学习如何生成文本,OpenAI 的 GPT-3.5(为该公司流行的 ChatGPT 免费版本提供支持)是在从维基百科和其他网站上抓取的约 3000 亿个单词上进行训练的。

几家人工智能公司辩称,以这种方式训练模型而无需咨询或付费给作家、摄影师或其他人类创作者是合理的。“人工智能开发是对受合理使用保护的现有内容的一种可接受的、变革性的和社会有益的用途,”制作流行的图像生成器 Stable Diffusion 的 Stability AI 在 2023 年 10 月向美国版权局提交的声明中写道。该公司的一位代表告诉大众科学,这仍然是 Stability AI 的立场。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。


这种合理使用观点远非普遍。对它的异议是纽约时报起诉微软和 OpenAI 等纠纷的基础,该诉讼称这些技术公司非法使用该报的故事来制作聊天机器人。这个问题也促使计算机科学家埃德·牛顿-雷克斯去年 11 月辞去了在 Stability AI 的工作。此后,他成立了一个名为 Fairly Trained 的非营利组织,该组织认证那些仅在获得许可的情况下才使用受版权保护的材料来训练其生成式人工智能模型的公司。

“正如我所说,在以公平方式训练的公司和不以公平方式训练的公司之间,存在着这种分歧,”牛顿-雷克斯说。但他补充说,可能很难辨别人工智能模型是如何开发的。例如,在一家给定的公司内,人工智能音频系统的开发人员可能会寻求许可,而其背后文本生成大型语言模型 (LLM) 的同事可能不会。

Fairly Trained 旨在使这些区别更清晰。到目前为止,包括 Bria 在内的九家公司的模型已获得其年度认证,Bria 是一家总部位于以色列的人工智能公司,最近获得了 2400 万美元的 A 轮融资。(该公司表示,其图像制作模型仅在从库存照片巨头 Getty Images 等来源获得许可的图片上进行训练。)大众科学与牛顿-雷克斯进行了交谈,以了解 Fairly Trained 使用什么标准来认证 Bria 和其他公司及模型,以及尽管他提出了批评,但他为什么仍然对人工智能的未来感到兴奋。

[以下是经过编辑的采访稿。]

去年 11 月,您在 X 上写道,您已离开 Stability AI 的工作,因为该公司未征求艺术家的许可来使用受版权保护的材料。当您离开时,您是否考虑过做类似 Fairly Trained 的事情?

我离开 Stability 时没有计划。在我离开后,人们对我辞职的关注比我预期的要多。当我离开后与包括记者在内的人交谈时,我想指出的其中一件事是,Stability 和许多其他公司采取的方法——未经同意就对作品进行训练——并非所有人都在采取的方法...... 人们问我的其中一件事是:“好的,如果你说有些公司和模型以不同的方式进行训练,以更公平的方式进行训练,对他们获得许可的作品进行训练,那么这些公司在哪里?”

我认为,实施一些使之更透明化的措施相对简单。最简单的方法,也是最快的方法,是为那些在许可数据上进行训练的公司发布认证。

Fairly Trained 认证是如何运作的?

我们的第一个认证是我们所称的许可模型认证。任何在训练生成式人工智能模型时,没有依赖于他们没有获得许可或没有权利使用的受版权保护的作品的公司都可以获得此认证。

获得认证的方式是通过书面提交。我们有一系列您需要回答的问题,这些问题主要涉及两件事:第一,您的模型的训练数据是什么?第二,您的内部流程是什么,以确保您实际上坚持仅使用这些训练数据,并且您的员工正在使用这些训练数据?... 一旦我们确信我们了解您的流程,并且我们了解模型中输入的内容,并且您拥有[必要的]许可......,我们就会给您认证。

目前很多都是基于信任的。我们不会介入并深入研究您的系统......。但我们认为,就目前而言,这是一种充分的机制,可以将我们认为采取正确方法的公司和没有采取正确方法的公司区分开来——因为,老实说,那些没有采取这种方法的公司对此非常坦诚。

市面上有大量生成式人工智能模型,其中一些是由世界上最大的科技公司制造的。您已经认证了其中九个——全部来自相对较小的公司。这是为什么?

我故意选择了规模较小的人工智能公司,因为一般来说,对于这类事情,它们可以更快地行动。您不会遇到在一些规模较大的公司中遇到的那种繁文缛节。

话虽如此,当然,很明显,当今许多最大的生成式人工智能公司都无法获得认证,因为它们不符合此标准。

您认证的所有第一个模型都涉及音乐、音频或图像。没有一个生成文本。在开发人工智能聊天机器人的过程中,是否存在某些内在因素使其更难获得认证?

据我所知,目前没有任何大型语言模型可以获得认证。甚至没有人接近发布一个模型,其中所有文本都是许可的或公共领域的,或在正确的开源许可下。生成式人工智能的支持者中有一种思想流派认为,这一切都是合理使用,他们应该尽可能多地获取数据。这包括抓取互联网并获取他们可以获得的所有文本。

不幸的是,在过去一年半或两年中,这一直是文本生成和许多生成式人工智能的发展方向——部分原因是这是一场尽快开发最大和最佳模型、尽可能多地获得资金、成为该领域主要参与者的竞赛。坦率地说,这是因为人们认为他们可以逃脱惩罚。

2022 年,您使用 LLM 为钢琴创作了合唱伴奏,您称之为首部以生成式人工智能文本为背景的已出版古典音乐作品。(该作品由 Voces8 乐团在去年 8 月伦敦音乐会上演出并播出。)以您现在的了解,您还会再做同样的事情吗?

我想我不会,老实说。当时一切都非常实验性。没有人真正知道会发生什么。

我应该说:我支持生成式人工智能。我认为生成式人工智能是一件伟大的事情。我可能会将其用于我认为它非常有用的用途之一,即作为创意火花,作为灵感。

向我描述生成式人工智能的未来,在这个未来中,它可以与人类艺术家和创作行为和平共处。

世界上有很大一部分人对从头开始创作材料感到非常兴奋——所有在 Twitter [现在称为 X] 上使用 Midjourney 的人,你知道,以 侠盗猎车手的风格重新想象一些绘画。我认为这一切都是浪费时间。

令人兴奋的未来在于这项技术作为辅助技术的功能...... 当你开始想象这项技术在教育系统中的应用时,你实际上可以实现创造力的民主化,如果你可以开始为人们提供基本上个性化的辅导——可扩展、廉价、个性化的辅导来教他们如何制作东西——尤其是在音乐等领域,而音乐教育在资金方面一直在下降,在我来自的英国就是如此。

但我认为这应该以尊重训练数据背后的创作者的方式来完成。训练数据是构建这些系统所需的三种关键资源之一:你需要训练数据、你需要 GPU [图形处理单元,擅长同时运行多个计算的芯片],并且你需要人工智能人才。人们正在投入数百万美元用于后两者。我不明白,在试图免费获得另一项关键资源的情况下,如何证明这是合理的,没有这项资源,这些系统将无法工作。

本·瓜里诺大众科学的副技术编辑。他撰写和编辑有关人工智能、机器人技术以及我们与工具关系的故事。此前,他曾在大众科学担任科学编辑,并在华盛顿邮报担任专职作家,在那里他报道了新冠疫情大流行、科学政策和虚假信息(以及恐龙骨骼和水熊)。他拥有宾夕法尼亚大学的生物工程学位和纽约大学科学、健康和环境报道项目的硕士学位。

更多作者:本·瓜里诺
© . All rights reserved.