科技研究公司 OpenAI 刚刚发布了其文本生成人工智能程序的更新版本,名为 GPT-4,并展示了该语言模型的一些新功能。GPT-4 不仅可以生成更自然的文本,解决问题的准确性也高于其前身。它还可以处理图像以及文本。但该 AI 仍然容易受到早期 GPT 模型存在的一些相同问题的困扰:表现出偏见,越过旨在防止其说出冒犯性或危险言论的护栏,以及“幻觉”,即自信地编造其训练数据中未发现的虚假信息。
OpenAI 首席执行官山姆·奥特曼在 Twitter 上将该模型描述为该公司迄今为止“功能最强大且最符合人类价值观”的模型。(“符合人类价值观”意味着它旨在遵循人类伦理。)但他在推文中写道,“它仍然存在缺陷,仍然受到限制,而且初次使用时似乎比花更多时间使用后更令人印象深刻。”
也许最重要的变化是 GPT-4 是“多模态”的,这意味着它可以处理文本和图像。虽然它不能输出图片(就像 DALL-E 和 Stable Diffusion 等生成式 AI 模型一样),但它可以处理并响应它接收到的视觉输入。匹兹堡大学英语副教授 Annette Vee 研究计算与写作的交叉领域,她观看了演示,其中新的模型被告知要识别幽默图像的有趣之处。能够做到这一点意味着“理解图像中的上下文。它理解图像是如何构成的,为什么构成,并将其与对语言的社会理解联系起来,”她说。“ChatGPT 无法做到这一点。”
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
对于视力障碍或失明人士来说,具有分析然后描述图像能力的设备可能非常有价值。例如,一款名为 Be My Eyes 的移动应用程序可以描述用户周围的物体,帮助视力低下或失明人士解读周围环境。该应用程序最近将 GPT-4 整合到“虚拟志愿者”中,根据 OpenAI 网站上的声明,“可以生成与人类志愿者相同水平的背景知识和理解。”
但 GPT-4 的图像分析不仅仅是描述图片。在 Vee 观看的同一演示中,一位 OpenAI 代表草绘了一个简单网站的图像,并将该草图提供给 GPT-4。接下来,该模型被要求编写生成这样一个网站所需的代码——它做到了。“它看起来基本上就像图像的样子。它非常非常简单,但效果非常好,”南加州大学研究副教授乔纳森·梅说。“所以这很酷。”
即使没有多模态能力,新程序在需要推理和解决问题的任务中也优于其前身。OpenAI 表示,它已经对 GPT-3.5 和 GPT-4 进行了各种专为人类设计的测试,包括律师资格考试模拟、高中生的 SAT 和大学预修课程考试、大学毕业生的 GRE,甚至还有几项侍酒师考试。GPT-4 在许多这些基准测试中取得了人类水平的分数,并且始终优于其前身,尽管它并非在所有方面都表现出色:例如,它在英语语言和文学考试中表现不佳。尽管如此,其广泛的问题解决能力可以应用于许多实际应用——例如管理复杂的日程安排、查找代码块中的错误、向外语学习者解释语法细微差别或识别安全漏洞。
此外,OpenAI 声称新模型可以解释和输出更长的文本块:一次超过 25,000 个单词。尽管以前的模型也用于长篇应用,但它们经常会忘记自己正在谈论什么。该公司还吹捧新模型的“创造力”,将其描述为以特定风格生成不同类型艺术内容的能力。在比较 GPT-3.5 和 GPT-4 如何模仿阿根廷作家豪尔赫·路易斯·博尔赫斯英文翻译风格的演示中,Vee 指出,更新的模型产生了更准确的尝试。“你必须对上下文有足够的了解才能判断它,”她说。“本科生可能不明白为什么它更好,但我是英语教授……。如果你从你自己的知识领域理解它,并且它在你自己的知识领域中令人印象深刻,那么这才是令人印象深刻的。”
梅也亲自测试了该模型的创造力。他尝试了一项有趣的任务,即命令它创建一个“反义首字母缩略词”(通过从缩写版本开始并向后推导而得出的首字母缩略词)。在这种情况下,梅要求为他的实验室起一个可爱的名字,该名字将拼写出“CUTE LAB NAME”,并且还要准确地描述他的研究领域。GPT-3.5 未能生成相关的标签,但 GPT-4 成功了。“它想出了‘计算理解和表达语言分析的转换,桥接 NLP、人工智能和机器教育’,”他说。“‘机器教育’不太好;‘智能’部分意味着那里有一个额外的字母。但老实说,我见过更糟糕的。”(作为背景,他实验室的实际名称是 CUTE LAB NAME,即基于自然和有意义的证据增强语言应用的有用技术中心)。在另一项测试中,该模型显示了其创造力的局限性。当梅要求它写一种特定的十四行诗——他要求使用意大利诗人彼特拉克的诗歌形式——该模型不熟悉那种诗歌结构,默认使用了莎士比亚偏爱的十四行诗形式。
当然,修复这个特定问题相对简单。GPT-4 只需要学习另一种诗歌形式。事实上,当人类诱使模型以这种方式失败时,这有助于程序开发:它可以从非官方测试人员输入系统的一切内容中学习。与其不太流利的前身一样,GPT-4 最初是在大量数据上训练的,然后通过人类测试人员对其训练进行改进。(GPT 代表生成式预训练转换器。)但 OpenAI 一直对其如何使 GPT-4 优于 GPT-3.5(为该公司流行的 ChatGPT 聊天机器人提供支持的模型)保持神秘。根据与新模型发布一起发布的论文,“鉴于竞争格局以及 GPT-4 等大规模模型的安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息。” OpenAI 缺乏透明度反映了这种新出现的竞争激烈的生成式 AI 环境,其中 GPT-4 必须与谷歌的 Bard 和 Meta 的 LLaMA 等程序竞争。然而,该论文继续暗示,该公司计划最终与第三方分享此类详细信息,“他们可以就如何在竞争和安全考虑因素……与进一步透明化的科学价值之间进行权衡向我们提供建议。”
这些安全考虑因素很重要,因为更智能的聊天机器人有能力造成危害:如果没有护栏,它们可能会向恐怖分子提供如何制造炸弹的说明,为骚扰活动制作威胁性消息,或向试图影响选举的外国特工提供虚假信息。尽管 OpenAI 对其 GPT 模型允许说些什么施加了限制,以避免此类情况,但坚定的测试人员已经找到了绕过这些限制的方法。“这些东西就像瓷器店里的公牛——它们很强大,但它们很鲁莽,”科学家兼作家加里·马库斯在 GPT-4 发布前不久告诉大众科学。“我不认为[版本]四会改变这一点。”
这些机器人越像人类,它们就越擅长欺骗人们认为计算机屏幕背后有一个有感知能力的代理。“因为它通过语言如此出色地模仿了[人类推理],我们相信这一点——但在外表之下,它并没有以任何类似于人类的方式进行推理,”Vee 警告说。如果这种错觉欺骗人们相信 AI 代理正在执行类似人类的推理,他们可能会更轻易地相信其答案。这是一个严重的问题,因为仍然无法保证这些回答是准确的。“仅仅因为这些模型说了任何话,并不意味着它们所说的是[真的],”梅说。“这些模型没有从中提取答案的数据库。”相反,像 GPT-4 这样的系统一次生成一个单词的答案,最有可能的下一个单词由它们的训练数据告知——而且 训练数据可能会过时。“我相信 GPT-4 甚至都不知道它是 GPT-4,”他说。“我问过它,它说,‘不,不,没有 GPT-4 这种东西。我是 GPT-3。’”
现在该模型已经发布,许多研究人员和 AI 爱好者有机会探索 GPT-4 的优势和劣势。想要在其他应用程序中使用它的开发人员可以申请访问权限,而任何想要与该程序“交谈”的人都必须订阅 ChatGPT Plus。每月 20 美元,这项付费计划允许用户选择与运行在 GPT-3.5 上的聊天机器人或运行在 GPT-4 上的聊天机器人交谈。
此类探索无疑将揭示 GPT-4 的更多潜在应用——和缺陷。“真正的问题应该是‘人们在最初的震惊之后,两个月后会对此有何感受?’”马库斯说。“我的部分建议是:让我们通过意识到我们以前看过这部电影来缓和我们最初的热情。制作某事物的演示总是很容易的;将其变成真正的产品很难。如果它仍然存在这些问题——围绕幻觉、不真正理解物理世界、医学世界等——那仍然会在某种程度上限制其效用。而且这仍然意味着你必须仔细注意它是如何使用的以及用于什么目的。”