大约10个月前,OpenAI的ChatGPT首次向公众发布。它的出现开启了人工智能头条新闻不断的时代,并加速了谷歌、Meta和其他科技巨头竞争性大型语言模型(LLM)的开发。自那时以来,这些聊天机器人已经展示了生成文本和代码的强大能力,尽管并非总是准确。现在,能够解析文本以及图像、音频等的的多模态AI正在兴起。
OpenAI上周首次向付费用户发布了由其LLM GPT-4驱动的ChatGPT多模态版本,此前该公司首次宣布这些功能已过去数月。谷歌早在5月份就开始将与新型GPT-4提供的类似图像和音频功能整合到其LLM驱动的聊天机器人Bard的某些版本中。Meta也在今年春天宣布在多模态方面取得了重大进展。尽管这项新兴技术尚处于起步阶段,但它已经可以执行各种任务。
多模态AI能做什么?
支持科学新闻事业
如果您喜欢这篇文章,请考虑订阅来支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您将帮助确保未来能够继续发布关于塑造我们当今世界的发现和想法的具有影响力的报道。
《大众科学》测试了两款依赖于多模态LLM的不同聊天机器人:由更新后的GPT-4驱动的ChatGPT版本(被称为GPT-4视觉版或GPT-4V)和Bard,后者目前由谷歌的PaLM 2 模型驱动。两者都可以仅使用音频进行免提语音对话,并且可以描述图像中的场景并解读图片中的文本行。
这些能力有无数的应用。在我们的测试中,仅使用一张收据的照片和一个两行提示,ChatGPT就准确地拆分了一张复杂的酒吧账单,并计算出四个人中每个人应付的金额——包括小费和税费。总共,这项任务花费不到30秒。Bard的表现也几乎一样好,但它将一个“9”解释为“0”,从而弄错了最终总额。在另一次试验中,当给出装满书的书架照片时,两款聊天机器人都对假设主人的性格和兴趣提供了详细的描述,几乎就像AI生成的星座运势。两者都从一张照片中识别出了自由女神像,推断出图像是从曼哈顿下城的一间办公室拍摄的,并提供了从摄影师的原始位置到地标的准确方向(尽管ChatGPT的指导比Bard的更详细)。在从照片中准确识别昆虫方面,ChatGPT也优于Bard。
.jpg?w=900)
基于这张盆栽植物的照片,两款多模态AI驱动的聊天机器人——OpenAI的ChatGPT(GPT-4V驱动的版本)和谷歌的Bard——准确地估计了容器的大小。图片来源:Lauren Leffer
对于残疾人群体来说,这项技术的应用尤其令人兴奋。今年3月,OpenAI开始通过Be My Eyes公司测试其GPT-4的多模态版本,该公司通过同名应用程序为盲人和低视力人群提供免费描述服务。早期试验进展顺利,Be My Eyes目前正在向其所有用户推出AI驱动版本的应用程序。“我们收到了非常出色的反馈,”Be My Eyes的首席技术官Jesper Hvirring Henriksen说。起初,存在许多明显的问题,例如文本转录质量差或包含AI幻觉的不准确描述。Henriksen表示,OpenAI已经改进了最初的这些缺点——错误仍然存在,但已不那么常见。因此,“人们正在谈论重新获得独立性,”他说。
多模态AI是如何工作的?
在这波新的聊天机器人浪潮中,工具超越了文字。然而,它们仍然基于建立在语言之上的人工智能模型。这怎么可能呢?尽管各个公司不愿分享其模型的确切基础,但这些公司并不是唯一从事多模态人工智能研究的群体。其他AI研究人员对幕后发生的事情有相当好的了解。
斯坦福大学兼职教授Douwe Kiela表示,从纯文本LLM到能够响应视觉和音频提示的AI,主要有两种方法。Kiela在斯坦福大学教授机器学习课程,同时也是Contextual AI公司的首席执行官。Kiela解释说,在更基本的方法中,AI模型本质上是彼此堆叠的。用户将图像输入聊天机器人,但图片会通过一个单独的AI进行过滤,该AI专门用于生成详细的图像描述。(谷歌多年来一直拥有这样的算法。)然后,文本描述被反馈给聊天机器人,后者响应翻译后的提示。
相比之下,“另一种方法是更紧密的耦合,”Kiela说。计算机工程师可以通过组合每个模型底层的计算机代码基础设施,将一个AI算法的片段插入到另一个算法中。根据Kiela的说法,这“有点像将树的一部分嫁接到另一棵树干上。”从那里,嫁接模型在多媒体数据集上进行重新训练——包括图片、带有标题的图像和单独的文本描述——直到AI吸收了足够的模式,能够准确地将视觉表示和文字联系起来。这比第一种策略更耗费资源,但它可以产生更强大的AI。Kiela推测,谷歌在Bard中使用了第一种方法,而OpenAI可能依赖第二种方法来创建GPT-4。这个想法可能解释了两种模型之间功能上的差异。
无论开发人员如何融合他们不同的AI模型,在底层,都在发生相同的通用过程。LLM基于预测短语中下一个单词或音节的基本原理运作。为了做到这一点,它们依赖于“transformer”架构(GPT中的“T”)。卡内基梅隆大学计算机科学家Ruslan Salakhutdinov说,这种类型的神经网络将书面句子等内容转换为一系列以向量表示的数学关系。对于transformer神经网络来说,句子不仅仅是一串单词——它是一个映射上下文的连接网络。这产生了更像人类的机器人,它们可以处理多种含义、遵循语法规则和模仿风格。为了组合或堆叠AI模型,算法必须将不同的输入(无论是视觉、音频还是文本)转换为相同类型的向量数据,才能产生输出。Salakhutdinov说,在某种程度上,这就像是把两组代码“教会它们互相交谈”。反过来,人类用户可以用新的方式与这些机器人交谈。
接下来会发生什么?
许多研究人员将现在视为可能性的开始。一旦你开始协调、整合和改进不同类型的人工智能,快速的进步必将持续到来。Kiela设想,在不久的将来,机器学习模型可以轻松地响应、分析和生成视频甚至气味。Salakhutdinov怀疑,“在未来五到十年内,你将拥有自己的个人AI助手。” 这样一个程序将能够在收到一个简短的提示后,处理从完整的客户服务电话到复杂的研究任务的一切事情。
.jpg?w=900)
作者将这张书架图片上传到GPT-4V驱动的ChatGPT,并要求它描述书的主人。聊天机器人描述了展示的书籍,并回应道:“总的来说,这个人可能喜欢探索深刻主题、社会问题和个人叙事的优秀文学作品。他们似乎既有求知欲,又具有社会意识。” 图片来源:Lauren Leffer
多模态AI与通用人工智能不同,通用人工智能是机器学习的圣杯目标,即计算机模型超越人类的智力和能力。斯坦福大学计算机科学家James Zou说,多模态AI是朝着通用人工智能迈出的“重要一步”。人类拥有一系列交织在一起的感官,通过这些感官我们理解世界。据推测,要达到通用人工智能,计算机也需要具备相同的能力。
Zou说,尽管多模态模型令人印象深刻和兴奋,但它们与单模态的前辈们有许多相同的问题。“一个巨大的挑战是幻觉问题,”他指出。“如果AI助手随时可能伪造信息,我们如何信任它呢?” 接下来是隐私问题。对于诸如语音和视觉等信息密集型输入,甚至更敏感的信息可能会在不经意间被输入到机器人,然后在泄漏中被泄露或在黑客攻击中被泄露。
Zou仍然建议人们尝试使用这些工具——但要谨慎。“直接将您的医疗记录放入聊天机器人可能不是一个好主意,”他说。