很少有计算机科学的突破能在如此短的时间内取得如此大的成就,就像被称为 Transformer 的人工智能设计一样。Transformer 是一种深度学习形式——一种基于大脑网络的机器模型——Google 的研究人员在 2017 年首次提出。七年后,Transformer 使 ChatGPT 和其他聊天机器人能够快速生成复杂的输出以响应用户提示,是正在进行的 AI 繁荣的动力。尽管这种 AI 设计已被证明非常出色,但如果可以在量子计算机上运行它会怎么样呢?
这听起来可能像是某个兴奋的技术投资者提出的令人喘不过气的混搭。但量子计算研究人员现在实际上出于纯粹的好奇心和让计算机做新事物的执着愿望,正在问这个问题。最近发表在《Quantum》杂志上的一项新研究使用简单的硬件表明简陋的量子 Transformer 确实可以工作,暗示更发达的量子 AI 组合可能解决包括加密和化学在内的关键领域中的重要问题——至少在理论上是这样。
Transformer 的超能力在于它能够辨别输入的哪些部分比其他部分更重要,以及这些部分之间的联系有多紧密。以句子“She is eating a green apple.”为例。Transformer 可以挑出句子的关键词:“eating”、“green” 和 “apple”。然后,基于在其训练数据中识别出的模式,它会判断“eating”这个动作与颜色 “green” 几乎无关,但与对象 “apple” 关系更大。计算机科学家将此功能称为“注意力机制”,这意味着它最关注句子中最重要的词、图像中的像素或序列中的蛋白质。注意力机制模仿了人类处理语言的方式,执行一项对于大多数幼儿来说都很基本,但直到 ChatGPT 时代,计算机还在努力完成的任务。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。
注意力机制目前在配备强大处理器的超级计算机上运行,但它们仍然使用保存 0 或 1 值的基本二进制位。物理学家将这些描述为“经典”机器,其中也包括智能手机和 PC。另一方面,量子硬件利用量子力学的奇异性来解决对于经典计算机来说太不切实际的问题。这是因为量子位(也称为 qubits)可以作为 0、1 或 其他可能状态的频谱存在。那么,开发人员能否使用量子位构建更高级的注意力机制?悉尼科技大学的量子计算研究员 Christopher Ferrie 说:“量子计算机预计不会成为计算的万能药,但我们只有尝试了才知道。”他没有参与这项新研究。
这项研究的作者之一 Jonas Landman 此前曾制作过其他类脑 AI 设计的量子复制品,以便在量子硬件上运行。“我们想研究 Transformer,因为它们似乎是深度学习的最新技术,”Landman 说,他是爱丁堡大学和一家名为 QC Ware 的计算公司的量子计算研究员。在新研究中,他和他的同事改编了一个专为医学分析设计的 Transformer。他们从一个包含 1600 人视网膜图像的数据库中(有些是健康眼睛,有些是患有糖尿病引起的失明的人的视网膜),量子模型将每张图像分为五个级别之一,从没有损伤到最严重。
开发他们的量子 Transformer 是一个三步过程。首先,甚至在接触任何量子硬件之前,他们需要为 Transformer 设计一个量子电路——换句话说,量子程序的“代码”。他们制作了三个版本,每个版本在理论上都可以比经典 Transformer 更有效地集中注意力,正如数学证明所证明的那样。
在数学带来的信心的鼓舞下,研究作者在量子模拟器(一种在经典硬件上运行的量子位模拟器)上测试了他们的设计。模拟器避免了困扰当今真实量子计算机的一个问题,即量子计算机仍然对热、电磁波和其他干扰非常敏感,以至于量子位可能会变得混乱或完全无用。
在模拟器上,每个量子 Transformer 对一组视网膜图像进行分类,准确率在 50% 到 55% 之间——高于将视网膜随机分类到五个类别之一所能达到的 20% 的准确率。50% 到 55% 的范围与两个具有更复杂网络的经典 Transformer 实现的准确率水平(53% 到 56%)大致相同。
只有在此之后,科学家才能进入第三步:在真正的 IBM 制造的量子计算机上操作他们的 Transformer,一次最多使用六个量子位。这三个量子 Transformer 的性能仍然在 45% 到 55% 的准确率之间。
六个量子位并不多。为了使可行的量子 Transformer 与 Google 的 Gemini 或 OpenAI 的 ChatGPT 等聊天机器人巨头相媲美,一些研究人员认为计算机科学家必须创建一个使用数百个量子位的代码。这种尺寸的量子计算机已经存在,但由于涉及干扰和潜在错误,设计一个相对庞大的量子 Transformer 尚不实用。(研究人员尝试了更高的量子位数量,但没有看到同样的成功。)
该小组并非孤军奋战于 Transformer 的研究。去年,IBM 的托马斯·J·沃森研究中心的研究人员提出了一种称为图 Transformer 的 Transformer 类型的量子版本。在澳大利亚,Ferrie 的小组设计了自己的 Transformer 量子电路概念。该团队仍在进行 QC Ware 通过的第一步:在试用之前对设计进行数学测试。
但是,假设存在一台可靠的量子计算机——一台拥有 1000 多个量子位并且干扰在某种程度上保持在最低限度的计算机。那么,量子 Transformer 总是会具有优势吗?也许不会。量子 Transformer 和经典 Transformer 之间的正面比较不是正确的方法,因为两者可能具有不同的优势。
首先,经典计算机具有投资和熟悉的优势。量子计算公司 Xanadu 的软件主管 Nathan Killoran 说:“即使量子计算技术日趋成熟,量子计算机也需要很多年才能扩展到那种规模,而经典计算机在此期间不会停止发展。”他没有参与这项新研究。“经典机器学习非常强大且资金充足,以至于在我们有生之年,可能根本不值得用像量子计算这样的新兴技术完全取代它。”
此外,量子计算机和经典机器学习各自擅长不同类型的问题。现代深度学习算法检测其训练数据中的模式。量子位有可能学习编码相同的模式,但尚不清楚它们是否是该任务的最佳选择。这是因为当量子位要解决的问题是“非结构化”时,它们才能提供最大的优势,这意味着它的数据首先没有明确的模式可寻。想象一下,试图在没有字母顺序或任何顺序的电话簿中查找姓名;量子计算机可以在经典计算机所需时间的平方根时间内找到该单词。
但这两种选择并非互斥。许多量子研究人员认为,量子 Transformer 的理想位置将是作为经典-量子混合系统的一部分。量子计算机可以处理化学和材料科学中更棘手的问题,而经典系统则可以处理大量数据。量子系统也可能在生成数据方面被证明是有价值的——例如,解密的加密密钥,或尚不存在的材料的属性(这两者对于经典计算机来说都很难做到)——这反过来可以帮助训练经典 Transformer 执行现在仍然很大程度上无法访问的任务。
量子 Transformer 可能会带来其他好处。经典 Transformer 在目前使用的规模下消耗大量能量,以至于美国公用事业公司保持排放碳的燃煤电厂运转,仅仅是为了满足新数据中心的电力需求。量子 Transformer 的梦想也是更精简、更高效的机器的梦想,它可以减轻能源负担。