在20世纪60年代,人们曾对机器很快就能像人类一样思考抱有很大期望,但随后的几十年里进展停滞不前。直到过去十年左右,研究才有所进展,现在市场上已经有几种流行的产品,至少在识别口语方面做得还不错。对于德国帕绍大学复杂和智能系统教席教授兼主任比约恩·舒勒(Björn Schuller)来说,看着《霹雳游侠》—一部关于一辆会说话的汽车的电视剧—长大,这实现了他童年的幻想。舒勒是世界经济论坛青年科学家,他将于6月26日至28日在中国天津举行的世界经济论坛新领军者年会(夏季达沃斯论坛)上发表演讲。他最近谈到了机器很快就能理解人类语言怪癖、行为和情绪的可能性。
[以下是经过编辑的访谈记录。]
你是如何对机器智能和语音识别产生兴趣的?
我小时候看20世纪80年代的电视剧《霹雳游侠》,我非常认同机器应该与人类对话,并达到能够理解情感的程度。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。
Siri、Cortana、Echo和其他产品中使用的语音识别软件是如何工作的?
这包括两个部分。一部分是处理语音识别和合成,这传统上更多地植根于信号处理。另一部分是处理自然语言处理,这更多地基于文本信息和解释。从声音的声学特性来看,口语信号针对的是单词甚至单词的含义。因此,例如,Cortana和亚马逊Echo结合了这两件事,它们本质上是口语对话系统。它们可以在文本表示上控制声学信号,在文本表示中,它们试图从单词中理解正在发生的事情,并产生一连串的单词来说出有意义的内容。
这些技术的局限性是什么?
虽然它们目前的状态已经令人印象深刻,但在我看来,像Cortana、Siri和亚马逊Echo这样的系统在超越口语方面还非常欠缺。我的主要专业领域之一是副语言学。这是指声音或语言中任何可以提供说话者状态和特征的信息,例如情绪、说话者的个性、说话者的年龄、说话者的性别,甚至说话者的身高。当我们说话时,我们不仅仅是在听取彼此的意图,同时您可能也在听我的年龄或我的口音。
您对未来的进一步突破感到乐观吗?
在机器学习和人工智能领域,我们总是看到某种模式。每隔一段时间,该领域就会出现新的进步、新的成功和新的突破,这是意义重大的。然后,这些期望可能会在某种程度上令人失望。也许每10年就会有新的重大进步。
我现在对正在发生的一切感到非常兴奋,因为对我来说,自从我真正开始研究这个领域17年之后,看到口语对话系统找到了应用途径,这真是一个激动人心的时刻。我们很快就会看到系统获得情感和社交智能。我们累了吗?我们感冒了吗?我们现在在吃饭吗?这些事情确实为我们提供了各种关于机器理解、行为和社交行为的见解。这甚至可能成为社会的变革者。
本次采访是与世界经济论坛合作制作的。