会话式计算机

使计算机自然说话的努力将使机器更好地沟通意义

关于支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。

如今，给一家大公司打电话，您可能会首先与计算机进行对话。直到最近，这种自动电话语音系统还只能将预先录制的短语串在一起。想想机器人般的声音“您拨打的号码... 5 ... 5 ... 5 ... 1 ... 2 ... 1 ... 2 ...”。不幸的是，这种生硬的计算机语音让人感到冷淡。而且由于这些系统无法偏离其预设的短语，因此它们的能力受到限制。

在过去十年中，计算机生成的语音得到了改进，变得更加清晰易懂且更易于收听。但是研究人员现在面临着一个更加艰巨的挑战：使合成语音更接近真人语音——例如，通过赋予其调节音调和表情的能力——以便它可以更好地传达意义。这个难以实现的目标需要深入了解语音的组成部分以及人的音量、音高、 timing 和强调的细微影响。这是我们在 IBM 的研究小组以及其他美国公司（例如 AT&T、Nuance、Cepstral 和 ScanSoft）以及包括卡内基梅隆大学、加州大学洛杉矶分校、麻省理工学院和俄勒冈研究生院等机构的研究人员的目标。与早期的短语拼接方法一样，最新一代的语音技术——我们的版本代号为 IBM Natural Expressive Speech Synthesizer，或 NAXPRES Synthesizer——基于人类说话者的录音，并且可以实时响应。不同之处在于，新系统可以说任何话——包括录音说话者从未说过的听起来自然的词语。