这个机器人真的会说唱

深度学习机器人 Shimon 实时创作和押韵

如果你的数字助手可以进行说唱对战会怎么样？这听起来可能有些牵强，但佐治亚理工学院的音乐技术专家吉尔·温伯格已经改造了一个名为Shimon的音乐机器人，使其能够实时创作歌词和表演。这意味着它可以与人类进行说唱“对话”，甚至可以帮助他们创作自己的歌词。Shimon 的设计初衷是听起来像机器（在此收听），它旨在成为独一无二的音乐合作者——或非人类的说唱对战对手。

计算机生成音乐可以追溯到 20世纪50年代，当时早期的计算机使用算法来创作旋律。现代机器人可以使用机器学习在乐器上即兴演奏，包括长笛和鼓。其中一台机器是早期版本的 Shimon，它可以演奏马林巴琴和唱歌。最近更新的机器人外观相同；它仍然由一个球形的“头部”组成，在机械臂的末端，头部上方是带有调皮可动眉毛的遮阳板覆盖的眼睛。但现在温伯格声称 Shimon 是第一个涉足说唱的即兴机器人，其独特的风格特征带来了独特的编程挑战。

说唱的桂冠在于歌词。除了语义内容之外，歌词还需要符合美观的节拍和节奏，同时还要传递多层次的诗意复杂性。在最近发表于第 11 届国际计算创造力会议 2020论文集中的一篇论文中，温伯格的研究团队概述了使说唱 Shimon 成为现实的技术进步。

支持科学新闻报道

如果您喜欢这篇文章，请考虑支持我们屡获殊荣的新闻报道，方式是订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。

当 Shimon 进行说唱对战时，软件会将其人类对手口语化的歌词转换为文本。机器人的系统从此文本中识别关键词，并根据 Shimon 接受过训练的几个自定义词汇数据集（使用深度学习模型）生成新的歌词。这些数据集可以来自任何文本：Lil Wayne、JAY-Z 或其他说唱歌手的作品；来自其他流派的歌词；甚至非音乐文学作品。想象一下莎士比亚或简·奥斯汀说唱起来会是什么样子；Shimon 可以为您模拟。

Shimon 设计的一个新颖之处，其创造者说，是额外使用了音素数据集来构思新歌词。音素是构成单词发音的独特单元。论文的第一作者、佐治亚理工学院的音乐技术专家理查德·萨弗里说，将关键词分解为这些单元是将韵律融入歌词的最有效方法。“单词之间音素的关系非常重要，”萨弗里解释说，有时甚至“比单词的实际含义更重要”。音素训练数据集使 Shimon 能够生成以关键词为中心的押韵短语，然后机器人将节奏节拍叠加到其语音上。

Shimon 的系统必须足够快，才能实时响应，而不会影响性能质量。为了实现这一点，研究人员做出了几个艰难的编程决定，例如将 Shimon 的响应词汇量限制在 3,000 个单词左右，并缩短 Shimon “倾听” 对手的时间长度。到目前为止，Shimon 可以在不到七秒的时间内说唱反击，同时即兴做出诸如摇头和挑眉等手势。硬件升级，例如更强大的图形处理单元，最终将使该过程更快。

普雷姆·西塔拉曼说，Shimon 技术的任何单个组件都不是全新的——但这种特殊的零件组合是全新的，他是科技初创公司 Descript的研究科学家，他没有参与该项目。“总的来说，该领域被相当孤立地划分为不同的事物，例如语音转文本、文本转语音、音乐，”西塔拉曼说。“该领域正在接近一个足够好的复杂程度，以便人们能够采用这些[组件]并将它们连接在一起，形成真正有趣的交互式系统。”

除了 Shimon 的新颖价值之外，温伯格还希望他的机器人能够为人们提供尝试新型音乐的机会。“如果 [Shimon] 在没有人类的情况下做自己的事情……作为一个完全自主的音乐系统，对我来说没有意义，”他说。他的目标是看到他的机器人“与 [人类] 交流和互动，并以令人惊讶的方式启发他们。” 温伯格以前从未写过歌词，但他说 Shimon 使他第一次创作歌曲。他补充说，他甚至收到了来自患有写作障碍的作词家的帮助请求。

西塔拉曼本人也是一位业余音乐家，他也表示对 Shimon 的技术可能为非音乐家提供的可能性感到兴奋。“使用人工智能的工具可以降低进入艺术领域的门槛，”他说。“人们一直在这样做：您会看到人们制作 Instagram 故事和 TikTok [视频]。”

然而，专业人士有一些保留意见。里斯·兰斯顿是一位说唱歌手和多媒体艺术家，他没有参与该项目，他说他很乐意与 Shimon 一起说唱，尤其是在 COVID-19 大流行限制了兰斯顿从中获得大部分灵感的面对面互动之后。他说人工智能可以取得的成就是令人印象深刻的——但也暗示机器人根本无法获得有时会从人类错误等事物中偶然产生的灵感。兰斯顿解释说，在录音过程中，错误有时最终会出现在最终录音中，因为它们听起来出奇地好。事故“解锁了可能性，因为[录音中的]一切都不是计划好的，”他说。“你能教机器犯错吗？”