人类本能地就能理解讽刺,通常不需要帮助就能判断,比如,社交媒体帖子是否带有嘲讽的语气。机器在这方面则困难得多,因为它们的程序通常是严格地根据看到的内容来阅读文本和评估图像。那么,这有什么大不了的呢?如果计算机科学家能帮助机器更好地理解社交媒体和互联网上的文字游戏,那就没什么问题了。而且,看起来他们可能正处于即将做到这一点的边缘。
这正是你所需要的——一个讽刺检测引擎,可以帮助营销人员判断你是在赞扬还是嘲讽他们的产品,并调整他们的信息以向你推销更多的东西。然而,推广者表示,更精明的计算机还可以帮助执法机构区分合法的威胁和那些夸大其词或拿严肃话题开玩笑的威胁,尤其是在使用图像的 Twitter、Instagram 和 Tumblr 帖子中。它甚至可能帮助自动化客户服务系统弄清楚你感到沮丧,并将你转接到真人,或者让政客感知他们的信息是否引起了选民的共鸣。
都灵大学计算机科学助理教授罗萨诺·斯基法内拉(Rossano Schifanella)和互联网公司雅虎(Yahoo!)的一组同事正在尝试教机器理解人类并不总是字面意思。他们研究的新颖之处在于,本月早些时候在科学出版网站 ArXiv 上发布的这项研究,他们同时检查图像和文本,以寻找理解含义的线索。“我们观察到,如果你只看文本,这是不够的,”斯基法内拉说。“图像提供了至关重要的背景信息。”
支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。
斯基法内拉确信讽刺确实很重要,他指出,公司或机构可以使用自动嘲讽检测来更好地衡量公众对其产品或形象的看法。例如,如果共和党总统候选人唐纳德·特朗普的竞选团队在正式发布特朗普-彭斯徽标之前在社交媒体上进行了测试,他们本可以为竞选活动省去很多麻烦。《Twitterverse 上一片欢腾》,当竞选活动在 7 月份揭示该设计时,一位评论员问我们该如何向我们的孩子解释具有暗示意味的 T 和 P 的互锁。
描述我们如何理解讽刺有时很困难,因为它取决于很多共享的知识。例如,一张雪景照片,配上“天气真好”的标题,可能会被字面理解——除非人们足够了解发推特或 Instagram 的人,以理解他们更喜欢热带海滩度假。
为了解决将这种微妙之处转换为数字形式的问题,该团队转向了人类。斯基法内拉与雅虎(主要资助了这项研究)的研究人员帕洛玛·德·胡安(Paloma de Juan)、乔尔·特特罗(Joel Tetreault)和 曹亮亮(Liangliang Cao)合作,创建了一个众包工具,要求来自多个英语国家的人们将社交媒体帖子标记为讽刺或非讽刺。他们首先评估仅限文本的陈述,然后评估带有图像的陈述。参与者对哪个帖子具有讽刺意味并不总是意见一致,但研究人员发现,在大多数情况下,视觉图像的存在有助于识别反讽的信息。无论是否存在图像,参与者给出讽刺意味的语言线索包括文字游戏——使用“我真——的——喜欢这天气”而不是“我喜欢这天气”——以及标点符号,尤其是感叹号(!)。
然后,研究人员编写了一种计算机算法,以数学方式表示人类教给他们的内容。这使得机器可以使用该基线数据来查看新的帖子并判断它们是否具有讽刺意味。通过组合各种特征,该机器在 80% 到 89% 的情况下可以识别出讽刺。结果有一些变化,具体取决于平台(Twitter、Instagram 或 Tumblr)以及用于检测讽刺的特征类型。例如,仅使用视觉语义(人类从大型数据库中对图像进行分类的方式的数学表示)时,准确率降至 61%。
据现在是 Grammarly 研究主管的特特罗说,改进的计算机处理能力和大型社交网络使这种类型的机器学习成为可能,该公司提供在线语法和拼写检查程序。更强大的机器可以更好地处理这种基于神经网络的学习,而社交网络则提供数据。特特罗用学习打棒球做类比,他说:“一个孩子看比赛[可能]不知道规则,但最终他看得足够多,他会发现用力击球是好事。”
该领域的其他科学家表示,这项工作是帮助计算机理解自然语言的重要一步。“讽刺或反讽需要上下文的概念。它与垃圾邮件甚至[文本]情感分析截然不同,”东北大学计算机与信息科学学院助理教授 拜伦·华莱士(Byron Wallace) 说,他没有参与都灵-雅虎项目。“试图结合一些上下文概念;这就是这件事的酷之处。”
计算机的行为更像人类——这正是我们所需要的。