Facebook 能否使用 AI 对抗网络欺凌?

检测社交媒体上辱骂性帖子和评论的任务并非完全是技术性的

以下文章经 The Conversation 许可转载,The Conversation 是一家报道最新研究的在线出版物。

Facebook 发布了关于其社交媒体网络上辱骂行为的统计数据,删除了超过 2200 万个违反其禁止色情和仇恨言论规则的帖子,并删除或添加了另外 350 万个关于暴力的帖子的警告。其中许多帖子是由监控用户活动的自动化系统检测到的,这与首席执行官马克·扎克伯格向国会表示他的公司将使用人工智能来识别可能违反公司政策的社交媒体帖子相符。作为一名研究 AI 和对抗性机器学习的学者,我可以肯定地说,他承认了重大的挑战是正确的:“判断某些内容是否为仇恨言论在语言上非常微妙。”

检测社交媒体上辱骂性帖子和评论的任务并非完全是技术性的。即使是 Facebook 的人工审核员在定义仇恨言论方面也存在困难不一致地应用公司准则,甚至推翻他们的决定(尤其是在这些决定成为头条新闻时)。此外,施虐者会调整策略以避免被检测到——就像电子邮件垃圾邮件发送者试图通过在邮件中将“伟哥”替换为“伟@哥”来逃避检测一样。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业: 订阅。 通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


如果攻击者试图利用机器学习系统来对抗自身——污染算法学习的数据以影响其结果,则可能会出现更多复杂情况。例如,有一种称为“Google bombing”的现象,人们创建网站并构建一系列网络链接,以试图影响 Google 搜索算法的结果。类似的“数据投毒”攻击可能会限制 Facebook 识别仇恨言论的努力。

欺骗机器学习

机器学习人工智能的一种形式,已被证明在检测多种欺诈和滥用行为方面非常有用,包括电子邮件垃圾邮件网络钓鱼诈骗信用卡欺诈虚假产品评论。当有大量数据可用于识别可以可靠地将正常、良性行为与恶意活动区分开来的模式时,它的效果最佳。例如,如果人们使用电子邮件系统将大量包含“紧急”、“投资”和“付款”等词语的消息报告为垃圾邮件,那么机器学习算法将更可能将未来包含这些词语的消息标记为垃圾邮件。

检测社交媒体上的辱骂性帖子和评论是一个类似的问题:算法会寻找与辱骂或非辱骂行为相关的文本模式。这比阅读每条评论更快,比简单地执行关键词搜索来查找诽谤性言论更灵活,也比等待投诉更主动。除了文本本身,通常还有来自上下文的线索,包括发布内容的用户及其其他行为。拥有百万粉丝的经过验证的 Twitter 帐户与没有粉丝的新创建的帐户可能会受到不同的对待。

然而,随着这些算法的开发,施虐者也会调整策略,改变他们的行为模式以避免被检测到。自从电子邮件垃圾邮件中出现字母替换以来,每一种新的媒介都衍生出自己的版本:人们购买 Twitter 粉丝、有利的亚马逊评论Facebook 点赞,所有这些都是为了欺骗算法和其他人,让他们认为自己更可靠。

因此,检测滥用行为的一个重要部分是创建一个关于什么是问题的稳定定义,即使表达滥用行为的实际文本发生变化。这为人工智能提供了一个机会,可以有效地进入一场针对自身的军备竞赛。如果 AI 系统可以预测攻击者可能做什么,则可以对其进行调整以模拟执行该行为。另一个 AI 系统可以分析这些行为,学习检测施虐者试图将仇恨言论偷偷绕过自动化过滤器的努力。一旦攻击者和防御者都可以被模拟,博弈论就可以确定他们在这种竞争中的最佳策略。

数据投毒

施虐者不必只改变自己的行为——通过用不同的字符替换字母或以编码方式使用单词或符号。他们还可以改变机器学习系统本身。

因为算法是根据人类生成的数据进行训练的,所以如果足够多的人以特定的方式改变他们的行为,系统将学到与其创建者意图不同的教训。例如,在 2016 年,微软推出了“Tay”,这是一个 Twitter 机器人,旨在与其他 Twitter 用户进行有意义的对话。相反,网络喷子用仇恨和辱骂性消息淹没了该机器人。当机器人分析该文本时,它开始以同样的方式回复——并很快被关闭。

很难确定何时人类生成的数据会导致 AI 表现不佳。如果可能,最好的防御方法是让人类向系统添加约束,例如删除被认为是性别歧视的语言模式。还可以通过测量在单独的、精选的数据集上的准确性来检测数据投毒:如果新模型在受信任的数据上表现不佳,那么这可能意味着新的训练数据是坏的。最后,通过删除异常值(与其余训练数据非常不同的数据点)可以降低投毒的有效性。

当然,没有机器学习系统是完美的。与人类一样,计算机应被用作打击滥用行为的更大努力的一部分。即使是电子邮件垃圾邮件,作为机器学习的一个重大成功,也不仅仅依赖于好的算法:新的互联网通信标准使垃圾邮件发送者在发送消息时更难隐藏其身份。此外,联邦法律,例如 2003 年的 CAN-SPAM 法案,为商业电子邮件设定了标准,包括对违规行为的处罚。同样,解决网络欺凌可能需要新的标准和政策,而不仅仅是更智能的人工智能。

本文最初发表于 The Conversation。阅读原文

© . All rights reserved.