人工智能如何学习识别网络 токсичное 内容

机器学习系统可以帮助标记 ненавистный、威胁性或冒犯性语言 

无论大小型社交平台都在努力保护其社区免受仇恨言论、极端主义内容、骚扰和虚假信息的侵害。最近,极右翼煽动者公开张贴了袭击美国国会大厦的计划,并在1月6日付诸行动。一种可能的解决方案是人工智能:开发算法来检测和提醒我们注意 токсичное 和煽动性评论,并标记它们以供删除。但是,此类系统面临着巨大的挑战。 

近年来,网络 ненавистный 或冒犯性语言的普遍性迅速增长,问题已变得十分猖獗。在某些情况下,网络 токсичное 评论甚至导致了现实生活中的暴力事件,从缅甸的宗教民族主义到美国的新纳粹宣传。社交媒体平台依赖成千上万的人工审核员,难以审核不断增加的有害内容量。据2019年报道,Facebook 审核员因反复接触此类令人痛苦的内容而面临患上 PTSD 的风险。将这项工作外包给机器学习可以帮助管理不断增长的有害内容量,同时限制人类接触有害内容。实际上,许多科技巨头多年来一直在将算法纳入其内容审核中。

谷歌的 Jigsaw 就是这样一个例子,这是一家专注于使互联网更安全的公司。2017年,它帮助创建了Conversation AI,这是一个旨在检测网络 токсичное 评论的合作研究项目。然而,该项目产生的一个工具Perspective却面临着大量的批评。一个常见的抱怨是,它创建了一个通用的“毒性评分”,不够灵活,无法满足不同平台的不同需求。例如,一些网站可能需要检测威胁,但不需要检测亵渎性语言,而另一些网站可能恰恰相反。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


另一个问题是,该算法学会将 токсичное 评论与包含与性别、性取向、宗教或残疾相关的词语的非 токсичное 评论混淆。例如,一位用户报告说,简单的中性句子,如“我是一个同性恋黑人女性”或“我是一个聋哑女性”导致了高 токсичное 评分,而“我是一个男人”则导致了低评分。

在这些担忧之后,Conversation AI 团队邀请开发人员训练他们自己的 токсичное 检测算法,并将它们提交到 Kaggle(谷歌子公司,以其机器学习从业者社区、公共数据集和挑战而闻名)举办的三个竞赛(每年一次)中。为了帮助训练 AI 模型,Conversation AI 发布了两个公共数据集,其中包含来自维基百科和名为 Civil Comments 的服务的超过一百万条 токсичное 和非 токсичное 评论。这些评论由注释者对毒性进行评分,“非常 токсичное ”标签表示“非常 ненавистный、 агрессивный 或不尊重的评论,很可能会让您离开讨论或放弃分享您的观点”,而“токсичное ”标签表示“粗鲁、不尊重或不合理的评论,可能会让您离开讨论或放弃分享您的观点”。由于用于强制评估者准确性的抽样和策略,一些评论被超过 10 位注释者(最多达数千位)看到。

第一次 Jigsaw 挑战赛的目标是构建一个多标签 токсичное 评论分类模型,标签包括“токсичное ”、“严重 токсичное ”、“威胁”、“侮辱”、“猥亵”和“身份 ненавистный ”。第二次第三次挑战赛的重点是其 API 的更具体的局限性:最大限度地减少对预定义的身份群体的无意偏见,以及在仅限英语的数据上训练多语言模型。

尽管这些挑战促成了改进 токсичное 语言模型的一些巧妙方法,但我们在内容审核 AI 公司 Unitary 的团队发现,没有一个训练好的模型被公开发布。

因此,我们决定从最佳 Kaggle 解决方案中汲取灵感,并训练我们自己的算法,并明确打算公开发布它们。为此,我们依赖于现有的用于自然语言处理的“transformer”模型,例如谷歌的 BERT。许多此类模型都可以在开源的 transformers 库中访问。

这就是我们的团队构建 Detoxify 的方式,这是一个开源的、用户友好的评论检测库,用于识别在线不当或有害文本。其预期用途是帮助研究人员和从业人员识别潜在的 токсичное 评论。作为该库的一部分,我们发布了与三个 Jigsaw 挑战赛中的每一个相对应的三个不同模型。虽然每个挑战赛的顶级 Kaggle 解决方案都使用模型集成,即平均多个训练模型的评分,但我们仅使用每个挑战赛一个模型就获得了类似的性能。每个模型都可以通过一行代码轻松访问,并且所有模型和训练代码都在 GitHub 上公开可用。您也可以在 Google Colab 中尝试演示。

虽然这些模型在很多情况下表现良好,但同样重要的是要注意它们的局限性。首先,这些模型在与它们训练的数据相似的示例上效果良好。但是,如果面对不熟悉的 токсичное 语言示例,它们可能会失败。我们鼓励开发人员根据代表其用例的数据集微调这些模型。

此外,我们注意到,在文本评论中包含侮辱或亵渎性语言几乎总是会导致高 токсичное 评分,而与作者的意图或语气无关。例如,句子“我厌倦了写这篇愚蠢的文章”将给出 99.7% 的 токсичное 评分,而删除“愚蠢”一词会将评分更改为 0.05%。

最后,尽管发布的模型之一经过专门训练以限制无意偏见,但所有三个模型仍然可能表现出一些偏见,当直接用于审核内容时,这可能会引发道德问题。

尽管在自动检测 токсичное 言论方面取得了相当大的进展,但在模型能够捕捉我们语言背后的真实、细微的含义(而不仅仅是记忆特定的单词或短语)之前,我们还有很长的路要走。当然,投资于更好、更具代表性的数据集将产生渐进的改进,但我们必须更进一步,开始在上下文中解释数据,这是理解在线行为的关键部分。如果只看文本,那么社交媒体上看似无害的文本帖子,如果附带有种族主义象征意义的图像或视频,很容易被忽略。我们知道,缺乏上下文通常是我们自己的人为误判的原因。如果人工智能要大规模取代人工,那么至关重要的是,我们必须给我们的模型提供全面的图景。

© . All rights reserved.