随着阿片类药物滥用在美国愈演愈烈,一个医学研究团队正在梳理社交媒体,以寻找线索来更好地了解这个主要的公共卫生问题。研究人员使用他们开发的用于分析推文和相关地理信息的人工智能软件,发现推特是确定情况最严重地区的一个特别可靠的数据来源。由于每天有大约 5 亿条消息发布到这个微博网站上,这种方法可以帮助提醒当地卫生官员,以便他们可以筹集资金或其他资源来解决这个问题。
根据美国疾病控制和预防中心(pdf),2016 年美国有超过 64,000 人死于药物过量(其中大多数涉及非法海洛因和处方阿片类药物),比上一年增加了 21%。归因于芬太尼滥用(去年导致流行歌星 Prince 过量死亡的止痛药)的死亡人数从 2015 年到 2016 年翻了一番,在卫生组织有时间收集数据后,预计会有更令人警醒的数据出现。收集信息的滞后时间是使阿片类药物滥用特别难以解决的主要因素之一。
研究人员想知道,分析推文文本是否可以像已建立的流行病学研究(例如国家药物使用与健康调查(NSDUH))一样,在更短的时间内准确估计处方阿片类药物滥用的位置和相对流行程度。像 NSDUH 这样的传统医学研究可能需要数年才能完成和发布。但研究小组认为,推特消息可能提供早期预警系统,从而促使采取更立即的行动,例如地方公共卫生运动。“我们发现我们的估计值与 [NSDUH] 数据一致,这表明社交媒体可以成为关于药物使用的可靠的流行病学数据补充来源,”纽约长老会/皇后医院急诊医学住院医师迈克尔·查里说。“我们可以分析社交媒体来调查更广泛的普通人群,并有可能产生及时的见解。”查里的研究团队由纽约市、新泽西州和犹他州杨百翰大学的医学专业人士以及杨百翰大学的一位计算机科学家组成。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保关于塑造当今世界发现和想法的有影响力的故事的未来。
根据最近发表在《医学毒理学杂志》上的研究(pdf)显示,公开可搜索的推特尤其为数字流行病学(健康威胁的发生率、分布和可能的控制)提供了几个优势。推特用户倾向于就各种各样的主题撰写频繁的、简短的消息,并且他们经常标明自己的位置和其他人口统计信息。“这有一种自白效应,”查里说。“人们可能会在社交媒体上讨论或透露一些当被直接问到时,他们可能不会透露的事情。在那里可能存在一种在急诊室或内科医生办公室不存在的坦诚程度。”
研究人员开发了定制软件来分析推文,以寻找可能提及药物使用或滥用的信息。该软件依靠人工智能来快速搜索超过 360 万条推文,并识别可能指代阿片类药物消费的词语和短语,包括“dope”、“percs”、“white”、“TNT”和“Captain Cody”。对推文的进一步检查揭示了更多细节:例如,芬太尼可以用“dummies”一词来表达。可待因则翻译为“syrup”或“Tango and Cash”。
掌握了软件算法的这些知识后,研究小组随后确定了区分专门指代药物滥用与描述早餐的推文(在“syrup”的情况下)的词语使用模式。最有可能指代药物滥用问题的推文被标记出来。研究人员通过将这些消息中的词语使用与医疗毒理学家和急诊医生策划的阿片类药物相关关键词列表进行比较,验证了该软件的区分能力。该研究的发现与 NSDUH 对各州处方阿片类药物滥用情况的估计相似,尤其是在 18 至 25 岁的人群中。根据皮尤研究中心的数据,这可能是因为 36% 的推特用户年龄在 18 至 29 岁之间。
按照既定的医学研究规程,研究人员对他们收集的数据进行了匿名处理,无法识别个别推特用户。这对于他们的研究目的非常有效,尽管他们承认,如果政府或执法机构想进行类似的研究,将推文追溯到特定的推特用户个人资料并非难事。
“推特数据量大,内容是短格式的,简短的陈述比非常长而复杂的陈述更容易分类,”俄勒冈州波特兰市的流行病学家和社会媒体研究员迈克尔·吉尔伯特说,他没有参与查里的研究。“数据量和数据格式的结合使推特适用于机器学习工具。人们是在谈论嗨起来、控制疼痛还是其他潜在的共同行为的动机?人们更有可能与同龄人分享某些类型的信息,而不是与他们的医疗保健提供者分享。”
查里和他的团队并不是唯一使用机器学习技术研究推特的阿片类药物滥用研究人员。由加州大学圣地亚哥分校全球卫生政策研究所所长蒂姆·麦基领导的一个小组在 2015 年对该社交媒体网站进行了为期五个月的检查,以识别非法在线销售处方阿片类药物的实体。他们的软件检测到 1,778 条营销销售管制药物的帖子,其中 90% 的帖子包含指向在线购买网站的超链接。本月初,《美国公共卫生杂志》发表了他们的研究结果。
尽管推特提供了熟悉感和开放性,或者说正因为如此,这个平台并不总是一个可靠的数据来源。推特上的对话涵盖了如此多的主题,以至于识别与特定研究相关的消息可能具有挑战性。“这种研究仍处于起步阶段,”马里兰大学帕克分校高级语言研究中心的助理研究科学家妮基·亚当斯说。“推文很短,这确实影响了机器学习的质量。没有太多背景信息。如果你正在研究一个主题,你的数据周围可能会有很多噪音。”
查里承认推特作为数据来源的缺点,包括必须分析大量不相关的数据才能获得任何有意义的信息,以及该平台用户群的人口统计学限制。“这项工作最有用的是捕捉趋势,”他说。“我们都认为阿片类药物的使用存在问题。很难以任何规模进行这些联邦调查,并且需要以能够说‘在过去三个月里,这个特定地点的药物使用正在上升。这里发生了什么事?’的频率进行调查。”线索就在那里——需要的是找到它们的正确工具。