就像性一样,金钱是大多数人避免公开讨论的话题。然而,即使在 Twitter 的 140 个字符限制内表达自己,我们也会 регулярно 留下经济地位的数字痕迹。
在一项对在线社交媒体网络超过 5,000 名用户发布的约 1080 万条推文的分析中,发现这些简洁的消息提供了足够的信息来揭示用户的收入阶层。宾夕法尼亚大学自然语言处理博士后研究员丹尼尔·普雷奥蒂乌克-彼得罗和他的同事依靠自我认同的职业将 90% 的样本分类到相应的收入群体中。然后,他们使用了一种机器学习模型,该模型可以从数据中学习并根据数据进行预测,以识别每个群体特有的特征。当他们对剩余 10% 的受试者测试这个精明的模型时,它成功预测了这些用户的经济状况。
正如研究人员今年秋天在《PLOS ONE》杂志上描述的那样,收入较高的人倾向于讨论商业、政治和非营利工作。收入较低的人主要关注个人话题,例如美容秘诀和经历。“高收入人群将 Twitter 用作传播信息的手段;低收入人群更多地将其用于社交交流,”普雷奥蒂乌克-彼得罗说。分析还显示,收入较高的人发布的推文更可能表达恐惧或愤怒。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
在之前的机器学习研究中,普雷奥蒂乌克-彼得罗和他的同事能够预测 Twitter 用户的性别、年龄和政治倾向。他们甚至可以检测到推文中的产后抑郁症和创伤后应激障碍的迹象。该团队继续开发其模型,但最终“机器学习的力量仅取决于我们可以访问的数据,”普雷奥蒂乌克-彼得罗说。“人们应该意识到他们在不知不觉中泄露了多少关于自己的信息。”