标签,轮到你了:科学家描述像 Del.icio.us 这样的协作标签网站

意大利研究人员确定社交书签网站的潜在统计结构

加入我们的科学爱好者社区!

2004年,Web 2.0 时代正式开始。 大量互联网用户放弃了 AOL,一些勇于尝鲜的人完全放弃了主页,而是选择从 RSS 订阅、社交书签网站(如 Digg.com)和协作标签方案(如照片分享中心 Flickr)获取内容。

罗马大学“La Sapienza”的一组物理学家试图通过研究社交书签/协作标签网站 del.icio.usConnotea 上标签(用于描述链接文章或照片内容的单个词语)的行为,来确定这种新信息范式的潜在统计特性。[编者注:《大众科学》和 Connotea 归同一控股公司所有。]

第一作者 Ciro Cattuto 说:“我们的想法是尝试看看我们是否可以将复杂系统科学方法应用于建模一个 IT 系统,但以一种非常明确和复杂的方式,揭示社会组成部分——人们的活动。在这个系统中,语言元素——词语、符号——是一个动态实体,并在统计力学中扮演粒子的角色。”


关于支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业: 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


在研究了某些标签与一对选定标签(一个通用标签“blog”,以及另一个特定标签“ajax”,即 Web 开发技术异步 JavaScript 和 XML 的缩写)的关联方式后,研究人员确定,协作标签方案中的用户行为遵循幂律,其中某些词语与所选标签高度关联:“design”、“web”和“news”最常与“blog”和“javascript”一起出现;“web”和“xmlhttprequest”最常与“ajax”结合出现。 存在一个急剧下降,其中一些术语与所选标签的关联频率较低。

作者表示,他们对模型中幂律的存在并不感到惊讶,因为这种曲线是“自组织和人类活动的标准特征”。 幂律确实在分布的顶部显示出一些语义效应,其中陡峭程度取决于标签的歧义性。 Cattuto 说:“分布顶部非常平坦的曲线意味着你正在处理一个标签,在这个标签的上下文中,许多其他标签以相当的概率共同出现,因此这个标签一定是某种程度上模糊的,一定是模棱两可的。”

他们的模型例证了用户行为的两个主要方面:优先连接和资源老化。 优先连接也可以描述为一种复制态度。 与 Vittorio Loreto 和 Luciano Pietronero 一起进行研究的 Cattuto 举例说明了链接到关于纽约市的照片或文章。 发布链接的人可以用几种方式标记项目,其中一些是“nyc”、“newyork_city”或 newyork。 然而,之前 del.icio.us 用户的选择可能会影响下一批用户。 Cattuto 解释说:“本质上存在压力,因为如果你使用系统中已经广泛使用的标签,人们就能够找到你的条目——因此,使用流行的标签可以让你的内容更容易被找到,让你更显眼。”

资源老化效应与圣母大学复杂网络研究员 Albert-László Barabási 先前的一项发现相符,该发现表明,网络上的信息只能保持新鲜约 36 到 48 小时。 同样,研究人员发现,协作标签网站上的用户可能更喜欢最近添加的标签,而不是较旧的标签。

Barabási 的工作更侧重于整个万维网,他赞扬意大利研究人员率先关注协作标签这一新现象,并试图揭示其行为的奥秘。 他说:“他们正在采用一种新技术,这种技术在某种程度上增强了 Web 的使用和底层网络结构——他们使用定量方法来理解其属性。 这篇论文可能不会告诉你哪个词会是最酷的,但它会告诉你系统内的基本结构。”

现在,Barabási 说,既然该团队已经建立了一个关于标签如何通过与其他词语关联而表现的模型,他们可以提出问题:“一个标签会变得过度饱和并变得毫无意义,还是会无限增长?”

© . All rights reserved.