网络科学:研究互联网以保护我们的未来

研究网络将揭示更好地利用信息、防止身份盗窃、革新行业以及管理我们不断增长的在线生活的方法

自从万维网在 20 世纪 90 年代中期蓬勃发展以来,它已扩展到超过 150 亿个页面,几乎触及了现代生活的方方面面。今天,越来越多的人的工作依赖于网络。媒体、银行和医疗保健正在被它彻底改变。甚至各国政府也在考虑如何利用它来管理国家。然而,鲜为人知的是,网络不仅仅是其页面的总和。已经出现了巨大的涌现特性,正在改变社会。电子邮件促成了即时消息,即时消息又促成了 Facebook 等社交网络。文档传输促成了 Napster 等文件共享站点,这些站点又促成了 YouTube 等用户生成门户。用标签标记内容正在创建在线社区,这些社区分享从音乐会新闻到育儿技巧的一切信息。

但是,很少有研究人员研究这种涌现特性是如何实际发生的、我们如何利用它们、可能出现哪些新现象,或者这一切对人类可能意味着什么。一个新的科学分支——网络科学——旨在解决这些问题。时机恰逢历史:先建造了计算机,然后才有了计算机科学,随后计算机科学又显着改进了计算。网络科学于 2006 年 11 月作为一门正式学科启动,当时我们两人以及我们在麻省理工学院和英国南安普顿大学的同事宣布启动网络科学研究倡议。来自世界顶级大学中 16 所大学的顶尖研究人员此后扩大了这项工作。

这门新学科将对网络的结构进行建模,阐明推动其惊人增长的架构原则,并发现在线人类互动是如何被社会习俗驱动和改变的。它将阐明能够确保网络持续高效增长的原则,并解决隐私保护和知识产权等复杂问题。为了实现这些目标,网络科学将借鉴数学、物理学、计算机科学、心理学、生态学、社会学、法律、政治学、经济学等学科。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方法是 订阅。通过购买订阅,您正在帮助确保未来能够继续报道关于发现和塑造我们当今世界的想法的具有影响力的故事。


当然,我们无法预测这项新兴事业可能会揭示什么。然而,网络科学已经产生了重要的见解,其中一些见解在此介绍。最终,这项追求旨在回答基本问题:哪些进化模式推动了网络的发展?它们会枯竭吗?引爆点是如何出现的,可以改变吗?

已有的见解
尽管网络科学作为一门学科是新兴的,但早期的研究已经揭示了这项工作的潜在价值。随着 20 世纪 90 年代的推进,通过在不断增加的页面数量中查找关键词来搜索信息,返回的无关内容越来越多。谷歌的创始人拉里·佩奇和谢尔盖·布林意识到他们需要对结果进行优先级排序。

他们的重大见解是,页面的重要性——它的相关性——最好通过链接到它的页面的数量和重要性来理解。困难在于,这个定义的一部分是递归的:页面的重要性取决于链接到它的页面的重要性,而这些页面的重要性又取决于链接到它们的页面的重要性。佩奇和布林想出了一种优雅的数学方法来表示这种属性,并开发了一种名为 PageRank 的算法来利用递归性,从而返回从最相关到最不相关的页面排名。

谷歌的成功表明,网络需要被理解,并且需要被工程化。网络科学服务于这两个目的。网络是语言和协议的基础设施——一项工程作品。然而,内容链接的理念是涌现特性的基础。其中一些特性是理想的,因此应该被工程化纳入。例如,确保任何页面都可以链接到任何其他页面,这使得网络在本地和全局范围内都非常强大。其他属性是不理想的,如果可能的话,应该被工程化排除,例如构建一个站点,该站点具有由软件机器人生成的数千个虚假链接,其唯一目的是提高该站点的搜索排名——所谓的链接工厂。

另一个早期的发现,来自图论,是网络的连通性遵循所谓的幂律度分布。在许多网络中,节点具有大致相同的链接数量。但是在网络上,少数页面有大量其他页面链接到它们,而非常多的页面只有少量页面链接到它们。东北大学的艾伯特-拉斯洛·巴拉巴西和他的同事创造了术语“无标度”来描述这种网络[参见艾伯特-拉斯洛·巴拉巴西和埃里克·博纳博的“无标度网络”;《大众科学》,2003 年 5 月]。许多人感到惊讶,因为他们认为网页会具有平均数量的链接,无论是指向它们的链接还是来自它们的链接。

在无标度网络中,即使移除大多数节点,从剩余节点之一到任何其他节点的路径仍然可能存在。然而,移除相对少量的连接高度集中的节点或枢纽会导致明显的瓦解。这种分析对于公司和组织(无论是电信提供商还是研究实验室)至关重要,它们设计信息在网络上的路由方式,从而使它们能够构建大量的冗余,以平衡流量并使网络更具抗攻击能力。

通过分析网络获得的对无标度网络的透彻理解,促使专家分析其他网络系统。他们此后在科学引文和商业联盟等广泛领域发现了幂律度分布。这项工作帮助美国疾病控制与预防中心改进了其性病传播模型,并帮助生物学家更好地理解蛋白质相互作用。

科学分析还将网络描述为具有短路径和小世界。20 世纪 90 年代在康奈尔大学期间,邓肯·J·瓦茨和史蒂文·H·斯特罗加茨表明,即使网络规模庞大,用户也可以在最多 14 次点击内从一个页面到达任何其他页面。然而,为了充分理解这些特征,我们需要认识到网络是一个社交网络。1967 年,哈佛大学心理学家斯坦利·米尔格拉姆要求内布拉斯加州奥马哈和堪萨斯州威奇托的居民尝试将包裹发送给一个人,这个人仅通过他的姓名、一些一般特征以及他住在波士顿这一事实来描述。居民们应该将包裹发送给他们认为可能更了解如何联系到此人的中间人,然后由该中间人将其发送给另一个中间人。最终,在近 300 个包裹中,有 64 个到达了指定的收件人。平均而言,需要的中间人数为 6 人——这就是流行语“六度分隔”的基础。

然而,最近,现在在哥伦比亚大学的瓦茨尝试在网络上重复该实验,使用电子邮件消息进行转发,但在路径查找方面遇到了失败。特别是,如果个人没有动力转发该通知,则路径会断开。然而,只有非常轻微的激励措施才能改善情况。

教训是,仅靠网络结构并不能说明一切;只有在嵌入其中的个人的行动、策略和认知下,网络才能蓬勃发展。为了真实地了解为什么网络具有短路径的有利结构,我们需要了解贡献内容的人员为什么将其链接到其他材料。社会驱动因素——目标、愿望、兴趣和态度——是链接如何形成的基本方面。理解网络需要来自社会学和心理学的洞察力,与来自数学和计算机科学的洞察力一样重要。

从微观到宏观
网络科学的一个主要领域将探索一项小的技术创新如何引发大型社会现象。一个引人注目的例子是博客圈的兴起。尽管早期的 Web 浏览器没有为普通人提供方便的方式来“发布”他或她的想法,但到 1999 年,博客程序使自助发布变得容易得多。博客随后迅速流行起来,因为当人们发泄不满时,他们也找到了具有相似观点的其他人,这些人可以很容易地组成志同道合的社区。

很难准确估计博客圈的大小。大卫·西夫里的领先博客搜索引擎 Technorati 在今年 5 月追踪了全球超过 1.12 亿个博客,这个数字可能仅包括据称在中国存在的 7200 万个博客中的一小部分。无论规模如何,爆炸性增长都需要一个解释。可以说,非常简单的机制的引入,尤其是 TrackBack,促进了增长。如果博主撰写一篇条目,评论或引用另一个博客上的条目,TrackBack 会向原始博客发送“ping”通知。此通知使原始博客能够显示所有评论的摘要以及指向它们的链接。通过这种方式,对话在多个博客之间产生,并迅速形成对特定主题感兴趣的个人网络。在这里,博客结构的大部分再次通过短路径链接起来——不仅是博客和博主本身,还有主题和条目。

随着博客的蓬勃发展,研究人员迅速创建了有趣的工具、测量技术和数据集,试图跟踪主题在博客空间中的传播。微软 Live Labs 的社交媒体分析师马修·赫斯特收集了六周的链接数据,并制作了博客圈中最活跃和相互关联的部分的图表。它显示,许多博客非常受欢迎,每天有 50 万不同的个人访问。这些超级博客之一链接或提及另一个博客保证了该引用站点的大量流量。该图表还显示了孤立的、由专注的爱好者组成的群体,他们彼此之间联系非常紧密,但几乎不与其他博主联系。

如果得到正确利用,博客圈可以成为传播想法或衡量政治倡议的影响或产品发布可能成功的强大媒介。备受期待的苹果 iPhone 的发布在其发布当天产生了所有新帖子的 1.4%。一个挑战是了解这种传播如何改变我们对新闻报道和评论的看法。什么机制可以向博客读者保证引用的事实是值得信赖的?网络科学可以提供检查信息所谓出处的方法,同时提供关于其重用的条件的实用规则。丹尼尔·韦茨纳在麻省理工学院的透明、可问责的数据挖掘倡议正在做这件事。

语义网的兴起
一个正在从协同研究中受益的新兴现象是语义网的兴起——网络上的数据网络。在许多回报中,语义网有望为我们的问题提供更有针对性的答案。今天,在谷歌上搜索“马萨诸塞州西部 8,000 美元以下的丰田二手车”会返回 2,000 多个通用网页。一旦添加了语义网功能,一个人将收到关于七八辆特定汽车的详细信息,包括其价格、颜色、里程、状况和车主,以及如何购买它们。

工程师们为语义网设计了强大的基础,特别是主要语言——资源描述框架 (RDF)——它叠加在构成网页的基本 HTML 和其他协议之上。RDF 通过“三元组”集为数据赋予意义。每个三元组都类似于句子的主语、谓语和宾语。例如,一个三元组可以断言“人 X”[主语]“是……的姐妹”[谓语]“人 Y”[宾语]。一系列三元组可以确定 [汽车 X] [是品牌] [丰田];[汽车 X] [状况是] [二手];[汽车 X] [成本] [$7,500];[汽车 X] [位于] [莱诺克斯];以及 [莱诺克斯] [位于] [马萨诸塞州西部]。这些三元组共同可以得出结论,汽车 X 确实是我们查询的正确答案。事实证明,这种简单的三元组结构是描述机器处理的大多数数据的自然方式。主语、谓语和宾语均由通用资源标识符 (URI) 标识——一个地址,就像用于网页的地址一样。因此,任何人都可以通过在网络上为其定义 URI 来定义一个新概念或一个新的谓语。

随着这些定义的增长和相互链接,专家和爱好者将定义分类法和本体:描述对象类别及其之间关系的数据集。这些集合将帮助各地的计算机查找、理解和呈现有针对性的信息。

许多团体已经在构建语义网框架,特别是在生物学和医疗保健领域[参见李·费根鲍姆的“语义网在行动”;《大众科学》,2007 年 12 月]。今年 5 月,超过 1,000 人参加了在加利福尼亚州圣何塞举行的语义技术会议。网络科学提供了创建更强大的方法来定义、链接和解释数据的前景。

维基世界提供了一个很好的例子,说明了这种对链接数据的利用有多么有用。截至 5 月,维基百科,这个由世界各地的人们生成的在线百科全书,拥有超过 230 万篇英文文章。这些文章包含常规文本,以及信息框模板——事实集。现在存在超过 70 万个英文信息框模板,程序员正在寻找挖掘它们的方法。一项工作是 DBpedia 项目,该项目由克里斯·比泽尔及其在德国柏林自由大学和莱比锡大学的同事发起。他们设计了一个同名工具(可在 http://wikipedia.aksw.org 获取),该工具使用语义网技术来查询信息框。它可以询问所有居住在莫斯科的网球运动员,或者海拔高于 1,000 米的美国城镇的所有市长的姓名,并获得准确的答案。

当然,我们希望为整个网络提供类似的工具,但开发一个工具将需要网络上越来越多的数据以 RDF 链接集的形式表示。与此同时,DBpedia 的链接结构正在变得明显,它遵循与网络上发现的相同的幂律。正如某些页面在文档网络中具有更高的排名一样,语义网上的数据也将如此。与此同时,纽约大学理工学院的奥德·诺夫的研究开始确定维基百科人发布条目的原因以及是什么激发了他们的活动;揭示的心理驱动因素将帮助我们理解如何鼓励人们为语义网做出贡献。

未来的挑战
似乎有道理地说,网络科学可以帮助我们设计一个更好的网络。当然,我们并不完全了解什么是网络科学,因此这门新学科的一部分应该是找到最强大的概念,这些概念将有助于科学本身的发展。也许见解将来自这项工作的跨学科性质。例如,生物学概念(如可塑性)可能被证明是有用的。大脑和神经系统在我们的一生中通过形成和删除神经元之间的连接来生长和适应——神经元是大脑细胞,在我们的大脑网络中充当节点。连接的变化发生在响应网络中的活动,包括学习、废用和衰老。

同样,网络连接也会衰减和增长。网络科学还可以探索协议的可能性,如果网络节点没有入站或出站活动,则断开这些节点的连接。这样的网络是否会更有效地运行?

诸如种群动态、食物链以及消费者和生产者之类的概念在网络上都有对应物。也许为生态学设计的方法和模型可以帮助我们理解网络的数字生态系统,该生态系统可能容易受到单一重大事件(类似于飓风)或微妙但稳定的侵蚀(如入侵物种)的破坏。

我们还需要审查一系列法律问题。与数字材料的知识产权和版权相关的法律已经在讨论中。虚拟环境(如 Second Life)中出现了一些引人入胜的问题;例如,法律和权利是否可以转移到数字世界,在数字世界中,数百万人为现有内容贡献了微小的补充?另一个问题是,我们是否可以将使用规则构建到内容本身中。一个名为知识共享的框架示例允许作者、科学家、艺术家和教育工作者轻松地用他们希望其携带的自由和限制来标记他们的创意作品。至关重要的是,该标记还提供了描述许可证的 RDF 数据,从而可以轻松地自动定位作品并了解其使用条件。网络科学可以确定共享风格的许可证是否会影响信息的传播。

社会学是另一个值得挖掘的领域。例如,需要进行研究,以便为网络用户提供更好的方法来确定站点上的材料是否值得信赖。我们如何确定我们是否可以信任来自站点的材料?网络最初被设想为研究人员相互完全信任的工具;没有内置强大的安全模型。我们一直生活在后果之中。

因此,应该投入大量研究来将信任和出处层工程化到网络交互中。我们的数字和物理角色融合在一起,为进步提供了机会,例如为我们每个人整合金融、医疗、社会和教育服务。但这也是身份盗窃、网络跟踪和网络欺凌以及数字间谍活动的机会。网络科学可以帮助增强好的方面,并改善坏的方面。

在充分挖掘网络的丰富潜力之前,还需要解决其他各种问题。社会规范如何影响新兴能力?如何实施在线隐私保护、知识产权和安全?哪些趋势可能会使网络碎片化?

许多人正在研究这些问题的各个部分。网络科学可以将他们的努力结合在一起,并复合见解。我们需要培养一批在广泛的技能和学科方面训练有素的研究人员、开发人员、从业人员和用户。他们将帮助我们充分理解网络,并发现如何在 21 世纪及以后对其进行工程化。

有关与本文相关的图表,请单击下面的图像以放大

 

注意:本文最初以“网络科学的兴起”为标题印刷。

© . All rights reserved.