编者注:我们发布这篇来自2007年12月刊的专题文章,是因为在ScienceOnline09上就语义网进行了讨论。
六年前,在本杂志中,蒂姆·伯纳斯-李、詹姆斯·亨德勒和奥拉·拉西拉揭示了语义网的初步愿景:一个高度互联的数据网络,任何台式机或手持设备都可以轻松访问和理解。他们描绘了一个智能软件代理的未来,这些代理将在万维网上自动预订我们的旅行机票和酒店,更新我们的医疗记录,并针对特定问题给出单一的、定制的答案,而无需我们搜索信息或仔细阅读结果。
他们还介绍了将使这一愿景成为现实的年轻技术:一种通用语言,用于表示可被各种软件代理理解的数据;本体——语句集合——将来自不同数据库的信息转换为通用术语;以及允许软件代理推断以这些术语描述的信息的规则。数据格式、本体和推理软件将像万维网上的一个大型应用程序一样运行,分析存储在在线数据库中的所有原始数据,以及Web中包含的有关文本、图像、视频和通信的所有数据。像Web本身一样,语义网将以基层方式发展,只是这次是在万维网联盟内部工作组的帮助下,该联盟有助于推进全球媒介的发展。
此后,怀疑论者认为语义网对于人们来说太难理解或利用。事实并非如此。使能技术已经成熟。一个充满活力的早期采用者社区已经就标准达成一致,这些标准稳步地使语义网变得实用。大型公司正在进行重大项目,这将大大提高内部运营和科学研究的效率。其他公司正在使用语义网来加强企业对企业的互动,并构建新的消费者服务背后的隐藏数据处理结构或后端。就像冰山一样,这项庞大工作的尖端也正在直接的消费者应用中显现出来。
表面之下 语义网与万维网不同。它是一种增强功能,使Web具有更大的实用性。当沉浸在某个领域或职业中的人们(无论是基因研究还是嘻哈音乐)就他们关心的信息的通用表示方案达成一致时,它就会变得活跃起来。随着越来越多的群体开发这些分类法,语义网工具允许他们链接其方案并转换其术语,逐渐扩大其Web软件可以自动相互理解的人员和社区的数量。
也许最明显的例子(尽管范围有限)是在Web上蓬勃发展的标签系统。这些系统包括del.icio.us、Digg和出版商使用的DOI系统,以及MySpace和Flickr等社交网站上提供的自定义标签集。在这些方案中,人们选择通用术语来描述他们在某些网站上找到或发布的信息。反过来,这些努力使Web程序和浏览器能够找到并粗略地理解标记的信息——例如,查找在太平洋沿岸拍摄的所有Flickr日出和日落照片。然而,即使使用相同的术语(例如“昂贵”),一个系统内的标签也不能在另一个系统上工作。因此,这些系统无法扩展到分析Web上的所有信息。
万维网联盟——一个由400多家公司和大学组成的临时组织,由美国麻省理工学院、法国欧洲信息学和数学联盟以及日本庆应义塾大学共同主办——已经发布了跨越这些边界所需的语义网语言和技术,大型公司正在利用它们。例如,英国电信已经构建了一个原型在线服务,以帮助其众多供应商更有效地共同开发新产品。波音公司正在探索这些技术,以更有效地整合参与飞机设计的合作伙伴的工作。雪佛龙公司正在尝试管理发电厂和炼油厂生命周期的方法。麻省理工学院公司正在应用语义网工具包来帮助美军解释车队移动的交战规则。英国国家测绘机构Ordnance Survey在内部使用语义网来更准确、更经济地生成地理地图。
其他公司正在改进消费者服务的后端运营。Vodafone Live!是一个用于访问铃声、游戏和移动应用的多媒体门户,它建立在语义网格式之上,使订阅者能够比以前更快地将内容下载到他们的手机上。《哈珀斯杂志》在其网站上利用语义本体来呈现当前事件的注释时间线,这些时间线会自动链接到有关与这些事件相关的概念的文章。Joost正在免费将电视放到网上,它正在使用语义网软件来管理观众在线使用的节目表和节目指南。
消费者也开始直接使用数据语言和本体。一个例子是朋友的朋友(FOAF)项目,这是一个以纯粹基层方式增长的去中心化社交网络系统。爱好者们创建了一个语义网词汇表,用于描述人们的姓名、年龄、地点、工作和彼此之间的关系,并寻找他们之间的共同兴趣。FOAF用户可以以他们喜欢的任何格式发布信息和图像,并且仍然可以无缝连接所有内容,这是MySpace和Facebook无法做到的,因为它们的字段不兼容且不开放翻译。超过一百万的个人已经相互链接了他们的FOAF文件,包括LiveJournal和TypePad(两个流行的Weblog服务)的用户。
正如这些例子所表明的那样,人们正在朝着构建语义网的方向发展,在这个网络中,任何在线信息片段之间都可以建立关系,无论是文档、照片、标签、金融交易、实验结果还是抽象概念。数据语言,称为资源描述框架(RDF),以一种允许计算机和软件自动交换信息的方式命名每个项目以及项目之间的关系。额外的功能来自本体和其他技术,这些技术可以创建、查询、分类和推理这些关系。
因此,语义网允许不同组织的员工使用自己的数据标签,而不是试图在行业范围内就一套僵化的标签达成一致;它理解数据库1中的术语“X”与数据库2中的术语“Y”相同。此外,如果数据库1中的任何术语发生更改,其他数据库和数据集成过程本身仍将理解新信息并自动更新自身。最后,语义网支持“推理器”的部署——可以发现数据源之间关系的软件程序。
正如HTML和XML语言使原始Web健壮一样,RDF语言和基于它的各种本体正在成熟,供应商正在基于它们构建应用程序。IBM、惠普和诺基亚正在推广开源语义网框架——用于制作完善程序的通用工具。甲骨文的旗舰商业数据库10g已被全球数千家公司使用,它已经支持RDF,并且升级版11g添加了更多的语义网技术。Adobe的最新版本的流行图形程序(如Photoshop)使用相同的技术来管理照片和插图。较小的供应商——其中包括Aduna Software、Altova、@semantics、Talis、OpenLink Software、TopQuadrant和Software AG——提供语义网数据库程序和本体编辑器,它们类似于促进Web蓬勃发展的HTML浏览器和编辑器。现在,可以使用当今几乎所有主要的计算机编程语言(包括Java、Perl和C++)来构建语义网站点。
我们仍在努力实现代理自动化我们日常生活中平凡任务的宏伟愿景。但是,一些最先进的进展正在生命科学和医疗保健领域发生。这些学科的研究人员在他们工作的几乎每个阶段都面临着巨大的数据集成挑战。这些先驱者构建的真实系统的案例研究表明了语义网的强大功能。
案例研究 1:药物发现 传统药物的模型是“一刀切”。高血压?服用阿替洛尔。焦虑?服用安定。但是,由于每个人都具有独特的基因组并生活在特定的生理和情感环境中,因此某些个体比其他个体反应更好。但是,今天,对生物学和药物活动的更深入了解开始与可以预测哪些药物(以及什么剂量)对给定个体有效的工具相结合。这种预测应该使定制的或个性化的医疗治疗越来越有可能。
当然,挑战在于如何融合令人眼花缭乱的数据集:关于每个人的各种历史和当前医疗记录,以及关于多种药物、药物测试、潜在副作用和其他患者的结果的各种科学报告。传统数据库工具无法处理复杂性,手动尝试组合数据库将非常昂贵。仅维护数据就很困难:每次将新的科学知识纳入一个数据源时,都必须逐个重新集成链接到它的其他数据源。
辛辛那提儿童医院医疗中心的一个研究团队正在利用语义功能来寻找心血管疾病的潜在遗传原因。传统上,研究人员会搜索在正常组织和患病组织中行为不同的基因,假设这些基因可能以某种方式参与导致病理。这种做法可能会产生数十或数百个可疑基因。然后,研究人员必须仔细查阅四到五个数据库中的每一个基因,试图辨别哪些基因(或它们编码的蛋白质)具有最有可能影响疾病生物学特征——这是一项艰巨的任务。最终,研究人员常常负担不起所需的时间,工作也就停滞不前。
辛辛那提团队(包括一位语义网顾问)首先将来自不同来源且格式不兼容的相关信息数据库下载到工作站中。这些数据库包括基因本体论(包含基因和基因产物的数据)、MeSH(专注于疾病和症状)、Entrez Gene(以基因为中心的信息)和OMIM(人类基因和遗传疾病)。研究人员将这些格式转换为RDF,并将信息存储在语义网数据库中。然后,他们使用来自斯坦福大学和惠普实验室的免费语义网软件Protégé和Jena来整合这些知识。
然后,研究人员通过应用一种 类似于谷歌用于对搜索结果网页进行排名的排名算法,对可能与心脏功能相关的数百个基因进行优先级排序。他们发现了可能在扩张型心肌病(一种心脏泵血能力减弱的疾病)中起因果作用的候选基因。该团队指示软件评估排名信息,以及基因与该疾病及类似疾病的特征和症状的关系。该软件识别出四个与扩张型心肌病相关染色体区域密切相关的基因。研究人员现在正在研究这些基因突变的影响,将其作为新的治疗靶点。他们还将语义系统应用于其他心血管疾病,并期望在效率上实现同样显著的提高。该系统也很容易应用于其他疾病家族。
同样,礼来公司的高级科学家们正在应用语义网技术来构建给定疾病最可能药物靶点的完整图像。语义工具允许他们将大量不兼容的生物学描述编译成一个统一的文件,大大加快了寻找下一个突破性药物的速度。辉瑞公司正在使用语义网技术来整合有关蛋白质-蛋白质相互作用的数据集,以揭示可能有助于识别有前景的药物的模糊相关性。那里的研究人员确信,这些技术将增加意外发现的机会,加快新药上市的速度,并推动整个行业向个性化医疗迈进。“这正是语义网可以帮助我们的地方,”辉瑞公司位于马萨诸塞州剑桥市的研究技术中心信息学小组负责人Giles Day说。
在所有这些案例中,语义网通过汇集来自不同地方的广泛而多样的数据来增强药物发现。新的消费者服务也正在以类似的方式构建。例如,英国公司Garlik使用语义网软件来比较以前不兼容的数据库,以提醒订阅者他们可能成为身份盗窃的目标。Garlik从网络上提取分散的个人身份信息,使用通用词汇和规则将其整合,并为订阅者提供清晰(有时令人惊讶)的在线身份视图。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于当今塑造我们世界的发现和思想的具有影响力的故事的未来。
案例研究 2:医疗保健 医疗保健行业也面临着同样密集的复杂信息。自 2004 年以来部署的一项举措是在休斯顿的德克萨斯大学健康科学中心开发的,旨在更好地检测、分析和应对新出现的公共卫生问题。该系统名为 SAPPHIRE(使用推理引擎进行公共卫生事件的情境感知和准备),它整合了来自当地医疗保健提供者、医院、环境保护机构和科学文献的广泛数据。它允许卫生官员通过不同的角度评估信息,例如跟踪流感的传播或 HIV 病例的治疗。
在大休斯顿地区,SAPPHIRE 每 10 分钟会收到急诊室病例报告、患者自我报告的症状描述、更新的电子健康记录以及来自八家医院的临床医生的笔记,这些医院占该地区急诊室就诊量的 30% 以上。语义技术将这些信息整合到一个关于该地区当前健康状况的单一视图中。一个关键特征是一种本体,它将呈现流感样症状(发烧、咳嗽和喉咙痛)的无法解释的疾病分类为潜在的流感病例,并自动向疾病控制与预防中心报告。通过自动生成报告,SAPPHIRE 解放了九名护士的手动工作,使她们可以进行积极的护理。并且它提供的报告比以前快了两到三天。美国疾病控制与预防中心现在正在帮助全国各地的当地卫生部门实施类似的系统,取代繁琐、不一致且有数十年历史的纸质方案。
语义网技术的灵活性使得 SAPPHIRE 也能在其他环境中有效运行。当卡特里娜飓风的撤离者涌入休斯顿的避难所时,公共卫生官员很快开始担心疾病可能传播。避难所开放后八小时内,德克萨斯大学健康科学中心的人员配置了 SAPPHIRE 来提供帮助。他们为公共卫生官员配备了加载健康问卷的小型手持电脑。然后将撤离者的回答上传到系统中,并将其与避难所急诊诊所的数据以及来自休斯顿卫生与人类服务部流行病学家的实地监测报告进行整合。SAPPHIRE 成功地比以前更快地识别出幸存者中的胃肠道、呼吸道和结膜炎爆发。
SAPPHIRE 的灵活性展示了关于语义网系统的一个重要教训:一旦它们被配置为解决一个一般性问题——在本例中是公共卫生报告——它们就可以快速适应该领域的各种情况。事实上,美国疾病控制与预防中心希望在全国范围内推出一个单一的、集成的、SAPPHIRE 风格的疾病警报系统。
SAPPHIRE 的成功之处在于它可以统一来自许多地方的信息,然后这些信息可以用于不同的目标。同样的属性也在推动 FOAF 的基层发展。通过使用约定的语义网词汇,FOAF 系统可以找到朋友和熟人之间的共同兴趣,即使他们不属于同一社交网站(如 MySpace 或 Facebook)。FOAF 爱好者现在也在开发语义信任网络(受信任发件人的白名单),以此来打击电子邮件垃圾邮件。
跨越边界 SAPPHIRE 和其他应用程序的成功促使人们呼吁在 医疗保健中更多地整合语义网。食品和药物管理局和国立卫生研究院最近都宣布,为了改进药物开发和交付过程,有必要转向跨边界数据转换研究。
同样的工作将增强医疗专业人员使用的传统计算机化临床决策支持 (CDS) 系统——包含关于治疗的最新知识的知识库。每家医院、医生网络和保险公司都必须定制设计自己的系统,而且它们都在竭力保持最新状态。每次在诊断、临床程序或药物安全性方面取得进展时(这很常见),管理人员都必须重新调整他们的系统。所需的人员时间通常远远超过大多数组织所能负担的。此外,由于定制系统通常不兼容,因此形成全行业见解或解读最佳实践的速度很慢且繁琐。更重要的是,“我们正在研究语义网技术,因为传统的数据集成、知识管理和决策支持方法无法扩展到个性化医疗所需的内容,”波士顿的 Partners HealthCare 系统的首席信息官 John Glaser 说。
为了解决这种情况,Agfa HealthCare 构建了一个基于语义网技术的原型 CDS 系统。当某人在系统的某个部分输入更改时,应在系统的其他部分或另一个机构的系统中更改的记录会自动更新。例如,Agfa 的原型将标准放射学协议转换为语义网符号,并将其与其他常见知识库(如医学学会的临床指南)整合。机构可以维护自己内部标准化的内容,但最终用户(如医院)可以轻松整合新内容,从而大大减少所需的工作时间。
随着 Agfa 等系统在整个医疗保健网络中的实施,医学知识库将变得更智能、更易于使用且成本更低。想象一下,一个容易出现血栓的人,并且根据当前的医学文献,他的基因突变对一种新的抗凝药物有很好的反应。然而,在随后的几个月中,新的研究表明,这种突变的特定变体实际上会导致同一种药物增加凝血。必须通知该患者的临床医生更改任何具有此变体的人的治疗方法。鉴于数千个基因涉及数百万患者的数百种疾病,如何才能有效地进行此类通知?如果没有强大的语义方法,就不可能应对这一挑战。
日常生活 正在改变药物发现和医疗保健的相同语义网技术也正在应用于更一般的情况。一个例子是 Science Commons,它帮助研究人员在网络上公开发布数据。该非营利组织提供语义网工具,用于将具有法律约束力的版权和许可信息附加到这些数据。例如,这种能力允许科学家指示一个软件小程序去查找关于特定基因的信息,但只能查找带有免费许可证的信息。
DBpedia 是一项智能链接维基百科七百万篇文章中的信息的尝试。该项目将允许网络冲浪者对维基百科的内容执行当今不可能的详细搜索,例如,“找到所有在 1990 年之前获得最佳影片奥斯卡奖提名的,并且片长超过三个小时的电影。”
随着应用程序的发展,它们将与万维网联盟和其他机构的研究工作相契合,旨在实现语义网的愿景。就标准达成一致可能进展缓慢,一些怀疑论者担心,一家大型公司可能会通过推广一套专有的语义协议和浏览器来超越这项工作。也许会这样。但请注意,许多公司和大学都参与了该联盟的语义工作组。他们意识到,如果这些小组能够设计出一些精心设计的协议,以支持尽可能广泛的语义网,那么未来任何公司都有更大的空间从中获利。
一些观察人士还担心,随着来自不同来源的关于人们的更多数据相互关联,人们的隐私可能会受到损害。但语义网倡导者认为,其保护措施与非链接世界中使用的相同。如果由语义网连接的两个数据库具有不同的隐私标准,那么软件将必须遵守两套规则,或创建一套涵盖两者的规则。当SAPPHIRE连接患者数据库时,它会遵守双方的隐私要求,否则不会继续;以前手动执行相同合并的护士也采取了同样的做法。
语义网的运作方式可能比万维网更不引人注目。我们不会看到它如何帮助礼来公司创建个性化药物;我们只会购买它们。我们不会知道沃达丰如何如此轻松地提供炫酷铃声,但我们会感激它们有多么容易下载。然而,很快语义网也将给予我们更多直接的权力,让我们可以在eBay上不仅仅说“找到待售的丰田普锐斯”,而是说“找到我附近80英里内,售价低于14000美元的二手红色普锐斯,并向他们报价”。宏伟的愿景很少能完全按照计划发展,但语义网确实正在兴起,并使在线信息比以往任何时候都更有用。