一切尽在语义: 探索能理解言语和含义的直观互联网

美国国家科学基金会向伦斯勒理工学院研究人员拨款110万美元,以促进语义网的发展


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。 通过购买订阅,您将帮助确保未来能够继续报道关于塑造我们当今世界的发现和思想的具有影响力的故事。


互联网的诞生源于连接各种不同数据源的想法,通过计算机屏幕为全球研究人员提供前所未有的信息访问。 然而,随着e-Science与Web 2.0一同发展,一些人正在推动互联网编目和组织数据方式的根本性变革,以使其更容易被越来越多的跨学科和高度专业化的研究人员所使用,这些研究人员几乎完全在线上度过工作时间,并且倾向于在线协作。 尽管这并非一个新论点——关于更直观的“语义网”的想法已经被讨论多年——但由于最近资助了一个软件开发工具包,预计该工具包将更好地连接研究人员与他们寻求的信息,这一想法又焕发了新的活力。

美国国家科学基金会(NSF)向纽约州特洛伊市伦斯勒理工学院的一个研究团队拨款$110万美元,用于在2010年中期之前创建一个软件编程工具包,科学家和其他研究人员将能够使用该工具包将其工作的数据提供给更多的同行以及包括教育工作者和政策制定者在内的非专业人士。 这笔资金是作为2009年美国经济复苏与再投资法案的一部分提供的。

新一代研究人员没有接受过更传统的、基于图书馆的(互联网前时代)研究方法的培训,他们习惯于在互联网上进行关键词搜索来发现信息。 哈佛大学天文学教授艾丽莎·古德曼说:“但如果你来自特定领域之外,你并不一定知道这些关键词是什么。” 语义网设置将使研究人员能够用更自然的语言来编写查询。 古德曼补充说,然而,一个能够阅读、理解和分类关键词以外信息的完全语义化的网络需要目前尚不具备的人工智能水平,而伦斯勒的研究人员正试图用这个新的工具包来解决这个问题。

马里兰大学巴尔的摩县分校和NASA戈达德地球科学与技术中心的教员研究助理汤姆·纳罗克说:“今天的地球和空间科学研究正在走向线上化。” 纳罗克经常搜索(为了他对太阳物理学的研究)航天器采集的测量数据,这些数据通常由多个研究机构存储和管理。 他说:“问题在于不同数据集之间存在很大的异质性。” 例如,如果他需要研究特定时间段内太阳的图像,纳罗克需要首先找出哪些航天器正在拍摄图像,它们是否处于拍摄他需要的照片的位置,以及它们在特定时间段内是否在运行。 他补充说,尽管许多研究机构都信奉开放获取其工作的理念,但找到正确的信息需要相当多的尝试和错误。

这部分是因为不同的组织通常使用一种或多种不同的数据格式来存储他们的数据。 纳罗克说:“还有一个比列和行在不同数据库中实际代表什么更深层的语义问题。” 因此,在不同的数据源中搜索相关信息可能是一项非常繁琐的任务,研究人员需要访问各个数据库并检查文件,有时甚至需要打电话给其他研究人员进行澄清。

语义网技术将成为新软件工具包的核心,伦斯勒物理学教授兼该校Tetherless World Constellation研究团队的联合主席彼得·福克斯说,该团队正在领导这个项目。 (在伦斯勒,“星座”是由资深教员、初级教员、研究生和本科生组成的多学科团队。) 福克斯说:“有了新的工具包,我们的想法是走出去培训社区,并创建一个共享资源。” “这是一个用于e-Science的工具,” 这本质上是不同科学学科之间跨互联网络的开放协作。

语义方法并非为研究人员提供跨单个数据库的简单关键词搜索,而是提出创建一个更智能的互联网基础设施,该基础设施可以为被搜索的概念赋予意义,甚至在某种程度上理解研究人员的意图。 使用本体,即特定学科内概念及其概念之间关系的正式表示,搜索可以理解表达相同想法的不同术语,提供指向相关网站、非营利组织、即将提交国会的法案,甚至多媒体播客、数字图像和视频文件的链接。 福克斯说:“语义网是为共同含义提出共享表达方式的方法。”

理想情况下,研究人员和网络冲浪者都将有能力在必要时审查和更正信息,类似于维基百科的模式。 使用附加到数据的语义标签也可以控制对某些数据集的访问,帮助那些搜索信息的人更容易地认可他们正在使用的数据的原始创建者,而数据创建者可以准确地跟踪谁在查看他们的数据,伦斯勒大学计算机科学和认知科学教授,以及该校Tetherless World Constellation的联合主席黛博拉·麦吉尼斯说。 福克斯和麦吉尼斯正在与Tetherless World的另一位联合主席兼伦斯勒计算机与认知科学教授吉姆·亨德勒的帮助下开发该工具包。

语义界面将允许研究人员访问单个研究站点,描述所需的信息,然后让本体和语义来处理其余的事情。 纳罗克说:“语义网有自己的查询语言,它利用概念的含义及其关系。” “你以非常高的级别提出你的问题,它会负责为你填写细节。”

然而,这种转换并不容易。 正如纳罗克指出的那样,负责大型数据库的人员必须开发本体,使信息更易于访问,尽管福克斯说Constellation的计划是为程序员提供一些预先打包的本体以供使用。 为了使语义网发挥作用,纳罗克说,像Constellation正在开发的工具这样的工具需要被广泛使用,并且同样重要的是,在创建数据时就被使用。

© . All rights reserved.