处理和存储不断扩展的科学数据的预测:云端

外包的计算能力和丰富的数据存储空间使研究人员开始在线寻找资源,以帮助他们解决难题


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和思想的有影响力的故事。


几十年来,分时访问位于实验室数据室和大学地下室的超级计算机或计算集群,帮助科学家们解决了需要大量数值计算能力的问题。 这种情况现在正在发生变化,科学家们开始依赖通过网络(又名“云计算”)交付的软件和存储,作为组织和分析研究数据的资源。 生物技术和物理科学是尤其倾向于“云端”,至少是逐步地,两个领域。

国家科学基金会 (NSF) 和微软在四月份宣布向 13 个计划使用或研究云服务的科研项目资助约 450 万美元。 作为资助的一部分,参与这些项目的研究人员将可以在两年内免费访问由微软托管的云计算资源,这些资源旨在提供按需处理能力和存储。

获奖项目包括 J. Craig Venter 研究所的一个项目,旨在通过计算建模蛋白质与蛋白质之间的相互作用; 北卡罗来纳大学夏洛特分校对单细胞生物基因调控系统的研究; 以及南卡罗来纳大学研究基金会和弗吉尼亚大学夏洛茨维尔分校联合开展的关于大型流域系统管理的研究。

这些并非首批利用云的研究项目。 欧洲航天局 (ESA) 已经在使用亚马逊网络服务,以帮助向全球的科学家、政府机构和其他组织提供有关地球当前状态的数据。 这些数据用于环境监测、提高天气预报的准确性以及协助救灾机构。 例如,ESA 使用亚马逊的简单存储服务 (S3) 来存储和检索信息,包括卫星图像。 据亚马逊称,在高峰使用期间,亚马逊帮助 ESA 向全球超过 50,000 名用户提供图像和其他信息,一次可能达到 30 太字节的信息量。

Complete Genomics 是一家位于加利福尼亚州山景城的生物技术公司,为学术界和生物制药研究人员提供人类基因组数据和分析服务,同样使用亚马逊的云服务。 该公司产品开发高级副总裁布鲁斯·马丁表示:“如今的基因组测序是一个计算密集型过程。” 因此,这家生物技术公司使用了大量的存储和计算能力,其中一部分在内部,一部分位于亚马逊的数据中心。

Complete Genomics 的客户(通常是使用基因组数据研究疾病病理学的研究科学家)将生物样本运送给该公司。 一旦 Complete Genomics 创建了客户所需的数据集,该公司就会让亚马逊交付结果。 马丁说:“当我们完成基因组的计算和分析后,我们会将信息推送至亚马逊的简单存储服务,该服务充当可扩展的存储位置。” “亚马逊将数据复制到硬盘驱动器上,然后运送给我们的客户。 这仍然是一种在全球范围内传输数据的非常经济高效的方式。”

亚马逊为 Complete Genomics 提供了一种切实可行的替代方案,无需运营自己的完整信息技术基础设施,但该公司已将业务的关键组成部分保留在内部。 马丁说,某些关键基础设施,例如 DNA 测序仪,需要内部运营,这导致了管理信息的混合方法。 他补充说:“我们每月传输拍字节的数据。” (拍字节是 1 千万亿字节。)“每秒数十千兆位的数据在我们的网络上运行。 云计算产品目前无法提供这种吞吐量,但随着网络技术的进步,云可能会成熟到满足这些需求。”

分布式生物公司 (Distributed Bio) 云计算部门董事总经理贾尔斯·戴 (Giles Day) 认为,云计算并非在所有情况下都是答案,尤其是在生物技术领域。 分布式生物公司是一家位于旧金山的咨询公司,为制药和生物技术公司提供信息服务。 他说:“假设您正在生成太字节的数据,而这些数据只需要相对较短的时间即可计算完成。” “在这种情况下,您将花费大量的金钱和时间将数据转移到云端,而实际计算时间的回报却很小。”

总的来说,分布式生物公司建议采用类似于 Complete Genomics 使用的混合方案,其中一些资源位于服务提供商的数据中心,而另一些资源则保留在客户自己的计算机和服务器上。 戴说:“在生物技术中使用云的理想场景是将少量数据外包到云端,这些数据需要大规模并行计算系统进行处理,然后将处理结果返回给您。” 将大量数据移动到云端很困难,因为它会导致带宽瓶颈。 他补充说:“你仍然不能违反物理定律。”

© . All rights reserved.