即使在 20 世纪 90 年代安装了标志性的相机,该相机将捕捉到暗能量的首个令人信服的证据,加州大学戴维斯分校的实验宇宙学家 托尼·泰森 知道它可以做得更好。该相机的强大之处在于其收集数据能力强于任何其他相机。但是数字图像传感器和计算机处理器的进步速度如此之快,以至于它们可以收集和存储的数据量很快将仅受向它们传递光线的望远镜大小的限制,而这些望远镜也在不断增长。泰森确信工程趋势将会持续,他设想了一个真正宏大的望远镜项目,该项目可以调查数十亿宇宙物体随时间变化时的数百个属性。
泰森说,它将记录“宇宙的数字彩色电影”。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
泰森的愿景已成为现实,即大型综合巡天望远镜 (LSST) 项目,这是 40 多个研究机构和国家实验室的联合努力,已被美国国家科学院列为其下一个地面天文设施的首要优先事项。LSST 位于智利的山顶上,计划于 2020 年代初完成,该 8.4 米的 LSST 将配备一个 32 亿像素的数字相机,该相机将在十年内对 200 亿个宇宙物体进行 800 次扫描。这将产生超过 100 PB 的数据,美国或智利的任何人都将能够随意浏览。仅显示 LSST 的一张全天图像就需要 1,500 个高清电视屏幕。
LSST 代表了物理学和天文学大数据的新时代。不到 20 年前,泰森的尖端数码相机每晚用 5 GB 的磁盘空间填充了关于宇宙的革命性信息。当 LSST 开始工作时,它将在几秒钟内收集到这么多数据——实际上比科学家知道如何处理的数据还要多。
华盛顿大学的天文学家 安德鲁·康诺利 说:“我们从 LSST 中[将获得]的数据量非常大,以至于我们进行科学研究的能力的限制不在于收集数据的能力,而在于理解数据中系统性不确定性的能力。”
与当今代价高昂的科学事业一样,来自不同领域的数百名科学家参与了 LSST 的设计和开发,泰森担任首席科学家。乔治梅森大学的天体物理学家和数据科学家 柯克·伯恩 说:“这有点像联邦制。”该小组由近 700 名天文学家、宇宙学家、物理学家、工程师和数据科学家组成。
科学家们的大部分时间和该项目 10 亿美元成本的一半都花在了开发软件而不是硬件上,这反映了自 20 世纪 90 年代的天文项目以来数据的指数增长。为了使望远镜发挥作用,科学家们必须回答一个简单的问题。正如伯恩所说:“如何将 PB 级的数据转化为科学知识?”
由于物理学依靠高能机器和巨型望远镜来探测已知自然规律之外的事物,因此它比任何其他科学领域处理大型数据库的时间都更长。这为研究人员提供了一系列稳定的模型,可用于构建和组织每个下一个大型项目,此外还提供了一个计算工具入门工具包,必须对其进行修改才能用于更大更复杂的数据集。
即使有这一传统的支持,LSST 仍考验着科学家的数据处理能力。它将能够跟踪暗能量的影响,据认为暗能量占宇宙总含量的 68%,并绘制 暗物质 的分布,暗物质是一种看不见的物质,占另外的 27%。科学家们说,该望远镜将撒下如此广泛而深入的网络,因此注定会捕捉到意想不到的物体和现象。但是,将它们与其余数据分离的许多工具尚不存在。
新维度
粒子物理学是大数据科学领域的资深人士。几十年来,高能加速器每秒将粒子碰撞数百万次,希望能产生奇异的、前所未见的粒子。这些设施,例如瑞士 欧洲核子研究中心 (CERN) 的大型强子对撞机 (LHC),产生了如此多的数据,以至于只能保留一小部分(被自动选择过程认为是感兴趣的)。一个由遍布 36 个国家/地区的数十万台计算机组成的网络,称为全球 LHC 计算网格,存储和处理在一年碰撞中存档的 25 PB LHC 数据。成千上万的物理学家的工作是寻找数据中的突起,该突起在去年夏天被认为是代表一种新的亚原子粒子,即希格斯玻色子。
CERN 是运营 LHC 的组织,它正在通过与其他研究机构合作来分享其智慧,“以便他们可以从数据采集、处理和存储中积累的知识和经验中受益”,鲍勃·琼斯 说,他是 CERN openlab 的负责人,该实验室为 LHC 开发新的 IT 技术和技巧。琼斯说,欧洲航天局、欧洲分子生物学实验室、其他物理设施甚至社会科学和人文科学领域的合作机构的科学家都从 LHC 那里获得了数据处理方面的提示。
当 LHC 在 2014 年或 2015 年升级后重新启动时,更高的能量将意味着更多有趣的碰撞,并且收集的数据量将显著增加。但是,即使 LHC 将继续拥有物理学中最大的数据集,但其数据也比从天文调查(例如 斯隆数字巡天 和 暗能量巡天)获得的数据简单得多,并且在更大程度上,比从未来天空调查(例如 平方公里阵列)获得的数据简单得多,这是一个计划于 2016 年开始建设的射电望远镜项目,以及 LSST。
“LHC 在一开始就产生更多的数据,但他们只在这些数据中寻找某些事件,而且这些数据中的事件之间没有关联,”LSST 数据管理项目经理 杰夫·坎托 说。“随着时间的推移,他们仍然会建立大型数据集,但每个数据集都可以单独分析。”
通过结合同一宇宙物体的重复曝光并记录每个物体的数百个而不是少数几个属性,LSST 将有一系列新的问题需要解决。“LSST 数据的复杂性是一个挑战,”泰森说。“你正在这个 500 维空间中游动。”
从颜色到形状,将为调查的 200 亿个物体中的每一个记录大约 500 个属性,并且每个属性都被视为数据库中的单独维度。仅将这些属性从天空一块区域的一次曝光一致地编目到下一次曝光就构成了巨大的挑战。坎托说:“在一次曝光中,场景可能足够清晰,你可以解析出同一位置的两条不同星系,但在另一次曝光中,它们可能会模糊在一起。“你必须弄清楚它是一个星系还是两个星系,还是 N 个星系。”
超越 N 平方
为了从 LSST 和其他天空调查收集的大量数据中找出科学发现,科学家需要找出属性之间意想不到的关系,这在 500 个维度中非常困难。在二维数据集中很容易找到相关性:如果两个属性相关,那么在两个属性的二维图中,将存在一条连接数据点的一维曲线,一个属性相对于另一个属性。但是,绘制为额外维度的其他属性会模糊这些曲线。“使用人脑不可能在更高维度的空间中发现意外,”泰森说。“我们必须设计未来可以在某种意义上自主思考的计算机。”
存在用于“降低数据维度”或查找数据点所在表面(如 2-D 图中的 1-D 曲线)的算法,以便找到相关的维度并消除“干扰”维度。例如,一种算法可能会识别出穿过数据库的数据点的 3-D 表面,表明三个属性(例如星系的类型、大小和旋转速度)是相关的。但是,当被 PB 级数据淹没时,算法几乎需要永远运行。
识别相关的维度比大海捞针困难得多。“这是一个线性问题,”约翰霍普金斯大学天文学和计算机科学教授 亚历克斯·萨莱 说。“你搜索干草堆,任何看起来像针的东西你都扔进一个桶里,然后把所有其他东西扔掉。”但是,当你不知道你在寻找哪些相关性时,你必须将 N 个干草片中的每一个与另一个干草片进行比较,这需要 N 平方运算。
雪上加霜的是,数据量每年都在翻倍增长。“想象一下,我们正在使用一种算法,如果我的数据翻倍,我必须进行四倍的计算,然后第二年,我必须进行16倍的计算,”Szalay说。“但到了明年,我的计算机速度只会快两倍,而在两年后的今天,我的计算机速度只会快四倍,所以我在计算能力方面会越来越落后。”
大量的研究投入到了开发可扩展的算法中,诸如压缩感知、拓扑分析和最大信息系数等技术正在成为大数据科学中特别有前景的工具。但是,在天文学家、宇宙学家和物理学家准备好充分利用下个十年首映的多拍字节宇宙数字电影之前,还需要做更多的工作。物理科学领域的研究人员在开发算法方面获得的学术认可很少,这阻碍了进展——这是一个该领域广泛认识但尚未解决的问题。
Connolly说:“一直以来都是这样,建造仪器的人没有使用仪器进行前沿科学研究的人获得的认可多。“十年前,是建造物理仪器的人——观察天空的相机——而今天,是那些建造计算仪器的人没有得到足够的认可。必须为那些想从事软件工作的人开辟职业道路——因为他们可以去谷歌找工作。所以,如果我们失去了这些人,损失的将是科学。”
咖啡和荣誉
2010年12月,为了鼓励开发更好的算法,一个国际天文学家小组向世界各地的计算机极客发出了挑战:测量引力透镜,或暗物质对遥远星系光线产生的扭曲效应的最佳方法是什么?David Kirkby在Wired.com上读到了GREAT10(2010年引力透镜精度测试)挑战赛,并决定试一试。
Kirkby是加州大学欧文分校的物理学家,他和他的研究生使用修改版的神经网络算法赢得了比赛,这个算法是他之前为BABAR实验开发的,该实验是一个大型物理合作项目,研究物质和反物质的不对称性。这次胜利使Kirkby在最近一篇详细介绍比赛的论文中获得了共同作者的署名,这让他从粒子物理领域转向天体物理学变得更加容易。此外,有了奖金,“我们为实验室买了一台顶级的浓缩咖啡机,”他说。
GREAT10是越来越多的“数据挑战”之一,旨在为创建和分析大型物理和天文数据库时面临的特定问题找到解决方案,例如重建相对于地球对齐并因此看起来混合在一起的两个星系的形状的最佳方法。
Connolly解释说:“一个小组生成一组数据——可能是混合的星系——然后任何人都可以使用他们最好的算法来尝试估算星系的形状。“对于最终胜出的人来说,这是一种相当大的荣誉。”Connolly参与了生成未来LSST图像的模拟,这些模拟用于测试算法的性能。
包括GREAT系列在内的许多数据挑战都侧重于梳理暗物质的影响。当来自遥远星系的光线传播到地球时,它会因其经过的暗物质的引力而弯曲或“透镜化”。“这有点像透过表面粗糙的浴室窗户看墙纸,”柯克比说。“你要确定直接看墙纸会是什么样子,然后利用这些信息来弄清楚玻璃的形状。”
系列中的每个新的数据挑战都包含一个额外的复杂性——例如大气湍流或其中一个探测器中的故障放大器造成的额外失真——使挑战的目标越来越接近现实。
柯克比说,数据挑战是“一种众包数据科学问题的好方法,但我认为如果软件开发被认为是学术生产力的一部分会更好。”“在职业评估中,你根据他们的科学贡献来衡量人们,即使软件包可能产生更广泛的影响。”
科学家们说,随着分析数据的能力成为研究中日益收紧的瓶颈,这种文化正在缓慢改变。“过去,通常是一些博士后或研究生仔细研究数据,他们会发现一些有趣的事情或一些似乎行不通的事情,并偶然发现一些新的影响,”泰森说。“但是,越来越多的数据量如此之大,以至于你必须拥有带有算法的机器来执行此操作。”
宇宙的黑暗面
假设物理学家可以解决他们使用LSST面临的计算问题,结果可能会发生变革。有许多理由需要一个100拍字节的宇宙数字副本。首先,它将有助于绘制由仍然神秘的暗能量引起的空间和时间的膨胀图,这是在LSST的前身“大通量相机”的帮助下发现的,该相机是泰森和一位合作者在1996年建造的。
当这台相机(它可以在一次曝光中覆盖相当于满月大小的天空区域)安装在智利的布兰科望远镜上时,天体物理学家立即发现了散布在天空中的数十颗名为IA型超新星的爆炸恒星,这表明宇宙中大部分物质都是未知的。与来自遥远超新星的光相比,来自附近超新星的光在穿过膨胀的宇宙的过程中似乎被拉伸得更多。这表明宇宙的膨胀最近加速了,这是由暗能量驱动的。
通过LSST,科学家们希望精确跟踪宇宙加速膨胀,从而更好地定义暗能量的性质。他们的目标是通过绘制一种称为重子声振荡的宇宙标尺来实现这一点。该标尺是由当宇宙年轻而炎热时在宇宙中涟漪的声波创建的,并在宇宙冷却和膨胀时印在星系的分布中。振荡指示了与地球之间每个距离处的空间大小——因此也指示了过去任何时间点的大小。
重子声振荡是如此巨大,以至于需要进行真正庞大的天文调查才能使它们成为方便的测量工具。通过编目数十亿个星系,LSST有望比任何其他现有或计划的天文调查更准确地测量这些共振的大小。“我们的想法是,借助LSST,我们将拥有不同距离的星系洋葱壳,我们可以寻找这种模式并追踪共振模式的大小随时间的变化,”Szalay说。“这将是美丽的。”
但是,Szalay补充说,“从数据中提取信息实际上将是一项不小的任务。”
经Quanta Magazine许可转载,Quanta Magazine是
SimonsFoundation.org的一个编辑独立的部门,其使命是通过报道数学、物理和生命科学的研究进展和趋势来提高公众对科学的理解。