2000年6月26日,在白宫东厅,我站在讲台上宣布人类基因组测序完成,这个项目是由我公司的相对较小的团队在短短九个月内完成的。坐在我身后的是克林顿总统,一个巨大的屏幕上显示着英国首相托尼·布莱尔。弗朗西斯·柯林斯作为美国国立卫生研究院人类基因组团队的负责人也在台上。坐在我面前的是一些与人类基因组测序相关的高级科学家,以及来自世界各地的政府高级官员和大使。来宾身后大约有50台电视摄像机和摄影师。整个活动正在全球直播。
经过多年的不懈努力、批评(来自外界甚至我公司内部)、顶级科学期刊编辑甚至克林顿总统的干预,能在当天站在创造历史的地方,是一种非常激动和满足的体验。很难相信我们走到了这一步,而且在活动前甚至到凌晨都充满了戏剧性。我们都必须在活动前一天分享我们的演讲稿,当我看到布莱尔首相的演讲稿时,我告诉科技政策办公室负责人,除非他的演讲稿被修改,否则我不会出席。我认为他的演讲稿片面,并包含贬低我和我团队的言论。白宫科学顾问表示他们不能更改外国政府首脑的演讲稿。我说如果他们希望我出席,他们就需要做些什么。我在凌晨 2 点接到一个电话,表示我对他的演讲稿会非常满意,而事实也的确如此。
我们是如何走到这个历史性时刻的?基因组测序的讨论始于 1980 年代中期,促成了美国国立卫生研究院/能源部基因组项目,该项目获得了数十亿美元的资金,但由于将基因组片段分散到世界各地的多个实验室进行,进展缓慢。我在我的第一个非营利研究机构——基因组研究所(TIGR)的团队获得了资助来完成一小部分工作,并认为我们会退出基因组项目。
关于支持科学新闻
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的有影响力的故事的未来。
1995 年,我们在《科学》杂志上发表了第一个自由生活生物——流感嗜血杆菌的基因组。这个基因组是使用我们的新算法和自动化技术进行测序的,可以在几个月而不是几年内将基因组作为一个单独的项目进行测序。我确信这种方法对人类基因组也适用,但只有少数人相信这一点。1998 年,我的世界发生了改变,应用生物系统公司(ABI)及其母公司打来电话,提出给我 3 亿美元,让我成立一家新公司,使用我的技术和他们的新机器对人类基因组进行测序。我飞到他们在加利福尼亚州福斯特城的总部,查看了他们新机器的原型版本,并确信它会起作用。我们计算出我们需要 300 台机器。回到 TIGR 后,我告诉诺贝尔奖获得者、我的朋友和同事哈姆·史密斯,我看到了什么,并说我必须去做这件事。他的回答是:“我不认为它会起作用,但我会和你一起去。”
我们成立了一家名为塞雷拉基因组学(Celera Genomics)的新公司,目标是在三年或更短的时间内对第一个人类基因组进行测序。该公司的口号是“速度至关重要,发现不能等待”。这一宣布并没有受到美国国立卫生研究院主导的测序社区的欢迎,他们说塞雷拉的测序计划最终会导致“瑞士奶酪”、“简易读本”、“读者文摘”甚至是“疯狂杂志”版本的人类基因组。我想我可以理解他们为什么对新来者不感兴趣,因此开始了媒体所谓的“人类基因组测序竞赛”,塞雷拉与美国国立卫生研究院和国际基因组项目展开竞争。
我们知道我们用于细菌基因组的算法不适用于人类,现有的计算机也不行。我们收到了数千份简历,幸运的是其中一份来自尤金·迈尔斯,他最终成为人类基因组的关键英雄之一。当时是亚利桑那大学教员的吉恩一直是测序分析的 BLAST 工具的关键开发者,他一直在思考更大的基因组组装问题,并受到我们在细菌基因组方面取得的成功的鼓舞。吉恩和一个小团队在几个月内编写了 50 万行计算机代码,创建了塞雷拉组装器。九个月后,我们得到了完整的人类基因组序列,并着手对其进行注释,以了解它告诉我们什么。在已故的《科学》杂志编辑唐·肯尼迪介入推翻了试图阻止我们出版的公共项目领导人之后,我们才在《科学》杂志上发表了我们的分析。美国国立卫生研究院的项目在同一天在《自然》杂志上发表了他们的数据。
那么,在 2001 年 2 月 16 日首次发表人类基因组测序 20 周年之际,在过去的二十年里,我们取得了什么成就?出版后的第一个十年在测序技术方面取得了稳步进展,使得越来越多的各种生物的基因组得以测序,但不幸的是,在产生关于人类基因组的知识和理解方面几乎没有付出努力。部分原因是美国政府层面的大量资金减少,而其他国家的资金却在增加。好消息是,基本上每种新药和疫苗现在都基于基因组学,基础研究已从基因测序转变为更多基于功能的研究。
许多人认为,仅仅通过对大量基因组进行测序,理解和新知识就会自然而然地产生。虽然这有助于进行祖先追溯和基因组变异研究,但关于基因组如何编码我们人类,我们仍有许多需要学习和理解的地方。
五年前,我制定了一种新方法,将全面的表型分析与使用机器学习/人工智能算法和其他工具的深度基因组分析相结合。之所以提出新方法,是因为我的基因组显示,我是 APOE 基因的杂合子,这会大大增加患阿尔茨海默病的风险。我说服了加州大学圣地亚哥分校的一些神经科医生做了一次核磁共振脑部扫描和一次淀粉样蛋白的核磁共振/PET 扫描,淀粉样蛋白被认为是该疾病的关键标志物。对我个人来说,好消息是这两项测试的结果都是阴性,但这让我看到我需要将核磁共振等临床表型测试与基因组结合起来,以了解预测风险。这促成了一家名为 Human Longevity, Inc (HLI) 的新公司的成立。
HLI 的目标是为自我描述为健康的人提供我们一天内可以完成的最全面的临床测试,例如全身核磁共振、心脏 CT 扫描、骨密度、4-D 回声心脏测试和远程心脏监测。我们包括了大量的化学测试,包括完整的代谢组学筛选。对所谓的健康人进行的这些综合测试的结果确实令人震惊。大约 40% 到 50% 的受测者患有他们自己并不知道的严重疾病。大约 5% 的 50 岁以上的人患有严重的肿瘤。好消息是它们几乎都处于早期阶段,可以通过手术切除或放射治疗。大约 1% 的所有受测者患有脑动脉瘤。机器学习正在提供与发现的疾病相关的新基因组位点。我们也在寻找像我这样具有 APOE 变化但没有阿尔茨海默病,或者具有 BRCA 突变但没有乳腺癌或卵巢癌的女性的保护性遗传标记。
这种测试看似健康的人的理念并非没有批评者。有些人认为,如果你寻找,你就会发现一些东西,而我们可能没有治疗或治愈该疾病的方法,从而造成不必要的痛苦。或者他们说,有些肿瘤可能生长缓慢,因此对其进行治疗会导致不必要的副作用;因此,“等待观察”是一种更好的方法。正如我试图通过我的职业生涯展示的那样,我对这种方法并不满意。我认为我们有义务利用我们努力开发和发现的所有工具和知识,包括具有最大潜力的工具——我们的人类基因组。
总而言之,医学实践需要彻底改变。如果我们大规模地将基因组学与临床表型分析和机器学习相结合,我们可以预防和预测疾病。阻碍这一进展的一个因素是,医疗保健系统的激励机制是提供治疗而不是预防。借助新的临床工具,可以在最早阶段发现癌症和其他疾病,此时治疗和潜在的治愈方法具有最小的侵入性。
基因组将在未来的生物经济中发挥关键作用,但美国已经远远落后。我们在全球新的 COVID-19 病毒株的序列筛选方面排名第 54 位。除了癌症之外,基因组并不是医学实践的一部分。我们都认为基因组序列将使我们了解自己并改变医学。这种情况发生得太慢了,如果我们将它作为国家优先事项,本可以拯救数千万人的生命。一个例子是,相对容易知道谁最容易死于 COVID-19 和流感。随着更多新出现的传染病幽灵的出现,我们需要尽快采取行动,而不是拖延。
当我在白宫新闻发布会上宣布基因组时,我曾说过:“塞莱拉公司使用的方法已经确定了五个个体的遗传密码。我们已经对三名女性和两名男性的基因组进行了测序,他们自称为西班牙裔、亚裔、高加索裔或非裔美国人。我们这样做并非出于排斥,而是出于对美国多样性的尊重,并帮助说明种族概念没有遗传或科学依据。在五个塞莱拉基因组中,没有任何方法可以区分不同的种族。社会和医学将我们都视为人群的成员,而作为个体,我们都是独一无二的,人口统计数据并不适用。”我仍然坚持这个观点。事实上,我们今天发现的是,社会经济背景对健康的可及性和结果的影响比任何其他因素(无论是生物因素还是其他因素)都更大。COVID-19 大流行就是这方面一个真实世界的、实时的例子。
只有敢于走前人未曾走过的路,才能取得进步。正如克林顿总统在 2000 年白宫活动中揭幕第一张人类基因组图谱时所说,“这是人类创造的最重要、最奇妙的地图。”我们需要更多的探索者和更多的资金来充分利用这张地图,以揭示人类基因组中尚未发现的新的“土地”。