大约十年前,科学家们发表了人类基因组的第一个草图,但寻找疾病基因的征程远未结束。大多数研究人员都专注于DNA碱基对(AT和CG)的单个变化,这些变化会导致致命疾病,例如囊性纤维化。然而,基因组三十亿个碱基对中的这种突变并不能说明全部情况。最近,遗传学家们更仔细地审视了一种以前被认为罕见的遗传异常:拷贝数变异 (CNV)。基因可能完全正常,但DNA序列的短缺或过剩可能会在那些难以用直接遗传模式解释的疾病中发挥作用,例如自闭症、精神分裂症和克罗恩病,这些疾病的原因困扰了研究人员数十年。
美国遗传学家卡尔文·布里奇斯在 1936 年发现了拷贝数变异,当时他注意到,继承了名为Bar基因重复拷贝的果蝇,眼睛发育得非常小。二十年后,一位法国研究人员在显微镜下研究人类染色体时,确定 CNV 是唐氏综合征的病因:患者会遗传一条额外的 21 号染色体。从表面上看,CNV 是罕见的,并且始终是疾病的直接原因。
然而,在 2004 年,情况发生了变化。两组研究人员发表了首批全基因组 CNV 图谱,表明基因数量的变异实际上非常普遍:每个研究小组发现每人约有 12 个拷贝数失衡。“当这些论文发表时,它们真的颠覆了一切,”多伦多儿童医院的遗传学家、其中一篇论文的合著者斯蒂芬·谢勒说。“人们一直认为,我们也这样认为,DNA 的这些巨大变化总是与疾病有关。”
支持科学新闻事业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。
谢勒和他的同事,包括英国剑桥韦尔科姆信托桑格研究所的群体遗传学家马修·赫尔斯,在 2006 年进行了一项更高分辨率的 CNV 研究,该研究分析了来自 270 个人的 DNA,发现每人平均有 47 个拷贝数变异。2007 年,研究人员对遗传学先驱 J·克雷格·文特的基因组进行了测序,发现了 62 个拷贝数变异。显然,赫尔斯说,“带着完美的基因组四处走动是不正常的。”
科学家们仍在努力破译这些变异(其中大多数是遗传性的)究竟如何影响身体。通常,如果基因组具有三个基因拷贝而不是正常的两个(分别来自父母一方),则细胞将从所有三个拷贝中制造蛋白质,产生的蛋白质可能超过其需要的量。但这种基因表达“并非总是如此——也有例外”,谢勒说。有时细胞仍然产生正确的量;有时 CNV 会影响调节其他基因表达的 DNA 区域,从而使问题更加复杂。
即便如此,科学家们已经能够将 CNV 与少数复杂疾病联系起来。2008 年 9 月发表在《自然》杂志上的一项研究证实了早期的发现,表明在 22 号染色体区域中缺失三百万个碱基对长度的人中,有 30% 患有精神疾病,例如自闭症和精神分裂症。2008 年 8 月发表在《自然遗传学》杂志上的一项研究发现,克罗恩病与一个名为 IRGM 的基因上游区域的 20,000 个碱基对缺失之间存在联系,该基因参与抵抗侵入性细菌。
在 2009 年 1 月,另一篇《自然遗传学》论文发现,高体重指数与一个名为 NEGR1 的基因中的 45,000 个碱基对缺失之间存在关联,该基因影响下丘脑(一个调节饥饿和新陈代谢的大脑区域)中的神经元生长。“我们正在获得如此多的数据和新型数据,以至于很难跟上,”芝加哥伊利诺伊大学的精神病学家小埃德温·库克评论道。
拷贝数变异可能有助于解释为什么复杂疾病通常是遗传性的,但并非总是与相同的基因相关:它们可能会以概率方式影响风险,马萨诸塞理工学院的群体遗传学家、克罗恩病研究的合著者史蒂文·麦卡罗尔解释说。“IRGM 缺失可能仅将克罗恩病的风险增加 40%,但它在数百万人中都这样做,”他说。一个人是否真的患上该疾病可能取决于其他遗传或环境因素。
当研究人员寻找已知的 CNV 与疾病之间更多联系时,谢勒和赫尔斯正在搜寻新的变异以添加到组合中。他们 2006 年的图谱仅识别出低至 20,000 个碱基对的 CNV;现在他们正在完成修订后的图谱,其中包括短至 500 个碱基对的变异。分析表明,每个人中大约存在 1,000 个拷贝数变异,至少跨越基因组的 1%。
“我们已经走了很远,而且速度非常快,”谢勒说。但“在接下来的一年里,我们将发现更多与疾病相关的小 CNV 和更常见的 CNV——2009 年将是具有分水岭意义的一年。”
注:本文最初以标题“太少,太多”发表。