关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。 通过购买订阅,您将有助于确保未来能够继续讲述关于塑造我们今天世界的发现和想法的有影响力的故事。
一个有2000年历史的数学定理,以及数独,可能很快就能帮助研究人员以惊人的速度解开DNA的谜团。
在成千上万的样本中寻找特定的基因突变可能是一个昂贵且耗时的过程。在过去的几年里,更快的多重DNA测序仪加快了数据采集的速度,但研究人员仍然受限于必须为每个样本贴上唯一的分子标识符(或条形码)才能进行分析。
纽约长岛冷泉港实验室 (CSHL) 的科学家们正在提出一种关于古老想法的新方法,以同时处理大型数据集。该团队正在应用中国剩余定理来精确定位较大样本池中的单个样本,这些样本池按行和列排列。
该定理大约在2000年前被发明,是一种使用质数和互质数映射信息的方法。在DNA测序和数独的案例中,该定理用于组织盒子中具有坐标的数据点,但它也可以用于找出其他领域中所有类型的缺失信息,例如用高速雷达感应到的遥远点、代码片段,以及你在游轮上的七个派对中见过三次的那个有魅力的人是谁。
通过使用这个想法,研究人员可以处理整个基因信息库,而不是仅仅“一次查看一个基因序列”,论文的主要作者 Yaniv Erlich 说,该论文作为本月基因组研究的封面故事发表。
在数独游戏中,玩家必须在每一行和每一列中填入所有九个数字,但在将其应用于如此多的基因样本搜索时,研究人员求助于最先进的机器人、机器和程序来完成样本放置和搜索。“数独[谜题]中的每个单元格都像一个样本,每个数字都像一个基因型,”Erlich 说,他是一名博士生,曾在之前的雷达工作中使用了中国剩余定理。他将这个想法带给了他的 CSHL 教授 Greg Hannon。
该过程允许研究人员汇集数十个样本,并为样本池(而不是单个样本)分配条形码标识符。在测序仪返回整个样本池的结果后,解码程序可以使用该定理反向推算并定位特定的样本。例如,为了在囊性纤维化研究中找到突变,解码程序将使用每个样本池的结果作为约束条件来精确定位突变样本的位置。
“将数独视为一种池化理论,”他说。“你在行和列中都有一个约束,即[要]拥有所有九个数字。我们也有同样的东西——可能没有那么整洁——但我们拥有同一个池中的所有序列。” 他解释说,从那里,一个程序可以返回并使用相同的逻辑来找到突变DNA。
研究作者指出,在未来,原本需要数月时间和 1000 万美元的测序和分析可能只需要几天的机器时间和 5 万至 8 万美元。这一切都归功于古老的中国数字逻辑和流行的纸笔益智游戏——Erlich 现在经常玩这款游戏。