对于试图治疗病因不明症状患者的医生来说,基因测序技术可能有助于他们找到诊断方向。但是,产生的大量数据可能会使快速找到答案变得困难。
直到几年前,美国海军医学研究机构第6分队(NAMRU-6)在利马的医生不得不将他们的序列数据发送到美国进行分析,这个过程可能需要数周时间——对于做出紧迫的治疗决策来说太长了。“如果你所能做的只是获得数据,然后必须将其运送到美国,那几乎是无用的,”该中心基因组学和病原体发现部门负责人玛丽安娜·莱吉亚说。
但是莱吉亚不再需要等待分析结果了;她可以在几天甚至几小时内获得结果——而且她可以在自己的实验室里完成。她的团队利用了EDGE(基因组学专业知识发展赋能),这是一种生物信息学工具,它将常见的微生物基因组学任务(例如序列组装和物种鉴定)隐藏在一个简洁的界面之后,允许用户生成完善的分析结果。“我们可以在现场获得可操作的信息,使我们能够非常快速地就下一步行动做出决策,”莱吉亚说。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们今天世界的发现和想法的具有影响力的故事的未来。
EDGE不是第一个使用点击界面简化信息学的工具。事实上,它缺乏许多成熟的替代方案的灵活性和范围,例如Galaxy和Illumina的BaseSpace平台。但它的简单性正在吸引那些原本可能避开生物信息学的用户。“使用[EDGE]的人以前从不费心学习命令行工具,”克林顿·帕登说,他在美国疾病控制与预防中心(CDC)亚特兰大分部从事病毒发病机制研究时使用了EDGE。因此,它代表了一个基因组信息学民主化的案例研究——这可能有助于加速纯粹的生物学家对该领域的接受。
实地信息学
帕特里克·钱恩是该软件的开发负责人,他在新墨西哥州洛斯阿拉莫斯国家实验室(LANL)表示,EDGE的创建是为了试图平衡低成本DNA测序仪的快速普及与理解数据所需的相对匮乏的知识。负责在位于马里兰州弗雷德里克的海军医学研究中心生物防御研究理事会(BDRD)为军事应用改进该软件的计算生物学家乔·安德森说,它是为缺乏生物信息学专业知识的机构设计的。
它也是开源的、独立的,并为微生物基因组学提供端到端分析,从原始序列读数到物种鉴定和系统发育,只需单击一下即可完成。安德森说,该系统的运行成本也相对较低,因为推荐的硬件配置(256GB内存和64个处理器)的购买价格不到10,000美元。这意味着大多数能够承担测序项目费用的实验室都能够负担得起硬件。“那不是可以随便扔掉的钱,但它足够便宜,”他说。它还有助于设置不依赖于互联网连接,并且可以由发电机供电。
具有可靠网络连接的用户可以将系统安装到云网络。英国伯明翰大学的生物信息学家尼古拉斯·洛曼指出了CLIMB,即微生物生物信息学云基础设施,他帮助开发了该基础设施。CLIMB是一项免费服务,专门为在英国从事微生物基因组学研究的学者提供。
CLIMB获得了英国医学研究委员会840万英镑(1050万美元)的支持,并整合了多种信息学工具,包括序列数据库和一个名为基因组虚拟实验室的分析工作台。“我肯定在考虑将EDGE作为那里的一个可能的选项,”洛曼说。
总的来说,EDGE已在美国国防部和伙伴国家的18个实验室以及除南极洲以外的每个大陆正式安装,BDRD基因组学和生物信息学负责人瑟伦·汉密尔顿说。
其中一个在金边的NAMRU-2机构,该机构使用该系统来追踪病媒传播疾病。“传统上,那里不是你会去从事生物信息学的地方,”安德森说。但EDGE正在改变这一点。“我意识到的一件事是,如果你给[研究人员]工具并走开,他们会让你感到惊讶,”安德森说。
最新版本的EDGE——去年10月发布的1.5版本——包含54个第三方工具。所有组件,包括算法、数据库、可视化工具和参考基因组,都托管在一个服务器上,该服务器驱动六个相互关联的分析模块:序列清理;组装和注释;与参考基因组比较;分类鉴定;进化分析;和PCR引物设计。钱恩说,包括RNA分析和病原体检测在内的其他模块计划用于即将推出的EDGE 2.0。
去年11月,钱恩和他的同事在一项研究中展示了EDGE的功能,他们使用该平台组装、分类和绘制了炭疽杆菌和鼠疫耶尔森菌分离株的进化关系;解开了一个模拟的人类微生物组;并分析了一系列人类临床样本,包括埃博拉病毒和大肠杆菌感染病例。但该系统的首次发表使用实际上早于该研究几个月。莱吉亚的实验室使用EDGE优化了登革热病毒全基因组测序的方法——在一项去年6月发表的研究中。
用户可以使用LANL服务器上托管的免费演示来探索这些和其他数据集。希望分析自己序列的研究人员必须在自己的系统上安装该软件。代码可以从GitHub免费下载,并且Docker容器和虚拟机镜像可用,但钱恩说,可能需要信息技术专家来处理安装。可以调整源代码以添加其他工具和工作流程,但这超出了许多用户的能力范围,钱恩承认。他说,简化该过程的机制正在开发中。
帕登拥有计算机科学背景,他说该工具的简单性使计算生物学对那些可能被生物信息学工作的常用工具(计算机的基于文本的命令行)吓倒的研究人员来说变得易于访问。
但加州大学戴维斯分校的计算科学家提图斯·布朗警告说,EDGE的一些好处被可能限制该软件长期使用的缺点所削弱。他将EDGE描述为“有主见的软件”的例子。“它为你提供了一小套经过调整以适应特定示例的软件,”他说,“并且它提供了漂亮的图形摘要和输出。”但是,他指出,尚不清楚其他研究人员将如何帮助改进该工具,也不清楚如果其资金枯竭会发生什么。
钱恩说,该团队将EDGE开源部分是因为担心未来的资金,这也正在影响未来的发展计划。“可持续性是我们必须思考的问题,”钱恩说,“这就是为什么我们将尝试允许第三方实施者更轻松地即插即用他们的项目,最有可能使用Docker。”
工具星系
EDGE不是第一个提供用户友好界面的生物信息学系统。Galaxy于2005年首次发布,允许研究人员通过基于Web的界面,从庞大而灵活的免费软件工具箱中组装信息学管道。用户可以通过以不同方式组合这些工具来解决他们可以想到的几乎任何问题。
但是Galaxy可能难以使用。而且,与EDGE生成的图形表示(例如系统发育树或分层饼图中分类数据的交互式“Krona”图)不同,Galaxy的输出往往采用处理后的数据文件形式,用户随后需要将其带到其他地方进行可视化。
宾夕法尼亚州费城儿童医院生物医学与健康信息学系的软件开发人员杰里米·莱比锡说:“Galaxy更像一个厨房,但没有餐厅。”。“该系统实际上不是为了想出一种以吸引人的方式交付该输出的方法,”他说。“对于EDGE,他们实际上考虑了报告应该是什么样子”。
澳大利亚阿德莱德大学的生物信息学家内森·沃森-海格说,EDGE可以帮助减轻过度劳累的生物信息学家的压力。但他警告说,它仍然是一个复杂的生物信息学工具,在对结果抱有太多确定性之前,在计算方面缺乏经验的生物学家明智的做法是咨询专家。
加州大学圣地亚哥分校计算生物学和生物信息学中心临时主任凯瑟琳·菲施补充说,与任何工具一样,他们需要了解算法在做什么,以及不同的参数如何影响其输出。“仅仅因为你可以运行工具并不意味着你应该运行工具。”
尽管如此,随着生物信息学工具变得越来越容易,信息学可能会失去一些复杂的光环。对于生物学家来说,这可能会导致更广泛的采用——和民主化。
本文经许可转载,并于2017年2月28日首次发表。