天下网商
登录/注册

阿里云自带“干粮”上全球战场,免费开放病毒基因对比技术

iwangshang / 王安忆 / 2020-03-13

摘要:与疫情赛跑,阿里云向世界献出力量。

天下网商记者 王安忆

3月13日,阿里云对外宣布,将向全球的医疗科研机构、疾控中心等一线病毒研究机构免费开放基因计算云服务AGS,最快60秒即可完成病毒基因对比工作,对进一步了解病毒变异提供有效依据。

这项“云服务”是基于阿里云容器技术,即开即用,用完即走,输入分析指令后,等待1分钟,就能完成基因对比过程,自动生成报告。不仅如此,该服务还可用于其他病毒基因测序,包括病毒活动与某些肿瘤发生的相关性研究。

由于“云服务”有不受地域限制的先天条件,更有利于技术走出国门。此次面向世界的一次免费开放,也是阿里云向全球分享中国技术经验,迈出的第一步。

技术是一个长期累计的过程

2月1日,浙江省疾控中心上线自动化的全基因组检测分析平台。利用阿里达摩院研发的AI算法,可将原来数小时的疑似病例基因分析缩短至半小时。

阿里巴巴科学家在疾控中心基因检测分析现场

事实上,全基因组检测分析平台是可以实现人类全基因组(WGS)的比对解析。WGS是利用高通量测序技术对人类不同个体或群体进行全基因组测序,并进行生物信息分析的方法。

癌症和遗传疾病的深度解析往往需要对大量样本进行WGS测序与分析,而且对WGS数据的挖掘还能发现非常多极具价值的遗传多样性信息。

李鹏是阿里云基因计算服务AGS的负责人,他们团队在WGS上的研究已有2年之多。

此前,阿里云携手华大基因,就推出过极速、低成本、高精度的WGS云交付方案,15分钟即可完成一个30X WGS的基因比对、排序、去重、变异检测全流程。一个人类全基因组有30亿碱基,一个30X的WGS测序数据量大约在100G。

15分钟即可完成一个30X WGS的基因检测全流程

相比以往的流程方案,WGS云交付方案拥有120倍的加速,比目前全球最快的FPGA/GPU方案仍能提速2-4倍。

“技术是相通的,也是一个长期积累的过程。”李鹏介绍,例如国内基因公司安诺优达,正在借助AGS的计算能力从某肿瘤的RNAseq数据的数百组样本中寻找病毒相关序列的数据,用于研究病毒活动与某肿瘤发生的相关性。

目前,最被普通人所接受的基因测序服务就是孕检场景,例如唐氏综合征的筛查就被建议使用基因测序的方式,而非穿刺。

“我们的人类全基因组是可以涵盖产检场景。”李鹏解释道,产检所产生的数据量比较小,和全基因组相比差了20倍。

然而,正是有了多年的经验积累,阿里云基因计算服务AGS病毒比对能力-mNGS宏基因组比对从设计、研发、验证到最终上线,只用了20多天。但李鹏所在团队的专家和工程师,每天屁股“粘”在凳子上的时间常常不下18个小时。

再加快新冠病毒核酸对比

“AGS是此前WGS服务之上的一个扩展版本,算是衍生技术。”李鹏提到,阿里云基因计算服务AGS提供了针对新冠肺炎病毒中,mNGS宏基因组测序数据的快速比对能力,还可以让研究机构更专注在业务上,避免做数据本身的重复处理工作。

截自阿里云抖音

实时荧光定量PCR(RT-PCR)和病原宏基因测序(mNGS)是最早用于确诊新冠病毒感染的方法。由于两项技术各有优劣,联合使用方能实现互补。

RT-PCR是目前新冠病毒的核酸检测主流方法,成本较低,操作简便。现已有众多新冠病毒RT-PCR试剂盒可选,但由于病毒浓度和试剂盒质量问题,其结果出现假阴性较高,导致医生和患者往往需要重复多次检测和长时间等待检测结果。

新型冠状病毒结构

mNGS的技术优势可通过一次检测便能排查所有已知的病原体,有效避免重复采样的麻烦操作,以及多次检测筛查所需大量样本难以实现的问题。

当病毒经过数代传播,还会产生变异,mNGS也是较为有效的追踪方案,配合病毒库可精准确定病毒的代际关系,甚至找到病毒源发地。

基于mNGS基因序列比对的分析方式,一旦病原体的基因组已知,通过更新数据库,就可实现高效准确检测出相似病毒的功能,同时对新型病毒以外的其他病原及混合感染进行综合鉴定。

但mNGS的缺点是成本较高,需要测序仪和专业的生信分析,并且操作复杂、检测时间相对较长,因此无法实现大范围推广和快速诊断。

例如进行新冠肺炎重症患者的核酸序列比时,计算机需要对2200万个序列超过32亿个碱基和病毒库一一比对,检测出新冠病毒特征区域的完全匹配系列。

通常这一过程需要30分钟,甚至几十个小时。而现在,60秒内就能获取基因比对报告,但在李鹏看来,时间甚至可以更短,“技术上我们完全能做到,但是30秒与60秒的实际效率差别并不大。”

欢迎国外免费“拿作业”

“即开即用,用完即走”是李鹏对此次基因计算服务AGS的一句总结语。

与以往提供的云服务不同,阿里云此次免费开放的基因计算服务AGS,采用容器技术和GPU,相当于是提供了“全套服务”。

所使用的机构、公司不再需要购买额外的计算资源,不用关心如何搭建集群,也无需考虑算法和网络,只需将数据放入对象存储并上传,待授权后,就会调用云服务处理数据,产出对比结果,生成相关报告。

截自阿里云抖音

以一组的宏基因组数据量为3.2Gbase(22M reads)的mNGS数据为例。

科研人员只需在阿里云上通过命令行AGS rna-mapping API 启动比对过程,随即阿里云容器服务调度GPU云服务器启动加速计算,60秒内可以完成和已知的病原体基因组序列库包括新型冠状病毒,或者39种BetaCov RNA的参考序列的比对,并科研人员上传和比对自定义病毒库。

已知的39个Beta Coronavirus的病毒比对

事实上,该服务是利用弹性调度来加速分析过程。该服务通过容器ACK的弹性调度能力,会自动匹配找到对应的计算资源,选择不同型号的GPU,完成这个计算,是传统CPU计算的数百倍加速。

如此一来,疾控中心、各大高校、医院、基因企业等一线病毒研究机,都可在阿里云上实现操作,为多种病原体检测,进一步的新冠病毒的蛋白质研究和,变异研究提供了快捷准确的数据支撑。

“云计算可以突破地域性限制,为最需要的地方提供帮助。” 阿里云方面称,不管身处哪个国家,哪个地区,有一台计算机,用一根网线就能接到“云”上,使用云端的计算资源。全球有此需求的科研机构都可以把这个“作业”拿走,直接使用。

“我们在德国的法兰克福和美国硅谷都有容器服务ACK以及GPU资源,具备了开放基因检测服务AGS的能力。用户申请后,就能免费用上基因计算服务的病毒比对能力了。”李鹏表示。

在向全球分享中国科技经验的道路上,阿里云已经迈出了一步。

分享:

发表评论

最新评论