在本月20号召开的WAVE SUMMIT+2020深度学习开发者峰会上,百度正式发布了基于飞桨的生物计算平台-螺旋桨PaddleHelix,进军生物计算领域。
本次发布的螺旋桨PaddleHelix生物计算开源工具集,提供了包括RNA二级结构预测、大规模的分子预训练、药物-靶点亲和力预测、以及ADMET成药性预测等一系列算法和模型,重点满足生物医药、疫苗设计和精准医疗方面的AI需求。
螺旋桨PaddleHelix官网地址:
https://www.paddlepaddle.org.cn/paddle/paddlehelix
螺旋桨PaddleHelix GitHub地址:
https://github.com/PaddlePaddle/PaddleHelix
在生物医药领域,小分子化合物的筛选是非常关键的环节。为了设计出某种疾病的特效药,一方面要找到能够和疾病靶点结合、具有足够活性的小分子药物;另一方面又要保证药物在人体内能够正常发生作用,以及满足一系列额外性质(药物的吸收、分布、代谢、排泄、毒性统称ADMET)。
靶蛋白(Protein)-药物配体(Ligand)复合物 (来源:PDBBind-cn.org)
传统的药物发现方法包括基于靶点结构的药物设计(Structure Based Drug Design, SBDD)、基于碎片的药物设计(Fragment Based Drug Design, FBDD)、老药新用(Repurposing)以及计算机虚拟药物设计(Computational-Aided Drug Design, CADD)等等。这些方法均存在依赖体内(in vivo)体外 (in vitro)实验验证,或者消耗大量计算资源等问题。
因此近年来,基于分子的结构和知识来直接预测亲和性的AI药物设计(AIDD)逐渐被广泛认可和应用。相比于CADD,AIDD展现出了性能上的巨大优势,但其效果同时受到生物计算领域数据量的限制。下面的表格(表1)展示生物计算一些重要问题的典型数据量,其中绿色的是有标注数据。我们看到,尽管这个领域有大量的无标注数据(仅有分子结构或者序列,没有性质,或者次级结构),有标注数据却非常少,难以支撑高质量的深度模型。
在AI的其他领域也存在类似问题。以自然语言处理为例,这个领域存在NER、逻辑推断、阅读理解、文本生成等等非常多的子问题。这些问题中的有标注数据量都非常少。但是人类文明中累积了大量的无标注语言文字,这些无标注语料给自然语言处理提供了表示学习(Representation Learning)的机会。在这样的背景下,BERT、ERNIE等一系列基于自监督(Self-Supervised)学习的方法被提出。
正是基于此,
螺旋桨PaddleHelix提出基于表示学习、多任务学习(Multi-Task Learning, MTL)和元学习(Meta Learning)来降低深度学习在生物计算中的技术和数据门槛,提升其效果。
包括生物大分子(蛋白质,DNA,RNA)或者药物小分子都由原子或者亚基组成,都可以通过序列、图或者三维结构表示。一种自然的想法,是像在自然语言处理领域一样,利用无标注数据上的自监督学习来优化分子的表示,再将其应用到下游任务。同时,生物计算领域存在大量的零散的任务,以ADMET为例,有30~50个指标需要考虑。这样的问题中,百度的生物计算团队也认为多任务学习和元学习将会发挥重要作用。
螺旋桨PaddleHelix复现并内置了业界主流的分子预训练模型(如表2),以及常用的很多组网工具(CNN、 Transformer、 LSTM、 ResNet、GNN等等),开发者基于预训练模型实现自己的模型只需要短短几行代码。螺旋桨PaddleHelix也提供了一些通过了验证的、可以有效应用于下游任务的模型,效果如表2所示。
表2 使用预训练在分子性质预测中带来显著提升
疫苗是通过把病毒或病菌相关的抗原(通常是蛋白)预先输入人体,引起人体免疫反应的物质。传统的疫苗需要体外制备抗原蛋白,通常效率低、难于快速大规模生产,因此可在人体自身内生产抗原蛋白的mRNA疫苗受到越来越多的关注。mRNA疫苗制备速度快、无感染风险,但有一个天然劣势就是mRNA非常不稳定,这与mRNA的二级结构相关。mRNA疫苗设计的关键就在于,在不改变翻译出的抗原蛋白的前提下,设计mRNA序列使其二级结构尽可能更稳定。
mRNA疫苗示意图(来源:https://translate.bio/)
百度研究院生物计算团队从2018年开始就开展了RNA结构预测和序列设计相关研究,并在2019年7月和2020年7月分别发表了LinearFold和LinearPartition算法, 将RNA结构预测和分析的速度大大提升。其中LinearFold能够在27秒内完成新冠病毒全基因组结构分析,比传统算法速度提升120倍。正是有了之前的积累,百度研究院在短短两个月就完成了LinearDesign的研发, 在mRNA疫苗设计上提出了革命性的方法。
LinearDesign能够在11分钟内完成新冠mRNA疫苗序列的设计,设计序列的稳定性和有效性大大提升。如图所示,左边是能翻译新冠S蛋白的野生型mRNA二级结构,其中存在大量易断裂的单链环。右边是LinearDesign设计序列的结构,断裂点更少,与野生型序列相比稳定性大大提升。百度研究院RNA结构预测与序列设计相关成果在美国MIT科技评论以及美国消费者新闻与商业频道(CNBC)得到了高度评价,并在2020年全球人工智能峰会(AI Summit)上获得了AI For Good(AI向善)奖。
在螺旋桨PaddleHelix中,百度也完整开源了LinearRNA系列算法,目前主要包括LinearFold和LinearPartition,开发者想要调用这些强大的工具仅仅需要一行代码。
新冠S蛋白的野生型mRNA结构和LinearDesign结构
精准医疗(precision medicine)的概念是指根据患者特征(patient characteristics)实现准确的疾病诊断和分类,从而进行个性化匹配用药和跟踪治疗。相较于传统的one-size-fits-all治疗方案,精准医疗致力于通过临床数据、生活环境、特别是分子组学数据精确刻画个体特征,通过挖掘和探究隐含在多模态数据层面的信息进行综合分析和判断,最终提供更好更适配的药物选择和治疗方案从而提升患者的治疗效果最终提高个体的生存时间和生存质量。
部分图片素材来自网络
螺旋桨PaddleHelix也将提供基于多维数据(临床随访数据、蛋白组数据、基因组数据、转录组数据、甲基化组数据、小RNA数据、单细胞组数据)的表示学习算法模型、药物响应模型、疾病预后模型等,旨在帮助行业内的医疗专家、研究人员和从业者更好的利用组学数据和分子特征更精确的刻画个体表示做组群区分,从而在精准医疗的三个维度预防、预测、治疗(Prevention、Prediction、Treatment)构建更好更准确的医疗模型,帮助到更多的患者得到最好最适配的治疗。
在WAVE SUMMIT+2020深度学习开发者峰会上,百度集团副总裁、深度学习技术及应用国家工程实验室副主任,吴甜女士对螺旋桨PaddleHelix的发展做了简短的概述,希望未来与合作伙伴共建,逐步形成一套完整的面向行业的生物计算生态和服务。
我们也期待,
螺旋桨PaddleHelix的发布能带来更多的跨界惊喜,在生物医药、精准医疗、疫苗设计等领域发挥出更大的价值。
百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。