“AI for Science 预示着一种全新的科学发现范式。通过构建统一的科学基座模型,AI for Science 将消除不同科学领域之间的壁垒,实现通过一个模型解决众多科学难题的目标。它还有望推动更加普及的科学探索范式,通过与基座模型交互,让每个人都能参与到科学发现的过程中。而为了实现这些愿景,我们必须要让科学基座模型超越人类语言的限制,去学习、理解大自然的语言。”
构建科学基座模型:AI for Science 应当遵循类似 GPT 等大模型的设计思路,用一种通用技术来解决广泛的科学问题。在过去的科学研究中,人们通常认为隔行如隔山,不同领域的科学问题需要用独立的方法来求解。但是,我们的客观世界实际上是由一些“简单通用”的底层规律所支配的。比如,无论是不规则的无机小分子、周期性的晶体材料、还是蛋白质、DNA 等生物大分子,其背后都被薛定谔方程所支配着。这种科学规律的共通性为我们整合所有科学领域、任务、和模态,构建统一的科学基座模型奠定了基础。科学基座模型可以帮助我们找到复杂现象背后的规律和内在联系,在不同学科知识的碰撞中产生“1+1>2”的效果,从方法论层面影响科学发现。此外,科学基座模型还要从各种科学文献中学习人类历史上积累的科学知识及其推理能力,并在此基础上实现人类语言和科学语言的衔接,使普通人也能通过语言与基座模型交互,从而降低科学发现的专业门槛,让人人都能成为“爱因斯坦”,推动科学发现的“平权”。
实现科学研究的闭环:科学发现是一个大胆假说、小心求证的过程,后者通常依赖于实验室工作。为了实现科学发现的全链条,AI for Science 必须与真实世界形成闭环,不能仅仅局限于数字世界。近年来,实验室自动化已成为科学探索的新趋势,人工智能是这些自动化实验室的大脑,指导机械臂精确执行操作,自动合成、自动实验,从而实现从理论到实验验证的完整闭环。试想一下,一旦我们可以利用科学基座模型提出新的科学假说、进行计算仿真、再通过自动化实验室来验证,并将结果反馈给基座模型修正假说、反复迭代——以上过程能够7×24小时全天候运行,人类的科学发现能力将发生根本性的改变。
面向微观世界和宏观世界的研究是 AI for Science 的两个重要方向。由于微观世界的科学规律已经被人类充分掌握,理论完备,也有很多直接或间接的实验手段,因此 AI for Science 在微观领域大展身手具有充分的理论和实践基础。针对宏观世界,虽然人类还没有完全掌握其背后的物理规律,但也已经积累了大量数据,AI for Science 可以利用这些数据,进行规律挖掘和预测,如天气预报和气候变化研究等。
目前,微软研究院科学智能中心的 AI for Science 研究更专注于微观世界,并将相关的研究项目分成了三个层次:基础层是科学基座模型;中间层是科学仿真工具(如电子结构预测、分子动力学模拟等);应用层是解决各领域的重大科学问题(如材料设计和药物开发等)。
在中间层,我们的研究重点包括电子结构预测、分子动力学模拟等,这些方向为理解和预测分子行为提供关键信息。在电子结构预测方面,我们在《自然-计算科学》(Nature Computational Science) 杂志上发表了 M-OFDFT 技术,可以利用 AI 方法将传统 DFT(密度泛函理论)的复杂度明显降低 。同时,我们还在 GPU 加速、并行计算等方面进行了更加深入的探索,进一步提高DFT的计算效率,成功将DFT计算拓展到更大尺度的分子体系,该技术已在微软 Azure 云平台上发布。在分子动力学模拟方面,我们开发了机器学习力场 ViSNet,它可以针对蛋白质等生物大分子给出精准的能量和力场的预测,相关研究成果作为编辑精选文章发表在《自然-通讯》(Nature Communications)杂志上,并且获得了首届全球 AI 药物设计大赛的冠军。
ViSNet 示意图
中间层的 AI 模型和科学基座模型有着很强的依赖关系,它们会在科学基座模型的通用建模能力的基础上,再融入领域数据和洞察,通过模型微调或知识蒸馏,获得针对特定领域更高的精度或更高的效率。
在应用层,我们特别关注制药和材料领域的重大科学问题。这是当前与 AI for Science 研究最契合,而且市场需求最大的领域。在此方向上我们也取得了令人鼓舞的成果,比如能够加速发现和设计更新颖、更稳定材料的 MatterSim 和 MatterGen 模型;能够根据指定靶点,自动设计候选药物的 TamGen 模型。尤其是基于 TamGen 模型,我们与 GHDDI(全球健康药物研发中心)和盖茨基金会进行了深入合作,为肺结核和冠状病毒等仍然肆虐全球的传染病设计出了全新的高效候选药物,经过实验室合成和酶抑制试验,这些 AI 设计出来的候选药物表现出了非常优异的性能,与已知的先导化合物相比,其生物活性提高了近10倍,为治愈相关疾病做出了有益的探索。除此之外,我们也在研究科学智能体和关注实验室自动化,希望能够早日实现科学发现的自动化,助力人类文明以更快的节奏进化。我们还十分关注负责任的 AI for Science,利用法律、道德和社会规范为 AI for Science 的研究保驾护航。
TamGen 示意图
憧憬人人都可参与科学发现的未来
AI for Science 的深入研究与发展,将为科学发现打开无限可能,为人类探索自然提供更丰富的方法和工具。利用 AI for Science,计算机模拟的精度将无限接近于现实世界实验的精度,助力科学研究的质量和效率提升至全新高度,引领科学探索进入崭新的阶段。
当然,我们也必须清醒地认识到,AI for Science 的发展并非一蹴而就,需要长期的投入和研究,并攻克一些前所未有的挑战。作为一个高度跨学科的研究领域,AI for Science 对交叉领域人才的需求非常迫切。AI for Science 的研究者需要在计算机或自然科学领域具有很深的造诣,并且对交叉学科相互融合具备广阔的视野和开放的心态,对其他领域的难度和复杂性保持充分的理解与尊重。
算力和数据同样给 AI for Science 研究带来了极大的挑战。自然科学现象的数据类型和复杂度都远超语言数据,深入研究科学智能所需的算力和数据量也将呈指数级增长,大大高于现有的大语言模型。
此外,构建完整的 AI for Science 研究闭环并非易事。正如之前提到的,研究闭环不仅关系到验证假说的有效性,也是衡量人工智能在科学发现中的效率和质量的关键。但传统的实验室方法论难以支持 AI for Science 的发展,我们需要全新的实践方法论,例如设计全新的实验方案和自动化流程。
尽管 AI for Science 作为新兴的科学发现范式还面临着许多未知的挑战,但我们目前所取得的每一点进展都预示着它将为人类带来无尽的可能性。AI for Science 研究中不乏令人望而却步的难题,但也正是这些难题,激发了我们探索和创新的热情。我和我的同事们将继续怀揣着极大的热忱投身于这一领域,并乐于与那些对 AI for Science 秉持严谨态度和长远愿景的各领域专家学者合作,共同推动 AI for Science 成为人类认识世界和改造世界的变革性力量。