计算速度更快将人工智能与基础物理学结合起来
原子是由带正电的原子核和带负电的电子组成的复杂量子系统。当多个原子聚集成分子时,组成分子的原子的电子会以复杂的方式相互作用,这使得分子的计算机模拟成为现代科学中最难的问题之一。
柏林工业大学柏林学习与数据基础研究所(BIFOLD)和GoogleDeepMind的研究人员现已开发出一种新颖的机器学习算法,该算法能够对长时间尺度上单个或多个分子的动态进行高精度模拟。他们的研究成果现已发表在《自然通讯》上。
这些所谓的分子动力学模拟对于理解分子和材料的性质非常重要,并且在药物开发和材料设计方面具有潜在的应用(例如用于太阳能电池板和电池)。计算电子相互作用的传统方法依赖于寻找所谓的薛定谔方程的解。
薛定谔方程描述了量子系统(例如原子或分子)可以假设的能级。这是一项众所周知的艰巨任务,即使在功能强大的计算机上,找到包含数十个以上原子的分子的解也可能需要几天的时间。更糟糕的是,为了在长时间尺度上运行分子动力学模拟,薛定谔方程需要求解数千次甚至数百万次,这使得计算成本很快超过当今可用的计算资源。
BIFOLD研究员ThorbenFrank解释说:“模拟此类相互作用并据此预测蛋白质折叠或单个分子之间的结合等复杂过程是许多化学家和材料科学家的长期梦想,这将节省许多昂贵且劳动密集型的实验。”
近年来,机器学习(ML)方法让这个梦想变得触手可及。它们无需明确求解薛定谔方程,而是可以学会在原子层面直接预测相关电子相互作用的总体结果,从而大大降低计算成本。
困难就转移到寻找有效的算法,以便“教导”机器学习系统如何相互作用,而无需明确建模。为了降低这项任务的复杂性,许多学习算法利用了物理系统遵循所谓的不这一事实。
简而言之,当分子在空间中移动时,分子的某些属性保持不变,但单个原子之间的相对距离保持不变——这意味着机器在这些情况下不需要学习任何新东西。然而,这些不通常被纳入机器学习模型的方式在计算上是昂贵的,最终限制了模型进行分子动力学模拟的速度。
为了解决这一缺陷,BIFOLD的科学家设计了一种新的学习算法,从一开始就将不与化学系统的其他信息分离。与以前需要从模型中的每个作中提取不变成分的方法不同,这种新方法简化了流程。现在,ML模型可以将最复杂的作保留给真正重要的物理信息,并大幅降低总体计算成本。
“以前需要在高性能计算机集群上进行数月甚至数年计算的模拟,现在在单个计算机节点上只需几天即可完成。效率的飞跃使得长期模拟成为可能,这对于理解原子系统的结构、动态和功能必不可少。因此,它能够更深入地洞察自然界最复杂和最基本的过程,”BIFOLD研究员、该研究项目的负责人StefanChmiela博士说。
未来,通过精确模拟人体内的分子与蛋白质的相互作用,研究人员无需进行实验就能开发新药,节省时间和金钱,同时更加环保。
为了展示该算法的潜在应用,该团队使用新的ML方法来识别二十二碳六烯酸的最稳定版本,二十二碳六烯酸是一种脂肪酸,是人类大脑的主要结构成分。这项任务需要高精度扫描数万个潜在候选者。到目前为止,这种分析在传统的量子力学方法中是不可行的。
正如BIFOLD联合主任兼GoogleDeepMind首席科学家Klaus-RobertMüller教授所言,“这项研究展示了将先进的机器学习技术与物理原理相结合以克服计算化学领域长期存在的挑战的潜力。它延续了一项重要的研究方向,重点是将机器学习方法扩展到具有实际意义的现实化学系统。”
GoogleDeepMind高级研究员OliverUnke博士评论道:“今年早些时候,我们成功将模型扩展到数千个原子,但随着这样的新进展,扩展到更大数量的原子可能成为可能。”
虽然现在已可以进行数万至数十万个原子的模拟,但有些结构包含数百万个或更多的原子。下一代算法需要能够准确模拟此类系统规模,这需要正确描述额外的、复杂的、长距离的物理相互作用。