论文题目:
Automated discovery of fundamental variables hidden in experimental data
论文链接:https://www.nature.com/articles/s43588-022-00281-6
要构建自然定律,先寻找隐藏变量
描述自然的几乎所有物理定律,其数学表达式总是用系统状态变量之间的关系来表述。例如,牛顿第二定律 p=mv 描述了物体的动量和质量、速度之间的关系;能量、质量、速度,这三个变量组成了爱因斯坦质能方程 E=mc2。热力学、电磁学、量子力学的理论表述,都需要首先定义一组基本状态变量。从大量原始观测数据中,提取出描述状态变量之间简明关系的数学定律,是许多科学发现的关键步骤,这个过程常常需要人类科学家投入数十年的辛勤工作。
有趣的是,建模系统的状态变量不仅是隐藏的,而且并非唯一。例如,对于简单的单摆系统,其状态变量通常选取摆臂的角度和角速度,因为这两个量可以直接测量,不过另一组状态变量,如摆臂的动能和势能,也可以用作状态变量。因此可以推想,一些自然现象看起来神秘而复杂,或许是因为我们试图用错误的变量来理解它们——我们有不同的方式来描述宇宙。
最近机器学习技术的进展和计算机算力的提升,为科学模型的发现提供了新的路径:先进的算法可以通过筛选大量数据,发现变量之间的函数关系。是否有可能用人工智能方法自动发现隐藏的状态变量呢?在7月25日发表于 Nature Computational Science 的一项最新研究中,美国哥伦比亚大学的研究人员通过摄像机观察物理现象,利用机器学习方法从观测得到的一系列视频帧中,直接识别系统的隐藏状态变量。
图1. 从单摆、反应-扩散过程到火焰,是哪些状态变量描述了这些动力系统?机器学习算法可以从原始观测数据中识别出状态变量,成为自动科学发现的工具。
计算机从数据中学习物理定律
从数据中计算发现物理定律的历史可以追溯到20世纪70年代,当时计算机开始可以实现一定程度的密集搜索和回归算法。最早的研究成果是开发出一种 BACON 软件[1],它能够根据低维状态变量确定物理定律,并识别自变量和因变量之间的一些函数关系。这个识别过程寻找常见的函数关系,如常量和线性关系、乘法和逆相关等。如果发现新的相关变量,BACON 还可以将这个额外的变量添加到现有集合中。
2009年,Schmidt 和 Lipson[2]提出了一种遗传算法,可以从实验数据中学习物理定律,包括具有哈密顿和拉格朗日性质的守恒律。他们的工作正确识别出许多已知的物理定律,对之后的算法研究带来了启发。然而,这种遗传算法相当不稳定,对数据和噪声很敏感,也没有执行奥卡姆剃刀原则,即自然定律常常以简单形式出现。之后的研究[3]改进了这个问题,并结合符号回归算法和稀疏正则化,被证明可以学习多种工程学和物理学原理。
最近,一个物理启发的多维符号回归算法[4]正确识别出了《费曼物理学讲义》中的所有100个方程。尽管取得如此多的进展,上述这些方法并没有解决前面提到的问题——找到适当的物理变量来描述系统。