物理可解释性
约 522 字大约 2 分钟
2026-04-16
概述
WM 的物理可解释性是指 WM 的运行逻辑要对齐物理世界的规则,它内部的潜状态要能够对应具有明确物理意义的变量,它的决策推演过程要严格地遵循物理规律,其生成的内容均可溯源、可校验、可复现。
总结下来就是要做到 物理表征一致性,物理动力学(广义)一致性。
它不是让模型解释为什么这么做,而是让模型的表征意义、演化逻辑、输出结果与真实物理世界可观测、可复现的客观规律一致,它要具备的是从这些表征意义推演出正确结果的能力。
Peper 四大核心原则
前面提到 物理表征一致性和物理动力学一致性 是 WM 的物理可解释性的形式化定义、充要条件,是学术定义,而真正在现实世界,我们该如何实现、如何评估 WM 的物理可解释性,则可参照 Peper 提出的四大核心原则,即:基于物理意图的功能化潜空间,学习对齐物理不变性与等变性表征、多粒度与多强度的物理监督融合训练、对生成输出做物理意义上的分区,支撑可扩展性与可验证性。
展开讲讲
常见误区纠错
- 不是加了物理合规损失,就具备物理可解释性
- 仍然是训练物理知情,让模型输出尽量往物理规律上靠。如果我们改变说让重力加速度为原来的一半,那么它很难输出正确的结果,仍然按照原来的规律输出。因为它的训练数据很久有相关内容。
- 不是将模型特征可视化了,就是物理可解释性
- 不是只有写成物理规则的白箱,才叫具备物理可解释性
