物理可解释性

约 522 字大约 2 分钟

2026-04-16

概述

WM 的物理可解释性是指 WM 的运行逻辑要对齐物理世界的规则，它内部的潜状态要能够对应具有明确物理意义的变量，它的决策推演过程要严格地遵循物理规律，其生成的内容均可溯源、可校验、可复现。

总结下来就是要做到物理表征一致性，物理动力学（广义）一致性。

它不是让模型解释为什么这么做，而是让模型的表征意义、演化逻辑、输出结果与真实物理世界可观测、可复现的客观规律一致，它要具备的是从这些表征意义推演出正确结果的能力。

Peper 四大核心原则

前面提到物理表征一致性和物理动力学一致性是 WM 的物理可解释性的形式化定义、充要条件，是学术定义，而真正在现实世界，我们该如何实现、如何评估 WM 的物理可解释性，则可参照 Peper 提出的四大核心原则，即：基于物理意图的功能化潜空间，学习对齐物理不变性与等变性表征、多粒度与多强度的物理监督融合训练、对生成输出做物理意义上的分区，支撑可扩展性与可验证性。

展开讲讲

常见误区纠错

不是加了物理合规损失，就具备物理可解释性
1. 仍然是训练物理知情，让模型输出尽量往物理规律上靠。如果我们改变说让重力加速度为原来的一半，那么它很难输出正确的结果，仍然按照原来的规律输出。因为它的训练数据很久有相关内容。
不是将模型特征可视化了，就是物理可解释性
不是只有写成物理规则的白箱，才叫具备物理可解释性

版权所有

版权归属：Duangce

许可证：署名 4.0 国际 (CC-BY-4.0)