强化学习回顾

约 1066 字大约 4 分钟

reinforcement learning

2026-03-19

一、环境建模相关（MDP核心要素）

强化学习的本质是一个 Markov Decision Process，其基本组成如下：

1. 状态（State, (s)）

定义： 描述当前环境的信息

特点：

满足马尔可夫性：未来只依赖当前状态
可以是：
- 低维向量（车辆速度、位置）
- 高维观测（图像）

扩展：

部分可观测 → POMDP（自动驾驶常见）

2. 动作（Action, (a)）

定义： 智能体在当前状态下可以执行的决策

类型：

离散（如：左/右/停）
连续（如：转角、加速度）

3. 状态转移（Transition）

$P(s'|s,a)$

含义：

执行动作后，环境如何变化

分类：

确定性系统（控制系统常见）
随机系统（现实环境）

4. 奖励（Reward, (r)）

定义： 环境对动作的即时反馈

$r = R(s,a)$

特点：

标量信号
可以稀疏或稠密

👉 本质：设计任务目标的唯一接口

5. 折扣因子（Discount Factor, (\gamma)）

$0 \le \gamma \le 1$

作用：

控制“短期 vs 长期”

二、目标函数相关

6. 回报（Return, (G_t)）

强化学习真正优化的是：

$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}$

👉 这是“未来所有奖励的加权和”

7. 轨迹（Trajectory / Episode）

$\tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots)$

含义：

一次完整交互过程

8. 回合（Episode）

从初始状态到终止状态
自动驾驶中通常是一个场景

三、策略与价值（决策核心）

9. 策略（Policy, (\pi)）

$\pi(a|s)$

定义：

给定状态，输出动作概率分布

分类：

确定性策略：(a = f(s))
随机策略：概率分布

10. 状态值函数（State Value Function）

$V^\pi(s) = \mathbb{E} [G_t | s_t = s]$

👉 表示：这个状态“有多好”

11. 动作值函数（Action Value Function）

$Q^\pi(s,a)$

👉 表示：在状态 s 执行动作 a 的好坏

12. 优势函数（Advantage Function）

$A(s,a) = Q(s,a) - V(s)$

👉 含义：

这个动作比平均水平好多少

👉 在PPO/A2C中极其重要

四、学习与更新机制

13. 贝尔曼方程（Bellman Equation）

强化学习的核心递归关系：

$V(s) = \mathbb{E}[r + \gamma V(s')]$

👉 所有RL算法的基础

14. 贝尔曼最优方程

$Q^*(s,a) = \mathbb{E} [r + \gamma \max_{a'} Q^*(s',a')]$

15. 时序差分误差（TD Error）

$\delta = r + \gamma V(s') - V(s)$

👉 本质：

“预测误差”

16. 学习率（Learning Rate, (\alpha)）

控制更新速度

五、探索与数据相关

17. 探索（Exploration）

尝试新动作

18. 利用（Exploitation）

选择当前最优动作

19. 探索策略

ε-greedy
Boltzmann
entropy regularization（SAC/PPO）

20. 经验回放（Experience Replay）

存储：

$(s,a,r,s')$

👉 用于：

打破数据相关性
提高样本效率

21. 采样（Sampling）

从环境中获取数据

六、模型与学习范式

22. Model-free

不学习环境模型
直接学策略或价值

23. Model-based

学习或利用动力学模型

👉 与MPC强相关

24. On-policy

用当前策略数据训练

25. Off-policy

可用历史数据

26. Bootstrapping

用已有估计更新新估计

👉 TD方法核心

七、深度强化学习扩展

27. 函数逼近（Function Approximation）

神经网络代替表格

28. Actor-Critic结构

Actor：输出策略
Critic：评估策略

29. Target Network

稳定训练（DQN等）

30. Entropy（熵）

$H(\pi)$

👉 控制探索程度

八、进阶但必须知道的概念

31. Credit Assignment（归因问题）

👉 哪个动作导致最终奖励？

32. Distribution Shift

👉 训练数据 vs 测试环境不一致

33. Reward Shaping

👉 奖励设计技巧

34. Sparse Reward

👉 稀疏奖励问题（难点）

35. Overestimation Bias

👉 Q-learning常见问题

36. Stability vs Sample Efficiency

👉 RL核心trade-off

九、核心理解

强化学习的整个流程是：

在状态 (s) 下，根据策略 (\pi) 选择动作 (a)，环境按照 (P(s'|s,a)) 转移并返回奖励 (r)，通过最大化长期回报 (G_t)，不断更新价值函数或策略。

十、RL与车辆控制

结合你做车辆控制，可以这样理解：

RL概念	控制系统对应
状态 s	车辆状态（vx, vy, yaw rate）
动作 a	转角、加速度
reward	稳定性/误差/舒适性
策略 π	控制器
value	性能指标
model	车辆动力学

👉 本质：

强化学习 = 数据驱动的最优控制

版权所有

版权归属：Duangce

许可证：署名 4.0 国际 (CC-BY-4.0)