Skip to content

强化学习回顾

约 1066 字大约 4 分钟

reinforcement learning

2026-03-19

一、环境建模相关(MDP核心要素)

强化学习的本质是一个 Markov Decision Process,其基本组成如下:


1. 状态(State, (s))

定义: 描述当前环境的信息

特点:

  • 满足马尔可夫性:未来只依赖当前状态

  • 可以是:

    • 低维向量(车辆速度、位置)
    • 高维观测(图像)

扩展:

  • 部分可观测 → POMDP(自动驾驶常见)

2. 动作(Action, (a))

定义: 智能体在当前状态下可以执行的决策

类型:

  • 离散(如:左/右/停)
  • 连续(如:转角、加速度)

3. 状态转移(Transition)

P(ss,a) P(s'|s,a)

含义:

  • 执行动作后,环境如何变化

分类:

  • 确定性系统(控制系统常见)
  • 随机系统(现实环境)

4. 奖励(Reward, (r))

定义: 环境对动作的即时反馈

r=R(s,a) r = R(s,a)

特点:

  • 标量信号
  • 可以稀疏或稠密

👉 本质:设计任务目标的唯一接口


5. 折扣因子(Discount Factor, (\gamma))

0γ1 0 \le \gamma \le 1

作用:

  • 控制“短期 vs 长期”

二、目标函数相关


6. 回报(Return, (G_t))

强化学习真正优化的是:

Gt=k=0γkrt+k G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}

👉 这是“未来所有奖励的加权和”


7. 轨迹(Trajectory / Episode)

τ=(s0,a0,r0,s1,a1,r1,) \tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots)

含义:

  • 一次完整交互过程

8. 回合(Episode)

  • 从初始状态到终止状态
  • 自动驾驶中通常是一个场景

三、策略与价值(决策核心)


9. 策略(Policy, (\pi))

π(as) \pi(a|s)

定义:

  • 给定状态,输出动作概率分布

分类:

  • 确定性策略:(a = f(s))
  • 随机策略:概率分布

10. 状态值函数(State Value Function)

Vπ(s)=E[Gtst=s] V^\pi(s) = \mathbb{E} [G_t | s_t = s]

👉 表示:这个状态“有多好”


11. 动作值函数(Action Value Function)

Qπ(s,a) Q^\pi(s,a)

👉 表示:在状态 s 执行动作 a 的好坏


12. 优势函数(Advantage Function)

A(s,a)=Q(s,a)V(s) A(s,a) = Q(s,a) - V(s)

👉 含义:

  • 这个动作比平均水平好多少

👉 在PPO/A2C中极其重要


四、学习与更新机制


13. 贝尔曼方程(Bellman Equation)

强化学习的核心递归关系:

V(s)=E[r+γV(s)] V(s) = \mathbb{E}[r + \gamma V(s')]

👉 所有RL算法的基础


14. 贝尔曼最优方程

Q(s,a)=E[r+γmaxaQ(s,a)] Q^*(s,a) = \mathbb{E} [r + \gamma \max_{a'} Q^*(s',a')]


15. 时序差分误差(TD Error)

δ=r+γV(s)V(s) \delta = r + \gamma V(s') - V(s)

👉 本质:

  • “预测误差”

16. 学习率(Learning Rate, (\alpha))

控制更新速度


五、探索与数据相关


17. 探索(Exploration)

尝试新动作


18. 利用(Exploitation)

选择当前最优动作


19. 探索策略

  • ε-greedy
  • Boltzmann
  • entropy regularization(SAC/PPO)

20. 经验回放(Experience Replay)

存储:

(s,a,r,s) (s,a,r,s')

👉 用于:

  • 打破数据相关性
  • 提高样本效率

21. 采样(Sampling)

从环境中获取数据


六、模型与学习范式


22. Model-free

  • 不学习环境模型
  • 直接学策略或价值

23. Model-based

  • 学习或利用动力学模型

👉 与MPC强相关


24. On-policy

  • 用当前策略数据训练

25. Off-policy

  • 可用历史数据

26. Bootstrapping

用已有估计更新新估计

👉 TD方法核心


七、深度强化学习扩展


27. 函数逼近(Function Approximation)

  • 神经网络代替表格

28. Actor-Critic结构

  • Actor:输出策略
  • Critic:评估策略

29. Target Network

稳定训练(DQN等)


30. Entropy(熵)

H(π) H(\pi)

👉 控制探索程度


八、进阶但必须知道的概念


31. Credit Assignment(归因问题)

👉 哪个动作导致最终奖励?


32. Distribution Shift

👉 训练数据 vs 测试环境不一致


33. Reward Shaping

👉 奖励设计技巧


34. Sparse Reward

👉 稀疏奖励问题(难点)


35. Overestimation Bias

👉 Q-learning常见问题


36. Stability vs Sample Efficiency

👉 RL核心trade-off


九、核心理解

强化学习的整个流程是:

在状态 (s) 下,根据策略 (\pi) 选择动作 (a), 环境按照 (P(s'|s,a)) 转移并返回奖励 (r), 通过最大化长期回报 (G_t),不断更新价值函数或策略。


十、RL与车辆控制

结合你做车辆控制,可以这样理解:

RL概念控制系统对应
状态 s车辆状态(vx, vy, yaw rate)
动作 a转角、加速度
reward稳定性/误差/舒适性
策略 π控制器
value性能指标
model车辆动力学

👉 本质:

强化学习 = 数据驱动的最优控制