强化学习回顾
一、环境建模相关(MDP核心要素)
强化学习的本质是一个 Markov Decision Process,其基本组成如下:
1. 状态(State, (s))
定义: 描述当前环境的信息
特点:
满足马尔可夫性:未来只依赖当前状态
可以是:
- 低维向量(车辆速度、位置)
- 高维观测(图像)
扩展:
- 部分可观测 → POMDP(自动驾驶常见)
2. 动作(Action, (a))
定义: 智能体在当前状态下可以执行的决策
类型:
- 离散(如:左/右/停)
- 连续(如:转角、加速度)
3. 状态转移(Transition)
P(s′∣s,a)
含义:
- 执行动作后,环境如何变化
分类:
- 确定性系统(控制系统常见)
- 随机系统(现实环境)
4. 奖励(Reward, (r))
定义: 环境对动作的即时反馈
r=R(s,a)
特点:
- 标量信号
- 可以稀疏或稠密
👉 本质:设计任务目标的唯一接口
5. 折扣因子(Discount Factor, (\gamma))
0≤γ≤1
作用:
- 控制“短期 vs 长期”
二、目标函数相关
6. 回报(Return, (G_t))
强化学习真正优化的是:
Gt=∑k=0∞γkrt+k
👉 这是“未来所有奖励的加权和”
7. 轨迹(Trajectory / Episode)
τ=(s0,a0,r0,s1,a1,r1,…)
含义:
- 一次完整交互过程
8. 回合(Episode)
- 从初始状态到终止状态
- 自动驾驶中通常是一个场景
三、策略与价值(决策核心)
9. 策略(Policy, (\pi))
π(a∣s)
定义:
- 给定状态,输出动作概率分布
分类:
- 确定性策略:(a = f(s))
- 随机策略:概率分布
10. 状态值函数(State Value Function)
Vπ(s)=E[Gt∣st=s]
👉 表示:这个状态“有多好”
11. 动作值函数(Action Value Function)
Qπ(s,a)
👉 表示:在状态 s 执行动作 a 的好坏
12. 优势函数(Advantage Function)
A(s,a)=Q(s,a)−V(s)
👉 含义:
- 这个动作比平均水平好多少
👉 在PPO/A2C中极其重要
四、学习与更新机制
13. 贝尔曼方程(Bellman Equation)
强化学习的核心递归关系:
V(s)=E[r+γV(s′)]
👉 所有RL算法的基础
14. 贝尔曼最优方程
Q∗(s,a)=E[r+γmaxa′Q∗(s′,a′)]
15. 时序差分误差(TD Error)
δ=r+γV(s′)−V(s)
👉 本质:
- “预测误差”
16. 学习率(Learning Rate, (\alpha))
控制更新速度
五、探索与数据相关
17. 探索(Exploration)
尝试新动作
18. 利用(Exploitation)
选择当前最优动作
19. 探索策略
- ε-greedy
- Boltzmann
- entropy regularization(SAC/PPO)
20. 经验回放(Experience Replay)
存储:
(s,a,r,s′)
👉 用于:
- 打破数据相关性
- 提高样本效率
21. 采样(Sampling)
从环境中获取数据
六、模型与学习范式
22. Model-free
- 不学习环境模型
- 直接学策略或价值
23. Model-based
- 学习或利用动力学模型
👉 与MPC强相关
24. On-policy
- 用当前策略数据训练
25. Off-policy
- 可用历史数据
26. Bootstrapping
用已有估计更新新估计
👉 TD方法核心
七、深度强化学习扩展
27. 函数逼近(Function Approximation)
- 神经网络代替表格
28. Actor-Critic结构
- Actor:输出策略
- Critic:评估策略
29. Target Network
稳定训练(DQN等)
30. Entropy(熵)
H(π)
👉 控制探索程度
八、进阶但必须知道的概念
31. Credit Assignment(归因问题)
👉 哪个动作导致最终奖励?
32. Distribution Shift
👉 训练数据 vs 测试环境不一致
33. Reward Shaping
👉 奖励设计技巧
34. Sparse Reward
👉 稀疏奖励问题(难点)
35. Overestimation Bias
👉 Q-learning常见问题
36. Stability vs Sample Efficiency
👉 RL核心trade-off
九、核心理解
强化学习的整个流程是:
在状态 (s) 下,根据策略 (\pi) 选择动作 (a), 环境按照 (P(s'|s,a)) 转移并返回奖励 (r), 通过最大化长期回报 (G_t),不断更新价值函数或策略。
十、RL与车辆控制
结合你做车辆控制,可以这样理解:
| RL概念 | 控制系统对应 |
|---|---|
| 状态 s | 车辆状态(vx, vy, yaw rate) |
| 动作 a | 转角、加速度 |
| reward | 稳定性/误差/舒适性 |
| 策略 π | 控制器 |
| value | 性能指标 |
| model | 车辆动力学 |
👉 本质:
强化学习 = 数据驱动的最优控制
