- 1. 介绍
- 第I部分:表格解法
2. 多臂老虎机
- 2.1. k臂老虎机问题
- 2.2. 动作值方法
- 2.3. 10臂测试平台
- 2.4. 增量实施
- 2.5. 追踪非平稳问题
- 2.6. 乐观的初始值
- 2.7. 置信上限动作选择
- 2.8. 梯度老虎机算法
- 2.9. 关联搜索(上下文老虎机)
3. 有限马尔可夫决策过程
- 3.1. 代理环境接口
- 3.2. 目标和奖励
- 3.3. 回报和回合
- 3.4. 回合和连续任务的统一符号
- 3.5. 策略和值函数
- 3.6. 最优策略和最优值函数
- 3.7. 最优和近似
- 3.8. 总结
4. 动态规划
- 4.1. 策略评估(预测)
- 4.2. 策略改进
- 4.3. 策略迭代
- 4.4. 值迭代
- 4.5. 异步动态规划
- 4.6. 广义策略迭代
- 4.7. 动态规划的效率
- 4.8. 总结
5. 蒙特卡洛方法
- 5.1. 蒙特卡洛预测
- 5.2. 动作值的蒙特卡洛估计
- 5.3. 蒙特卡洛控制
- 5.4. 无需探索起点的蒙特卡洛控制
- 5.5. 通过重要性采样进行无策略预测
- 5.6. 折扣感知重要性采样
- 5.7. 按决策重要性采样
- 5.8. 总结
6. 时序差分学习
- 6.1. TD预测
- 6.2. TD预测方法的优势
- 6.3. TD(0)的最优性
- 6.4. Sarsa:策略TD控制
- 6.5. Q学习:非策略TD控制
- 6.6. 预期Sarsa
- 6.7. 最大化偏差和双重学习
- 6.8. 游戏、后续状态和其他特殊情况
- 6.9. 总结
7. n步自举
- 7.1. n步TD预测
- 7.2. n步Sarsa
- 7.3. n步非策略学习
- 7.4. 具有控制变量的决策方法
- 7.5. 无重要性采样的策略学习:n步树备份算法
- 7.6. 统一算法:n步Q0
- 7.7. 总结
8. 使用表格方法进行规划和学习
- 8.1. 模型和规划
- 8.2. Dyna:综合规划、行动和学习
- 8.3. 模型何时错误
- 8.4. 优先清扫
- 8.5. 预期vs.样本更新
- 8.6. 迹采样
- 8.7. 实时动态规划
- 8.8. 决策时规划
- 8.9. 启发式搜索
- 8.10. 滚动算法
- 8.11. 蒙特卡洛树搜索
- 8.12. 本章总结
- 8.13. 第I部分总结
- 第II部分:近似解法
9. 基于近似的策略预测
- 9.1. 值函数近似
- 9.2. 预测目标(VE)
- 9.3. 随机梯度和半梯度方法
- 9.4. 线性方法
- 9.5. 线性方法特征构建
- 9.6. 手动选择步长参数
- 9.7. 非线性函数近似:人工神经网络
- 9.8. 最小二乘法TD
- 9.9. 基于记忆的函数近似
- 9.10. 基于核函数的近似
- 9.11. 深入策略学习:兴趣与重点
- 9.12. 总结
10. 基于近似的策略控制
- 10.1. 回合半梯度控制
- 10.2. 半梯度n步Sarsa
- 10.3. 平均奖励:持续任务的新问题设置
- 10.4. 弃用折扣设置
- 10.5. 可微半梯度n步Sarsa
- 10.6. 总结
11. 基于近似的非策略方法
- 11.1. 半梯度方法
- 11.2. 非策略发散示例
- 11.3. 致命三合会
- 11.4. 线性值函数几何
- 11.5. 贝尔曼误差中的梯度下降
- 11.6. 贝尔曼误差不可学习
- 11.7. 梯度TD方法
- 11.8. 强调TD方法
- 11.9. 减少方差
- 11.10. 总结
12. 资格迹
- 12.1. λ回报
- 12.2. TD0
- 12.3. n步截断回报方法
- 12.4. 重新更新:在线λ回报算法
- 12.5. 真正的在线TD0
- 12.6. 蒙特卡罗学习中的荷兰迹
- 12.7. Sarsa0
- 12.8. 具有控制变量的非策略迹
- 12.9. Watkins 的 Q(λ) 到 Tree-Backup(λ)
- 12.10. 稳定的非策略迹方法
- 12.11. 实施问题
- 12.12. 总结
13. 策略梯度方法
- 13.1. 策略近似及其优势
- 13.2. 策略梯度定理
- 13.3. 强化:蒙特卡洛策略梯度
- 13.4. 带有基准的强化
- 13.5. 动作评判(AC)方法
- 13.6. 连续问题的策略梯度
- 13.7. 连续动作的策略参数化
- 13.8. 总结
- 第III部分:深入
14. 心理学
- 14.1. 预测和控制
- 14.2. 经典条件反射
- 14.3. 工具性条件反射
- 14.4. 延迟强化
- 14.5. 认知地图
- 14.6. 习惯性和目标导向行为
- 14.7. 总结
15. 神经科学
- 15.1. 神经科学基础
- 15.2. 奖励信号,强化信号、值和预测误差
- 15.3. 奖励预测误差假说
- 15.4. 多巴胺
- 15.5. 奖励预测误差假说的实验支持
- 15.6. TD 误差/多巴胺对应关系
- 15.7. 神经行动判别
- 15.8. 行动和判别学习法则
- 15.9. 享乐主义神经元
- 15.10. 集体强化学习
- 15.11. 大脑中基于模型的方法
- 15.12. 上瘾
- 15.13. 总结
16. 应用和案例研究
- 16.1. TD-Gammon
- 16.2. 塞缪尔的跳棋玩家
- 16.3. 沃森每日双倍投注
- 16.4. 优化内存控制
- 16.5. 人类水平的视频游戏
- 16.6. 掌握围棋
- 16.7. 热气流翱翔
17. 前沿
- 17.1. 通用价值函数和辅助任务
- 17.2. 通过选项进行时间抽象
- 17.3. 观测和状态
- 17.4. 设计奖励信号
- 17.5. 遗留问题
- 17.6. 强化学习和人工智能的未来