1. 介绍
  2. 第I部分:表格解法
  3. 多臂老虎机
    1. k臂老虎机问题
    2. 动作值方法
    3. 10臂测试平台
    4. 增量实施
    5. 追踪非平稳问题
    6. 乐观的初始值
    7. 置信上限动作选择
    8. 梯度老虎机算法
    9. 关联搜索(上下文老虎机)
  4. 有限马尔可夫决策过程
    1. 代理环境接口
    2. 目标和奖励
    3. 回报和回合
    4. 回合和连续任务的统一符号
    5. 策略和值函数
    6. 最优策略和最优值函数
    7. 最优和近似
    8. 总结
  5. 动态规划
    1. 策略评估(预测)
    2. 策略改进
    3. 策略迭代
    4. 值迭代
    5. 异步动态规划
    6. 广义策略迭代
    7. 动态规划的效率
    8. 总结
  6. 蒙特卡洛方法
    1. 蒙特卡洛预测
    2. 动作值的蒙特卡洛估计
    3. 蒙特卡洛控制
    4. 无需探索起点的蒙特卡洛控制
    5. 通过重要性采样进行无策略预测
    6. 折扣感知重要性采样
    7. 按决策重要性采样
    8. 总结
  7. 时序差分学习
    1. TD预测
    2. TD预测方法的优势
    3. TD(0)的最优性
    4. Sarsa:策略TD控制
    5. Q学习:非策略TD控制
    6. 预期Sarsa
    7. 最大化偏差和双重学习
    8. 游戏、后续状态和其他特殊情况
    9. 总结
  8. n步自举
    1. n步TD预测
    2. n步Sarsa
    3. n步非策略学习
    4. 具有控制变量的决策方法
    5. 无重要性采样的策略学习:n步树备份算法
    6. 统一算法:n步Q0
    7. 总结
  9. 使用表格方法进行规划和学习
    1. 模型和规划
    2. Dyna:综合规划、行动和学习
    3. 模型何时错误
    4. 优先清扫
    5. 预期vs.样本更新
    6. 迹采样
    7. 实时动态规划
    8. 决策时规划
    9. 启发式搜索
    10. 滚动算法
    11. 蒙特卡洛树搜索
    12. 本章总结
    13. 第I部分总结
  10. 第II部分:近似解法
  11. 基于近似的策略预测
    1. 值函数近似
    2. 预测目标(VE)
    3. 随机梯度和半梯度方法
    4. 线性方法
    5. 线性方法特征构建
    6. 手动选择步长参数
    7. 非线性函数近似:人工神经网络
    8. 最小二乘法TD
    9. 基于记忆的函数近似
    10. 基于核函数的近似
    11. 深入策略学习:兴趣与重点
    12. 总结
  12. 基于近似的策略控制
    1. 回合半梯度控制
    2. 半梯度n步Sarsa
    3. 平均奖励:持续任务的新问题设置
    4. 弃用折扣设置
    5. 可微半梯度n步Sarsa
    6. 总结
  13. 基于近似的非策略方法
    1. 半梯度方法
    2. 非策略发散示例
    3. 致命三合会
    4. 线性值函数几何
    5. 贝尔曼误差中的梯度下降
    6. 贝尔曼误差不可学习
    7. 梯度TD方法
    8. 强调TD方法
    9. 减少方差
    10. 总结
  14. 资格迹
    1. λ回报
    2. TD0
    3. n步截断回报方法
    4. 重新更新:在线λ回报算法
    5. 真正的在线TD0
    6. 蒙特卡罗学习中的荷兰迹
    7. Sarsa0
    8. 具有控制变量的非策略迹
    9. Watkins 的 Q(λ) 到 Tree-Backup(λ)
    10. 稳定的非策略迹方法
    11. 实施问题
    12. 总结
  15. 策略梯度方法
    1. 策略近似及其优势
    2. 策略梯度定理
    3. 强化:蒙特卡洛策略梯度
    4. 带有基准的强化
    5. 动作评判(AC)方法
    6. 连续问题的策略梯度
    7. 连续动作的策略参数化
    8. 总结
  16. 第III部分:深入
  17. 心理学
    1. 预测和控制
    2. 经典条件反射
    3. 工具性条件反射
    4. 延迟强化
    5. 认知地图
    6. 习惯性和目标导向行为
    7. 总结
  18. 神经科学
    1. 神经科学基础
    2. 奖励信号,强化信号、值和预测误差
    3. 奖励预测误差假说
    4. 多巴胺
    5. 奖励预测误差假说的实验支持
    6. TD 误差/多巴胺对应关系
    7. 神经行动判别
    8. 行动和判别学习法则
    9. 享乐主义神经元
    10. 集体强化学习
    11. 大脑中基于模型的方法
    12. 上瘾
    13. 总结
  19. 应用和案例研究
    1. TD-Gammon
    2. 塞缪尔的跳棋玩家
    3. 沃森每日双倍投注
    4. 优化内存控制
    5. 人类水平的视频游戏
    6. 掌握围棋
    7. 热气流翱翔
  20. 前沿
    1. 通用价值函数和辅助任务
    2. 通过选项进行时间抽象
    3. 观测和状态
    4. 设计奖励信号
    5. 遗留问题
    6. 强化学习和人工智能的未来