介绍

多臂老虎机

多臂老虎机

10臂测试平台

增量实施

追踪非平稳问题

乐观的初始值

置信上限动作选择

梯度老虎机算法

关联搜索（上下文老虎机）

代理环境接口

目标和奖励

回报和回合

回合和连续任务的统一符号

策略和值函数

最优策略和最优值函数

最优和近似

总结

策略评估（预测）

策略改进

策略迭代

值迭代

异步动态规划

广义策略迭代

动态规划的效率

总结

蒙特卡洛预测

动作值的蒙特卡洛估计

蒙特卡洛控制

无需探索起点的蒙特卡洛控制

通过重要性采样进行离线策略预测

折扣感知重要性采样

按决策重要性采样

总结

TD预测

TD预测方法的优势

TD（0）的最优性

Sarsa：在线TD控制

Q学习：离线策略TD控制

预期Sarsa

最大化偏差和双重学习

游戏、后续状态和其他特殊情况

总结

n步TD预测

n步Sarsa

n步非策略学习

具有控制变量的决策方法

无重要性采样的策略学习：n步树备份算法

统一算法：n步Q0

总结

模型和规划

Dyna：综合规划、行动和学习

模型何时错误

优先清扫

预期vs.样本更新

迹采样

实时动态规划

决策时规划

启发式搜索

滚动算法

蒙特卡洛树搜索

本章总结

第I部分总结

值函数近似

预测目标（VE）

随机梯度和半梯度方法

线性方法

线性方法特征构建

手动选择步长参数

非线性函数近似：人工神经网络

最小二乘法TD

基于记忆的函数近似

基于核函数的近似

深入策略学习：兴趣与重点

总结

回合半梯度控制

半梯度n步Sarsa

平均奖励：持续任务的新问题设置

弃用折扣设置

可微半梯度n步Sarsa

总结

半梯度方法

非策略发散示例

致命三合会

线性值函数几何

贝尔曼误差中的梯度下降

贝尔曼误差不可学习

梯度TD方法

强调TD方法

减少方差

总结

λ回报

TD0

n步截断回报方法

重新更新：在线λ回报算法

真正的在线TD0

蒙特卡罗学习中的荷兰迹

Sarsa0

具有控制变量的非策略迹

Watkins 的 Q(λ) 到 Tree-Backup(λ)

稳定的非策略迹方法

实施问题

总结

策略近似及其优势

策略梯度定理

强化：蒙特卡洛策略梯度

带有基准的强化

动作评判（AC)方法

连续问题的策略梯度

连续动作的策略参数化

总结

预测和控制

经典条件反射

工具性条件反射

延迟强化

认知地图

习惯性和目标导向行为

总结

神经科学基础

奖励信号，强化信号、值和预测误差

奖励预测误差假说

多巴胺

奖励预测误差假说的实验支持

TD 误差/多巴胺对应关系

神经行动判别

行动和判别学习法则

享乐主义神经元

集体强化学习

大脑中基于模型的方法

上瘾

总结

TD-Gammon

塞缪尔的跳棋玩家

沃森每日双倍投注

优化内存控制

人类水平的视频游戏

掌握围棋

热气流翱翔

通用价值函数和辅助任务

通过选项进行时间抽象

观测和状态

设计奖励信号

遗留问题

强化学习和人工智能的未来