tabular -> function
我们需要找到一个最优的$w$使得$\hat{v}(s, w)$近似$v_\pi(s)$
$\Phi ^T(s)$是特征向量,$w$是参数向量
或者神经网络
Objective function
Stationary distribution
$s$为随机变量,符合概率分布,若为均匀分布,实际上是不太好的,重要的状态喝不重要的状态被视为一致的。
所以我们引入stationary distribution,其中$d\pi^T$可以用下面这个公式求出,$P\pi$为转移矩阵,我们知道,到平稳状态时,概率分布会收敛,所以等式左右两边的值是一致的,由此可以解出$d_\pi^T$。
Optimization algorithm
梯度下降
true gradient
- 这个式子有期望,所以我们用stochastic gradient代替true gradient,
$v_\pi(s_t)$未知
其中,函数$\hat v(s,w)$是由我们自己定义的
- 线性方程 拟合 缺点:特征方程不好选
- 非线性 神经网络 DQN
如果是线性方程,就被叫做TD-linear