值函数近似

tabular -> function

我们需要找到一个最优的$w$使得$\hat{v}(s, w)$近似$v_\pi(s)$

$\Phi ^T(s)$是特征向量，$w$是参数向量

或者神经网络

Objective function

$s$为随机变量，符合概率分布，若为均匀分布，实际上是不太好的，重要的状态喝不重要的状态被视为一致的。

所以我们引入stationary distribution，其中$d\pi^T$可以用下面这个公式求出，$P\pi$为转移矩阵，我们知道，到平稳状态时，概率分布会收敛，所以等式左右两边的值是一致的，由此可以解出$d_\pi^T$。

梯度下降
$w_{k+1} = w_k - \alpha_k\nabla_wJ(w_k)$

$\nabla_w(J_w) = -2\mathbb E[(v_\pi(S)-\hat v(S, w)\nabla_w\hat v(S, w))]$

其中，函数$\hat v(s,w)$是由我们自己定义的

如果是线性方程，就被叫做TD-linear