0%

值函数近似

tabular -> function

我们需要找到一个最优的$w$使得$\hat{v}(s, w)$近似$v_\pi(s)$​​

image-20250417222051465

$\Phi ^T(s)$是特征向量,$w$是参数向量

或者神经网络

Objective function

image-20250417213239736

Stationary distribution

$s$为随机变量,符合概率分布,若为均匀分布,实际上是不太好的,重要的状态喝不重要的状态被视为一致的。

所以我们引入stationary distribution,其中$d\pi^T$可以用下面这个公式求出,$P\pi$为转移矩阵,我们知道,到平稳状态时,概率分布会收敛,所以等式左右两边的值是一致的,由此可以解出$d_\pi^T$。

image-20250417213549405

image-20250417213620429

Optimization algorithm

梯度下降

true gradient

  • 这个式子有期望,所以我们用stochastic gradient代替true gradient,

image-20250417221313827

  • $v_\pi(s_t)$未知

    image-20250417221514945

其中,函数$\hat v(s,w)$是由我们自己定义的

image-20250422105455972

  1. 线性方程 拟合 缺点:特征方程不好选
  2. 非线性 神经网络 DQN

如果是线性方程,就被叫做TD-linear