Pixiv - KiraraShss
242 字
1 分钟
值函数近似
tabular -> function
我们需要找到一个最优的使得近似

是特征向量,是参数向量
或者神经网络
Objective function

Stationary distribution
为随机变量,符合概率分布,若为均匀分布,实际上是不太好的,重要的状态喝不重要的状态被视为一致的。
所以我们引入stationary distribution,其中可以用下面这个公式求出,为转移矩阵,我们知道,到平稳状态时,概率分布会收敛,所以等式左右两边的值是一致的,由此可以解出。


Optimization algorithm
梯度下降
true gradient
- 这个式子有期望,所以我们用stochastic gradient代替true gradient,

-
未知

image-20250417221514945
其中,函数是由我们自己定义的

- 线性方程 拟合 缺点:特征方程不好选
- 非线性 神经网络 DQN
如果是线性方程,就被叫做TD-linear
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
最后更新于 2025-04-18,距今已过 371 天
部分内容可能已过时
printsdf's Blog