printsdf

Hello, I'm printsdf.

欢迎来到我的博客！这是一则示例公告。

了解更多

242 字

1 分钟

值函数近似

2025-04-18

浏览量加载中...

tabular -> function

我们需要找到一个最优的 $w$ 使得 $\hat{v}(s, w)$ 近似 $v_\pi(s)$

$\Phi ^T(s)$ 是特征向量， $w$ 是参数向量

或者神经网络

Objective function#

Stationary distribution#

$s$ 为随机变量，符合概率分布，若为均匀分布，实际上是不太好的，重要的状态喝不重要的状态被视为一致的。

所以我们引入stationary distribution，其中 $d_\pi^T$ 可以用下面这个公式求出， $P_\pi$ 为转移矩阵，我们知道，到平稳状态时，概率分布会收敛，所以等式左右两边的值是一致的，由此可以解出 $d_\pi^T$ 。

Optimization algorithm#

梯度下降
$w_{k+1} = w_k - \alpha_k\nabla_wJ(w_k)$

true gradient#

\nabla_w(J_w) = -2\mathbb E[(v_\pi(S)-\hat v(S, w)\nabla_w\hat v(S, w))]

这个式子有期望，所以我们用stochastic gradient代替true gradient，

$v_\pi(s_t)$ 未知

image-20250417221514945

其中，函数 $\hat v(s,w)$ 是由我们自己定义的

线性方程拟合缺点：特征方程不好选
非线性神经网络 DQN

如果是线性方程，就被叫做TD-linear

文章分享

如果这篇文章对你有帮助，欢迎分享给更多人！

值函数近似

https://printsdf.dpdns.org/posts/值函数近似/

作者

printsdf

发布于

2025-04-18

许可协议

CC BY-NC-SA 4.0

最后更新于 2025-04-18，距今已过 371 天

部分内容可能已过时

背包问题

最长上升子序列题解

评论区

分享你的想法，与大家交流讨论

printsdf

Hello, I'm printsdf.

欢迎来到我的博客！这是一则示例公告。

文章

分类

标签

总字数

47,088

运行时长

0 天

最后活动

0 天前

音乐

Lovely firefly!

音乐

值函数近似

Objective function#

Stationary distribution#

Optimization algorithm#

true gradient#

文章分享

评论区

音乐

目录