242 字
1 分钟

值函数近似

2025-04-18
浏览量 加载中...

tabular -> function

我们需要找到一个最优的ww使得v^(s,w)\hat{v}(s, w)近似vπ(s)v_\pi(s)​​

image-20250417222051465

ΦT(s)\Phi ^T(s)是特征向量,ww是参数向量

或者神经网络

Objective function#

image-20250417213239736

Stationary distribution#

ss为随机变量,符合概率分布,若为均匀分布,实际上是不太好的,重要的状态喝不重要的状态被视为一致的。

所以我们引入stationary distribution,其中dπTd_\pi^T可以用下面这个公式求出,PπP_\pi为转移矩阵,我们知道,到平稳状态时,概率分布会收敛,所以等式左右两边的值是一致的,由此可以解出dπTd_\pi^T

image-20250417213549405

image-20250417213620429

Optimization algorithm#

梯度下降

wk+1=wkαkwJ(wk)w_{k+1} = w_k - \alpha_k\nabla_wJ(w_k)

true gradient#

w(Jw)=2E[(vπ(S)v^(S,w)wv^(S,w))]\nabla_w(J_w) = -2\mathbb E[(v_\pi(S)-\hat v(S, w)\nabla_w\hat v(S, w))]
  • 这个式子有期望,所以我们用stochastic gradient代替true gradient,

image-20250417221313827

  • vπ(st)v_\pi(s_t)未知

    image-20250417221514945

其中,函数v^(s,w)\hat v(s,w)是由我们自己定义的

image-20250422105455972

  1. 线性方程 拟合 缺点:特征方程不好选
  2. 非线性 神经网络 DQN

如果是线性方程,就被叫做TD-linear

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

值函数近似
https://printsdf.dpdns.org/posts/值函数近似/
作者
printsdf
发布于
2025-04-18
许可协议
CC BY-NC-SA 4.0
最后更新于 2025-04-18,距今已过 371 天

部分内容可能已过时

评论区

Profile Image of the Author
printsdf
Hello, I'm printsdf.
公告
欢迎来到我的博客!这是一则示例公告。
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
37
分类
12
标签
14
总字数
47,088
运行时长
0
最后活动
0 天前

目录