printsdf's Blog

找不到相关结果。

主题色相

250

壁纸模式

文章布局

printsdf

Hello, I'm printsdf.

欢迎来到我的博客！这是一则示例公告。

40 字

1 分钟

TD learning

2025-04-13

RL

浏览量加载中...

TD learning of state values#

只能估计给定策略 $\pi$ 的state value

image-20250414160137501

Sarsa#

给定策略可以估计action value

Sarsa is an action-value version of the TD algorithm

image-20250414194020139

expected Sarsa#

image-20250415213231678

image-20250415214119677

n-step Sarsa#

包含MC&&TD

image-20250415214523965

Q-learning#

image-20250416100428680

Summary#

image-20250416100310699

文章分享

如果这篇文章对你有帮助，欢迎分享给更多人！

TD learning

https://printsdf.dpdns.org/posts/td-learning/

作者

printsdf

发布于

2025-04-13

许可协议

CC BY-NC-SA 4.0

最后更新于 2025-04-13，距今已过 376 天

部分内容可能已过时

数字三角形

交替放置的玻璃杯题解

评论区

分享你的想法，与大家交流讨论

printsdf

Hello, I'm printsdf.

欢迎来到我的博客！这是一则示例公告。

algorithm MDX RL 一些小 trick 专业课区间DP 大模型基础教程数据挖掘文章示例线性dp 线性DP 计算机网络软件工程

文章

37

分类

12

标签

14

总字数

47,088

运行时长

0 天

最后活动

0 天前

目录