40 字
1 分钟

TD learning

2025-04-13
浏览量 加载中...

TD learning of state values#

只能估计给定策略π\pi的state value

image-20250414160137501

Sarsa#

给定策略可以估计action value

Sarsa is an action-value version of the TD algorithm

image-20250414194020139

expected Sarsa#

image-20250415213231678

image-20250415214119677

n-step Sarsa#

包含MC&&TD

image-20250415214523965

Q-learning#

image-20250416100428680

Summary#

image-20250416100310699

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

TD learning
https://printsdf.dpdns.org/posts/td-learning/
作者
printsdf
发布于
2025-04-13
许可协议
CC BY-NC-SA 4.0
最后更新于 2025-04-13,距今已过 376 天

部分内容可能已过时

评论区

Profile Image of the Author
printsdf
Hello, I'm printsdf.
公告
欢迎来到我的博客!这是一则示例公告。
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
37
分类
12
标签
14
总字数
47,088
运行时长
0
最后活动
0 天前

目录