值函数近似 发表于 2025-04-18 更新于 2025-04-27 分类于 RL 本文字数: 568 阅读时长 ≈ 1 分钟 tabular -> function 我们需要找到一个最优的$w$使得$\hat{v}(s, w)$近似$v_\pi(s)$ 阅读全文 »
最长上升子序列题解 发表于 2025-04-16 更新于 2025-04-27 分类于 algorithm , 线性DP 本文字数: 1.1k 阅读时长 ≈ 1 分钟 1. base 这是一个线性dp的版本,它的数据范围在1000 给定一个长度为 $N$的数列,求数值严格单调递增的子序列的长度最长是多少。 阅读全文 »
model free and model based 发表于 2025-04-15 更新于 2025-04-27 分类于 RL 本文字数: 98 阅读时长 ≈ 1 分钟 model-based事实上就是模型已知,model-free是模型未知,事实上,在研究最优控制问题中,通过model-based求得最优解然后验证model-free的方法求得的最优解是否正确。
TD learning 发表于 2025-04-13 更新于 2025-04-27 分类于 RL 本文字数: 172 阅读时长 ≈ 1 分钟 TD learning of state values只能估计给定策略$\pi$的state value 阅读全文 »
交替放置的玻璃杯题解 发表于 2025-04-13 更新于 2025-04-27 分类于 algorithm 本文字数: 1.7k 阅读时长 ≈ 2 分钟 题目1: 交替放置的玻璃杯有2n个玻璃杯挨个排成一排,前n个装满苏打水,其余n个杯子为空。交换杯子的位置,使之按照满—空—满—空的模式排列,而且杯子移动的次数要最少 阅读全文 »