0%

tabular -> function

我们需要找到一个最优的$w$使得$\hat{v}(s, w)$近似$v_\pi(s)$​​

image-20250417222051465

阅读全文 »

1. base

这是一个线性dp的版本,它的数据范围在1000

给定一个长度为 $N$的数列,求数值严格单调递增的子序列的长度最长是多少。

阅读全文 »

model-based事实上就是模型已知,model-free是模型未知,事实上,在研究最优控制问题中,通过model-based求得最优解然后验证model-free的方法求得的最优解是否正确。

TD learning of state values

只能估计给定策略$\pi$的state value

image-20250414160137501

阅读全文 »

题目1: 交替放置的玻璃杯

有2n个玻璃杯挨个排成一排,前n个装满苏打水,其余n个杯子为空。交换杯子的位置,使之按照满—空—满—空的模式排列,而且杯子移动的次数要最少

阅读全文 »

GD

image-20250414135236982

BGD

阅读全文 »