0%

TD learning of state values

只能估计给定策略$\pi$的state value

image-20250414160137501

阅读全文 »

题目1: 交替放置的玻璃杯

有2n个玻璃杯挨个排成一排,前n个装满苏打水,其余n个杯子为空。交换杯子的位置,使之按照满—空—满—空的模式排列,而且杯子移动的次数要最少

阅读全文 »

GD

image-20250414135236982

BGD

阅读全文 »