TD learning 发表于 2025-04-13 更新于 2025-04-27 分类于 RL 本文字数: 172 阅读时长 ≈ 1 分钟 TD learning of state values只能估计给定策略$\pi$的state value 阅读全文 »
交替放置的玻璃杯题解 发表于 2025-04-13 更新于 2025-04-27 分类于 algorithm 本文字数: 1.7k 阅读时长 ≈ 2 分钟 题目1: 交替放置的玻璃杯有2n个玻璃杯挨个排成一排,前n个装满苏打水,其余n个杯子为空。交换杯子的位置,使之按照满—空—满—空的模式排列,而且杯子移动的次数要最少 阅读全文 »