printsdf's blog

0%

石子合并

发表于 2025-04-27 分类于 algorithm
本文字数： 588 阅读时长 ≈ 1 分钟

题目描述

输入格式

阅读全文 »

值函数近似

发表于 2025-04-18 更新于 2025-04-27 分类于 RL
本文字数： 568 阅读时长 ≈ 1 分钟

tabular -> function

我们需要找到一个最优的$w$使得$\hat{v}(s, w)$近似$v_\pi(s)$

阅读全文 »

最长上升子序列题解

发表于 2025-04-16 更新于 2025-04-27 分类于 algorithm ，线性DP
本文字数： 1.1k 阅读时长 ≈ 1 分钟

1. base

这是一个线性dp的版本，它的数据范围在1000

给定一个长度为 $N$的数列，求数值严格单调递增的子序列的长度最长是多少。

阅读全文 »

model free and model based

发表于 2025-04-15 更新于 2025-04-27 分类于 RL
本文字数： 98 阅读时长 ≈ 1 分钟

model-based事实上就是模型已知，model-free是模型未知，事实上，在研究最优控制问题中，通过model-based求得最优解然后验证model-free的方法求得的最优解是否正确。

数字三角形

发表于 2025-04-14 更新于 2025-04-27 分类于 algorithm ，线性DP
本文字数： 447 阅读时长 ≈ 1 分钟

分析

阅读全文 »

TD learning

发表于 2025-04-13 更新于 2025-04-27 分类于 RL
本文字数： 172 阅读时长 ≈ 1 分钟

TD learning of state values

只能估计给定策略$\pi$的state value

阅读全文 »

交替放置的玻璃杯题解

发表于 2025-04-13 更新于 2025-04-27 分类于 algorithm
本文字数： 1.7k 阅读时长 ≈ 2 分钟

题目1: 交替放置的玻璃杯

有2n个玻璃杯挨个排成一排，前n个装满苏打水，其余n个杯子为空。交换杯子的位置，使之按照满—空—满—空的模式排列，而且杯子移动的次数要最少

阅读全文 »

SGD

发表于 2025-04-12 更新于 2025-04-27 分类于 RL
本文字数： 26 阅读时长 ≈ 1 分钟

GD

BGD

阅读全文 »