【AI】强化学习常用算法小记(下)
2026 年 01 月 16 日 •
评论
贝尔曼方程的艺术。
引子
上一篇文章主要讲了贝尔曼方程、TRPO和PPO算法。TRPO和PPO都是「基于信号进行优化的算法」。但是信号哪里给出?我们并不知道。也就是说,我们现在再假设存在打分机制的情况下,知道了如何优化。这篇文章讲一讲信号是如何得来的。