引子

上一篇文章主要讲了贝尔曼方程、TRPO和PPO算法。TRPO和PPO都是「基于信号进行优化的算法」。但是信号哪里给出？我们并不知道。也就是说，我们现在再假设存在打分机制的情况下，知道了如何优化。这篇文章讲一讲信号是如何得来的。

2026 年 01 月 15 日 • 评论

贝尔曼方程的艺术。

# 引子

2026 年 01 月 04 日 • 评论

最近在跑实验的时候，深刻体会到了Prompt的设计对于模型性能的重大影响，这篇文章就来记录一下我所观察到的现象。

2025 年 09 月 25 日 • 评论

这篇文章改自我“文本理解”课程的pre。