Self-Distilled Reasoner 论文精读：同一个模型，如何用标准答案教会“较弱的自己”推理

Paper Reading · arXiv:2601.18734

一句话：这篇论文真正新颖的地方，不是再引入一个更强教师，而是让同一个模型在看过标准解之后，回头审视自己刚才那条 on-policy 推理轨迹，并对每个 token 给出更细粒度的纠偏信号。

论文：Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models
作者：Siyan Zhao, Zhihui Xie, Mengchen Liu, Jing Huang, Guan Pang, Feiyu Chen, Aditya Grover
版本日期：2026-03-20 (arXiv v3) · 链接：arXiv · PDF · Code
适合读者：熟悉 SFT、GRPO、知识蒸馏、数学推理后训练的读者。阅读时长约 18 分钟。

01 · Problem

GRPO 的 reward 太稀疏，SFT 又太 off-policy

论文要解决的是推理后训练里的一个老问题：SFT 能利用高质量解答，但训练分布和测试分布错位；GRPO 用 on-policy 采样，但 reward 只有最终对错，token 级 credit assignment 很弱。（Sec. 1-2, S001-S003）

02 · Key Idea

同一个模型拆成 student 与 privileged teacher

OPSD 不需要外部大教师。student 只看题目采样答案；teacher 用同样参数，但额外看到标准解，再沿 student 的 rollout 逐位置给出 next-token 分布，形成 dense distillation signal。（Sec. 3.2, S006-S008）

03 · Result

更少采样 token，性能追平或超过 GRPO

在 Qwen3-1.7B / 4B / 8B 的数学推理实验里，OPSD 全部优于同数据 SFT，并在所有规模上追平或超过 GRPO；而采样预算从 GRPO 的 8 × 16k token 降到每题 1 × 1024 token。（Sec. 4.1-4.2, T002, T006）

04 · Takeaway

标准答案不只可用于监督，还可用于 hindsight 式自蒸馏

这篇论文的真正贡献，是把“看过标准解后的反思能力”变成一个 on-policy、token 级、无需外部 teacher 的训练算法。（Sec. 3.2, Appx. D）

我的快速判断

最有价值的洞察：标准解答不一定只该拿来做 teacher forcing，也可以作为 privileged context，帮助模型对自己刚采样出的错误路径做 hindsight 评估。
最强的实验信息：在同数据、同 LoRA 设定下，OPSD 比 GRPO 用少得多的采样 token 也能拿到更好结果，说明 dense token-level signal 确实弥补了 sparse reward 的不足。
最值得警惕的边界：它依赖“模型在看过标准解后确实能理解并 rationalize 解法”；如果底模没有这种能力，自蒸馏信号会变弱。

1. 这篇论文到底要解决什么问题？

这篇论文聚焦的是 reasoning LLM 的 post-training。作者认为，现有主流方法各有硬伤：（Sec. 1, S001-S002）

SFT / off-policy distillation：有高质量标准解，但训练时永远跟着 expert path 走，测试时却要模型自己采样，存在 exposure bias 和 distribution mismatch。
RLVR / GRPO：解决了 on-policy 问题，但学习信号通常只来自最终答案是否正确，reward 很稀疏，而且同一条回答里的所有 token 往往共享近似同一个 sequence-level advantage。

作者特别强调了 GRPO 的两个瓶颈。第一，采样成本高：每题要采一组 response 才能做 group-relative advantage。第二，信息密度低：如果一组样本全对或全错，reward 标准差接近 0，梯度就会塌掉；即便不塌，token 级别也不知道“到底是哪个位置开始偏了”。（Sec. 2.2, Eq. 4-5, S003）

所以这篇论文的问题可以概括成一句话：有没有一种方法既保留 on-policy training 的分布真实性，又拿到类似知识蒸馏那样的 dense token-level supervision，而且不需要额外更强教师？

图 1 解读（论文 Figure 1，对应原文 F001）。论文把同一个 LLM 拆成两个条件分布：student 只看题目 x，teacher 同时看题目和标准解 y*。student 先 on-policy 生成 ŷ，然后 teacher 与 student 沿着同一条 ŷ 逐 token 计算分布差异，并把这个差异作为学习信号。这个视角很重要：不是 teacher 重新生成一条更好的轨迹，而是 teacher 对 student 已经走出的轨迹做 hindsight 评估。

2. OPSD 的核心想法：同参模型，双上下文角色

论文提出的方法叫 On-Policy Self-Distillation（OPSD）。它最漂亮的地方在于：teacher 和 student 不是两个不同模型，而是同一个参数为 θ 的模型，在不同上下文条件下实例化出的两个策略。（Sec. 3.2, Eq. 1, Eq. 6）

student policy：p_S(. | x)，只给问题，按当前策略采样回答。
teacher policy：p_T(. | x, y*)，给问题再加参考解，作为 privileged information。

训练时先让 student 生成一条 on-policy 响应 ŷ，然后 teacher 在“见过标准解”的前提下，沿 student 生成过的前缀 ŷ_{<n} 计算每一步 next-token 分布，再和 student 的分布做 divergence matching。（Sec. 3.2, S006-S008）

这里最需要理解的一点是：teacher 不需要真的再把整道题重新生成一遍。论文甚至在 Figure 2 里专门说明，teacher 的 rationalization 是“隐式发生”的：teacher 只是带着更丰富的上下文做一次 forward pass，对 student 的 rollout 逐位置打分，而不是显式再产出一条答案。（F002, S007）

3. 数学上它在优化什么？

OPSD 的目标函数可以写成：

L_OPSD(theta) = E_(x, y*) ~ S  E_ŷ ~ p_S(.|x)
  [ sum_n D( p_T(.|x, y*, ŷ_<n) || p_S(.|x, ŷ_<n) ) ]

直觉上，这个损失在说：

如果 teacher 在看到标准解后，认为当前前缀下 student 的分布基本合理，那么更新就小；
如果 teacher 觉得 student 在某一步明显偏了，那么该位置的 divergence 就大，student 就会在那里收到更强的修正。

这和 sequence-level reward 的最大区别在于：学习信号是 token-wise、甚至 full-vocabulary logit-wise 的。也正因此，作者在附录 D 里把 OPSD 写成了 dense-reward policy gradient：每个 token 都有一个 advantage，近似等于 teacher 对该 token 的对数概率减去 student 对该 token 的对数概率。（Appx. D.2, Eq. 9）

怎么把这个目标和 GRPO 区分开？

GRPO：先采多条回答，拿最终 binary reward，组内归一化后给整条序列一个近似共享的 advantage。
OPSD：先采一条回答，再让 privileged teacher 沿这条轨迹逐 token 看“这里本来更该怎么延续”。
所以 GRPO 更像 outcome-based learning，OPSD 更像 hindsight token-level relabeling。

4. 它和已有方法到底差在哪？

论文 Table 1 给了一个很清晰的定位：OPSD 同时满足四件事——on-policy data、dense learning signal、低采样成本、无需外部 teacher。这正是它相对 SFT、GRPO 和普通 on-policy distillation 的组合优势。（T001）

比 SFT 多了 on-policy

SFT 在固定专家轨迹上学，测试时分布会漂。OPSD 用 student 自己采样出来的轨迹训练，因此 student 学的是“自己真的会走到的状态”。

比 GRPO 多了 dense token signal

GRPO 的学习信号主要来自结果对错；OPSD 则在每个位置都能比较 teacher/student 的分布差。

比外部 on-policy distillation 省去大老师

先前 on-policy distillation 常要求另一个更强模型提供 token supervision。OPSD 直接让同一模型在 privileged context 下教自己。

比 PRM 路线更直接

它不训练独立 process reward model，而是直接把标准解融入 teacher 上下文，让 teacher 即时提供密集分布监督。

5. Figure 2 为什么重要：teacher 不是“抄标准答案”，而是“理解标准答案后再看 student”

Figure 2 给了一个非常关键的 prompt 设计。student 侧只看到题目与“Answer:”；teacher 侧则看到同一题目外加一段 reference solution，再要求其“理解这份解法后，用自己的方式尝试解决”。（F002）

这个 prompt 设计背后其实有两个隐含假设：

模型具备 rationalization 能力。也就是说，看完一份标准解，它不是死记，而是能在分布层面理解“下一步大概应该怎么走”。
teacher 与 student 的差异来自上下文，而不是参数规模。这和传统 distillation 很不一样。传统 KD 的 teacher 通常是更大或更强模型；这里 teacher 只是“信息更多的自己”。

这也是为什么我觉得这篇论文的贡献更偏“学习信号设计”，而不只是“又一种 RL trick”。

6. 实验设置：它到底在什么条件下赢？

实验全部做在数学推理任务上，底模是 Qwen3-1.7B / 4B / 8B instruct，训练数据来自 OpenThoughts 的数学推理子集，最多 30K 道题，评测集是 AIME 2024、AIME 2025、HMMT 2025。（Sec. 4.1）

对比方法有三个：

Base：原始 instruct 模型；
SFT：在同一数据上做 supervised fine-tuning；
GRPO：用答案正确性做 verifiable reward 的 RL baseline。

训练配置里最关键的差别在 Table 6：

GRPO：每题 8 个 generations，max completion length 16,000，训练 500 steps。
OPSD：每题 1 个 generation，max completion length 1,024，训练 100 steps。

换句话说，OPSD 不是靠“生成得更多”取胜，恰恰相反，它是在极大压缩采样预算的情况下仍然拿到更好结果。（T006）

7. 主结果：为什么说它“更省 token 还更强”？

Table 2 是这篇论文的主结果。三种模型规模下，OPSD 都优于同数据 SFT，并且全部追平或超过 GRPO。（T002）

Qwen3-8B：Base 61.8，GRPO 64.0，OPSD 64.8。
Qwen3-4B：Base 61.2，GRPO 62.7，OPSD 63.6。
Qwen3-1.7B：Base 37.1，GRPO 37.7，OPSD 43.4。

我觉得最值得盯住的是 1.7B 结果：在更小的模型上，OPSD 对 GRPO 的提升反而最显著，平均分从 37.7 拉到 43.4。它说明了一件事：哪怕模型规模不大，只要还具备一定“看懂标准解”的能力，teacher/student 双上下文就已经能提供比 binary reward 更有用的学习信号。

而且 Figure 3 显示，在训练 step 和生成 token 维度上，OPSD 的学习曲线都更高效。论文给出的解释是：GRPO 尽管采样更多 token，但其中大部分 token 并没有得到与之匹配的信息密度；OPSD 虽然采样短很多，但 teacher 给出的 supervision 是 dense 的，因此每个采样 token 的“信息产出”更高。（F003, Sec. 4.2）

8. 为什么 SFT 反而会掉点？

Table 2 里一个很容易被忽略但很重要的现象是：SFT 在三个模型规模上都低于 base model。（T002）

论文作者的解释是，OpenThoughts 里的标准解偏“简洁解法”，做 SFT 会把模型的 test-time reasoning length 拉短，结果反而损害了需要更充分推理时的表现。（Sec. 4.2）

这其实很有启发性：对于 reasoning 模型，把标准解直接当 imitation target 并不一定是最优的。标准解更像“可以帮助你理解”的 privileged evidence，而不是一定要逐字逐句模仿的行为模板。OPSD 恰恰利用了这一点：它不要求 student 输出和标准解一样，而是让标准解只在 teacher 端发挥作用。

9. 关键消融一：为什么 forward KL 最有效？

在 Table 3 里，作者比较了 forward KL、reverse KL 和 JSD。结果很明确：forward KL 最强，Qwen3-1.7B 在 AIME25 上能从 36.7 提到 43.9；reverse KL 和 JSD 基本没带来稳定收益。（T003）

直觉上，这也合理。因为 teacher 是“更有信息的一侧”，forward KL 会更鼓励 student 覆盖 teacher 认为重要的概率质量，而不是只盯住自己已经擅长的 mode。对于“我已经知道正确解法长什么样”的 teacher 来说，这种覆盖导向更符合知识转移需求。

10. 关键消融二：teacher 开 thinking mode，student 反而关掉更好

Table 5 是我觉得整篇论文里非常有意思的一个设计洞察。作者比较了 Qwen3 的 thinking-mode on/off 组合，按 token 类型统计 per-token KL。结果发现：student 用 TM-off、teacher 用 TM-on 时，数学相关 token 上的 KL 最大，学习信号最强。（T005）

这意味着什么？我的理解是：

teacher 开 thinking mode，会给出更“展开”的内部 reasoning 分布，因此对关键数学 token 的偏好差异更明显；
student 关掉 thinking mode，生成更紧凑，teacher 反而更容易在真正关键的位置上给出强监督，而不是把 signal 分散到大量风格 token 上。

这和很多人直觉相反：不是 teacher/student 都越会“长链思考”越好，而是 teacher 更会解释、student 更紧凑时，distillation 反而可能更有效。

11. 关键消融三：为什么要做 per-token KL clipping？

Figure 4 研究的是 per-token pointwise KL clipping。作者发现如果不做 clipping，训练容易 collapse；加入 pointwise clipping 后，性能显著更稳。（F004）

原因也不难理解：teacher 和 student 在少数 token 上的分布差异可能极大，这会让局部梯度爆得太猛。论文因此不是简单裁剪整个序列 loss，而是对 token-level 项做 clipping，让 dense signal 依然存在，但不会被极少数极端位置主导。

12. Full-vocabulary logit distillation 为什么优于 sampled-token？

Table 4 显示，full-vocabulary logit distillation 明显优于 sampled-token distillation：在 Qwen3-4B 上，AIME25 从 82.1 提到 84.1，HMMT25 从 57.3 提到 60.0。（T004）

这说明 OPSD 的收益不只是“把采样到的 token 再重加权一下”，而更像是 teacher 在整个候选词表上重塑 student 的局部分布。换句话说，它教的不仅是“这个 token 对不对”，还包括“附近哪些备选也不该选”。

13. 我怎么理解这篇论文的真正贡献？

如果只用一句更抽象的话来概括，我会说：OPSD 把 reasoning dataset 里的标准解，从 imitation target 变成了 privileged critic context。

这带来三层贡献：

训练范式层：在 SFT 与 RLVR 之间开了一条新路——既 on-policy，又有 dense token-level signal。
算法层：用同参 teacher/student 双条件分布，实现无需外部教师的 self-distillation。
解释层：附录把它写成 dense-reward policy gradient，也澄清了它和 STaR 这类 sequence-level 自训练方法的差别：STaR 的 reward 更偏序列级，OPSD 的 reward 是 token 级的。（Appx. D）

这篇论文最值得记住的一点是：标准答案不只是用来模仿的，它还可以成为一种 privileged context，帮助模型回看自己刚才究竟是从哪一步开始偏掉的。

14. 局限与边界

依赖底模的 rationalization 能力

如果模型看了标准解也无法形成更好的局部分布判断，那么 teacher/student 差异就不会提供足够有用的监督。论文默认 Qwen3 已具备这种能力，但对更弱模型未必成立。（Sec. 3.2）

当前验证集中在数学推理

数学题有标准解和可验证答案，适合这种 privileged teacher 设定。代码、工具调用、多轮 agent 任务能否同样稳定获益，还需要更多实证。

teacher 仍有额外前向开销

它比 GRPO 采样便宜很多，但不等于零成本。teacher 仍要沿 student rollout 计算 full-vocabulary 分布，因此训练算力并不是白送的。

标准解风格可能影响 teacher 监督形态

论文已经观察到 concise solutions 会让直接 SFT 掉点；虽然 OPSD 缓解了这个问题，但不同数据集的 solution style 仍可能影响 teacher 提供的监督分布。

15. 如果我要复现或改造 OPSD，最小实现应该抓什么？

我会优先把它还原成下面这个最小 pipeline：

1. 准备 (problem, reference solution) 数据
2. 用当前 student policy 对 problem 采样一条 on-policy rollout
3. 构造 teacher prompt: problem + reference solution
4. 沿 student rollout 的每个前缀，分别算
   - p_S(. | x, y_<n)
   - p_T(. | x, y*, y_<n)
5. 计算 forward KL 或 clipped pointwise KL
6. 仅对 student logits 反传梯度
7. 监控
   - benchmark accuracy
   - token efficiency
   - collapse / entropy
   - thinking-mode 组合效果

如果你已经有一个 GRPO pipeline，这件事并不一定要推倒重来。最可能的落地方式是：保留现有 sampling / evaluation 基础设施，把 dense teacher-student divergence 作为一条额外训练支路，先在 reasoning dataset 上验证 token efficiency 是否真的提升。

16. 深度 Q&A

Q1：OPSD 和普通知识蒸馏最大的区别是什么？

普通知识蒸馏多半在固定数据上做 off-policy imitation；OPSD 则先让 student 自己采样，再沿这条 on-policy 轨迹做 teacher-student 匹配，所以它解决的是“训练时看到的数据分布更像推理时自己会走到的分布”。

Q2：为什么它不需要外部强教师？

因为 teacher 的优势不来自参数更强，而来自上下文更多：它看到了参考解。论文的核心假设是，同一个足够强的 reasoning model 在获得 privileged solution context 后，已经可以扮演一个有效的 hindsight teacher。

Q3：这是不是只是“看完答案再做 SFT”？

不是。SFT 会把参考解直接当成学生输出目标；OPSD 则把参考解只放在 teacher 侧，用来重新评价 student 的 on-policy rollout。student 学的是“如何调整自己的分布”，不是“复读标准解文本”。

Q4：为什么 GRPO 会在这组数据上表现得不够稳？

因为 OpenThoughts 这类数学数据上，很多采样组会出现 reward variance 接近 0 的情况，导致 group-normalized advantage 失效。论文在 Figure 3 中把这解释为 reward diversity collapse。

Q5：附录里为什么要把 OPSD 写成 policy gradient？

因为这样可以说明它不是一个“和 RL 无关的 distillation loss”，而是可以被理解为一种 dense token-level reward 的 policy optimization。这个解释把它和 GRPO、STaR 放到了同一分析框架里，便于理解它为什么更高效。

Q6：我最想看到但论文还没做充分的实验是什么？

我最想看的是它在代码推理和 agentic tool-use 场景里的表现。因为这些任务同样有 reference traces 或 successful demonstrations，也同样受 sparse reward 之苦；如果 OPSD 能迁移过去，它的意义会更大。

参考与出处

论文页面：https://arxiv.org/abs/2601.18734
PDF：https://arxiv.org/pdf/2601.18734
代码：https://github.com/siyan-zhao/OPSD
本文依据 arXiv HTML/PDF 原文撰写；证据索引见 /assets/papers/self-distilled-reasoner-2601-18734/source_map.json。