SDPO 论文精读:让强化学习从“结果分数”转向“失败反馈”学习
解读 Reinforcement Learning via Self-Distillation 如何把运行时报错、判题文本和成功样例转成密集信用分配,并在代码、推理与测试时训练中提升样本效率。
Latest
解读 Reinforcement Learning via Self-Distillation 如何把运行时报错、判题文本和成功样例转成密集信用分配,并在代码、推理与测试时训练中提升样本效率。
精读 Self-Distillation Enables Continual Learning,拆解 SDFT 如何把示范学习改写成近似 on-policy 的自蒸馏,并分析它为何比 SFT 更能抗遗忘。
解读 Self-Distilled Reasoner 如何提出 OPSD,用同一 LLM 的 teacher/student 双上下文做 on-policy self-distillation,在数学推理中以更低采样成本追平或超过 GRPO。