SPD 论文精读:不用外部信号,如何把模型自己的能力“投影”出来?
解读 Self-Policy Distillation 如何用正确性 token 的梯度抽取能力子空间,再用 KV 投影生成更可蒸馏的数据。
Latest
解读 Self-Policy Distillation 如何用正确性 token 的梯度抽取能力子空间,再用 KV 投影生成更可蒸馏的数据。
解读 SkillOpt 如何用 rollout、反思、文本学习率和验证门,把冻结 Agent 的技能文档训练成可迁移的程序性知识。
解读 Reinforcement Learning via Self-Distillation 如何把运行时报错、判题文本和成功样例转成密集信用分配,并在代码、推理与测试时训练中提升样本效率。