SkillOpt 论文精读:把 Agent Skill 当成可训练参数
解读 SkillOpt 如何用 rollout、反思、文本学习率和验证门,把冻结 Agent 的技能文档训练成可迁移的程序性知识。
Latest
解读 SkillOpt 如何用 rollout、反思、文本学习率和验证门,把冻结 Agent 的技能文档训练成可迁移的程序性知识。
解读 Reinforcement Learning via Self-Distillation 如何把运行时报错、判题文本和成功样例转成密集信用分配,并在代码、推理与测试时训练中提升样本效率。
精读 Self-Distillation Enables Continual Learning,拆解 SDFT 如何把示范学习改写成近似 on-policy 的自蒸馏,并分析它为何比 SFT 更能抗遗忘。