从轨迹到技能:模型自动生成 Agent Skills 全生命周期的系统研究
精读 arXiv 2605.23899,全面解析 Agent Skill 生命周期三阶段(经验生成、技能抽取、技能消费)中的关键发现与工程启示。
Archive
分享、阅读摘记、文章解读和持续生长的想法。
精读 arXiv 2605.23899,全面解析 Agent Skill 生命周期三阶段(经验生成、技能抽取、技能消费)中的关键发现与工程启示。
解读 Self-Policy Distillation 如何用正确性 token 的梯度抽取能力子空间,再用 KV 投影生成更可蒸馏的数据。
解读 SkillOpt 如何用 rollout、反思、文本学习率和验证门,把冻结 Agent 的技能文档训练成可迁移的程序性知识。
解读 Reinforcement Learning via Self-Distillation 如何把运行时报错、判题文本和成功样例转成密集信用分配,并在代码、推理与测试时训练中提升样本效率。
精读 Self-Distillation Enables Continual Learning,拆解 SDFT 如何把示范学习改写成近似 on-policy 的自蒸馏,并分析它为何比 SFT 更能抗遗忘。
解读 Self-Distilled Reasoner 如何提出 OPSD,用同一 LLM 的 teacher/student 双上下文做 on-policy self-distillation,在数学推理中以更低采样成本追平或超过 GRPO。
解读 Agent-R 如何用 MCTS 构造修正轨迹,并通过迭代自训练让 LLM Agent 学会在交互任务中及时反思。
解读 AEPO 如何在 rollout 和 policy update 两阶段平衡高熵探索,缓解 Web Agent 强化学习中的分支坍缩和梯度裁剪问题。
解读 ARPO 如何用工具调用后的高熵信号做自适应 rollout,并用 advantage attribution 训练多轮工具型 Agent。
解读 Context-Folding 如何用 branch/return 与 FoldGRPO,让长程 Agent 在小活跃上下文里完成深度研究和代码任务。