文章 | MSXF Notes

2026年6月4日13 min readHTML

从轨迹到技能：模型自动生成 Agent Skills 全生命周期的系统研究

精读 arXiv 2605.23899，全面解析 Agent Skill 生命周期三阶段（经验生成、技能抽取、技能消费）中的关键发现与工程启示。

Paper ReadingAILLMResearch

阅读全文

2026年5月27日15 min readHTML

SPD 论文精读：不用外部信号，如何把模型自己的能力“投影”出来？

解读 Self-Policy Distillation 如何用正确性 token 的梯度抽取能力子空间，再用 KV 投影生成更可蒸馏的数据。

Paper ReadingAIHTMLLLM

阅读全文

2026年5月26日14 min readHTML

SkillOpt 论文精读：把 Agent Skill 当成可训练参数

解读 SkillOpt 如何用 rollout、反思、文本学习率和验证门，把冻结 Agent 的技能文档训练成可迁移的程序性知识。

Paper ReadingAIHTML

阅读全文

2026年5月19日18 min readHTML

SDPO 论文精读：让强化学习从“结果分数”转向“失败反馈”学习

解读 Reinforcement Learning via Self-Distillation 如何把运行时报错、判题文本和成功样例转成密集信用分配，并在代码、推理与测试时训练中提升样本效率。

Paper ReadingAILLMHTML

阅读全文

2026年5月19日11 min readHTML

读懂 SDFT：Self-Distillation 如何让模型持续学习而不遗忘

精读 Self-Distillation Enables Continual Learning，拆解 SDFT 如何把示范学习改写成近似 on-policy 的自蒸馏，并分析它为何比 SFT 更能抗遗忘。

Paper ReadingAIHTMLResearch

阅读全文

2026年5月19日19 min readHTML

Self-Distilled Reasoner 论文精读：同一个模型，如何用标准答案教会“较弱的自己”推理

解读 Self-Distilled Reasoner 如何提出 OPSD，用同一 LLM 的 teacher/student 双上下文做 on-policy self-distillation，在数学推理中以更低采样成本追平或超过 GRPO。

Paper ReadingAILLMHTML

阅读全文

2026年5月15日17 min readHTML

Agent-R 论文精读：让语言 Agent 学会及时反思与纠错

解读 Agent-R 如何用 MCTS 构造修正轨迹，并通过迭代自训练让 LLM Agent 学会在交互任务中及时反思。

Paper ReadingAILLMHTML

阅读全文

2026年5月14日18 min readHTML

AEPO 论文精读：Web Agent RL 里的熵不是越高越好

解读 AEPO 如何在 rollout 和 policy update 两阶段平衡高熵探索，缓解 Web Agent 强化学习中的分支坍缩和梯度裁剪问题。

Paper ReadingAILLMHTML

阅读全文

2026年5月14日17 min readHTML

ARPO 论文精读：为什么 Agent RL 要在工具调用后分叉探索

解读 ARPO 如何用工具调用后的高熵信号做自适应 rollout，并用 advantage attribution 训练多轮工具型 Agent。

Paper ReadingAILLMHTML

阅读全文

2026年5月13日14 min readHTML

Context-Folding 论文精读：把长程 Agent 的上下文折起来

解读 Context-Folding 如何用 branch/return 与 FoldGRPO，让长程 Agent 在小活跃上下文里完成深度研究和代码任务。

Paper ReadingAILLMHTML

阅读全文