AEPO 论文精读:Web Agent RL 里的熵不是越高越好
解读 AEPO 如何在 rollout 和 policy update 两阶段平衡高熵探索,缓解 Web Agent 强化学习中的分支坍缩和梯度裁剪问题。
Latest
解读 AEPO 如何在 rollout 和 policy update 两阶段平衡高熵探索,缓解 Web Agent 强化学习中的分支坍缩和梯度裁剪问题。
解读 ARPO 如何用工具调用后的高熵信号做自适应 rollout,并用 advantage attribution 训练多轮工具型 Agent。
用原生 HTML 写文章片段,加入卡片、数字、引用和更自由的版式。