AEPO 论文精读：Web Agent RL 里的熵不是越高越好

Paper Reading · arXiv:2510.14545

一句话：AEPO 把 Web Agent RL 里的“熵”从单纯鼓励探索的信号，改造成需要被预算、惩罚和梯度共同平衡的训练变量。

论文：Agentic Entropy-Balanced Policy Optimization
作者：Guanting Dong, Licheng Bao, Zhongyuan Wang, Kangzhi Zhao, Xiaoxi Li, Jiajie Jin, Jinghan Yang, Hangyu Mao, Fuzheng Zhang, Kun Gai, Guorui Zhou, Yutao Zhu, Ji-Rong Wen, Zhicheng Dou
机构：Renmin University of China, Kuaishou Technology · 会议：WWW 2026（论文页标注）
链接：arXiv · PDF · Code
适合读者：熟悉 GRPO / PPO、tool-use agent、Web search agent 或 RLVR 的读者。阅读时长约 20 分钟。

01 · Problem

高熵探索会带来两种训练病

论文把 agentic RL 中的熵问题拆成两类：rollout 阶段的高熵分支坍缩，以及 policy update 阶段高熵 token 梯度被 clipping 吃掉。（p.2-p.3, S003-S004）

02 · Rollout

先分预算，再惩罚连续分支

AEPO 先用问题熵和工具调用熵决定全局采样与局部分支采样的预算，再降低连续高熵工具步继续分支的概率。（p.4-p.5, S007-S008）

03 · Update

高熵 token 不该一刀切裁掉梯度

方法在 clipping 项里加入 stop-gradient，保留并重缩放有正 advantage 的高熵 token 梯度，同时用熵感知 advantage 强化不确定但正确的探索 token。（p.5-p.6, S009）

04 · Evidence

14 个 benchmark 上优于 7 类 RL baseline

Qwen3-14B + AEPO 在 GAIA / HLE / WebWalkerQA 上 Pass@1 分别为 47.6 / 11.2 / 43.0，Pass@5 分别为 65.0 / 26.0 / 70.0。（p.1, S001; p.7-p.9, T001-S011）

我的快速判断

核心贡献不是“让熵更高”：它真正想解决的是 agentic RL 里熵信号过强导致的资源错配和梯度学习失败。
最值得借鉴的工程思想：把 rollout budget 从固定经验参数改成由问题熵 / 工具熵动态决定；这对昂贵 Web 搜索和浏览工具尤其重要。
最需要谨慎的地方：论文实验规模是 1K 训练样本、Bing 搜索、16 张 H800；复现时搜索 API、judge、网页截断和工具失败率都会影响结论。（p.6, S010）

1. 这篇论文到底解决什么问题？

Web Agent 与普通单轮推理模型的差异在于：它不是只生成一段答案，而是在搜索、打开网页、总结、执行代码等工具环境中进行多轮交互。SFT 能模仿已有轨迹，但很难发现新的、可泛化的工具使用策略；RLVR / GRPO 这类强化学习可以用结果奖励训练 agent，但经典 trajectory-level RL 往往没有充分处理“多轮工具交互”里的探索结构。（p.1-p.2, S002）

近来的 agentic RL 方法常用熵来定位不确定的工具调用步骤：高熵意味着模型不确定，似乎应该多采样、多分支、多探索。AEPO 的出发点是：高熵确实有价值，但如果只把高熵当成“继续分支”的理由，会在 rollout 和参数更新两端同时出问题。（p.2-p.3, S003-S004）

论文 Figure 1：AEPO 在深度信息检索和推理任务上的性能总览 — **论文图 1。**作者把 AEPO 放在深度信息检索和通用推理两类任务上展示：图里既有 GAIA、HLE、WebWalkerQA、XBench-DR，也有 AIME、MATH、HotpotQA 等 reasoning / multi-hop QA 任务。读图重点不是单个柱子的绝对值，而是 AEPO 被定位为一个跨工具检索和推理任务的 agentic RL 算法。（p.1, F001）

2. 背景：高熵探索为什么会变成问题？

论文先做了 pilot experiments，试图量化 agentic RL 中“熵驱动探索”的副作用。这里的 token entropy 来自模型在第 t 步生成 token 时的概率分布：分布越平，熵越高，说明模型越不确定；工具调用相关 token 和逻辑转折 token 往往会呈现较高熵。（p.3, S004）

论文 Figure 2：高熵 rollout collapse 与高熵 token 梯度裁剪两类问题 — **论文图 2。**左侧是 rollout collapse：预算不断花在同一条高熵路径上，其他候选路径没有机会被探索；右侧是 gradient clipping：高熵 token 往往 importance ratio 更大，容易落到 clipping 区间之外，导致探索行为得不到梯度支持。（p.2-p.3, F002）

2.1 问题一：High-Entropy Rollout Collapse

如果某条轨迹连续出现高熵工具调用，树状 rollout 会倾向于在这条路径上反复分支。论文统计发现，高熵工具调用轮次具有“连续性”：连续高熵工具轮占 56.5%，孤立高熵轮占 43.5%，最长可连续 6 轮；在分支预算为 8 的 rollout batch 中，93.4% 的分支集中在 1-3 条轨迹上。（p.3, S003）

直觉上，这类似搜索系统里的“局部最吸引人的岔路”。高熵告诉你这里有不确定性，但并不保证这条路是最值得继续烧预算的路；如果只盯着它，rollout 的覆盖面反而变窄。

2.2 问题二：High-Entropy Token Gradient Clipping

第二个问题发生在 policy update。高熵 token 往往对应逻辑连接、反思、工具调用等功能性行为，它们正是 agent 学会探索路径和工具模式的关键 token。但 vanilla RL 的 clipping 会把超出范围的梯度统一裁掉；论文认为这会在训练早期就让高熵探索 token 缺少梯度支持，导致模型固化在少数范式化推理路径里。（p.3, S004）

论文 Figure 3：两类高熵问题的定量统计 — **论文图 3。**左侧量化连续高熵工具调用和分支集中问题；右侧展示高熵 token 与 clipping 的关系。它支撑了 AEPO 的基本论点：熵不是越大越好，而是要把“何处探索”和“如何学习探索”分开处理。（p.3, F003）

3. 方法总览：AEPO 在 rollout 和 update 两阶段平衡熵

AEPO 的结构非常清楚：第一部分是 Dynamic Entropy-Balanced Rollout，解决 rollout 预算如何分配、怎样避免连续高熵分支过度集中；第二部分是 Entropy-Balanced Policy Optimization，解决高熵 token 在梯度更新中如何被保留和加权。（p.4, S006）

论文 Figure 4：Agentic Entropy-Balanced Policy Optimization 方法总览 — **论文图 4。**左到右可以读成一条训练流水线：先用一次完整轨迹预监控问题熵与工具熵；再在 rollout 中动态决定全局采样和局部分支；最后在 policy update 中对高熵 token 做 clipping-balanced 更新和 entropy-aware advantage shaping。（p.4-p.6, F004）

3.1 Dynamic Entropy-Balanced Rollout：先决定预算该花在哪里

论文把总 rollout budget 记为 k，其中 m 用于全局轨迹采样，k - m 用于高熵工具步骤上的局部分支采样。AEPO 不再固定 m，而是先生成一条完整工具轨迹，估计问题本身的初始熵 H_root 和工具调用引入的平均熵 H_tool_avg。（p.4, S007）

核心规则是：如果 H_root - H_tool_avg > 0，说明初始问题本身不确定性更大，应增加全局探索；如果 H_root - H_tool_avg < 0，说明工具交互带来的不确定性更大，应把更多预算给局部分支。论文用 sigmoid 和敏感度参数 β 把这个差值映射到 m。（p.4, S007）

直观版 AEPO rollout:
1. 对 query q 先跑一条完整工具轨迹。
2. 估计 H_root 与 H_tool_avg。
3. m = k * sigmoid(beta * (H_root - H_tool_avg))
4. 用 m 条全局轨迹覆盖不同解题方向。
5. 用 k - m 个分支预算处理高熵工具调用步骤。
6. 如果同一条链连续高熵分支，逐步降低继续分支概率。

3.2 连续分支惩罚：高熵不是无限续杯券

在 adaptive rollout 中，AEPO 会持续监控工具调用后的 entropy variation，并记录每条链在当前步骤之前已经连续出现多少次高熵分支。随着连续分支计数 l 增大，继续分支的概率会被线性惩罚；论文实现中使用 P(l)=0.2·l 作为连续分支惩罚概率。（p.5-p.6, S008-S010）

这一步的工程含义很明确：模型仍然可以在高熵工具节点上分支，但不能因为某条路径一直高熵就把所有预算吸走。换句话说，AEPO 不是压制探索，而是把探索从“局部贪婪”改成“预算约束下的覆盖”。

3.3 Entropy-Balanced Policy Optimization：保留有价值的高熵梯度

在 policy update 端，AEPO 认为传统 clipping 过于粗暴：高熵 token 可能是噪声，也可能是正确探索的关键行为。它借鉴 clipping-optimized RL 的思路，在高熵 clipping 项中加入 stop-gradient，从而让 forward 计算保持不变，但在 backward 时对满足条件的高熵 token 梯度做保留和重缩放。（p.5, S009）

论文给出的条件可以粗略理解为：当 importance ratio δ > 1 + ε_h 且 token 的 advantage 为正时，AEPO 不直接把梯度裁掉，而是把它重缩放到 1 + ε_h；其他情况仍按 GRPO 式 clipping 处理。这样做的目标是让模型从“高熵但有效”的探索 token 中学习，而不是让 clipping 把它们统一归零。（p.5, S009）

此外，AEPO 还加入 entropy-aware advantage estimation：传统 outcome-based RL 会把同一条序列内所有 token 分到相同 answer-level advantage，而 AEPO 用 token entropy 进一步 reshape advantage，让不确定但最终正确的 token 更值得学习。（p.6, S009）

4. 实验设置：任务、工具与训练规模

论文把评测分成三类：深度信息检索任务，包括 GAIA、Humanity's Last Exam、WebWalkerQA、XBench-DR 和 FRAMES；知识密集型 multi-hop QA，包括 2WikiMultihopQA、MuSiQue、Bamboogle、WebWalkerQA；以及数学 / 竞赛推理，包括 GSM8K、MATH、MATH500、AIME2024、AIME2025。（p.6, S010）

工具上，论文选择了三类代表性 agent 工具：Web Search Engine、Web Browser 和 Code Executor。训练实现使用 VERL，训练 batch size 为 128，PPO mini-batch size 为 16，上下文长度 20K；AEPO rollout 中 global rollout size 为 16，β=0.2，连续分支惩罚 P(l)=0.2·l；所有实验使用 16 张 NVIDIA H800 GPU。搜索引擎是 Bing Search API，US-EN 区域，每个 query 检索 10 个网页；深度信息检索场景中每页最多抽取 6000 tokens。（p.4, S005; p.6, S010）

5. 实验结果：AEPO 到底强在哪里？

5.1 深度信息检索：1K 样本训练出的强泛化

Table 1 是论文最核心的结果之一。Qwen3-14B + AEPO 在 WebWalkerQA / HLE / GAIA 上的 Pass@1 分别达到 43.0 / 11.2 / 47.6；Qwen3-8B + AEPO 也相对 ARPO 在 GAIA 和 WebWalkerQA 上有明显增益。作者强调这些结果来自 1K 开源 web search 训练样本，没有额外数据合成或过滤。（p.7, T001）

论文 Figure 5：Qwen3-14B 使用 ARPO 与 AEPO 的 Pass@1 到 Pass@5 对比 — **论文图 5。**采样数增加时，AEPO 的优势继续保持。Qwen3-14B + AEPO 的 Pass@5 在 GAIA / HLE / XBench-DR 上分别达到 65% / 26% / 65%；摘要中还报告 WebWalkerQA Pass@5 为 70.0。（p.1, S001; p.8-p.9, F005; S011）

5.2 通用推理：不是只对 Web 搜索有效

Table 2 比较了 GRPO、Reinforce++、DAPO、GPPO、CISPO、GIGPO、ARPO 和 AEPO。AEPO 在 Llama3.1-8B-Instruct 上平均 56.3，在 Qwen2.5-7B-Instruct 上平均 60.3，均为表中最高。论文的解释是：agentic RL 的树状 rollout 本身有价值，但 AEPO 进一步解决了 rollout 分支和高熵梯度学习的问题。（p.8, T002）

5.3 多样性：AEPO 是否真的缓解 rollout collapse？

作者随机抽取 10 个 rollout step，覆盖 640 个问题和约 7.6K 条轨迹，用 BGEM3 embedding、PCA 降维和 DBSCAN 聚类来分析 rollout 采样分布。相比 ARPO，AEPO 形成更多 cluster centers：62 vs 54，并呈现更大的类间间隔和更紧的类内距离。（p.9, S012）

论文 Figure 6：ARPO 和 AEPO rollout diversity 可视化 — **论文图 6。**左边 ARPO 的采样分布更容易集中，右边 AEPO 的采样轨迹形成更多可区分簇。这个图支持“预算重分配 + 连续分支惩罚”确实扩大了探索覆盖面，而不只是改变最终 accuracy。（p.9, F006; S012）

论文 Figure 7：分支采样分布与工具调用效率对比 — **论文图 7。**左图显示在全局和局部分支预算都为 8 的设定下，ARPO 往往只分到 2-3 条轨迹，而 AEPO 可能覆盖全部 8 条路径；右图显示 AEPO 以更少工具调用达到更好表现，论文称其工具调用量大约只有 vanilla / clipping-optimized RL 的一半。（p.9-p.10, F007; S012-S013）

5.4 稳定性：熵曲线不应该剧烈塌缩

论文还画出了训练动态。作者观察到 clipping-optimized RL 在训练中容易出现熵不稳定，进而导致性能坍缩；AEPO 的 entropy curve 更平稳，准确率也更稳定提升。这里的结论很符合论文标题：目标不是把 entropy loss 推到某个极端，而是维持一种“足够高且稳定”的探索动态。（p.10, S013）

论文 Figure 8：训练过程中的 entropy loss 与 accuracy 动态 — **论文图 8。**左边是 entropy loss，右边是 validation accuracy。读图重点是 AEPO 避免了 clipping-optimized 方法中更明显的熵震荡 / 坍缩，并把这种稳定性转化为更好的验证表现。（p.10, F008; S013）

6. 我如何理解 AEPO：它在做“探索预算管理”

如果把 Web Agent 训练看成搜索问题，AEPO 的两部分其实对应两类预算：

采样预算：每个 query 有多少条 rollout、多少局部分支、哪些工具节点值得扩展。
梯度预算：哪些 token 的探索行为应该被学习，哪些只是随机波动或坏探索。

传统 agentic RL 很容易把这两个预算都交给“高熵”本身：哪里高熵就往哪里分支，哪个 token ratio 太大就按 clipping 处理。AEPO 的贡献是把高熵拆成两个判断：高熵是否值得继续采样？高熵 token 是否值得学习？前者由 entropy pre-monitoring 和 branch penalty 管，后者由 stop-gradient clipping balance 和 entropy-aware advantage 管。

与 GRPO / ARPO 的差异速记

GRPO：主要解决 group relative advantage 的 policy optimization，缺少针对工具分支结构的 rollout 预算控制。
ARPO：利用高熵工具步骤做 agentic branching，但可能把分支预算集中在少数连续高熵路径上。
AEPO：继承 agentic branching 的收益，同时在 rollout 阶段控制分支覆盖，在 update 阶段保护有用高熵 token 的梯度。

7. 复现和落地时我会优先检查什么？

这篇论文的方向很实用，但如果要复现或放到自己的 Agent 框架里，我会优先关注以下风险：

entropy threshold 是否稳定？

不同 backbone、temperature、tool schema 会改变 token entropy 分布。论文给出 β=0.2 和 P(l)=0.2·l，但这些超参未必能直接迁移。

工具 observation 会污染 loss 吗？

论文明确在 loss 计算中排除 tool-call results 以避免 bias。实际系统里必须清楚区分模型 token、工具返回、环境注入文本。

搜索 API 与 browser agent 是隐藏变量

Bing 搜索区域、网页截断 6000 tokens、browser agent 的总结质量都会影响 rollout entropy 和最终 reward。

高熵 token 一定是好探索吗？

AEPO 通过正 advantage 条件和 entropy-aware advantage 过滤一部分噪声，但高熵仍可能来自格式不稳、工具 schema 混乱或无效反思。

8. 最小实现草图

如果先不完整复现论文训练，我会把 AEPO 的 rollout 思路实现成一个 agent runtime 采样器：

def aepo_rollout(query, model, tools, k, beta=0.2):
    probe = run_one_tool_trajectory(query, model, tools)
    h_root = entropy_of_initial_answer_or_plan(probe)
    h_tool = mean_entropy_after_tool_calls(probe)

    m = round(k * sigmoid(beta * (h_root - h_tool)))
    branch_budget = k - m

    pool = [run_global_trajectory(query, model, tools) for _ in range(m)]
    consecutive = defaultdict(int)

    while branch_budget > 0 and has_live_paths(pool):
        path, step = select_high_entropy_tool_step(pool)
        penalty = 0.2 * consecutive[path]
        if should_branch(step.entropy_delta, penalty):
            pool.extend(branch_from(path, step))
            consecutive[path] += 1
            branch_budget -= 1
        else:
            continue_path(path)

    return pool

policy update 部分则更依赖训练框架，需要在 GRPO / PPO loss 的 clipping term 与 advantage 计算中做改造。最容易踩坑的是 stop-gradient 的方向：forward 值要保持与原 clipping 形式一致，backward 才改变高熵 token 的梯度路径。（p.5-p.6, S009）

9. 深度理解 Q&A

Q1：AEPO 是不是简单把 entropy regularization 加大？

不是。论文反而强调“过度依赖熵信号”会导致训练问题。AEPO 不只是加熵正则，而是在 rollout 端用熵分配采样预算，在 update 端保护特定高熵 token 的梯度，并用 advantage 重新区分有用探索和无用不确定性。（p.2-p.6, S003-S009）

Q2：为什么高熵工具调用会连续出现？

工具调用会把新的网页、代码执行结果或错误信息注入上下文，下一步模型面对的信息状态更开放，因此可能继续不确定。论文统计中连续高熵工具轮占 56.5%，最长可达 6 轮，这就是 rollout collapse 的经验基础。（p.3, S003）

Q3：为什么不直接增加 rollout budget？

增加预算当然可能提升覆盖，但 Web 搜索和浏览有真实成本。论文 Figure 7 反而显示 AEPO 用约一半工具调用达到更好表现，说明问题不只是预算大小，而是预算是否花在不同候选路径上。（p.9-p.10, S013）

Q4：stop-gradient clipping balance 会不会鼓励坏探索？

有这个风险，所以 AEPO 不是保留所有高熵梯度。论文描述的是在 δ > 1 + ε_h 且 advantage 为正时保留并重缩放梯度；同时用 entropy-aware advantage 强化高熵但正确的 token。坏探索如果没有正向结果奖励，不应该被同等加强。（p.5-p.6, S009）

Q5：这篇论文对非 Web Agent 有启发吗？

有，但要看任务是否存在“昂贵工具调用 + 多轮探索 + 分支采样”。代码 agent、数据分析 agent、浏览器自动化 agent 都可能受益；纯单轮数学推理也可以借鉴高熵 token 梯度处理，但 rollout 预算部分的收益会小一些。

10. 总结：AEPO 的可迁移思想

AEPO 最值得带走的思想是：Agent 训练中的熵应该被当作资源调度信号，而不是无条件探索信号。在 rollout 阶段，高熵告诉我们哪里可能需要分支，但连续高熵也可能导致预算坍缩；在 policy update 阶段，高熵 token 可能是噪声，也可能是工具探索能力的关键载体，不能被 clipping 机制一刀切地丢掉。

对于 Web Agent RL，真正稀缺的不是“更多随机性”，而是把不确定性转化为覆盖更广、成本更低、梯度更有效的探索。

参考与出处

Dong et al., Agentic Entropy-Balanced Policy Optimization, arXiv:2510.14545v1, 2025.
本文中的“论文图”均来自 arXiv HTML/PDF 原文，图片文件保存在 /assets/papers/aepo/；关键证据索引见 /assets/papers/aepo/source_map.json。