HuggingFace Papers 2026-02-12

数据来源：HuggingFace Papers

Latest Papers

1. OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

As high-quality public text approaches exhaustion, a phenomenon known as the Data Wall, pre-training is shifting from more tokens to better tokens. However, existing methods either rely on heuristic static filters that ignore training dynamics, or use dynamic yet optimizer-agnostic criteria based on raw gradients. We propose OPUS (Optimizer-induced Projected Utility Selection), a dynamic data selection framework that defines utility in the optimizer-induced update space. OPUS scores candidates by projecting their effective updates, shaped by modern optimizers, onto a target direction derived from a stable, in-distribution proxy. To ensure scalability, we employ Ghost technique with CountSketch for computational efficiency, and Boltzmann sampling for data diversity, incurring only 4.7\% additional compute overhead. OPUS achieves remarkable results across diverse corpora, quality tiers, optimizers, and model scales. In pre-training of GPT-2 Large/XL on FineWeb and FineWeb-Edu with 30B tokens, OPUS outperforms industrial-level baselines and even full 200B-token training. Moreover, when combined with industrial-level static filters, OPUS further improves pre-training efficiency, even with lower-quality data. Furthermore, in continued pre-training of Qwen3-8B-Base on SciencePedia, OPUS achieves superior performance using only 0.5B tokens compared to full training with 3B tokens, demonstrating significant data efficiency gains in specialized domains.

中文摘要

随着高质量公共文本接近枯竭，这一现象被称为数据墙，预训练正在从更多的令牌转向更优质的令牌。然而，现有方法要么依赖忽略训练动态的启发式静态过滤器，要么使用基于原始梯度的动态但与优化器无关的标准。我们提出了OPUS（Optimizer-induced Projected Utility Selection，优化器引导的投影效用选择），一个动态数据选择框架，在优化器引导的更新空间中定义效用。OPUS通过将候选样本的有效更新——由现代优化器塑形——投影到由稳定的同分布代理导出的目标方向上来评分。为了确保可扩展性，我们采用了结合CountSketch的Ghost技术以提高计算效率，并使用玻尔兹曼采样以增加数据多样性，仅增加4.7%的计算开销。OPUS在不同语料、质量等级、优化器和模型规模上都取得了显著成果。在GPT-2 Large/XL在FineWeb和FineWeb-Edu上使用300亿令牌进行预训练时，OPUS超越了工业级基线，甚至超过了完整的2000亿令牌训练。此外，当与工业级静态过滤器结合使用时，OPUS进一步提高了预训练效率，即使在低质量数据情况下也能表现出色。此外，在Qwen3-8B-Base在SciencePedia上的持续预训练中，OPUS仅使用5亿令牌就实现了优于使用30亿令牌的完整训练的性能，显示出在专业领域中显著的数据效率提升。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决大语言模型（LLM）预训练中的动态数据选择与优化器几何结构不对齐的问题，具体表现为：

核心问题背景

随着高质量公开文本数据濒临枯竭（Data Wall现象），预训练范式正从”追求更多token”转向”追求更好token”。然而，现有数据选择方法存在根本性局限：

静态方法（如FineWeb-Edu、DCLM分类器）依赖固定的、与训练无关的启发式规则，假设样本效用不随模型演化而变化；
动态方法（如GREATS、基于困惑度的选择）虽能根据模型状态实时调整，但仅在原始梯度空间中评估候选样本，隐式假设训练遵循随机梯度下降（SGD）动态。

关键矛盾

现代LLM训练普遍采用自适应优化器（如AdamW、Muon），这些优化器通过状态依赖的预处理器（preconditioner）重塑梯度，形成特定的有效更新几何结构。现有动态选择方法忽略了这一事实，导致：

评分空间（原始梯度） ≠ 实际更新空间（优化器诱导几何）

这种优化器-选择器不对齐（Optimizer-Selector Misalignment）使得数据选择信号与参数实际更新轨迹脱节，造成优化效率损失。

解决目标

论文提出OPUS（Optimizer-induced Projected Utility Selection）框架，旨在建立一种与优化器几何结构对齐的动态数据选择机制，其核心贡献包括：

优化器感知的效用定义：在优化器诱导的更新空间中重新定义样本效用，通过投影有效更新到稳定代理分布的下降方向，消除评分与训练之间的几何偏差；
可扩展的高效估计：结合Ghost技术与CountSketch投影，避免物化每样本梯度，将计算开销控制在4.7%以内；
保持多样性：采用Boltzmann采样替代贪婪top-k选择，防止非平稳数据流中的多样性崩溃。

通过上述设计，OPUS旨在实现”每一步都选择最能改善模型在目标分布上性能的token”，从而在面对数据墙约束时，显著提升预训练的数据效率和最终模型性能。

Q: 有哪些相关研究？

根据论文第2节（Related Work）的综述，相关研究可分为以下三个主要方向：

1. 静态预训练数据选择（Static Pre-training Data Selection）

这类方法在训练前离线过滤语料库，基于固定启发式规则分配质量分数：

FineWeb-Edu（Penedo et al., 2024）：基于分类器对Common Crawl派生数据进行大规模去重和质量过滤，提供离散质量评分（3-5分）。
QuRating（Wettig et al., 2024）：从成对偏好中学习标量质量评分，证明平衡质量与多样性可提升下游性能。
DSIR（Xie et al., 2023）：在降维特征空间中通过重要性重采样实现数据集匹配，无需人工策划即可扩展选择。
DataComp-LM (DCLM)（Li et al., 2024）：提供标准化语料库和评估套件，用于比较不同过滤策略。
UltraFineweb（Wang et al., 2025c）：提出基于轻量级分类器的高效过滤与验证机制。

与OPUS的区别：静态方法假设样本效用恒定，不随模型演化而调整，而OPUS通过动态选择适应模型状态。

2. 预训练中的动态数据选择（Dynamic Data Selection）

这类方法在训练过程中实时选择样本，基于估计的训练效用：

基于损失/困惑度的启发式：优先选择高损失或高困惑度样本（Loshchilov & Hutter, 2016; Katharopoulos & Fleuret, 2019; Ankner et al., 2025）。
GREATS（Wang et al., 2024）：通过泰勒展开近似每样本验证损失减少，但基于SGD几何结构，且计算开销较大。
MATES（Yu et al., 2024b）：训练轻量级影响模型跟踪预训练中的数据偏好演化。
Group-MATES（Yu et al., 2025）：强调效用非可加性，通过组级选择缓解贪婪top-k导致的冗余问题。

与OPUS的区别：现有动态方法在原始梯度空间中评分，隐式假设SGD动态，而OPUS在优化器诱导的更新空间中评分，与AdamW/Muon等自适应优化器几何对齐。

3. 影响函数与数据归因（Influence Functions & Data Attribution）

这类方法估计单个训练样本对模型行为或验证损失的影响：

经典影响函数（Koh & Liang, 2017）：通过Hessian敏感性分析近似样本上权重的影响，但计算密集。
可扩展近似：Pruthi et al. (2020)、Guo et al. (2021)、Yeh et al. (2018) 提出替代方法避免精确二阶计算。
早期训练代理（Paul et al., 2021）：在训练早期选择信息丰富子集。
遗忘事件（Toneva et al., 2019）：利用遗忘事件识别噪声或难学样本。
梯度匹配（Killamsetty et al., 2021）：通过梯度匹配优化子集选择。
Shapley值（Ghorbani & Zou, 2019; Jia et al., 2021; Wang et al., 2025a）：基于合作博弈论量化数据价值。
LLM专用扩展：Xia et al. (2024) 提出LoRA感知影响近似；Du et al. (2023)、Liu et al. (2024b) 针对指令微调优化选择目标。

与OPUS的关系：OPUS借鉴了影响函数的思想（估计样本对验证损失的影响），但通过优化器诱导的效用和低维投影技术（Ghost + CountSketch）解决了经典方法在LLM规模下的不可行问题。

总结

OPUS定位于动态选择方法家族，但通过以下创新区别于现有工作：

优化器几何对齐：首次将数据选择与AdamW/Muon等现代优化器的实际更新轨迹对齐；
稳定代理构造：通过Bench-Proxy从预训练语料中检索与基准对齐的样本，避免分布偏移；
可扩展性：结合Ghost技术与CountSketch投影，将开销控制在4.7%以内。

Q: 论文如何解决这个问题？

论文通过提出**OPUS（Optimizer-induced Projected Utility Selection）**框架解决该问题，核心在于将数据选择从原始梯度空间转移到优化器诱导的实际更新空间。具体解决方案包含以下四个层次：

1. 优化器诱导的效用定义（ principled objective ）

区别于现有方法在原始梯度空间 ∇_θ L(z; θ_t) 中评分，OPUS定义效用为候选样本在优化器实际采用的几何结构下对验证损失的期望改善。

优化器预处理器的形式化推导：

对于不同优化器，OPUS推导出其一步前瞻更新的线性化预处理器 P_t ：

AdamW（第4.3节）：通过对二阶矩的冻结近似，得到对角预处理器：
Pt^(AdamW) := C_t · Diag((1) / (√{hatv)(t-1) + ε}), quad C_t := α_t (1-β_1) / (1-β_1^t)
Muon（第4.2节）：通过冻结Newton-Schulz正交化算子，得到稠密左预处理器：
Pt^(Muon) := kappa_t S(t,L), quad 其中 S(t,L) = aI + bA(t,L) + cA_(t,L)^2

效用计算公式（第5.1节）：样本 z 的边际效用定义为优化器诱导更新 uz^((t)) := P_t ∇θ L(z; θt) 与代理方向 g(proxy)^((t)) 的 alignment，减去与已选批次历史 G^((t)) 的 redundancy：

Uz^((t)) ≈ eta_t langle u_z^((t)), g(proxy)^((t)) rangle - eta_t^2 langle u_z^((t)), G^((t)) rangle

其中：

对齐项（Alignment）：衡量样本更新与目标分布（Bench-Proxy）下降方向的一致性；
冗余惩罚项（Redundancy Penalty）：通过 Hessian 的各向同性近似（ H_(val) ≈ I ），避免选择几何方向相似的重复样本。

2. 稳定的分布内代理构造（Bench-Proxy）

为避免直接使用基准验证数据导致的分布偏移和梯度噪声，OPUS提出Bench-Proxy构造策略（第6.2节）：

使用冻结的文本编码器（Arctic-Embed-L v2）将基准验证集 D_(val) 与预训练语料库编码到同一嵌入空间；
计算余弦相似度，为每个预训练文档分配基准相关性分数；
检索Top-M最相似的文档构建代理池 D_(proxy) ，确保代理方向既对齐下游任务又属于预训练分布。

3. 可扩展的高效计算架构

为使上述理论框架在LLM规模下可行，OPUS采用两项关键技术避免物化高维梯度：

Ghost技术（第5.2节）：利用线性层梯度的秩-1外积结构 ∇_(W_r)L(z) = a_r^((z)) otimes b_r^((z)) ，仅需存储激活向量 a 和误差信号 b ，无需计算完整梯度矩阵。

CountSketch投影（第5.2节）：通过稀疏随机投影 Pi: R^d to R^m （ m ll d ）将预处理器应用后的梯度隐式投影到低维空间：

φ^((t,r))(z) = Pir(P(t,r) (a_r^((z)) otimes b_r^((z))))

对于AdamW，利用对角预处理器的坐标可分离性，投影成本仅为 O(d(∈) + d(out)) ；对于Muon等稠密预处理器，成本为 O(d(∈)d(out)) ，但仍远低于完整梯度物化。

最终效用估计通过在低维 sketch 空间计算内积完成：
Uz^((t)) ≈ eta_t ∑(r ∈ R) langle φ^((t,r))(z), psi(proxy)^((t,r)) rangle - eta_t^2 ∑(r ∈ R) langle φ^((t,r))(z), Phi^((t,r)) rangle

4. 多样性保持的 Boltzmann 采样

为避免贪婪top-k选择在非平稳数据流中的多样性崩溃，OPUS采用Boltzmann软采样（第5.3节）：

p_z^((t)) propto exp(U_z^((t)) / τ)

其中温度参数 τ 控制探索-利用权衡。结合上述冗余惩罚项，该策略确保高效用候选被优先选择，同时保持几何互补样本的非零概率，防止过度拟合局部代理噪声。

算法流程总结

Algorithm 1 概述了完整流程：

每一步从数据流中读取候选缓冲区 B_t ；
根据当前优化器状态构建预处理器 P_t ；
从 D(proxy) 采样构建代理 sketch psi(proxy) ；
对每个候选通过 Ghost 技术计算 sketch 特征 φ(z) ；
迭代选择 K = lfloor rho N rfloor 个样本：计算效用 U_z （含对齐与冗余项），按Boltzmann分布采样，更新历史 sketch Phi ；
在选中的子集 B_t 上执行标准优化器更新。

该设计使OPUS在仅增加4.7%计算开销的情况下，实现与优化器几何对齐的动态选择，显著提升预训练数据效率。

Q: 论文做了哪些实验？

论文在第6节（Experiments）中进行了系统的实验验证，涵盖从头预训练、持续预训练、消融研究及效率分析等多个维度。具体实验内容如下：

1. 实验设置（第6.1节）

模型架构：GPT-2 Large（774M参数）和 GPT-2 XL（1.5B参数）；Qwen3-8B-Base（8B参数，用于持续预训练）。
训练预算：固定为30B更新token（除特别说明外）；持续预训练使用0.5B–1.5B token。
优化器设置：
AdamW： β_1=0.8, β_2=0.95 ，权重衰减 λ=0 ；
Muon（混合优化器）：矩阵参数使用Muon（动量 μ=0.95 ，5步Newton-Schulz迭代），嵌入层等使用AdamW。
数据集：
FineWeb：大规模网络语料（3T token池）；
FineWeb-Edu：高质量子集，按分数分为Score 3（中质量，120B token）和Score 4+5（高质量，80B token）；
SciencePedia：科学领域语料（3B token），用于持续预训练。
评估基准：涵盖MMLU、ANLI、HellaSwag、PIQA、SIQA、WinoGrande、ARC-E/C、CommonsenseQA、WSC等10项核心基准，以及BBH、RACE-M/H、AX-b/g、StoryCloze等OOD基准。

2. 从头预训练（第6.3节）

(1) FineWeb上的性能对比（Table 3）

设置：在30B token预算下，对比OPUS与静态过滤方法（QuRating、DSIR、DCLM-FastText、FineWeb-Edu、UltraFineweb）及动态方法（High-PPL、GREATS）。
关键发现：
OPUS在GPT-2 Large/XL上均取得最佳计算匹配平均性能（如GPT-2 XL+Muon达到41.75%，随机基线为40.29%）；
在AdamW和Muon两种优化器下均显著优于基线，验证了其优化器无关性；
性能甚至超过训练60B token的随机采样基线（Rand 60B），体现8倍效率提升。

(2) FineWeb-Edu上的鲁棒性测试（Table 4）

严格设置：OPUS动态从**低质量子集（Score 3）中选择，而所有基线使用高质量子集（Score 4+5）**进行静态或动态训练。
关键发现：
尽管处于数据质量劣势，OPUS仍匹配或超越基线；
GPT-2 XL+Muon设置下，OPUS（Score 3）平均准确率达44.99%，显著优于Random（Score 4+5）的41.92%。

(3) 泛化能力评估（Table 5）

设置：在BBH、RACE-M/H、AX-b/g、StoryCloze等OOD基准上评估，这些基准未用于构建Bench-Proxy。
结果：OPUS平均准确率40.07%，显著优于次优方法GREATS（39.42%），证明其提升源于一般性训练信号质量，而非对代理分布的过拟合。

(4) 领域困惑度分析（Table 6）

设置：按WebOrganizer主题分类器将文档划分为10个领域（健康、商业、科学等），计算各领域验证困惑度（PPL）。
结果：OPUS在10个领域中的9个取得最低PPL，平均PPL（3.35 for GPT-2 Large）优于所有基线，表明其未牺牲领域多样性。

(5) 验证损失曲线（Figure 4）

设置：在FineWeb-Edu上训练GPT-2 Large/XL，绘制验证损失随token变化的曲线。
关键发现：
OPUS收敛速度显著快于基线；
GPT-2 XL上，OPUS仅用17B token即达到Random 60B的验证损失水平。

3. 持续预训练（第6.4节，Figure 5 & 6）

设置：基于Qwen3-8B-Base，在科学语料SciencePedia上进行持续预训练（CPT），对比Full Data（3B token）、Random、DCLM和OPUS（0.5B–1.5B token）。
评估基准：OlympicArena（多科学领域推理）和SciAssess（生物、化学、材料、医学）。
关键发现：
OPUS仅用0.5B token即超越Full CPT 3B token的性能；
在OlympicArena的数学、物理、化学、生物等子领域及SciAssess的材料、医学子领域均取得一致提升，实现6倍数据效率。

4. 消融研究（第6.5节，Table 7 & 8）

(1) 采样策略对比（Table 7）

Greedy Top-K vs Boltzmann Sampling：贪婪选择平均40.49%，显著低于OPUS的41.75%，证明随机采样对噪声鲁棒性的重要性。
Proxy构造方式：使用Bench-Proxy（从预训练语料检索）相比直接使用标准验证集（Std. proxy），平均提升0.72%（41.03% → 41.75%）。

(2) 超参数敏感性（Table 8）

Buffer size ( b_t )：32→64有提升，但64与128差异不大，默认采用64。
Temperature ( τ )：0.8→0.9→1.0中， τ=0.9 表现最佳，平衡探索与利用。
Projection dimension ( m )：4096、8192、16384中， m=8192 取得最佳平均性能。

5. 定性分析（第6.6节 & Appendix A）

通过可视化单步候选缓冲区（N=32）的选择结果（Figure 8-15），展示：

OPUS：选择多样化，涵盖教育内容（decodable readers）、历史（Wannsee Conference）、科学（DNA damage）等；
High-PPL：倾向选择高困惑度的杂乱文本（如电影评论、流行文化）；
QuRating/UltraFineweb：过度集中于教育类文档，多样性不足；
GREATS：虽多样但缺乏优化器感知，选择质量波动较大。

6. 效率分析（第6.7节，Figure 7）

计算开销：朴素动态选择实现导致**>3.5× slowdown**；
OPUS优化后：通过Ghost技术+CountSketch投影，额外计算开销仅4.7%，同时取得最佳下游性能；
对比静态方法：QuRating等静态过滤虽无训练时开销，但其前期语料评分计算量仍高于OPUS的累计开销，且性能不及OPUS。

总结

实验系统验证了OPUS在不同模型规模（0.7B–8B）、不同优化器（AdamW/Muon）、不同数据质量（原始网络/教育过滤/科学领域）及不同训练范式（从头预训练/持续预训练）下的一致性优势，证明优化器诱导的数据选择是突破数据墙、提升预训练效率的有效途径。

Q: 有什么可以进一步探索的点？

基于论文第7节（Conclusion and Future work）及方法论的开放性，以下是几个值得进一步探索的研究方向：

1. 扩展到数据混合与多领域配比（Data Mixtures）

论文明确指出：”A natural next step is to extend this optimizer-aligned idea to richer training regimes, such as data mixtures.“

核心问题：当前OPUS主要针对单一数据流的选择，但在实际预训练中，通常需要动态调整多个领域数据源的混合比例（如代码、数学、百科、网页文本）。
探索方向：将优化器诱导的效用框架扩展到多领域配比决策，即不仅选择样本，还动态调整各领域采样权重，使整体更新方向最优对齐目标分布。

2. 支持更广泛的优化器家族

当前局限：论文推导了AdamW（对角预处理器）和Muon（稠密矩阵预处理器）的特定形式。
扩展方向：
二阶优化器：如Shampoo、SOAP、Adam-mini等，其预处理器涉及更复杂的矩阵运算（如Kronecker积）。
学习率调度感知：当前 P_t 假设学习率 eta_t 为标量，可探索与自适应学习率调度（如warmup-decay）更深度的耦合。
联邦学习场景：在分布式优化器中，预处理器可能包含通信压缩（如Error Feedback），需重新推导效用公式。

3. 动态代理池演化（Adaptive Bench-Proxy）

当前局限：Bench-Proxy在训练前静态构建，虽稳定但可能无法捕捉模型能力的阶段性演化（如早期需基础语法，后期需复杂推理）。
探索方向：
设计课程学习式的代理更新机制，根据模型在验证集上的误差模式，动态调整代理池的组成。
探索多目标代理：当需要同时优化多个下游任务（如MMLU+代码能力）时，如何构造帕累托最优的代理方向。

4. 更高阶的效用近似与理论保证

当前近似：OPUS采用一阶泰勒展开和Hessian各向同性近似（ H_(val) ≈ I ）。
深化方向：
二阶影响函数：引入更精确的Hessian-vector product（HVP）估计，或利用Kronecker-Factored近似（KFAC）计算冗余项。
收敛性分析：理论上证明优化器诱导选择相比原始梯度选择，在凸/非凸优化中具有更快的收敛速率或更好的泛化界。

5. 跨模态与多模态预训练

扩展场景：将OPUS应用于视觉-语言模型（VLM）或语音-文本模型的预训练。
技术挑战：
不同模态的梯度结构差异（如CNN vs Transformer），需重新设计Ghost技术的因子分解方式。
多模态数据的异构性（图像-文本对、视频-音频-文本三元组）要求更复杂的对齐（alignment）度量。

6. 与数据去重和隐私保护的结合

效率与隐私：CountSketch投影本身具有隐私保护特性（差分隐私中的随机投影），可探索隐私感知的动态选择。
去重协同：当前OPUS关注”选择什么”，可与”去除什么”（如SemDeDup、NearDup）结合，在 sketch 空间内同时完成选择与去重。

7. 超参数的自适应调整

当前实践：温度 τ 、投影维度 m 、缓冲区大小 N 需人工调优。
自动化方向：
基于训练动态（如梯度噪声尺度）自适应调整Boltzmann温度，在探索与利用间自动平衡。
使用元学习预测最优投影维度，在计算预算与选择精度间动态权衡。

8. 扩展到后训练阶段（Post-training）

应用场景：将优化器诱导选择应用于指令微调（SFT）和强化学习（RLHF/RLAIF）。
特殊挑战：
在RL中，策略梯度估计的方差较大，需重新设计效用估计的方差缩减技术。
偏好数据（preference pairs）的选择需考虑成对样本的联合效用而非独立评分。

这些方向既保持了OPUS的核心思想（优化器几何对齐），又将其扩展到更复杂的训练范式和应用场景中。

Q: 总结一下论文的主要内容

这篇论文针对**大语言模型预训练中的数据墙（Data Wall）问题，提出了OPUS（Optimizer-induced Projected Utility Selection）**框架，一种与优化器几何结构对齐的动态数据选择方法。

1. 核心问题

随着高质量公开文本数据濒临枯竭，预训练需从”更多token”转向”更好token”。现有方法存在优化器-选择器不对齐问题：

静态方法（如FineWeb-Edu）假设样本效用恒定，忽略模型演化；
动态方法（如GREATS）在原始梯度空间评分，隐式假设SGD动态，而现代LLM使用AdamW/Muon等自适应优化器，其通过预处理器 Pt 重塑有效更新方向：
Deltaθ_t = -eta_t P_t ∇θ L(z; θ_t)
导致评分空间与实际更新空间脱节。

2. 方法框架

OPUS通过以下组件实现优化器感知的动态选择：

（1）优化器诱导的效用定义 将样本效用定义为在优化器诱导几何下对验证损失的期望改善。对候选样本 z ，其边际效用为：
Uz^((t)) ≈ eta_t langle u_z^((t)), g(proxy)^((t)) rangle - etat^2 langle u_z^((t)), G^((t)) rangle
其中 u_z^((t)) = P_t ∇θ L(z; θt) 为优化器诱导的有效更新， g(proxy)^((t)) 为代理方向， G^((t)) 为已选批次历史（冗余惩罚）。论文推导了AdamW（对角预处理器）和Muon（稠密矩阵预处理器）的具体形式。

（2）Bench-Proxy构造 通过检索预训练语料中与基准验证集最相似的样本（基于Arctic-Embed-L v2嵌入），构建分布内代理池 D_(proxy) ，避免直接使用验证数据导致的分布偏移。

（3）可扩展估计 结合Ghost技术（利用线性层梯度的秩-1外积结构 a otimes b 避免物化完整梯度）与CountSketch投影（将梯度投影到低维空间 R^m ），将计算开销控制在**4.7%**以内。

（4）Boltzmann采样 采用软采样 p_z^((t)) propto exp(U_z^((t))/τ) 替代贪婪top-k，防止非平稳数据流中的多样性崩溃。

3. 实验验证

在GPT-2 Large/XL（30B token预算）和Qwen3-8B-Base（持续预训练）上的实验表明：

效率提升：在FineWeb上实现8倍计算效率提升（30B token训练达到60B token随机采样的性能）；
优化器兼容性：在AdamW和Muon优化器下均显著优于静态过滤（FineWeb-Edu、DCLM等）和动态基线（GREATS、High-PPL）；
数据质量鲁棒性：即使从FineWeb-Edu低质量子集（Score 3）中选择，OPUS仍超越使用高质量子集（Score 4+5）的基线；
领域泛化：在SciencePedia持续预训练中，仅用0.5B token即超越全量3B token训练，实现6倍数据效率；
多样性保持：领域困惑度分析显示OPUS在10个领域中的9个取得最低PPL，未牺牲覆盖面。

4. 结论

OPUS通过将数据选择从原始梯度空间转移到优化器诱导的更新空间，解决了现代LLM训练中的几何不对齐问题，为突破数据墙、实现高效预训练提供了原则性框架。未来工作可扩展至数据混合配比、更多优化器家族及多模态场景。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Shaobo Wang,Xuan Ouyang,Tianyi Xu,Yuzheng Hu,Jialin Liu,Guo Chen,Tianyu Zhang,Junhao Zheng,Kexin Yang,Xingzhang Ren,Dayiheng Liu,Linfeng Zhang

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2602.05400.pdf

Arxiv URL: https://arxiv.org/abs/2602.05400

Arxiv ID: 2602.05400

CoolPaper URL: https://papers.cool/arxiv/2602.05400

Published: 2026-02-05T07:34:23Z

Updated: 2026-02-05T07:34:23.000Z

2. Code2World: A GUI World Model via Renderable Code Generation

Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.

中文摘要

自主 GUI 代理通过感知界面并执行操作与环境互动。作为一个虚拟沙箱，GUI World 模型通过支持基于动作的预测，使代理具备类人前瞻能力。然而，现有的基于文本和像素的方法难以同时实现高视觉保真度和精细的结构可控性。为此，我们提出了 Code2World，一种视觉-语言编码器，通过可渲染代码生成来模拟下一个视觉状态。具体而言，为了解决数据稀缺问题，我们通过将 GUI 轨迹转换为高保真 HTML，并通过视觉反馈修订机制优化生成的代码，构建了 AndroidCode 数据集，获得了超过 8 万对高质量屏幕-操作对。为了将现有的视觉语言模型 (VLM) 适配到代码预测任务中，我们首先进行 SFT 以冷启动格式布局的学习，然后进一步应用 Render-Aware 强化学习，通过使用渲染结果作为奖励信号来强化视觉语义保真度和操作一致性。大量实验表明，Code2World-8B 在下一个 UI 预测任务中表现出顶尖性能，可与竞争对手 GPT-5 和 Gemini-3-Pro-Image 相媲美。值得注意的是，Code2World 在提升下游导航成功率方面表现灵活，使 Gemini-2.5-Flash 在 AndroidWorld 导航中提升了 +9.5%。代码可在 https://github.com/AMAP-ML/Code2World 获得。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决GUI世界模型（GUI World Model）在表示选择上的核心困境，即现有方法无法同时实现高保真视觉模拟与细粒度结构可控性的问题。

具体而言，论文识别了现有两种主流方法的固有缺陷：

基于文本的方法：利用大语言模型（LLM）通过抽象自然语言描述来预测状态转换。这类方法虽然能捕捉语义意图，但缺乏关键的视觉空间信息，无法提供直观的环境反馈。
基于像素的方法：利用扩散模型直接合成未来截图。然而，在连续像素空间中难以建模GUI精确且离散的状态转换，同时在处理文本丰富的界面时，难以保持细粒度的结构可控性（如准确的布局、元素对齐和文本渲染）。

为突破这一瓶颈，论文提出Code2World框架，其核心创新在于将GUI模拟重新定义为**可渲染代码生成（Renderable Code Generation）**任务。通过利用HTML作为界面的原生结构化表示，该方法能够：

通过确定性渲染实现高保真可视化；
通过符号化代码保证精确的结构可控性；
通过”渲染感知强化学习”（Render-Aware RL）将文本代码生成与视觉现实对齐。

最终目标是构建一个轻量级但功能强大的虚拟沙盒，使自主GUI代理具备类似人类的预见能力，在执行动作前准确模拟其后果，从而提升长程导航的决策质量与安全性。

Q: 有哪些相关研究？

根据论文第2节”Related Work”，相关研究主要分为以下两个方向：

2.1 GUI Agents（GUI代理）

多模态感知基础

大型多模态模型（LMMs）推动GUI代理从依赖元数据转向直接像素级感知，建立了通用控制的坚实基础（Hong et al., 2024; Lin et al., 2025b; Qin et al., 2025）。

长程导航增强

高级定位：提升元素识别精度（Nayak et al., 2025; Feizi et al., 2025）
上下文管理：优化长序列交互中的记忆与注意力机制（Cheng et al., 2025a; Liu et al., 2025a）
自我反思：使代理能够自主修正策略（Wu et al., 2025; Xiao et al., 2025）

强化学习优化

“R1风格”微调：通过推理增强优化决策逻辑（Luo et al., 2025b; Lu et al., 2025c）
在线策略优化：在实际环境中迭代改进代理策略（Shi et al., 2025; Lu et al., 2025a）

关键区别：Code2World与上述研究正交——前人工作优化代理策略（agent policy），而Code2World优化环境模拟（environment simulation），作为可学习的虚拟沙盒。

2.2 GUI Environments and World Models（GUI环境与 world models）

基于文本的方法（Text-based） 利用LLM通过符号抽象预测状态转换：

状态差异的自然语言描述（Chae et al., 2024; Li et al., 2025; Lin et al., 2025a）
结构化DOM更新（Gu et al., 2024; Wang et al., 2025）
保留空间布局的文本草图（Cao et al., 2026）

基于像素的方法（Pixel-based） 利用图像生成模型直接合成未来截图：

扩散模型适应UI布局和帧序列生成（Wei et al., 2023; Rivard et al., 2025）
解耦文本与布局生成以提升保真度（Luo et al., 2025a）

局限性

文本方法丢弃关键视觉空间细节
像素方法在结构可控性和文本丰富场景中表现不佳

Code2World的定位 提出可渲染代码方法（Renderable Code Approach），利用HTML等结构化代码表示，同时保证视觉保真度与结构完整性，弥合上述两类方法的鸿沟。

Q: 论文如何解决这个问题？

论文通过Code2World框架系统性地解决了该问题，核心方法论可归纳为以下四个层面：

1. 范式转换：可渲染代码生成（Renderable Code Generation）

不同于文本或像素表示，论文将GUI模拟重新定义为结构化HTML代码生成任务。该范式利用HTML作为界面的原生表示，兼具双重优势：

结构可控性：符号化代码精确控制DOM层级、元素定位与样式属性
视觉保真度：通过浏览器渲染引擎 R 将代码确定性转换为像素级视觉状态

形式化定义为：
C(t+1) = Mθ(It, a_t, G), quad I(t+1) = R(C_(t+1))

其中 Mθ 为视觉-语言生成器，输入当前截图 I_t 、动作 a_t 与目标 G ，输出预测代码 C(t+1) ，经渲染得到下一状态 I_(t+1) 。

2. 高质量数据构建：AndroidCode语料库

针对数据稀缺挑战，论文构建了包含80K+样本的AndroidCode数据集：

约束初始合成：利用GPT-5将GUI轨迹转换为HTML，强制实施：
标准化根容器（固定尺寸对齐坐标系）
语义占位符策略（用描述性文本块替代不可靠的外部图像URL，将UI图标渲染为内联SVG）
视觉反馈修正机制：通过迭代修正循环确保数据保真度
使用SigLIP计算渲染图像与真实截图的视觉对齐分数
对低于阈值（0.9）的样本，将真实截图、渲染图像与当前代码反馈给模型进行视觉对比和代码修正
确保最终语料库的高保真度（ >90% 视觉对齐分数）

3. 两阶段模型优化策略

针对截图-代码对齐挑战，设计渐进式训练方案：

阶段一：监督微调（SFT）冷启动

基于Qwen3-VL-8B-Instruct进行全参数微调
学习从视觉-动作输入到结构化HTML代码的映射
建立基础语法规则与布局逻辑，但此时模型对最终渲染结果”盲目”

阶段二：渲染感知强化学习（Render-Aware RL）

引入**GRPO（Group Relative Policy Optimization）**算法，以渲染结果作为奖励信号，优化双维度目标：

视觉语义奖励（ R(sem) ）：采用VLM-as-a-Judge评估渲染图像与目标状态的高层次语义对齐（容忍语义占位符，关注结构布局与元素对应关系）
R(sem) = VLM(judge)(I(t+1), I^*_(t+1))
动作一致性奖励（ R(act) ）：验证状态转换是否逻辑上反映动作执行结果，防止视觉更新与预期交互逻辑矛盾
R(act) = VLM(judge)(I_t, a_t, I(t+1))
复合奖励函数： R(total) = λ_1 R(sem) + λ2 R(act)

通过此策略，模型学会生成既符合视觉现实又遵循交互逻辑的代码。

4. 下游代理增强：即插即用模拟器

针对评估与应用挑战，论文提出**“Propose, Simulate, Select”**流程：

Propose：GUI代理生成 K 个候选动作提案（含推理、动作、置信度）
Simulate：Code2World为每个候选动作预测未来GUI状态（生成代码并渲染）
Select：基于渲染的未来状态评估，选择最符合任务目标的优质动作

该机制使Code2World作为模型无关的虚拟沙盒，为现有代理提供预见能力，有效过滤幻觉计划并优化长程决策。

Q: 论文做了哪些实验？

论文围绕三个核心研究问题（RQ）设计了系统性实验，全面验证Code2World的有效性：

RQ1: Next UI Prediction能力（世界模型能力）

实验设置

基准测试：
Android Control（领域内，ID）：评估同一移动设备内的泛化能力
GUI Odyssey（分布外，OOD）：跨应用、跨设备的更具挑战性的泛化测试
评估指标：
功能逻辑：Action Adherence ( S(ad) )、Action Identifiability ( S(id) )
视觉质量：Element Alignment ( S(ele) )、Layout Integrity ( S(lay) )
标准图像相似度：SigLIP、DINO
对比基线：
图像生成模型：Gemini-3-Pro-Image、GPT-Image-1、Doubao-Seedream-4.5、Qwen-Image-Edit-Max、Janus-Pro-7B
代码生成模型：GPT-5、Claude-4.5-Sonnet、Gemini-3-Flash、JanusCoder-V-7B、Qwen3-VL-8B、Qwen2.5-VL-72B、InternVL3-78B、GLM-4.6V-106B

关键结果

Code2World-8B在轻量级参数（8B）下达到最先进水平，在功能逻辑和视觉质量维度上超越参数规模10倍以上的开源模型（如InternVL3-78B、GLM-4.6V-106B），并与专有模型GPT-5和Gemini-3-Pro-Image相当
在OOD设置（GUI Odyssey）中，Code2World展现出卓越的鲁棒性，动态逻辑指标（ S(ad)=92.73 , S(id)=78.22 ）相比领域内设置波动极小，验证了其对GUI交互动态的深层理解而非简单记忆

RQ2: GUI Agent增强能力（下游应用）

A. 离线导航评估（AndroidControl-High）

任务：单步决策制定，代理需根据用户任务自主规划动作
基线：GPT-4o、Gemini-2.5-Flash、GUI-R1-7B、InfiGUI-R1-3B、UI-TARS-1.5-7B
被增强模型：Mobile-Agent-v3-7B（专用GUI代理）和Qwen2.5-VL-7B（通用MLLM）
指标：Action Type准确率、Grounding准确率、Success Rate (SR)

结果：

为Qwen2.5-VL-7B带来Grounding准确率+5.23的显著提升，使其达到领域专用代理水平
即使是已针对任务优化的Mobile-Agent-v3，集成Code2World后仍在Type和Grounding准确率上达到最佳表现，验证了即插即用的通用性

B. 在线应用评估（AndroidWorld）

环境：真实Android模拟器，116个任务涵盖20个移动应用
被测代理：GPT-4o、Gemini-2.5-Flash、Qwen3-VL-8B、GLM-4.6V-Flash
指标：任务成功率（Success Rate）

关键发现：

Code2World一致性地提升所有模型的成功率
Gemini-2.5-Flash提升最为显著：从41.4%提升至50.9%（+9.5%）
验证了通过可渲染代码生成提供的预见能力，使代理能够有效探索候选动作并可靠选择最优动作，显著增强长程推理能力

RQ3: 消融研究（组件贡献分析）

对Next UI Prediction的影响

逐步验证训练各阶段的贡献（基于Qwen3-VL-8B）：

模型变体	S_(ad)	S_(id)	S_(ele)	S_(lay)
Base	59.20	65.80	43.10	42.70
+SFT	78.45	79.12	58.65	56.30
+SFT+ R_(sem)	78.90	78.85	65.40	61.20
+SFT+ R_(act)	88.20	84.53	60.10	57.80
Code2World	94.28	88.64	71.35	70.32

洞察：

SFT：建立HTML语法和布局规则基础，带来显著提升
仅 R_(sem) ：提升渲染质量但功能逻辑停滞（存在”奖励作弊”风险，模型追求表面像素对齐而非状态转换逻辑）
仅 R_(act) ：增强动态逻辑但缺乏细粒度视觉反馈
完整模型：视觉语义与交互逻辑的结合至关重要

对下游代理决策的影响

在AndroidWorld上测试不同质量的世界模型对Gemini-2.5-Flash的增强效果：

Base模型（Qwen3-VL-8B）：几乎无增益（+1.2%）
+SFT：性能跃升至47.5%（结构化HTML预测有效支撑规划）
+SFT+ R_(sem) ：提升至49.2%（视觉清晰度增强）
+SFT+ R_(act) ：提升至50.1%（正确反映交互动态）
完整Code2World：达到峰值50.9%

结论：世界模型保真度与代理成功率呈强相关性，准确、可渲染的视觉预见是解锁鲁棒长程推理的关键。

附加实验与可视化

定性比较：可视化展示Code2World相比基线（如Qwen3-VL-8B的复制失败、Qwen2.5-VL-72B的布局混乱、Gemini-3-Pro-Image的结构刚性）能准确预测逻辑跳转和细粒度视觉细节（如时间变化5:46→5:47）
案例分析：展示Code2World如何通过”Propose-Simulate-Select”流程帮助代理避免冗余循环（如避免重复点击已保存按钮）、发现更高效动作（如直接用”open app”替代滚动查找）以及识别最优候选动作

Q: 有什么可以进一步探索的点？

基于论文内容及其局限性，未来研究可从以下维度进一步探索：

1. 跨平台与跨模态扩展

多平台统一建模：当前工作主要基于Android/HTML环境，可扩展至iOS（SwiftUI）、桌面应用（Windows/macOS原生UI）及Web端，探索跨平台统一的UI描述语言（如跨平台UI框架的抽象表示）。
多模态环境反馈：超越视觉模态，整合触觉反馈（震动模式）、音频反馈（系统提示音、语音交互）及系统状态（电量、网络状态），构建更全面的多模态世界模型。

2. 时序动态与连续交互建模

过渡动画生成：当前方法主要生成静态UI状态，可探索预测动作执行过程中的过渡动画（如页面转场、加载动画、手势轨迹），提升模拟的真实感与连续性。
视频级世界模型：将预测粒度从单帧截图扩展至短视频序列，建模时序一致性（如滚动惯性、连续输入的实时响应），支持需要精细时序推理的任务（如游戏操作、实时协作编辑）。

3. 模型架构与训练范式优化

端到端联合优化：当前采用”冻结世界模型+增强代理”的解耦策略，可探索世界模型与代理策略的联合强化学习，使模拟器自适应特定代理的决策偏好，形成协同进化。
高效推理与实时性：优化代码生成与浏览器渲染的延迟，开发轻量级实时模拟器（如通过神经网络近似渲染过程），支持在线交互中的毫秒级前瞻预测。
多尺度代码表示：探索从高层布局描述（如JSON/YAML）到低层像素控制的层次化代码生成，平衡生成速度与细节保真度。

4. 数据扩展与自举机制

大规模自举数据合成：利用当前模型作为”教师”，通过**自举（Bootstrapping）**生成百万级合成轨迹，结合主动学习筛选高信息增益样本，减少对人工标注数据的依赖。
跨应用交互建模：当前主要关注单应用内状态转换，可探索跨应用工作流（如从邮件附件保存到云盘再分享至社交应用）的复杂状态空间建模。

5. 安全性与可解释性增强

对抗鲁棒性验证：针对Impact Statement中提及的幻觉风险，开发对抗性测试框架（如故意提供误导性视觉提示），确保世界模型在边界情况下的可靠性，防止错误的安全信号误导代理执行危险操作。
可解释性机制：增强代码生成的可解释性，如生成自然语言注释解释状态转换逻辑，或提供差异可视化（highlight变化区域），帮助用户理解模型预测依据。

6. 个性化与自适应模拟

用户行为建模：使世界模型能够学习特定用户的交互习惯（如常用快捷操作、个性化设置），实现用户感知的模拟，预测”该用户执行此动作后最可能出现的状态”而非通用状态。
上下文感知增强：整合更丰富的上下文信息（如时间、地理位置、用户历史行为），提升对上下文敏感型UI（如动态推荐、基于位置的界面变化）的预测准确性。

7. 下游代理的深度集成

树搜索与规划算法：将Code2World与蒙特卡洛树搜索（MCTS）或A*搜索结合，实现多步前瞻规划（Multi-step Lookahead），支持更复杂的长程任务分解与回溯。
错误恢复与反事实推理：利用世界模型进行反事实推理（”如果之前选择另一动作会怎样”），支持代理从错误中恢复并重新规划，而不仅是单步动作选择。

Q: 总结一下论文的主要内容

本文提出Code2World，一种基于可渲染代码生成的GUI世界模型，旨在解决现有方法在视觉保真度与结构可控性之间的固有矛盾。以下是论文的核心内容总结：

1. 研究背景与核心问题

自主GUI代理缺乏人类般的预见能力，难以在动作执行前模拟后果，导致长程导航中的错误累积与不可逆操作风险。现有世界模型存在表示层面的局限：

文本表示：虽具结构可控性，但缺乏关键视觉空间信息
像素表示：虽直观可视化，但在连续像素空间中难以建模离散的GUI状态转换，且对文本丰富界面的结构控制不足

2. 核心方法论：可渲染代码生成

论文提出将GUI模拟重新定义为结构化HTML代码生成任务，通过确定性浏览器渲染实现高保真可视化。形式化定义为：

C(t+1) = Mθ(It, a_t, G), quad I(t+1) = R(C_(t+1))

其中 Mθ 为视觉-语言生成器，输入当前截图 I_t 、动作 a_t 与目标 G ，输出HTML代码 C(t+1) ，经渲染引擎 R 转换为下一视觉状态 I_(t+1) 。

3. 关键技术贡献

3.1 高质量数据构建（AndroidCode）

构建包含80K+屏幕-动作对的语料库，源于AndroidControl轨迹
采用视觉反馈修正机制：利用SigLIP计算渲染图像与真实截图的对齐分数（阈值 τ=0.9 ），对低质量样本迭代修正，确保结构对齐与像素级精度

3.2 两阶段模型优化

阶段一（SFT冷启动）：基于Qwen3-VL-8B进行监督微调，建立HTML语法与布局规则基础
阶段二（渲染感知强化学习，RARL）：采用GRPO算法，以渲染结果作为奖励信号，优化双目标：
视觉语义奖励（ R_(sem) ）：通过VLM-as-a-Judge评估结构布局与元素对应关系，容忍语义占位符
动作一致性奖励（ R_(act) ）：验证状态转换是否逻辑反映动作执行，防止幻觉

3.3 下游代理增强框架

提出**“Propose, Simulate, Select”**即插即用流程：

代理生成候选动作提案
Code2World为每个动作渲染预测未来状态
基于模拟结果选择最优动作，有效过滤幻觉计划

4. 实验验证

4.1 Next UI预测性能（RQ1）

**Android Control（领域内）与GUI Odyssey（分布外）**基准测试
Code2World-8B在功能逻辑（ S(ad) 达94.28）与视觉质量（ S(ele) 达71.35）上超越参数规模大10倍的开源模型（如InternVL3-78B），与GPT-5和Gemini-3-Pro-Image相当
在跨应用OOD场景中展现出卓越的鲁棒性，验证其对GUI交互动态的深层理解

4.2 GUI代理增强（RQ2）

离线导航（AndroidControl-High）：为Qwen2.5-VL-7B带来Grounding准确率**+5.23**的显著提升
在线应用（AndroidWorld）：作为虚拟沙盒增强现有代理，使Gemini-2.5-Flash任务成功率从41.4%提升至50.9%（+9.5%），验证了长程推理能力的实质性增强

4.3 消融研究（RQ3）

单独视觉奖励（ R(sem) ）存在”奖励作弊”风险，单独动作奖励（ R(act) ）缺乏视觉细粒度
双奖励结合对实现可靠世界模型至关重要，与下游代理成功率呈强相关性

5. 主要贡献

范式创新：首次将GUI世界建模定义为可渲染代码生成任务，同时实现高保真可视化与精确结构可控性
数据资源：构建并开源AndroidCode（80K+高质量样本），建立视觉反馈修正的数据合成范式
训练方法：提出Render-Aware RL，以渲染结果直接监督代码生成，弥合文本输出与视觉现实间的鸿沟
实用价值：作为轻量级（8B）、模型无关的虚拟沙盒，显著提升现有GUI代理的决策质量与安全性

论文进一步讨论了该技术的社会影响，包括增强数字包容性与通过沙盒模拟提升AI安全性，同时指出需防范模型幻觉导致的安全风险与潜在的自动化滥用问题。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yuhao Zheng,Li’an Zhong,Yi Wang,Rui Dai,Kaikui Liu,Xiangxiang Chu,Linyuan Lv,Philip Torr,Kevin Qinghong Lin

Categories: cs.CV,cs.AI,cs.CL,cs.HC

PDF URL: https://arxiv.org/pdf/2602.09856.pdf

Arxiv URL: https://arxiv.org/abs/2602.09856

Arxiv ID: 2602.09856

CoolPaper URL: https://papers.cool/arxiv/2602.09856

Published: 2026-02-10T14:56:19Z

Updated: 2026-02-10T14:56:19.000Z

3. UI-Venus-1.5 Technical Report

GUI agents have emerged as a powerful paradigm for automating interactions in digital environments, yet achieving both broad generality and consistently strong task performance remains challenging.In this report, we present UI-Venus-1.5, a unified, end-to-end GUI Agent designed for robust real-world applications.The proposed model family comprises two dense variants (2B and 8B) and one mixture-of-experts variant (30B-A3B) to meet various downstream application scenarios.Compared to our previous version, UI-Venus-1.5 introduces three key technical advances: (1) a comprehensive Mid-Training stage leveraging 10 billion tokens across 30+ datasets to establish foundational GUI semantics; (2) Online Reinforcement Learning with full-trajectory rollouts, aligning training objectives with long-horizon, dynamic navigation in large-scale environments; and (3) a single unified GUI Agent constructed via Model Merging, which synthesizes domain-specific models (grounding, web, and mobile) into one cohesive checkpoint. Extensive evaluations demonstrate that UI-Venus-1.5 establishes new state-of-the-art performance on benchmarks such as ScreenSpot-Pro (69.6%), VenusBench-GD (75.0%), and AndroidWorld (77.6%), significantly outperforming previous strong baselines. In addition, UI-Venus-1.5 demonstrates robust navigation capabilities across a variety of Chinese mobile apps, effectively executing user instructions in real-world scenarios. Code: https://github.com/inclusionAI/UI-Venus; Model: https://huggingface.co/collections/inclusionAI/ui-venus

中文摘要

图形用户界面（GUI）代理已成为在数字环境中自动化交互的强大范式，但同时实现广泛的通用性和始终如一的强任务性能仍具有挑战。在本报告中，我们介绍了 UI-Venus-1.5，一种统一的端到端 GUI 代理，旨在应对稳健的现实应用。所提出的模型家族包括两个密集型变体（2B 和 8B）以及一个专家混合变体（30B-A3B），以满足各种下游应用场景。与我们之前的版本相比，UI-Venus-1.5 引入了三项关键技术改进：（1）综合中期训练阶段，利用超过 30 个数据集中的 100 亿个 token 建立基础 GUI 语义；（2）在线强化学习与完整轨迹回放，将训练目标与大规模环境中的长时动态导航对齐；以及（3）通过模型合并构建的单一统一 GUI 代理，将领域特定模型（基础、网页和移动端）综合为一个完整的检查点。广泛评估显示，UI-Venus-1.5 在 ScreenSpot-Pro（69.6%）、VenusBench-GD（75.0%）和 AndroidWorld（77.6%）等基准上建立了新的性能最优记录，显著超过以往的强基线。此外，UI-Venus-1.5 在各种中文移动应用中显示出稳健的导航能力，能够在现实场景中有效执行用户指令。代码：https://github.com/inclusionAI/UI-Venus；模型：https://huggingface.co/collections/inclusionAI/ui-venus

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文旨在解决构建高性能图形用户界面（GUI）智能代理（GUI Agent）过程中的几个核心挑战：

核心问题定义

通用性与性能的平衡：当前GUI代理虽然在特定任务上表现良好，但难以同时实现广泛的跨平台通用性和持续强大的真实世界任务性能。
步骤级与轨迹级准确性的不匹配（Step-Trace Accuracy Mismatch）：在传统的监督微调（SFT）和离线强化学习（Offline-RL）阶段，观察到模型在单步动作预测上的准确率（step-level accuracy）与完整任务序列的成功率（trace-level accuracy）之间存在显著差距。这种差异源于单步奖励信号的稀疏性以及训练数据与真实世界基准之间的固有领域偏移（domain shift）。
部署复杂性：现有的多模块或分阶段系统往往依赖手工设计的中间表示或API集成，导致部署复杂且难以适应异构界面。

技术解决方案

为应对上述挑战，论文提出了 UI-Venus-1.5，通过以下三个关键技术进展实现突破：

大规模中场训练（Mid-Training）：在强化学习阶段前引入全面的知识注入阶段，利用涵盖30+数据集的100亿token语料库，建立基础的GUI语义理解能力，使模型在进入RL阶段前即具备解决GUI相关VQA、定位和简单导航任务的能力。
规模化在线强化学习（Online Reinforcement Learning）：通过全轨迹展开（full-trajectory rollouts）和跨环境的奖励计算，将训练目标与长程动态导航对齐，直接优化轨迹级成功率，缓解步骤级与轨迹级准确性之间的偏差。
模型合并构建统一代理（Unified Single-Agent via Model Merging）：针对定位（Grounding）、网页（Web）和移动端（Mobile）三个领域分别训练专用模型，随后通过TIES-Merge等策略将其融合为单一的端到端检查点，在最小化性能损失的前提下实现跨域能力统一，显著简化部署流程。

实际应用场景

除学术基准测试外，论文特别强调模型在真实中文移动应用生态（40+第三方应用）中的实用性，解决诸如票务预订、商品购买和自动化对话管理等复杂实际任务中的鲁棒导航问题。

Q: 有哪些相关研究？

根据论文第4节，相关研究主要集中在以下三个方向：

1. GUI Grounding（GUI定位）

早期方法：通过监督微调（SFT）训练定位模型，利用标注数据快速建立对常见GUI场景中多样化元素的识别与定位能力。代表性工作包括 SeeClick (Cheng et al., 2024)、ShowUI (Lin et al., 2024)、OS-Atlas (Wu et al., 2024) 等。

基准测试演进：随着模型准确率在某些基准（如 ScreenSpot）上接近饱和，研究转向更复杂的评估场景：

ScreenSpot-Pro (Li et al., 2025a)：专注于高分辨率专业软件界面（如CAD、开发工具）的细粒度定位
VenusBench-GD (Zhou et al., 2025a)：涵盖高级推理、拒绝感知（refusal-aware）的综合多平台基准

训练范式转变：受 DeepSeek-R1 (DeepSeek-AI, 2025) 启发，近期研究将强化学习（RL）引入训练流程，旨在利用有限标注数据提升模型在未知场景的泛化能力。代表性方法包括：

T-GRPO (Chen et al., 2025)
UI-R1 (Lu et al., 2025b)、GUI-R1 (Luo et al., 2025)
UI-TARS (Qin et al., 2025)、Step-GUI (Yan et al., 2025)

后处理优化：部分研究聚焦于测试时优化（test-time scaling）以提升定位性能，如 MVP (Zhang et al., 2025) 和 ZoomIn-ClickOut (Jiang et al., 2025)。

2. End-to-End GUI Agent（端到端GUI智能体）

早期探索：直接在基础模型上训练，作为自主GUI智能体的初步尝试，如 CogAgent (Hong et al., 2024)、Mind2Web (Deng et al., 2023) 等，但在实际部署性能上存在差距。

近期进展：结合RL技术（如DPO (Rafailov et al., 2023) 和 GRPO (Shao et al., 2024)），配合改进的数据生成流程和计算资源扩展，开发出更强大的端到端代理：

UI-TARS (Qin et al., 2025)
UI-Venus-1.0 (Gu et al., 2025)
AutoGLM (Liu et al., 2024)
OS-Genesis (Sun et al., 2025a)、GUI-Xplore (Sun et al., 2025b)

实际部署导向：当前研究更关注真实环境与训练环境的对齐，强调在实际生活场景中的可行性和鲁棒性，如 Mobile-Agent-v3 (Ye et al., 2025)。

3. GUI Agent Framework（GUI智能体框架）

作为多智能体协作范式，通过将复杂上下文分布到具有不同功能的子智能体，充分利用基础模型的理解和推理能力：

分层规划框架：

Agent S / Agent S2 (Agashe et al., 2024, 2025)：引入经验增强的层次化规划策略和主动式层次规划
Mobile-Agent 系列 (Wang et al., 2024b, 2024a, 2025d; Ye et al., 2025)：采用多智能体协作架构（规划、决策、反思智能体及记忆单元）处理长步骤导航任务，并实现自我进化能力

特点与权衡：这类框架理论上具备更高的能力上限，能够处理需要复杂推理和分析的导航任务，但数据流通常需要多轮LLM输入输出，导致显著的计算成本和操作延迟。

其他框架：包括 GUI-Explorer (Xie et al., 2025a) 和 DroidRun (dro, 2025) 等。

Q: 论文如何解决这个问题？

论文通过 四阶段训练管道 和 端到端统一架构 系统性地解决了上述挑战，具体方法如下：

1. 解决”基础能力薄弱”与”领域知识缺失”：Mid-Training（中场训练）

在强化学习阶段之前，引入大规模的领域知识注入阶段，弥补通用视觉语言模型在GUI结构理解上的粒度不足。

数据规模与多样性：整合30+数据集，总计100亿token的语料库，涵盖GUI-VQA（22.1%）、语义感知（20.8%）、定位（24.8%）和混合导航推理任务。
迭代数据精炼（Iterative Data Refinement）：使用Qwen3-VL-235B-A22B作为教师模型，对数据进行0-10分质量评分。高质量轨迹（≥7分）进入黄金池，中等质量（4-6分）通过重写模型优化，低质量（0-3分）重建或丢弃。最终将高保真样本比例从69.7%提升至89.7%。
真实设备数据生成：构建基于DaaS（Device as a Service）的数据生成循环，在云端设备上执行并验证轨迹，通过迭代反馈将成功率从17.9%提升至70%以上，生成超过30,000条经过验证的真实交互轨迹。

2. 解决”步骤级与轨迹级准确性不匹配”：Scaled Online-RL（规模化在线强化学习）

针对离线强化学习中观察到的现象——步骤准确率持续上升而轨迹成功率在达到峰值后下降（图6）——引入在线强化学习进行全轨迹优化。

全轨迹展开（Full-Trajectory Rollouts）：不同于仅优化单步动作，模型在真实环境中生成完整的交互轨迹 τ = (a_0, a_1, …, a_T) ，并基于轨迹整体质量计算奖励。
复合奖励函数：
R(τ) = 1(success) · R(comp) · eta^(T-T(min))T(min) + ∑_(t=0)^(T) R_p(a_t)
其中包含任务完成奖励、步骤长度衰减系数 eta （鼓励最短路径）以及无效动作惩罚 R_p （减少无效探索）。
轨迹级优势估计（Trajectory-level Advantage）：使用GRPO（Group Relative Policy Optimization）算法，通过组内轨迹的相对奖励归一化计算优势值 A_i ，并将其统一分配给轨迹内所有动作步骤，实现稳定的长期信用分配。
基础设施支持：构建DaaS层，通过Group Control Gateway（GCGW）统一管理数千台异构设备（Android、Chrome、Linux），支持毫秒级资源调度和百万级日操作吞吐量，为大规模在线学习提供工程保障。

3. 解决”部署复杂性”：Model Merging（模型合并）

为避免多模块系统的复杂部署，采用先分后合的策略构建单一端到端模型。

领域专精训练：先针对三个目标领域分别进行Offline-RL训练：
Grounding：引入拒绝能力（Refusal Capability），当指令指向不存在的元素时输出 $
-1, -1
$，有效缓解幻觉问题。
Mobile：支持精确坐标预测（start/end）和长时序推理。
Web：增加Hover、DoubleClick、Hotkey等网页特定动作，并简化为仅需预测滚动方向。
参数空间融合：使用TIES-Merge策略替代简单线性插值：

计算任务向量（微调模型与基模型的差值），剪除低幅值更新；
通过符号选举机制解决参数冲突，仅保留与主导方向一致的更新。

实验表明，TIES-Merge相比Linear Merge显著降低性能回退（ScreenSpot-Pro仅下降1.4% vs 2.9%，AndroidWorld提升2.1% vs 下降2.3%）。

4. 统一动作空间与提示模板

跨平台动作空间：统一移动端和网页端的动作定义（Click、Drag、Scroll、Type等），网页端扩展Hover、DoubleClick、Hotkey，所有坐标归一化至 $
0, 1000
$ 空间。
结构化输出格式：强制要求模型输出包含 <think>（推理过程）、<action>（执行动作）、<conclusion>（动作总结）的XML格式，确保可解析性和可解释性。

通过上述技术组合，UI-Venus-1.5实现了单一模型在定位（Grounding）、网页导航（Web）和移动导航（Mobile）三个领域的SOTA性能，同时支持40+中文真实移动应用的复杂任务（如票务预订、商品购买），解决了通用性、性能与部署便利性之间的权衡难题。

Q: 论文做了哪些实验？

论文在**第3节（Experiments）**中开展了系统性的实验验证，涵盖基准测试、与SOTA基线的对比、消融研究以及表示分析。具体实验内容如下：

1. 基准测试覆盖（Benchmarks）

实验在7个Grounding基准和4个Navigation基准上进行评估：

Grounding Benchmarks：

VenusBench-GD：评估高级推理、拒绝感知（refusal）和跨平台（Web/Desktop/Mobile）定位能力
ScreenSpot-Pro：专注于高分辨率专业软件界面（CAD、开发工具等）的细粒度定位
ScreenSpot-V2：跨平台（Mobile/Web/Desktop）的通用定位基准，涵盖文本和图标/控件目标
MMBench-GUI L2：分层指令跟随和组合式推理评估
OSWorld-G / OSWorld-G-R：桌面GUI定位，测试文本匹配、控件识别、布局理解和精细操作
UI-Vision：桌面GUI基准，强调空间与功能推理

Navigation Benchmarks：

AndroidWorld：包含20个真实Android应用的116个程序化任务，动态在线评估
AndroidLab：9个Android应用的138个任务，部分基线使用XML输入而UI-Venus-1.5仅使用原始截图
VenusBench-Mobile：针对复杂真实世界移动场景的端到端基准
WebVoyager：15个真实网站（电商、旅游、社交平台）的网页导航基准

2. 主要性能对比实验

对比基线：

General VLMs：Seed1.8、Qwen3-VL系列（2B/8B/30B-A3B）
GUI-specific Models：OpenCUA（7B/32B/72B）、UI-TARS-1.5、GTA1（7B/32B）、GUI-Owl（7B/32B）、Holo2（8B/30B-A3B）、Step-GUI（4B/8B）、MAI-UI（2B/8B/32B）、UI-Venus-1.0（7B/72B）

关键结果：

Grounding：UI-Venus-1.5-30B-A3B在VenusBench-GD达到75.0%、ScreenSpot-Pro达到69.6%、OSWorld-G-R达到76.4%，均超越MAI-UI-32B、Holo2-30B-A3B等强基线
Navigation：AndroidWorld达到77.6%（超越MAI-UI-32B的73.3%），WebVoyager达到76.0%，VenusBench-Mobile达到21.5%（较之前最佳提升6.1%绝对值）
模型效率：8B模型在AndroidLab（55.1%/68.1%†）和VenusBench-Mobile（16.1%）上超越前代72B模型，验证了训练方法的有效性

3. 消融研究（Ablation Studies）

在ScreenSpot-Pro（SS-Pro）和AndroidWorld（AW）上验证四阶段训练管道的贡献：

阶段	2B模型增益	8B模型增益	30B-A3B模型增益
Mid-Training	SS-Pro: 52.3, AW: 39.0	SS-Pro: 63.1, AW: 57.0	SS-Pro: 65.2, AW: 67.1
+Offline-RL	SS-Pro: +6.7↑, AW: +6.3↑	SS-Pro: +6.9↑, AW: +6.5↑	SS-Pro: +5.8↑, AW: +0.9↑
+Online-RL	AW: +14.5↑	AW: +9.2↑	SS-Pro: +7.5↑, AW: -
+Model Merge	AW: -4.2↓	AW: +1.0↑	SS-Pro: -1.4↓, AW: +2.1↑

关键发现：

Online-RL是导航能力的关键催化剂，2B模型在AndroidWorld上获得**14.5%**的绝对提升
Model Merge在统一多域能力时，对Grounding任务造成约1.4%的轻微下降，但显著增强了导航性能（30B模型提升2.1%）

4. 中场训练（Mid-Training）的表示分析

通过t-SNE可视化和聚类指标量化Mid-Training的效果：

Silhouette Score：从0.235提升至0.315（+34.0%），表明GUI特征聚类分离度显著提高
Intra-class Consistency：下降11.6%（0.448→0.396），表明模型对GUI元素的功能和结构差异具有更强的判别力
Inter-class Similarity：保持稳定（仅+1.4%），确认GUI特定知识未导致表示坍缩

5. 真实世界验证

除标准基准外，论文还在40+个中文第三方移动应用（包括QQ音乐、电商平台等）上验证实际部署能力，执行票务预订、商品购买、自动化对话管理等复杂任务，证明模型在真实生态中的鲁棒性。

Q: 有什么可以进一步探索的点？

基于论文的技术路线和实验观察，以下是可以进一步探索的研究方向：

1. 高效在线强化学习与样本效率优化

论文当前的Online-RL依赖于**DaaS（Device as a Service）**基础设施和数千台真实设备进行轨迹采样，这带来了显著的计算成本和工程复杂度。未来可探索：

世界模型（World Models）仿真：构建GUI环境的高保真模拟器或神经辐射场，减少对真实设备的依赖，实现更高效的策略探索
离线到在线的渐进迁移：设计更平滑的过渡策略，如使用保守Q学习（CQL）或基于模型的离线RL初始化，以降低在线探索初期的样本浪费
分层强化学习（Hierarchical RL）：将长期任务分解为可复用的子程序（如”登录”、”搜索”、”填写表单”），降低长程轨迹的信用分配难度

2. 原生多模态感知与交互

当前UI-Venus-1.5主要依赖2D视觉截图作为输入，未能充分利用GUI环境的其他模态信息：

多模态融合架构：整合视觉截图、XML/无障碍树（Accessibility Tree）、HTML DOM结构甚至音频反馈（如按钮点击音效、语音播报），构建更鲁棒的环境理解
时序与视频理解：将静态截图输入扩展为视频流或历史帧序列，利用时序建模捕捉界面动画、加载状态和动态过渡效果
3D GUI理解：针对AR/VR场景或具有深度层次的下拉菜单、悬浮窗口，引入3D空间定位能力

3. 动态模型合并与持续学习

论文采用TIES-Merge静态合并三个领域模型，但存在性能权衡（Grounding任务下降1.4%）：

自适应路由机制：借鉴Mixture-of-Experts（MoE）思想，在推理时动态激活特定领域专家，而非静态参数平均，以消除性能损失
持续学习与模型更新：探索如何在部署后通过用户交互持续更新模型（如纠正错误定位、学习新APP的交互模式），同时避免灾难性遗忘
任务级合并策略：根据当前任务类型（如”定位按钮”vs”完成多步预订”）动态调整合并权重，实现更细粒度的能力调度

4. 长程规划与显式记忆机制

论文观察到步骤级与轨迹级准确性的不匹配，表明长程规划仍是挑战：

外部记忆增强：引入显式的工作记忆（Working Memory）存储关键中间状态（如已填写的表单字段、搜索关键词），减轻模型在超长轨迹中的上下文遗忘
子目标生成与验证：在标签基础上，引入显式的子目标分解和完成验证模块，允许代理在陷入死胡同时回溯（Backtracking）到检查点
用户习惯个性化：通过学习用户的历史操作序列（如偏好的航班筛选条件、常用收货地址），实现个性化的任务执行路径

5. 安全对齐与拒绝能力增强

论文初步探索了拒绝能力（Refusal Capability），但仅在特定基准测试：

细粒度安全分类：区分”元素不存在”、”权限不足”、”操作风险”（如删除确认）等多级拒绝类别，并提供可解释的安全报告
对抗鲁棒性：测试模型对视觉对抗样本（如恶意篡改的UI元素、钓鱼界面）的抵抗能力，防止被误导执行危险操作
隐私保护机制：在截图感知阶段引入隐私脱敏（自动打码敏感信息如密码、聊天记录），同时保持任务执行能力

6. 跨平台知识迁移与零样本泛化

当前评估主要覆盖英文和中文移动应用：

跨平台元学习：探索Mobile、Web、Desktop三大领域间的知识迁移，如将在网页表单填写学到的模式迁移到APP内的类似场景
新APP快速适应：针对论文未覆盖的垂直领域APP（如专业医疗软件、工业控制界面），研究Few-shot或Zero-shot的适应策略，可能通过视觉提示（Visual Prompting）或交互式演示学习
多语言GUI理解：扩展至低资源语言的APP界面，处理RTL（从右到左）布局、非拉丁字符集的OCR-free定位

7. 测试时计算扩展（Test-time Scaling）

受论文Related Works中提到的Zoom-in策略启发：

视觉注意力细化：在推理阶段允许模型迭代放大（Zoom-in）关键区域，类似于人类仔细查看小字体或密集布局
多轨迹投票与自验证：生成多条候选交互轨迹，通过一致性检查或自举验证（Self-bootstrapping）选择最优路径，而非单路径贪心解码
工具使用增强：允许代理在推理时调用外部工具（如计算器、日历API、知识库）验证中间结果，减少幻觉导致的错误累积

这些方向既延续了论文中端到端统一代理的核心思想，又针对数据效率、感知模态、长期推理和安全性等未充分探索的维度提供了深入空间。

Q: 总结一下论文的主要内容

该论文提出了 UI-Venus-1.5，一种面向真实世界应用的端到端图形用户界面（GUI）智能代理，通过四阶段训练管道解决了现有GUI代理在通用性、任务性能和部署复杂性之间的权衡难题。

研究背景与核心挑战

当前GUI代理领域面临三个关键挑战：

基础能力薄弱：通用视觉语言模型缺乏对GUI细粒度结构的理解，导致后续强化学习阶段探索效率低下
步骤-轨迹准确性失配（Step-Trace Accuracy Mismatch）：传统离线训练中，单步动作准确率与完整任务序列成功率之间存在显著差距，源于单步奖励稀疏和领域偏移
部署复杂性：多模块或分阶段系统依赖手工设计的中间表示，难以在异构环境中无缝部署

技术方法：四阶段训练管道

论文提出以下核心技术进展，构成完整的训练流程：

1. 中场训练（Mid-Training）

在强化学习前引入大规模领域知识注入阶段，利用涵盖30+数据集的100亿token语料库（包括GUI-VQA、定位、导航和感知任务）
采用迭代数据精炼管道：使用Qwen3-VL-235B-A22B作为教师模型进行质量评分（0-10分），通过重写和重建将高保真样本比例从69.7%提升至89.7%
构建基于DaaS（Device as a Service）的数据生成循环，在真实云端设备上执行并验证轨迹，迭代提升成功率从17.9%至70%以上

2. 任务特定离线强化学习（Offline-RL）

Grounding领域：引入拒绝能力（Refusal Capability），当指令指向不存在元素时输出 $
-1, -1
，有效缓解幻觉；采用格式奖励 R(format) 和点入框奖励 R(point-in-box)$ 的复合奖励函数：
R = w1 · R(format) + w2 · R(point-in-box)
Navigation领域（Mobile/Web）：采用解耦奖励系统，包含格式奖励 R(format) （强制XML结构输出）和动作奖励 R(action) （包含动作类型、内容和坐标的分层奖励）
观察到步骤准确率与轨迹成功率的偏离现象，为在线阶段提供动机

3. 规模化在线强化学习（Online-RL）

通过**全轨迹展开（Full-Trajectory Rollouts）**直接优化长期任务完成率，使用GRPO（Group Relative Policy Optimization）算法计算轨迹级优势：
Ai = R(τ_i, q) - mean(R(τ_j, q)(j=1)^G){std(R(τj, q)(j=1)^G) + ε}
复合奖励函数包含任务完成奖励、步骤长度衰减系数 eta （鼓励最短路径）和无效动作惩罚 Rp ：
R(τ) = 1(success) · R(comp) · eta^(T-T(min))T(min) + ∑(t=0)^(T) R_p(a_t)
构建DaaS基础设施，支持数千台异构设备（Android、Chrome、Linux）的毫秒级调度和百万级日操作吞吐量

4. 模型合并（Model Merging）

先分别训练Grounding、Mobile、Web三个领域专用模型，再使用TIES-Merge策略合并为单一端到端检查点
TIES-Merge通过剪除低幅值更新和符号选举机制解决参数冲突，相比线性合并显著降低性能回退（ScreenSpot-Pro仅降1.4% vs 2.9%）

实验验证与性能

基准测试覆盖：

Grounding：VenusBench-GD、ScreenSpot-Pro、ScreenSpot-V2、MMBench-GUI L2、OSWorld-G/OSWorld-G-R、UI-Vision
Navigation：AndroidWorld、AndroidLab、VenusBench-Mobile、WebVoyager

主要结果：

UI-Venus-1.5-30B-A3B在多个基准取得SOTA：
VenusBench-GD：75.0%
ScreenSpot-Pro：69.6%
AndroidWorld：77.6%（超越MAI-UI-32B 4.3%）
OSWorld-G-R：76.4%
效率优势：8B模型在AndroidLab和VenusBench-Mobile上超越前代72B模型，验证训练方法的有效性
消融研究验证各阶段贡献：Online-RL使2B模型在AndroidWorld上获得**+14.5%**绝对提升，Model Merge在统一多域能力时仅造成定位任务轻微下降（-1.4%）但增强导航性能（+2.1%）

实际应用价值

除学术基准外，UI-Venus-1.5针对40+个中文第三方移动应用进行优化，在真实场景中执行票务预订、商品购买、自动化对话管理等复杂任务，展现出强大的实际部署能力和跨平台鲁棒性。

综上，UI-Venus-1.5通过系统性的知识注入、长程轨迹优化和统一的模型合并策略，构建了首个在定位、网页和移动导航三大领域均达到SOTA性能的单一端到端GUI代理，显著推进了自主数字助手向日常实用化的迈进。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Veuns-Team,:,Changlong Gao,Zhangxuan Gu,Yulin Liu,Xinyu Qiu,Shuheng Shen,Yue Wen,Tianyu Xia,Zhenyu Xu,Zhengwen Zeng,Beitong Zhou,Xingran Zhou,Weizhi Chen,Sunhao Dai,Jingya Dou,Yichen Gong,Yuan Guo,Zhenlin Guo,Feng Li,Qian Li,Jinzhen Lin,Yuqi Zhou,Linchao Zhu,Liang Chen,Zhenyu Guo,Changhua Meng,Weiqiang Wang

Categories: cs.CV,cs.AI,cs.CL,cs.LG

PDF URL: https://arxiv.org/pdf/2602.09082.pdf

Arxiv URL: https://arxiv.org/abs/2602.09082

Arxiv ID: 2602.09082

CoolPaper URL: https://papers.cool/arxiv/2602.09082

Published: 2026-02-09T18:43:40Z

Updated: 2026-02-09T18:43:40.000Z

4. Chain of Mindset: Reasoning with Adaptive Cognitive Modes

Human problem-solving is never the repetition of a single mindset, by which we mean a distinct mode of cognitive processing. When tackling a specific task, we do not rely on a single mindset; instead, we integrate multiple mindsets within the single solution process. However, existing LLM reasoning methods fall into a common trap: they apply the same fixed mindset across all steps, overlooking that different stages of solving the same problem require fundamentally different mindsets. This single-minded assumption prevents models from reaching the next level of intelligence. To address this limitation, we propose Chain of Mindset (CoM), a training-free agentic framework that enables step-level adaptive mindset orchestration. CoM decomposes reasoning into four functionally heterogeneous mindsets: Spatial, Convergent, Divergent, and Algorithmic. A Meta-Agent dynamically selects the optimal mindset based on the evolving reasoning state, while a bidirectional Context Gate filters cross-module information flow to maintain effectiveness and efficiency. Experiments across six challenging benchmarks spanning mathematics, code generation, scientific QA, and spatial reasoning demonstrate that CoM achieves state-of-the-art performance, outperforming the strongest baseline by 4.96\% and 4.72\% in overall accuracy on Qwen3-VL-32B-Instruct and Gemini-2.0-Flash, while balancing reasoning efficiency. Our code is publicly available at \href{https://github.com/QuantaAlpha/chain-of-mindset}{https://github.com/QuantaAlpha/chain-of-mindset}.

中文摘要

人类解决问题从来不是重复单一思维模式，我们指的是一种独特的认知处理模式。在完成具体任务时，我们不依赖单一心态;相反，我们将多种思维整合到单一解决方案流程中。然而，现有的LLM推理方法陷入一个共同陷阱：它们在所有步骤中都采用相同的固定思维方式，忽视了解决同一问题的不同阶段需要根本不同的思维方式。这种单一的假设阻碍了模型达到下一级智能水平。为解决这一限制，我们提出了心态链（Chain of Mindset，简称CoM），这是一种无训练的智能体框架，能够实现步级自适应心态编排。CoM将推理分解为四种功能异质的思维模式：空间思维、收敛思维、发散思维和算法思维。元代理根据不断演变的推理状态动态选择最优心态，而双向上下文门则过滤跨模块信息流，以保持有效性和效率。涵盖数学、代码生成、科学质量保证和空间推理的六个挑战性基准测试实验表明，CoM在Qwen3-VL-32B-Instruct和Gemini-2.0-Flash的整体准确率上分别提升4.96%和4.72%的强基线性能，同时平衡了推理效率。我们的代码公开地址为\href{https://github.com/QuantaAlpha/chain-of-mindset}{https://github.com/QuantaAlpha/chain-of-mindset}。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决大型语言模型（LLM）在复杂推理中缺乏认知灵活性的问题，具体表现为现有方法无法根据推理过程的动态需求自适应地切换不同的认知模式（mindsets）。

核心问题定义

现有LLM推理方法陷入了一个共同陷阱：在单一推理过程中应用固定的、同质的认知策略，忽视了复杂问题解决的本质特征——不同推理阶段需要根本不同的认知能力。如图2所示，现有范式存在两类局限：

单模式推理（如Chain-of-Thought）：全程使用统一的思维模式，无法应对子任务的异构需求
静态策略选择：仅在任务开始时选择推理策略，无法根据中间结果动态调整

关键挑战

论文识别出实现类人认知灵活性所需解决的三重挑战：

何时切换（When）：判断当前思维模式何时已耗尽其效用，需要转换到另一种模式
选择何种模式（Which）：基于当前推理状态的语义内容而非表面问题类型，选择最适合的思维模式
防止干扰（How）：确保各思维模式在隔离上下文中执行，同时实现选择性信息传递，避免跨模块污染

解决思路

为此，论文提出Chain of Mindset (CoM) 框架，通过以下机制解决上述问题：

四种功能异构的思维模式：空间思维（Spatial）、聚合思维（Convergent）、发散思维（Divergent）、算法思维（Algorithmic）
元智能体（Meta-Agent）动态编排：基于累积推理历史 H_(<t) 的状态依赖策略 π(s_t) ，实现步骤级自适应切换
双向上下文门控（Context Gate）：通过语义过滤解决”相关性-冗余性权衡”，确保信息密度 rho to 1

该方法首次在无需训练的情况下，实现了单一推理过程中步骤级别的多思维模式动态编排，使LLM能够像人类专家一样，在解决复杂问题时根据问题状态的演变自然地在不同认知模式间转换。

Q: 有哪些相关研究？

该论文的相关研究主要涵盖三个层面：认知科学基础、基于提示的推理方法以及元推理（Meta-Reasoning）。具体可分为以下类别：

1. 认知科学基础

论文的认知模式分类建立在经典认知科学理论之上：

Guilford (1967)：提出聚合思维（Convergent）与发散思维（Divergent）的基本分类
Newcombe & Shipley (2010; 2014)：空间思维（Spatial）在数学与科学学习中的作用
Cropley (2006)：聚合思维在创造性问题解决中的价值
Runco & Acar (2012)：发散思维作为创造性潜能的指标
Futschek (2006)：算法思维（Algorithmic）在计算机科学教育中的核心地位
Newell et al. (1972)：人类问题解决中的动态认知转换机制
Sali et al. (2024)：认知灵活性与任务切换的神经基础

2. LLM中的认知行为研究

近期研究识别了LLM推理中的特定认知行为模式：

Didolkar et al. (2024)：证明LLM能够识别所需技能标签并利用自我知识提升性能
Gandhi et al. (2025)：识别了四种关键认知行为——验证（Verification）、回溯（Backtracking）、子目标设定（Subgoal Setting）和反向链式推理（Backward Chaining）
Kargupta et al. (2025)：提出包含28个认知元素的分类体系，发现模型倾向于采用刚性顺序处理而非多样化的元认知监控

3. 基于提示的推理方法（Prompt-based Reasoning）

显式中间步骤生成

Chain-of-Thought (CoT) (Wei et al., 2022)：通过引导模型生成中间步骤提升复杂问题解决能力
Decomposed Prompting (Khot et al., 2022)：将任务分解为子任务并委托给专门子模块

推理结构扩展

Program-of-Thoughts (PoT) (Chen et al., 2022) 与 Chain of Code (CoC) (Li et al., 2023)：引入代码执行以卸载计算任务
Tree-of-Thoughts (ToT) (Yao et al., 2023)：采用分支结构进行多路径推理
Graph-of-Thoughts (GoT) (Besta et al., 2024)：采用任意图结构进行更丰富的推理拓扑组织

局限性：上述方法在任务生命周期内采用单一思维模式，模型被锁定在预定框架内。

4. 元推理与策略选择（Meta-Reasoning）

任务级元推理（Task-level）

在问题开始时选择策略并全程保持：

Buffer of Thoughts (Yang et al., 2024)：从记忆库中检索高级思维模板
MRP (Meta Reasoning for Prompting) (Gao et al., 2024)：基于问题特征选择最适合的推理范式
Sketch-of-Thought (Aytes et al., 2025)：自适应认知草图

局限性：无法实现同一问题内不同子任务的异构需求响应。

步骤级元推理（Step-level）

尝试更细粒度的干预：

Meta-Reasoner (Sui et al., 2025)：使用上下文多臂老虎机动态调度执行动作（如回溯）
AutoMR (Zhang et al., 2025b)：通过动态扩展DAG结构搜索查询感知的元推理骨架
Octopus (Guo et al., 2025)：提出六能力编排的代理式多模态推理，实现推理过程中的自主能力选择

关键区别：上述方法调节执行参数或推理结构，而非思维模式（Mindsets）本身。CoM首次实现了在功能异构思维模式上的步骤级元推理，基于子任务上下文动态确定思维方式，无需额外训练。

Q: 论文如何解决这个问题？

论文通过提出 Chain of Mindset (CoM) 框架解决该问题，这是一个无需训练的代理式推理范式，实现了步骤级别的自适应认知模式编排。具体解决方案包含以下核心组件：

1. 功能异构的思维模式分解

针对”选择何种模式”的挑战，CoM 将推理分解为四种基于认知科学基础的互补思维模式 M = m(spat), m(conv), m(div), m(algo) ：

空间思维 ( m_(spat) )：将抽象条件转化为直观视觉表征，支持 Text→Image、Image+Text→Image 和 Code→Image 三种生成模式，用于模式识别和几何直觉
聚合思维 ( m_(conv) )：通过聚焦的逻辑分析从复杂信息中提炼核心洞察，构建专注的推理环境，执行单深度推理传递
发散思维 ( m_(div) )：在常规逻辑陷入僵局时通过结构化并行探索生成新颖路径，包含分支生成（产生 $k ∈
2,5
$ 个不同解决方案分支）和并行探索两个阶段
算法思维 ( m_(algo) )：通过代码执行实现精确数值计算和形式验证，采用生成-执行-修复循环（Generate-Execute-Repair），形式化表示为：
(rho(i+1), r(algo)) = (rhoi, EXEC(rho_i)) & if execution succeeds (FIX(rho_i, ε_i), perp) & if error ε_i land i < N(max) (rhoi, ε_i) & otherwise
其中 N(max)=2 限制修复尝试次数， perp 表示待处理状态。

2. 三层解耦架构与元智能体编排

针对”何时切换”的挑战，CoM 采用 Meta-Agent (A) 作为中央控制器，形成三层架构：

元认知层：Meta-Agent 基于当前状态 st = (q, H(<t)) 执行策略 π ，选择最优思维模式：
mt = π(s_t) ∈ M ∪ ∅
其中 ∅ 表示终止信号。关键创新在于策略 π 条件依赖于累积历史 H(<t) ，而非仅依赖原始问题。
执行层：各思维模式在隔离上下文中运行，由特定系统提示驱动，执行专门子任务。
过滤层：Context Gate 执行双向语义过滤，解决”如何防止干扰”的挑战。

3. 双向上下文门控机制（Context Gate）

针对跨模块信息干扰问题，CoM 引入 Context Gate 机制，从信息论角度优化信息密度 rho ：

输入门控 ( G_(in) )：以调用指令 c 为语义锚点，从历史 H 中提取最小充分上下文集 H(rel) 和相关图像 I(inj) ：
(H(rel), I(inj)) = G_(in)(H, c, M, I)

输出门控 ( G_(out) )：从冗长的思维模式输出 r 中提炼关键洞察 O(sum) ，基于指令 c 的预期目标：
O(sum) = G(out)(r, c, I(new))

该机制确保：

各思维模式仅接收任务相关的上下文，避免上下文污染（context pollution）
元智能体仅接收高度凝练的思维反馈，保持主推理链的紧凑性
双向信息密度 rho to 1 ，缓解长上下文中的”相关性-冗余性权衡”（Relevance-Redundancy Trade-off）

4. Plan-Call-Internalize 推理循环

CoM 的执行遵循迭代循环：

计划（Plan）：Meta-Agent 生成认知决策，定义初始思维模式计划
调用（Call）：基于状态 st 选择思维模式 m_t ，调用对应执行模块 c_t ∈ C 产生输出 o_t 和洞察 i_t ：
(o_t, i_t) = c_t(q, H(<t))
内化（Internalize）：通过输出门控获取精炼结果，Meta-Agent 将其内化为并整合入主推理链，根据新洞察修改剩余计划

该机制支持动态重规划（re-planning）：当中间结果表明需要不同思维模式时，Meta-Agent 可实时修订未执行的计划，实现状态依赖的认知切换。

5. 与现有范式的本质区别

相较于现有方法，CoM 的核心创新体现在：

对比单模式推理（如 CoT）：支持异构子任务需求，不再锁定于单一策略
对比静态策略选择（如 MRP）：支持基于中间结果的动态调整，而非仅在任务开始时选择策略
对比步骤级元推理（如 Meta-Reasoner）：调节的是功能异构的思维模式本身，而非仅调节执行参数或推理结构

通过上述机制，CoM 实现了对人类认知灵活性的模拟：在单一推理过程中，根据问题状态的演变，在需要严谨性时保持严谨，在常规方法失效时切换至创造性探索。

Q: 论文做了哪些实验？

论文在六个具有挑战性的基准测试上进行了全面实验，涵盖数学、代码生成、科学问答和空间推理，并与四类基线方法进行了对比。以下是实验的详细内容：

1. 实验设置

评估数据集（3.1节）

实验覆盖四个领域，共六个数据集：

类别	数据集	规模	描述
数学推理	AIME 2025	30题	2025年美国数学邀请赛，涵盖代数、几何、组合数学和数论
Real-Fermi	557题	费米估算问题（如”EMNLP 2019消耗了多少咖啡？”），需要数量级推理
代码生成	LiveCodeBench	182题	来自LeetCode、AtCoder和CodeForces的2025年1-5月题目（45易/55中/82难）
科学QA	GPQA-Diamond	198题	博士级物理/化学/生物问题，非专家准确率仅约30%
多模态推理	MathVision-Mini	152题	需要视觉图表理解的多模态数学基准子集
MAZE	200题	迷宫导航问题，模型需在迷宫图像上执行给定动作序列

基线方法（3.2节）

对比四类方法：

直接推理：Direct I/O、Zero-shot CoT (Kojima et al., 2022)
结构化推理：Tree of Thoughts (Yao et al., 2023)、Chain of Code (Li et al., 2023)
代理式推理：ReAct (Yao et al., 2022) — 配备与CoM相同的Python解释器和图像生成工具以确保公平
元推理：MRP (Gao et al., 2024) — 仅在任务开始时选择策略；Meta-Reasoner (Sui et al., 2025) — 步骤级但仅调节执行参数而非认知模式

实现细节（3.3节）

基础模型：Qwen3-VL-32B-Instruct（本地部署于8×A100-80GB）和 Gemini-2.0-Flash（通过API）
参数设置：temperature=0.7，top_p=0.95，max_tokens分别为32768和8192
工具配置：Spatial模式使用Nano-Banana-Pro生成图像；Algorithmic模式使用30秒超时的Python沙箱
评估指标：pass@1准确率（%）

2. 主要结果（3.4节）

总体性能（表1、表2）

CoM在两种基础模型上均达到最先进性能：

Qwen3-VL-32B-Instruct：总体准确率63.28%，比最强基线MRP（58.32%）高出4.96%
Gemini-2.0-Flash：总体准确率52.41%，比最强基线MRP（47.69%）高出4.72%

关键领域表现

数学推理（AIME25）：CoM在Qwen3上达到73.33%，比第二名（Zero-shot CoT, 60.00%）高出13.33个百分点，证明发散思维在多路径探索中的价值
空间推理（MAZE）：相比MRP，CoM在Qwen3上提升6.00%（85.50% vs 79.00%），在Gemini上提升7.50%（84.00% vs 76.50%）
代码生成（LiveCodeBench）：在困难题目（Hard）上，CoM（17.07%）显著优于ReAct（14.63%）和MRP（18.29%），显示算法思维在精确计算中的优势

3. 消融研究（3.5节）

通过系统性移除各组件评估贡献（表3）：

消融变体	总体准确率变化	关键发现
w/o Context Gate	↓8.24% (55.04%)	影响最大，确认自适应信息过滤对协调元智能体与专家模块至关重要
w/o Divergent	↓5.18% (58.10%)	AIME25下降16.66%，证明发散思维对数学推理至关重要；但Fermi任务略有提升(+1.18%)
w/o Spatial	↓5.03% (58.25%)	MathVision下降9.87%，MAZE下降4.50%，验证视觉推理对多模态任务的必要性
w/o Convergent	↓3.76% (59.52%)	在Fermi上反而提升1.81%，表明该任务更依赖计算而非深度逻辑分析
w/o Algorithmic	↓2.52% (60.76%)	LiveCodeBench整体下降2.19%，代码生成领域受影响最大

关键洞见：Fermi估算任务在移除Divergent、Convergent或Context Gate时性能略有提升，表明该任务更适合”极简”思维模式子集，指向任务感知思维模式子集选择的未来研究方向。

4. 深入分析（3.6节）

效率-准确率权衡（图5a）

Token消耗：CoM平均28.4k tokens，远低于Tree of Thoughts（142.5k）和Meta-Reasoner（49.7k）
帕累托前沿：CoM位于准确率-效率空间的帕累托前沿，实现最佳平衡

消融效率分析（图5b）

移除Context Gate导致token消耗增加87%（尽管准确率下降），因为编排器失去过滤无关上下文的能力
移除Divergent模式节省26% tokens，是效率关键部署的可行选项

思维模式调用模式（表4）

分析显示CoM实现了真正的多模式协作：

59.7%的问题调用了两种及以上不同思维模式
任务特定模式：
Fermi：高度依赖Algorithmic（91.2%）和Convergent（78.3%）
LiveCodeBench：60.4%使用Algorithmic，40.1%使用Convergent
MAZE：100%使用Spatial，39.5%结合Algorithmic
MathVision：80.6%使用Spatial，体现几何结构的视觉推理需求

这些实验验证了CoM在无需训练的情况下，通过动态思维模式编排实现跨模型、跨领域的性能提升与效率平衡。

Q: 有什么可以进一步探索的点？

论文在附录B（Future Directions）、消融研究（3.5节）及结论中指出了若干值得进一步探索的方向：

1. 认知架构扩展

纳入额外认知原语：当前框架实例化了四种基础认知模式（空间、聚合、发散、算法）。未来可通过即插即用架构引入更多认知原语，如批判性思维（Critical Thinking）、类比推理（Analogical Reasoning）或因果推理（Causal Reasoning），以覆盖更广泛的认知光谱。
异构专家分配（Heterogeneous Expert Allocation）：当前所有思维模式共享同一基础模型。未来可为每个思维模式配备专门的模型（如为算法思维配备代码专用模型，为空间思维配备视觉生成模型），通过专家专业化提升各模块的固有能力。
定制工具集成：为特定思维模式配备专用工具，例如：
为Algorithmic思维配备符号求解器（Symbolic Solvers）
为Convergent思维配备外部搜索工具或知识检索系统
为Spatial思维配备CAD或几何约束求解器

2. 元智能体优化

训练式调度策略优化：当前Meta-Agent的调度策略是零样本（training-free）的基于提示的编排。未来可通过强化学习或监督微调优化Meta-Agent的决策策略 π(s_t) ，使其在何时切换、选择何种模式上做出更精准的决策。
任务感知思维模式子集选择（Task-Aware Mindset Subsetting）：消融研究显示，某些任务（如Fermi估算）可能仅需思维模式子集即可达到最优效率。未来可开发动态子集选择机制，根据问题特征预选择最小有效的思维模式组合，在保持准确率的同时大幅降低计算成本。

3. 效率与可扩展性

长上下文优化：虽然Context Gate缓解了信息干扰，但随着推理步骤增加，历史管理仍具挑战。可探索分层记忆机制或重要性采样，进一步压缩历史信息的存储与检索成本。
并行计算优化：Divergent思维的分支探索当前以串行或有限并行方式执行。未来可优化分支探索的并行化策略，利用批量推理（batch inference）降低延迟。

4. 认知科学交叉

人机认知对齐：深入研究人类认知灵活性（Cognitive Flexibility）的神经机制（如前额叶皮层-基底神经节工作记忆模型PBWM），将更精细的认知控制理论（如注意力门控、工作记忆更新机制）形式化为计算架构。
认知负荷建模：引入认知负荷理论，动态调整思维模式切换的频率与深度，避免在简单子任务上过度使用计算资源（类似人类的”认知吝啬鬼”策略）。

5. 安全性与可控性

可解释性增强：利用显式的思维模式切换轨迹（Trace），开发可视化工具展示模型的”思维过程”，支持人类对推理路径的审计与干预。
安全门控机制：在Meta-Agent中引入安全审查模块，在切换到可能产生幻觉或有害输出的思维模式（如Divergent）前进行风险评估，或在Algorithmic执行代码前进行静态安全分析。

这些方向共同指向一个更具适应性、模块化且与人类认知更对齐的推理系统。

Q: 总结一下论文的主要内容

该论文提出 Chain of Mindset (CoM)，一种无需训练的代理式推理框架，旨在解决大型语言模型在复杂推理中缺乏认知灵活性的核心问题。

核心问题

现有LLM推理方法（如Chain-of-Thought、Tree-of-Thoughts等）存在根本局限：在单一推理过程中应用固定的同质认知策略，无法像人类专家那样根据问题状态的演变动态切换思维模式。这导致模型在处理需要异构认知能力的复杂任务时性能受限。

方法论创新

1. 四元认知模式分解 基于认知科学理论，将推理分解为四种功能异构的思维模式 M = m(spat), m(conv), m(div), m(algo) ：

空间思维（Spatial）：将抽象逻辑转化为视觉表征，支持文本/图像到图像的生成
聚合思维（Convergent）：通过聚焦逻辑分析从复杂信息中提炼核心洞察
发散思维（Divergent）：在常规路径失效时通过并行分支探索生成多种解决方案
算法思维（Algorithmic）：通过代码执行实现精确计算与形式验证，采用生成-执行-修复循环

2. 三层解耦架构

Meta-Agent（元智能体）：作为中央控制器，基于当前状态 st = (q, H(<t)) 执行策略 π(s_t) ，动态选择最优思维模式，实现步骤级自适应编排
Mindsets（思维模式）：在隔离上下文中执行专门任务的异构推理模块
Context Gate（上下文门控）：通过双向语义过滤（输入门控提取相关上下文，输出门控凝练关键洞察）解决跨模块信息干扰，确保信息密度 rho to 1

3. Plan-Call-Internalize 推理循环 Meta-Agent 通过迭代”计划-调用-内化”循环，监控中间结果并动态修订未执行计划，实现状态依赖的认知切换与错误恢复。

实验验证

在六个挑战性基准上评估（涵盖数学推理AIME 2025/Fermi、代码生成LiveCodeBench、科学QA GPQA-Diamond、多模态推理MathVision/MAZE）：

性能表现：在Qwen3-VL-32B-Instruct和Gemini-2.0-Flash上分别达到63.28%和52.41%的总体准确率，较最强基线（MRP）提升4.96%和4.72%
效率平衡：平均消耗28.4k tokens，远低于Tree-of-Thoughts（142.5k），位于准确率-效率帕累托前沿
消融分析：Context Gate对性能贡献最大（移除导致准确率下降8.24%）；59.7%的问题调用了两种及以上思维模式，验证多模式协作的有效性

结论与展望

CoM首次在无需训练的情况下实现了步骤级别的多思维模式动态编排，证明了结构化认知灵活性（而非单一策略或静态选择）是提升LLM推理能力的关键路径。未来方向包括引入更多认知原语、异构专家模型分配、任务感知思维模式子集选择，以及通过训练优化Meta-Agent的调度策略。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Tianyi Jiang,Arctanx An,Hengyi Feng,Naixin Zhai,Haodong Li,Xiaomin Yu,Jiahui Liu,Hanwen Du,Shuo Zhang,Zhi Yang,Jie Huang,Yuhua Li,Yongxin Ni,Huacan Wang,Ronghao Chen

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2602.10063.pdf

Arxiv URL: https://arxiv.org/abs/2602.10063

Arxiv ID: 2602.10063

CoolPaper URL: https://papers.cool/arxiv/2602.10063

Published: 2026-02-10T18:31:47Z

Updated: 2026-02-10T18:31:47.000Z

5. SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent’s policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.

中文摘要

大型语言模型（LLM）代理在复杂任务中已展示出令人惊叹的成果，但它们通常是孤立运作的，无法从过去的经验中学习。现有的基于记忆的方法主要存储原始轨迹，这些轨迹往往冗余且噪声较多。这阻碍了代理提取对泛化至关重要的高层次可重用行为模式。在本文中，我们提出了 SkillRL，一种通过自动技能发现和递归进化将原始经验与策略改进相连接的框架。我们的方法引入了一种基于经验的蒸馏机制来构建分层技能库 SkillBank，同时提供了一种用于通用和特定任务启发式的自适应检索策略，以及一种递归进化机制，使技能库能够在强化学习过程中与代理的策略共同进化。这些创新显著减少了 token 的占用，同时提升了推理效用。在 ALFWorld、WebShop 及七个增强搜索任务上的实验结果表明，SkillRL 达到了最先进的性能，超越强基线 15.3%，并在任务复杂性增加时保持稳健性。代码可在 https://github.com/aiming-lab/SkillRL 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决大型语言模型（LLM）智能体无法有效从经验中学习并迁移知识的核心问题，具体聚焦于以下三个关键挑战：

1. 经验学习的孤立性

现有LLM智能体主要以孤立、非累积的方式执行任务，每次交互都视为独立事件，无法从过去的成功或失败中提取可复用的知识。这种”从头开始”（from scratch）的执行方式严重阻碍了智能体在复杂环境中的进化能力。

2. 原始轨迹存储的冗余与噪声

现有基于记忆的方法（如Reflexion、ExpeL等）通常将原始交互轨迹（raw trajectories）直接存入外部数据库。然而，这些轨迹具有以下缺陷：

冗长性：包含大量探索性动作、回溯步骤和冗余信息；
高噪声：成功与失败的经验混杂，关键决策点被淹没在海量上下文之中；
低抽象性：智能体难以从具体动作序列中提炼出跨任务迁移的通用原则。

3. 缺乏层次化的技能抽象

现有方法未能将经验蒸馏为紧凑、可复用的策略模式（skills）。人类专家通过掌握”技能”（如”系统性探索”、”先验证前提条件”）而非记忆每一个具体动作来应对复杂任务。缺乏这种抽象导致：

上下文窗口利用率低下（token footprint过高）；
策略难以适应未见过的任务变体；
强化学习训练收敛缓慢且易陷入局部最优。

解决目标

论文提出通过自动技能发现（automatic skill discovery）与递归演化（recursive evolution）架起从原始经验到策略改进的桥梁，具体目标包括：

将冗余轨迹蒸馏为层次化的技能库（SKILLBANK），区分通用技能（跨任务战略指导）与任务特定技能（领域启发式）；
在强化学习（RL）过程中实现技能库与智能体策略的协同演化（co-evolution），通过验证失败的动态分析不断扩展技能库；
在保持推理效用的同时显著降低上下文长度（实验显示可减少约10.3%的token开销）。

用数学语言描述，论文旨在优化以下目标：
max(θ) E(τ sim πθ) [ ∑(t=0)^(T) γ^t rt ] quad subject to quad |c| ≤ L(max)

其中 c 表示注入的技能上下文， L_(max) 为上下文长度限制，通过结构化技能抽象而非原始轨迹来满足该约束。

Q: 有哪些相关研究？

根据论文第5节及相关内容，现有研究可归纳为以下三个主要方向：

1. LLM 智能体（LLM Agents）

该方向关注基于大型语言模型的自主智能体架构与推理范式：

ReAct (Yao et al., 2022b)：提出推理与行动交错（interleaving reasoning and acting）的范式，通过链式思维（Chain-of-Thought）风格在交互过程中进行规划。
Reflexion (Shinn et al., 2023)：引入基于语言自我反思的强化学习机制，通过对过去失败的言语总结实现策略改进。
AutoGen (Wu et al., 2024) 与 CAMEL (Li et al., 2023)：展示通用多智能体能力，实现自动化编排与多样化工具集成。

局限性：这些方法主要依赖上下文学习（In-Context Learning, ICL） (Dong et al., 2024)，将每次交互视为孤立事件，无法跨任务累积知识，导致面对复杂任务时需从零开始。

2. 智能体中的记忆机制（Memory Mechanisms in Agents）

为克服有限上下文窗口与经验学习缺失的局限，外部记忆架构成为核心研究方向：

早期静态记忆

原始轨迹存储：采用静态RAG范式或将原始轨迹作为少样本示例存入记忆池 (Chhikara et al., 2025; Wang et al., 2024; Zhang et al., 2025a)。
固有缺陷：原始轨迹往往token密集且包含显著冗余与噪声，导致性能下降。

自改进与蒸馏记忆

高级洞察提取：将交互蒸馏为高层次洞察或程序性提示（procedural tips）(Wang & Chen, 2025; Tang et al., 2025; Fang et al., 2025; Zhao et al., 2024; Ouyang et al., 2025; Wei et al., 2025)。
在线训练更新：通过在线训练更新记忆库以提升效率 (Zhang et al., 2025b; 2026)。

持续挑战：现有方法仍难以区分高价值经验与噪声，或未能提炼可指导内部决策的核心原则（core principles）。

3. 智能体技能演化与强化学习（Evolution of Agentic Skills and RL）

该方向将技能获取视为持续学习（Continual Learning）与强化学习的交叉问题：

持续学习与自我演化

传统持续学习 (Parisi et al., 2019)：专注于预定义任务中的知识保持。
自我演化智能体 (Gao et al., 2025; Xia et al., 2025; Liu et al., 2025)：致力于开放式环境中的主动技能获取 (Fang et al., 2025; Wang et al., 2025)。

记忆增强的强化学习

RL对齐：广泛用于LLM对齐 (Schulman et al., 2017; Ouyang et al., 2022) 或通过基于规则的验证器改进推理 (Shao et al., 2024)。
现有记忆增强RL框架：如 EvolveR (Wu et al., 2025)、MemRL (Zhang et al., 2026)，将记忆视为静态或辅助源，未能实现记忆与策略的深层协同。
近期趋势：强调抽象（abstraction）对高效经验迁移的关键作用。

与本文的差异

不同于将记忆视为静态数据库的现有方法，SKILLRL将技能库（Skill Library）视为动态组件，通过递归失败分析与强化学习实现技能库与智能体策略的协同演化（co-evolution）。

其他竞争性基线

论文实验部分还涉及以下具体技术方案：

闭源模型：GPT-4o (OpenAI, 2024)、Gemini-2.5-Pro (Comanici et al., 2025)
纯RL方法：RLOO (Ahmadian et al., 2024)、GRPO (Shao et al., 2024)、PPO
记忆增强RL：Mem0+GRPO、SimpleMem (Liu et al., 2026)+GRPO、ExpeL (Zhao et al., 2024)
搜索增强QA：Search-o1 (Li et al., 2025)、Search-R1 (Jin et al., 2025)、ZeroSearch (Sun et al., 2025)、StepSearch (Zheng et al., 2025)

Q: 论文如何解决这个问题？

论文提出 SKILLRL 框架，通过三个核心组件系统化地解决上述挑战：

1. 基于经验的技能蒸馏机制（Experience-based Skill Distillation）

针对问题：原始轨迹冗长、噪声高、信息密度低。

解决方案：

差异化轨迹处理：区分成功轨迹 T^+ 与失败轨迹 T^- ，而非简单丢弃失败经验。
对成功轨迹 τ^+ ∈ T^+ ：使用教师模型 M_T 提取导致任务完成的战略模式：
s^+ = M_T(τ^+, d)
识别关键决策点、正确动作背后的推理及可迁移的通用模式。
对失败轨迹 τ^- ∈ T^- ：合成简洁的失败教训（counterfactuals）：
s^- = M_T(τ^-, d)
分析失败点、错误推理、正确做法及预防类似失败的通用原则，将冗长失败episode转化为高密度知识。
显著压缩：通过抽象实现 10–20倍 的token压缩，同时增强而非削弱原始经验的效用。

2. 层次化技能库构建（Hierarchical Skill Library Construction）

针对问题：缺乏结构化抽象、跨任务迁移困难、上下文窗口限制。

解决方案：构建 SKILLBANK（记为 S ），采用双层层次结构：

通用技能（General Skills, S_g ）：捕获跨任务类型的普遍战略原则，如系统性探索模式（”优先访问未探索节点”）、状态管理（”执行动作前验证前置条件”）、目标跟踪启发式等。提供跨任务迁移的基础指导。
任务特定技能（Task-Specific Skills, S_k ）：编码类别 k 的领域专用知识，包括特定动作序列、任务特定约束、常见失败模式及利用任务结构的优化流程。

自适应检索策略：在推理时，给定任务描述 d ，策略通过语义相似度检索相关技能：
S_(ret) = TopK(s ∈ S_k : sim(e_d, e_s) > δ, K)

最终策略条件于融合后的上下文：
at sim πθ(at | o(≤ t), d, Sg, S(ret))

3. 递归技能演化机制（Recursive Skill Evolution）

针对问题：静态知识库无法适应新场景、策略与知识库更新脱节。

解决方案：将技能库视为动态组件，与智能体策略在强化学习过程中协同演化：

冷启动初始化（Cold-Start SFT）：在RL训练前，通过监督微调解决基础模型”不会使用技能”的问题。教师模型生成技能增强的推理轨迹 D(SFT) = (d_i, S_i, τ_i^*)(i=1)^N ，展示如何检索、解释和应用技能，使模型获得技能利用能力：
θ(sft) = argminθ L(CE)(D(SFT); θ)
动态演化循环：在每个验证周期，监控各类别成功率 Acc(C) 。对成功率低于阈值 δ 的类别，收集失败验证轨迹 T(val)^- ，通过多样性感知分层采样识别未覆盖的失败模式：
S(new) = MT(T(val)^-, SKILLBANK)

教师模型识别：(1) 当前技能未涵盖的失败模式；(2) 覆盖缺口的新技能；(3) 现有技能的优化建议。随后更新技能库：
SKILLBANK arrow SKILLBANK ∪ S_(new)

RL策略优化：使用 GRPO（Group Relative Policy Optimization）优化技能增强策略。对每个任务，检索技能后采样 G 条轨迹，计算归一化优势：
Ai = R_i - mean(R_j(j=1)^G){std(Rj(j=1)^G)}

通过裁剪目标函数更新策略，并引入KL散度惩罚锚定至参考策略 π(ref) = π(θ_sft) ，确保在提升任务性能的同时保留已学习的技能利用能力。

协同工作流程

这三个组件形成闭环：蒸馏机制将原始经验转化为高密度结构化知识；层次化技能库实现高效的跨任务检索与上下文压缩；递归演化机制确保技能库随策略探索前沿动态扩展，形成”策略改进 arrow 发现新失败模式 arrow 技能库扩展 arrow 策略进一步提升”的良性循环。

Q: 论文做了哪些实验？

论文在第4节进行了全面的实验验证，涵盖九个挑战性基准测试（ALFWorld、WebShop及七个搜索增强QA任务），旨在回答以下核心问题：(1) 与SOTA方法相比性能如何？(2) 各组件的贡献度？(3) 技能库在训练过程中如何演化？(4) 技能是否能加速模型收敛？

以下是实验的具体内容：

1. 实验设置（Experimental Setup）

测试环境：

ALFWorld：基于文本的家庭任务模拟环境，包含6类子任务（Pick、Look、Clean、Heat、Cool、Pick2）。
WebShop：真实网络购物界面模拟，要求根据用户需求查找并购买商品。
搜索增强QA：包括单跳（NQ、TriviaQA、PopQA）和多跳（HotpotQA、2Wiki、MuSiQue、Bamboogle）问答任务。

对比基线（四大类）：

闭源LLM：GPT-4o、Gemini-2.5-Pro
基于提示/记忆的方法：ReAct、Reflexion、Mem0、ExpeL、MemP、SimpleMem
纯RL方法：RLOO、GRPO（PPO）
记忆增强RL方法：EvolveR、MemRL、Mem0+GRPO、SimpleMem+GRPO
搜索增强QA基线：R1-Instruct、Search-o1、Search-R1、ZeroSearch、StepSearch

实现细节：使用Qwen2.5-7B-Instruct作为基础模型，OpenAI o3作为教师模型，采用GRPO进行RL训练（学习率 1× 10^(-6) ，组大小8）。

2. 主结果（Main Results）

2.1 与基线方法对比（Table 1）

SKILLRL在所有基准上均达到SOTA性能：

方法类别	ALFWorld (平均成功率)	WebShop (成功率)
闭源LLM
GPT-4o	48.0%	23.7%
Gemini-2.5-Pro	60.3%	35.9%
最佳记忆增强RL (SimpleMem+GRPO)	62.5%	46.9%
SKILLRL	89.9%	72.7%

关键发现：

显著优于纯RL基线：相比基础GRPO（77.6%），SKILLRL在ALFWorld上绝对提升12.3%；在复杂子任务如Cool和Pick2上分别提升23.0%和22.8%。
大幅超越记忆增强方法：相比MemRL（21.4%）和EvolveR（43.8%），SKILLRL验证了”技能抽象优于原始轨迹压缩”的核心假设。
超越闭源大模型：7B参数的SKILLRL超过GPT-4o达41.9%，证明有效技能学习可弥补模型规模差距。

2.2 搜索增强QA任务（Table 2）

在七个问答任务上，SKILLRL达到47.1%平均得分，显著优于Search-R1（38.5%）和EvolveR（43.1%）。尤其在复杂多跳任务Bamboogle上，SKILLRL（73.8%）超过EvolveR达19.4%，证明层次化技能能有效指导多步信息综合。

3. 深度分析（Analysis）

3.1 消融实验（Table 3）

验证各组件的必要性（以ALFWorld和WebShop成功率衡量）：

配置	ALFWorld	WebShop
SKILLRL（完整）	89.9%	72.7%
移除层次结构（仅任务特定技能）	76.8% (-13.1%)	61.4% (-11.3%)
替换为原始轨迹（无技能库）	61.7% (-28.2%)	50.2% (-22.5%)
移除冷启动SFT	65.2% (-24.7%)	46.5% (-26.2%)
移除动态演化（静态技能库）	84.4% (-5.5%)	70.3% (-2.4%)

结论：

原始轨迹导致最大性能退化（下降达25%），直接支持”抽象优于记忆”的动机。
冷启动SFT至关重要（20%性能下降），证明基础模型需要显式示范学习如何检索和利用技能。
层次结构不可或缺，通用技能提供基础战略指导，任务特定技能提供精细启发式。

3.2 逐任务分析（ALFWorld）

在最具挑战性的子任务上提升最显著：

PickTwo（需多步规划）：+23.0%
Cool（需状态跟踪）：+22.8%
Heat（需工具使用）：+15.3%

3.3 技能库演化动态（Figure 3, Figure 5）

规模增长：技能库从初始55个（12通用+43特定）动态增长至150步时的100个（20通用+80特定）。
增长模式：主要由任务特定技能驱动（增长37个），确保在各类别任务上均衡扩展专业知识。
收敛加速：对比实验显示，SKILLRL在60步内达到80%成功率，而无演化机制需90步；且最终性能天花板更高（Figure 5）。

3.4 上下文效率（Context Efficiency, Figure 4）

对比原始轨迹记忆方法（平均1,450 tokens），SKILLRL通过技能抽象将平均提示长度降至**<1,300 tokens**（减少约10.3%），同时保持更高推理效用。这验证了技能蒸馏在缓解”上下文膨胀”（context-bloat）问题上的有效性。

3.5 定性分析（Figure 6）

通过案例研究展示智能体如何自适应检索并整合层次化技能：

在WebShop中，智能体调用通用技能”Prioritize Core Keywords”和任务特定技能”Focus Key Query”确保预算约束。
在ALFWorld中，智能体协调”Progressive Goal Decomposition”（通用）与”No Appliance Before Object”（特定）避免逻辑陷阱。

4. 计算资源与效率（Appendix B.2）

所有实验在8×NVIDIA H100 80GB GPU集群上完成，总耗时约30小时每实验：

轨迹收集：3小时
技能蒸馏：0.5小时
冷启动SFT：2小时
RL训练：24小时

Q: 有什么可以进一步探索的点？

基于论文的框架设计与实验观察，以下方向值得进一步探索：

1. 技能库的可扩展性与冲突消解机制

当前技能库通过动态演化持续增长（从55个增至100个），但大规模技能库可能面临检索效率下降与技能冲突问题。未来工作可探索：

技能去重与合并：当技能库规模达到数百甚至上千时，如何自动检测语义相似或逻辑矛盾的技能（例如”优先探索未访问节点”与”深度优先搜索”的潜在冲突），并通过图神经网络或符号推理进行结构重组。
分层索引优化：超越简单的语义相似度检索，构建基于任务依赖图的技能索引，支持快速组合推理。

2. 跨环境迁移与元技能学习

SKILLRL当前在单一环境内演化（如ALFWorld或WebShop独立训练）。探索跨环境迁移可研究：

元技能（Meta-Skills）：提取更高阶的抽象（如”因果推理”、”错误恢复”），使其在不同领域（从家庭机器人到网页导航）间迁移。形式化目标为学习策略 πθ 与技能库 S ，使得在环境分布 E 上最大化：
maxθ E(E sim E) [ E(τ sim πθ^E) [ ∑(t=0)^T γ^t rt^E ] ]
其中 πθ^E 表示在环境 E 中实例化的策略。
环境无关的技能表示：将自然语言描述的技能转化为结构化表示（如程序代码、状态机或时序逻辑公式），增强跨域可解释性与复用性。

3. 降低对强教师模型的依赖

当前框架依赖 OpenAI o3 等高能力模型进行技能蒸馏与冷启动数据生成，限制了在封闭场景下的应用。可探索：

自举式蒸馏（Self-Bootstrapping Distillation）：利用智能体自身在训练过程中生成的成功轨迹（而非外部教师）进行技能提炼，结合不确定性量化（uncertainty quantification）过滤低质量技能。
弱监督技能发现：通过环境反馈（reward shaping）自动识别关键状态转移，无需教师模型标注即可生成技能原型。

4. 多智能体协作与技能共享

将SKILLRL扩展至多智能体系统：

分布式技能库：多个智能体在各自环境中探索，通过联邦学习（Federated Learning）机制聚合本地技能库，构建全局共享的 S_(global) ，同时保护隐私。
技能博弈与协调：研究智能体间技能互补性，例如智能体A习得”搜索”技能，智能体B习得”验证”技能，通过通信协议（communication protocol）实现技能组合：
S_(joint) = S_A otimes S_B
其中 otimes 表示技能组合算子。

5. 理论分析与收敛保证

当前工作主要基于实证验证，缺乏理论分析。未来可建立：

样本复杂度界限：分析从原始轨迹到技能蒸馏的样本效率，证明在给定失败预算下，技能库增长速率 |S_t| 与策略性能提升 Delta J(θ_t) 的定量关系。
递归演化的稳定性：验证技能库动态更新（非平稳环境）与策略优化（RL）联合训练的收敛条件，避免”技能震荡”（skill oscillation）现象。

6. 长期记忆与灾难性遗忘的权衡

随着技能库持续演化，新技能可能覆盖或干扰旧技能（类似灾难性遗忘）。需研究：

技能重要性评估机制：基于访问频率与成功率，为每个技能 si 赋予动态权重 w_i ，实现技能库的”软遗忘”：
S(ret) = TopK(wi · sim(e_d, e(s_i)), K)
时间感知的技能检索：引入时间衰减因子，平衡近期习得技能与长期稳定技能的使用优先级。

7. 安全对齐与价值约束

在开放域演化中，智能体可能习得有害策略（如欺骗、资源垄断）。未来需引入：

价值对齐约束：在技能蒸馏阶段加入安全过滤器 M(safe) ，确保新技能 s(new) 满足：
M(safe)(s(new), V) > τ
其中 V 表示人类价值观约束集合， τ 为安全阈值。
可解释的技能审计：提供技能演化路径的可视化与追溯机制，便于人工干预不当技能。

8. 细粒度技能表示与程序化技能

当前技能以自然语言描述为主，限制了对精确状态约束的表达。可探索：

代码化技能（Code-as-Skill）：将技能表示为可执行函数（如Python代码或PDDL规划域），支持精确的预条件（precondition）与效果（effect）描述：

1
2
3

def heat_object(obj, appliance):
assert holding(obj) and is_heatable(obj)
return use(obj, appliance)

神经-符号混合架构：结合神经策略的感知能力与符号技能的逻辑严谨性，提升在物理仿真环境中的可靠性。

Q: 总结一下论文的主要内容

该论文针对大型语言模型（LLM）智能体无法有效从经验中学习与进化的核心问题，提出了一种名为 SKILLRL（Recursive Skill-Augmented Reinforcement Learning）的框架。以下是论文的主要内容总结：

研究背景与挑战

现有LLM智能体在每次任务执行时通常孤立运作，无法跨任务累积知识。现有记忆方法（如ReAct、Reflexion）主要存储原始交互轨迹（raw trajectories），导致：

冗余与噪声：轨迹冗长，包含大量探索性动作和回溯；
抽象缺失：难以提炼可跨任务复用的高层次行为模式；
上下文效率低：长轨迹占用大量token，限制推理效用。

核心洞察在于：人类专家依赖紧凑、可复用的技能（skills）而非具体动作记忆，这要求从原始经验到策略改进的抽象桥梁。

SKILLRL 框架

论文提出三阶段解决方案，构建经验与策略间的递归增强循环：

1. 基于经验的技能蒸馏（Experience-based Skill Distillation）

通过教师模型 M_T 对轨迹进行差异化处理：

成功轨迹 τ^+ ∈ T^+ ：蒸馏为战略模式 s^+ = M_T(τ^+, d) ，捕获关键决策与可迁移模式；
失败轨迹 τ^- ∈ T^- ：综合为简洁的失败教训 s^- = M_T(τ^-, d) ，包含失败点、错误推理及预防原则。

该机制实现 10–20倍 的上下文压缩，同时保留并增强经验效用。

2. 层次化技能库 SKILLBANK

构建双层结构 S = Sg ∪ ∪(k=1)^K S_k ：

通用技能 S_g ：跨任务战略（如”优先探索未访问节点”、”先验证前置条件”）；
任务特定技能 S_k ：针对任务类别 k 的专用启发式（如”加热任务先取物再开设备”）。

推理时通过语义相似度自适应检索：
S_(ret) = TopK(s ∈ S_k : sim(e_d, e_s) > δ, K)

3. 递归技能演化（Recursive Skill Evolution）

在强化学习（RL）过程中实现技能库与策略的协同演化：

冷启动SFT：先通过监督微调使基础模型习得技能检索与应用能力；
动态演化：每验证周期分析失败轨迹 T(val)^- ，识别未覆盖模式并生成新技能 S(new) = MT(T(val)^-, SKILLBANK) ，更新 SKILLBANK arrow SKILLBANK ∪ S_(new) ；
RL优化：采用GRPO算法，在技能增强上下文下优化策略，KL惩罚锚定至参考策略确保稳定性。

实验验证

在 ALFWorld（文本家庭任务）、WebShop（网络购物）及 7个搜索增强QA任务（单跳/多跳）上的实验表明：

性能领先：相比强基线平均提升 15.3%，在ALFWorld上达到89.9%成功率，WebShop上达72.7%，显著超越GPT-4o（48.0%）和Gemini-2.5-Pro（60.3%）；
消融验证：
移除层次结构导致性能下降13.1%；
替换为原始轨迹导致最大退化（-28.2%）；
动态演化贡献5.5%提升；
效率与演化：上下文长度减少约 10.3%（相比原始记忆），训练收敛速度提升（60步达80%成功率 vs 无演化需90步），技能库从55个动态增长至100个。

核心贡献

技能抽象范式：证明将经验蒸馏为结构化技能优于原始轨迹存储，解决上下文膨胀与噪声问题；
递归协同演化：首创在RL训练期间动态更新技能库的机制，使外部知识与内部策略共同进化；
实用性能提升：以7B参数模型超越大规模闭源模型，验证样本高效学习与跨任务迁移能力。

该工作为构建能够通过经验自主进化、具备持续学习能力的LLM智能体奠定了框架基础。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Peng Xia,Jianwen Chen,Hanyang Wang,Jiaqi Liu,Kaide Zeng,Yu Wang,Siwei Han,Yiyang Zhou,Xujiang Zhao,Haifeng Chen,Zeyu Zheng,Cihang Xie,Huaxiu Yao

Categories: cs.LG

PDF URL: https://arxiv.org/pdf/2602.08234.pdf

Arxiv URL: https://arxiv.org/abs/2602.08234

Arxiv ID: 2602.08234

CoolPaper URL: https://papers.cool/arxiv/2602.08234

Published: 2026-02-09T03:17:17Z

Updated: 2026-02-09T03:17:17.000Z

6. P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.

中文摘要

从符号操作到科学级推理的转变代表了大型语言模型（LLMs）的一个关键前沿，其中物理学作为将抽象逻辑与物理现实绑定的关键测试基点。物理学要求模型保持与宇宙规律一致的物理一致性，这一任务从根本上需要多模态感知，将抽象逻辑落地到现实中。在奥林匹克竞赛水平上，图表往往是构成性的而非说明性的，包含文本中没有的必要约束，如边界条件和空间对称性。为了弥合这种视觉与逻辑之间的差距，我们引入了P1-VL，一系列为高级科学推理设计的开源视觉-语言模型。我们的方法结合了课程强化学习（Curriculum Reinforcement Learning），通过逐步扩大难度来稳定训练后的表现，与智能增强（Agentic Augmentation），支持推理过程中迭代自我验证。我们在HiPhO——涵盖2024-2025年13场严格考试的基准测试——上对其进行了评估，我们的旗舰模型P1-VL-235B-A22B成为首个夺得12枚金牌的开源视觉-语言模型（VLM），并在开源模型中取得了最先进的性能。我们的智能增强系统在全球总排名中位列第二，仅次于Gemini-3-Pro。除了物理学，P1-VL在科学推理能力和可推广性方面表现出卓越优势，在STEM基准测试中显著领先基础模型。通过开源P1-VL，我们为实现通用物理智能迈出了基础性一步，更好地将视觉感知与抽象物理规律对齐，从而促进机器科学发现。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败（已重试2次）: Navigation timeout of 10000 ms exceeded

Authors: Yun Luo,Futing Wang,Qianjia Cheng,Fangchen Yu,Haodi Lei,Jianhao Yan,Chenxi Li,Jiacheng Chen,Yufeng Zhao,Haiyuan Wan,Yuchen Zhang,Shenghe Zheng,Junchi Yao,Qingyang Zhang,Haonan He,Wenxuan Zeng,Li Sheng,Chengxing Xie,Yuxin Zuo,Yizhuo Li,Yulun Wu,Rui Huang,Dongzhan Zhou,Kai Chen,Yu Qiao,Lei Bai,Yu Cheng,Ning Ding,Bowen Zhou,Peng Ye,Ganqu Cui

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2602.09443.pdf

Arxiv URL: https://arxiv.org/abs/2602.09443

Arxiv ID: 2602.09443

CoolPaper URL: https://papers.cool/arxiv/2602.09443

Published: 2026-02-10T06:28:08Z

Updated: 2026-02-10T06:28:08.000Z

7. Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.

中文摘要

大型语言模型（LLM）的最新进展使自主代理能够执行需要与工具和环境进行多轮交互的复杂任务。然而，这类代理训练的扩展受到缺乏多样且可靠环境的限制。在本文中，我们提出了代理世界模型（Agent World Model, AWM），这是一个完全合成的环境生成管道。通过该管道，我们扩展至覆盖日常场景的1000个环境，在这些环境中，代理可以与丰富的工具集（每个环境平均35个工具）互动，并获得高质量的观察。值得注意的是，这些环境是代码驱动并由数据库支持的，比由LLM模拟的环境提供更可靠和一致的状态转换。此外，与从真实环境收集轨迹相比，它们还可以实现更高效的代理交互。为了验证这一资源的有效性，我们对多轮工具使用代理进行了大规模强化学习。得益于完全可执行的环境和可访问的数据库状态，我们还能够设计可靠的奖励函数。在三个基准测试上的实验表明，仅在合成环境中进行训练，而不是特定基准环境，能产生强大的分布外泛化能力。代码可在 https://github.com/Snowflake-Labs/agent-world-model 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决智能体强化学习（Agentic Reinforcement Learning）中环境稀缺、多样性不足且难以扩展的核心问题。具体而言，其针对以下关键挑战：

真实环境成本高昂且难以规模化：真实世界的API和交互环境通常需要付费访问、存在速率限制，且许多场景不公开暴露接口，无法满足强化学习所需的成千上万次稳定、高效的交互需求。
人工创建环境缺乏多样性：现有人工构建的基准环境（如τ2-bench、TheMCPCompany）仅包含少量场景（3-5个），远不足以训练通用的AI智能体，且容易过拟合到特定领域。
基于LLM的环境模拟不可靠且效率低：现有研究尝试使用大语言模型直接模拟环境状态转换和工具响应，但存在严重的幻觉问题（hallucination），且每次交互都需要调用LLM，导致训练成本极高、延迟巨大。
环境合成研究的缺失：现有合成数据工作多聚焦于任务合成（task synthesis）和轨迹收集（trajectory collection），而非可执行的环境本身（environment synthesis），导致智能体无法探索替代动作或从真实状态变化中获得反馈。

为此，论文提出Agent World Model (AWM)，一种全自动合成可执行工具使用环境的流程，通过代码驱动和数据库支持的状态管理，实现大规模、多样化、状态一致且适合在线强化学习的智能体训练环境。

Q: 有哪些相关研究？

根据论文第2节（Related Work），相关研究可分为以下三个主要方向：

1. 工具使用智能体（Tool-use Agents）

早期工作探索了LLM使用外部工具解决复杂任务的能力，但主要依赖静态数据或小规模环境：

Toolformer (Schick et al., 2023)：通过监督学习训练工具使用能力
ToolLLM (Qin et al., 2024)：整理真实世界API并基于LLM生成轨迹训练，但使用模拟响应而非真实工具执行
Gorilla (Patil et al., 2024)：基于API文档微调以提升工具使用准确性
ReAct (Yao et al., 2023) 与 SWE-agent (Yang et al., 2024)：在交互环境中交替进行推理与行动

局限性：现有基准测试（如τ-bench、BFCLv3、MCP-Universe）要么依赖真实API（难以扩展），要么仅提供小规模环境，无法满足大规模在线强化学习对快速交互和可靠状态转换的需求。

2. 智能体数据合成（Agent Data Synthesis）

该方向专注于合成任务、工具规范和轨迹，而非环境本身：

Self-Instruct (Wang et al., 2023)：开创性地使用LLM生成微调数据
后续扩展：合成任务与工具规范 (Xie et al., 2025)、智能体轨迹 (Xu et al., 2024b; Li et al., 2025a; Song et al., 2024)、多轮交互数据 (Prabhakar et al., 2025)

局限性：这些方法将环境视为给定，或使用LLM模拟工具响应，缺乏可执行环境。智能体无法探索替代动作或从真实状态变化中获得反馈，限制了其在强化学习中的应用。

3. 环境合成（Environment Synthesis）

随着智能体强化学习的发展，可执行环境的合成成为研究焦点，主要分为两类：

（1）基于LLM的模拟（LLM-based Simulation）

使用推理模型生成状态转换和观察 (Wang et al., 2024; Li et al., 2025c; Chen et al., 2025; Li et al., 2025b)
局限性：存在状态转换幻觉问题 (Kalai et al., 2025; Wang et al., 2024)，且每一步交互都需调用LLM，成本高昂、效率低下，不适合RL训练

（2）基于编程的合成（Programming-based Synthesis）

DeepSeek-V3.2 (DeepSeek-AI et al., 2025) 与 Qwen Tongyi (Fang et al., 2025)：近期提出的代码生成流程，分别用于通用智能体和SFT训练，但未开源
AutoEnv (Zhang et al., 2025a)：创建36个游戏类环境（如迷宫导航）
EnvScaler (Song et al., 2026)：基于现有任务集合成191个交互式环境（与本文并发）
Sullivan et al. (2025)：基于人工设计的类型系统进行程序生成
AutoForge (Cai et al., 2025)：从工具文档中提取工具图构建环境

AWM与现有工作的区别：

从零合成：无需现有任务集或API文档，避免潜在版权侵权
数据库支持的状态管理：使用SQLite确保状态一致性，支持代码增强的验证机制
规模：生成1,000个环境、35,062个工具、10,000个任务，是目前最大的开源工具使用环境集

Q: 论文如何解决这个问题？

论文提出 Agent World Model (AWM)，一种全自动、可扩展的合成环境生成流程，通过代码驱动与数据库支持的状态管理，系统性地解决智能体训练环境稀缺问题。具体解决方案包含以下核心组件：

1. 分层渐进式合成架构

AWM将环境合成解构为五个递进阶段，模拟软件工程实践流程：

场景生成（Scenario Generation）：基于100个种子域名，利用LLM自指令扩展至1,000个多样化场景（涵盖金融、旅行、零售、社交媒体等），通过CRUD分类器与嵌入去重确保质量与多样性
任务生成（Task Generation）：为每个场景合成10个具体用户任务（共10,000个），作为功能需求驱动后续设计，确保任务可API化且处于登录后上下文
数据库设计（Database Design）：基于任务需求推断实体关系，生成SQLite模式定义状态空间 S_(E_i) ，并合成满足任务预条件的样本数据作为初始状态 s_0
接口合成（Interface Synthesis）：采用”先模式后代码”的两阶段策略，生成Model Context Protocol (MCP) 兼容的Python接口层，定义动作空间 A(E_i) 与观察空间 O(E_i) ，平均每个环境暴露35个工具
验证合成（Verification Synthesis）：为每个任务生成Python验证函数，通过对比执行前后数据库状态提取结构化信号，支撑后续强化学习的奖励函数设计

2. 代码驱动与状态一致性保障

与基于LLM模拟环境不同，AWM采用编程式状态管理：

数据库支撑的状态空间：使用SQLite作为结构化关系型后端，通过主键、外键与约束显式定义状态转移 T(E_i): S(Ei) × A(Ei) arrow S(Ei) × O(E_i) ，消除LLM幻觉导致的状态不一致
MCP统一接口层：所有工具通过MCP协议暴露，智能体通过 list_tools 与 call_tool 两个元工具与环境交互，实现跨环境的统一交互范式
完全可执行性：每个环境平均包含约2,000行Python代码，支持并行隔离实例与快速重置，满足在线RL对1,024并发环境实例的需求

3. 代码增强的LLM即裁判验证机制

针对合成环境的不完美性，AWM设计混合验证策略：

代码验证：执行预生成的验证代码，提取数据库状态差异、关键指标变化等结构化证据
LLM-as-a-Judge：将验证信号与智能体轨迹共同输入GPT-5，综合判断任务完成状态（Completed/Partially Completed/Agent Error/Environment Error）
奖励函数设计：结合步骤级格式正确性与任务级结果验证，定义分段奖励函数：
Rτ = 1.0 & if task τ Completed 0.1 & if task τ Partially Completed 0.0 & otherwise
步骤级奖励 r_t 在格式错误时立即终止并返回 -1.0 ，正常终止时广播 Rτ

4. 历史感知训练对齐

针对训练与推理时的历史上下文不匹配问题，AWM采用历史感知优化：

在GRPO（Group Relative Policy Optimization）训练中，将完整轨迹拆分为 T 个独立样本，每个样本仅包含滑动窗口 w=3 的历史上下文 h_t^(trunc)
优化目标确保策略条件于截断历史：
L(GRPO) = E(τ,Ei,y^((k))) [ (1) / (G) ∑(k=1)^G A^((k)) ∑(t=1)^(T_k) log πθ(a_t^((k)) | h_t^(trunc),(k)) ]
其中 A^((k)) = (R^((k)) - R)/σ_R 为组相对优势

5. 执行-自校正机制

全流程集成自动验证与修复：

每个合成阶段（数据库、样本数据、环境代码）执行后自动运行测试
捕获错误信息并反馈至LLM进行至多5轮迭代修正
实现85%以上的首次生成成功率，平均仅需1.13次修正迭代

通过上述设计，AWM实现了从场景描述到可执行环境的端到端自动化合成，生成1,000个环境、35,062个工具与10,000个任务，支持大规模在线强化学习训练，并在三个分布外基准测试上验证了其泛化能力。

Q: 论文做了哪些实验？

论文在第5节（Experiments）和第6节（Analysis）中进行了系统性的实验验证，涵盖分布外泛化性能、合成环境质量、验证机制设计、训练策略及规模扩展性五个维度。

1. 实验设置（Experimental Setup）

评估基准（Benchmarks） 为验证分布外泛化能力，选取三个与训练环境差异显著的基准：

τ²-bench（验证版）：多轮对话式智能体任务，涵盖航空、零售、电信三个场景，需处理对话交互与工具调用
BFCLv3：全面评估函数调用能力，包含单轮、多轮（长上下文）、合成工具、真实工具及幻觉测试四类子任务
MCP-Universe：真实世界MCP服务器集合，涵盖位置导航、金融分析、浏览器自动化、网页搜索及多服务器工作流（排除需GUI或认证的3D设计/仓库管理任务）

对比基线（Baselines）

Base：原始Qwen3模型（4B/8B/14B），具备推理与工具使用能力但未经额外训练
Simulator：在LLM模拟环境中训练的智能体（GPT-5作为环境转移模型），使用与AWM相同的任务和工具集，用于对比可执行环境与模拟环境的差异
EnvScaler：并发工作，基于现有任务集合成191个编程环境的SFT/RL方法

训练配置

在AWM的526个环境（共1,000个）上训练，使用GRPO算法
每步1,024个并行环境实例，批量大小64，16次rollout，最大96优化步
历史窗口大小 w=3 ，最大交互轮数20

2. 主要结果（Main Results）

表4展示了三个基准上的性能对比，关键发现包括：

BFCLv3（函数调用能力）

AWM在所有模型规模上均显著优于Base，8B模型从53.83提升至65.94（+12.11）
全面超越Simulator（52.53）和EnvScaler（36.83），证明可执行环境比LLM模拟环境提供更稳定的学习信号
各子任务（Non-Live/Live/Multi-Turn）均有提升，仅在Hallucination任务上略低于EnvScaler（因格式正确性奖励鼓励工具调用，惩罚拒绝回答）

τ²-bench（多轮对话任务）

AWM与EnvScaler表现相当，显著优于Simulator
值得注意的是，EnvScaler在BFCLv3（-8.93）和MCP-Universe（-1.39）上均出现性能衰退，而AWM在所有基准上均持续提升，表明AWM的环境多样性避免了过拟合到特定基准

MCP-Universe（真实世界工具）

AWM取得最佳整体表现，尤其在Financial（金融分析）和Location（位置导航）任务上提升显著
证明在合成环境（无浏览器自动化、无信息检索）上训练的能力可迁移至真实场景

3. 合成环境质量分析（Section 6.1）

从质量与多样性两方面评估：

质量评估（表5，GPT-5.1与Claude-4.5-Sonnet双评测）

任务可行性（Task Feasibility）：AWM 3.68 vs EnvScaler 2.94（GPT-5.1评分，5分制）
数据对齐（Data Alignment）：AWM 4.04 vs EnvScaler 3.73
工具集完整性（Toolset Completeness）：AWM 3.65 vs EnvScaler 2.89
缺陷分析：AWM环境代码量约为EnvScaler的3倍（1,985行 vs 662行），但缺陷率可控（74%环境含bug vs 88%），且阻塞任务率显著更低（14.0% vs 57.1%），这对RL至关重要（阻塞任务会截断探索并注入错误负信号）

多样性评估（图3）

嵌入多样性：随环境池从10扩展至1,000，平均余弦距离稳定在0.35-0.40，表明新环境持续增加语义新颖内容而非重复
类别覆盖：类别数量随环境数量线性增长至超过4,000个唯一主题标签，证明AWM全局扩展至新领域而非坍缩到少数主导类型

4. 验证设计分析（Section 6.2）

表6对比三种验证策略对RL训练的影响：

LLM-only：仅基于轨迹判断，奖励信号不可靠，性能最差（BFCLv3: 51.92）
Code-only：仅检查数据库状态差异，虽优于LLM-only，但面对环境缺陷时过于脆弱（将环境错误误判为智能体失败）
Code-augmented（AWM）：结合结构化验证信号与LLM推理，在所有基准和模型规模上均取得最佳性能（BFCLv3: 64.50，τ² P@1: 22.57），证明其能容忍不完美环境信号并提供稳健奖励

5. 历史感知训练分析（Section 6.3）

表7验证训练-推理历史上下文对齐的重要性：

对齐设置（Aligned）：训练与推理使用相同历史限制（HL），历史感知训练（w/ HL）性能最佳（BFCLv3: 64.50）
错位设置（Misaligned）：训练使用完整历史而推理截断（w/o HL→w/ HL），性能显著下降（BFCLv3: 56.80）
证明历史管理应作为策略优化的一部分，而非仅作为推理时启发式

6. 环境规模扩展曲线（Section 6.4）

图4展示训练环境数量对性能的影响（4B模型）：

10个环境：严重过拟合，所有基准性能崩溃（BFCLv3: ~40%，τ²: ~14%）
100个环境：性能大幅提升（BFCLv3: 57.0%，τ²: 16.5%）
526个环境：持续单调提升（BFCLv3: 64.5%，τ²: 22.6%）

该曲线表明环境多样性对智能体强化学习至关重要，且AWM在扩展至1,000环境时仍保持多样性，支持进一步规模化训练。

Q: 有什么可以进一步探索的点？

基于论文第8节（Limitations）及全文的讨论，以下是可以进一步探索的研究方向：

1. 自演化环境合成（Self-Evolving Environment Synthesis）

当前AWM采用固定的生成流程，缺乏自主改进能力。可探索智能体驱动的环境进化范式：利用训练成熟的智能体参与新环境的设计与验证，形成”训练-反馈-合成”的闭环。例如，智能体可识别自身能力盲区并生成针对性环境，或通过探索发现现有环境的逻辑漏洞并触发重新合成，实现环境与策略的协同进化。

2. 合成流程的深度优化（Pipeline Optimization）

现有自校正机制主要依赖运行时错误反馈（trial-and-error），缺乏深层语义验证：

语义一致性检查：引入LLM主动检测逻辑矛盾（如工具定义与数据库模式不匹配）或细微缺陷，而非仅捕获运行时异常
人机协同验证：在资源允许时引入人工检查，进一步提升环境质量
跨场景任务合成：当前任务局限于单一场景，可探索需要跨环境协作的复杂任务（如在电商平台购买商品后于社交平台分享评价）

3. 训练规模与模型覆盖扩展（Training Scale and Model Coverage）

全量环境训练：当前因计算限制仅使用526/1,000个环境，需验证完整环境池的效益
模型家族扩展：当前实验集中于Qwen3系列（4B/8B/14B），需验证在更大模型（32B+）及其他架构（如Dense vs MoE）上的有效性
长周期训练：探索超过96步的长时间训练动态及潜在的性能饱和点

4. 复杂历史上下文管理（Advanced History Management）

当前采用简单的滑动窗口截断（ w=3 ）对齐训练与推理。可探索：

动态注意力机制：让模型学习选择性关注关键历史步骤，而非硬性截断
轨迹摘要压缩：在保留关键状态信息的同时压缩长历史，平衡上下文长度与信息完整性
层次化历史表示：区分系统级、任务级和步骤级历史信息

5. 验证机制的轻量化与鲁棒性（Verification Enhancement）

降低LLM-as-a-Judge成本：当前依赖GPT-5进行最终判断（约$1.80/步），可探索蒸馏小型验证模型或基于规则的多智能体投票机制，在保持鲁棒性的同时降低成本
时序逻辑验证：增强对多步操作中间状态一致性的检查，减少因环境瞬态错误导致的误判

6. 多智能体交互环境（Multi-Agent Interaction）

当前环境主要支持单智能体与工具集的交互。可扩展至：

多智能体协作场景：如项目管理环境中多个智能体分别扮演项目经理、开发者、测试员
竞争与博弈环境：模拟拍卖、谈判等需要多智能体策略交互的场景
人机混合交互：引入模拟人类用户的智能体，测试真实的人机协作流程

7. 环境保真度与复杂性提升（Fidelity Improvement）

认证与权限流程：当前假设已登录，可引入OAuth、多因素认证等真实安全机制
故障注入与恢复：系统性模拟网络超时、部分服务降级、数据不一致等真实世界故障场景，训练智能体的容错能力
动态数据环境：当前使用静态初始数据，可探索随时间演变的数据环境（如股票价格实时波动、社交动态更新）

8. 合成环境与真实环境的混合训练（Hybrid Training）

探索渐进式迁移策略：在AWM合成环境中进行大规模预训练，再在少量真实环境中微调，研究如何最大化合成到真实的知识迁移效率，以及领域差距的量化方法。

Q: 总结一下论文的主要内容

本文提出 Agent World Model (AWM)，一种面向智能体强化学习的全自动可执行环境合成框架，旨在解决智能体训练面临的环境稀缺、多样性不足及规模化困难等核心挑战。

1. 研究背景与问题定义

当前大型语言模型（LLM）驱动的自主智能体在多轮工具使用任务中展现潜力，但训练此类智能体需依赖大规模在线强化学习（RL），而现有环境存在以下瓶颈：

真实环境成本高昂：API调用受限、交互延迟高，且多数场景不公开
人工环境规模受限：现有基准（如τ2-bench仅3个环境）缺乏多样性，易导致过拟合
LLM模拟不可靠：基于LLM的状态转移存在幻觉问题，且推理成本极高

2. Agent World Model 框架

AWM采用代码驱动、数据库支持的范式，通过五阶段渐进式合成流程生成可执行环境：

阶段	输出	关键设计
场景生成	1,000个多样化场景描述	基于种子域名自指令扩展，CRUD过滤与嵌入去重
任务生成	10,000个可执行用户任务	API可解、登录后上下文，驱动后续设计
数据库设计	SQLite模式与样本数据	关系型状态空间 S_(E_i) ，满足任务预条件
接口合成	MCP兼容的Python工具层	平均35个工具/环境，定义动作 A(E_i) 与观察 O(E_i)
验证合成	代码增强的LLM-as-a-Judge	数据库状态对比 + GPT-5综合判断，提供鲁棒奖励信号

核心技术特征：

状态一致性：SQLite后端确保状态转移 T(E_i): S(Ei) × A(Ei) arrow S(Ei) × O(E_i) 的确定性与可复现性
历史感知训练：在GRPO中采用截断历史对齐训练与推理，优化目标为：
L(GRPO) = E[ (1) / (G) ∑(k=1)^G A^((k)) ∑(t=1)^(T_k) log πθ(a_t^((k)) | h_t^(trunc),(k)) ]
执行-自校正：各阶段自动测试与错误反馈迭代，实现85%+首次生成成功率

3. 实验验证与主要发现

在三个分布外（OOD）基准测试（BFCLv3、τ²-bench、MCP-Universe）上，使用Qwen3模型（4B/8B/14B）进行验证：

泛化性能：AWM训练的智能体在所有基准上均显著优于基线模型（如8B模型在BFCLv3上从53.83提升至65.94），且 unlike 并发工作EnvScaler，无性能衰退现象
环境质量：LLM评判显示AWM在任务可行性（3.68 vs 2.94）、数据对齐（4.04 vs 3.73）和工具完整性（3.65 vs 2.89）上均优于对比方法，阻塞任务率更低（14.0% vs 57.1%）
验证机制：代码增强的LLM-as-a-Judge相比纯LLM或纯代码验证，在所有设置下均取得最佳性能，证明其对合成环境不完美性的容错能力
规模效应：环境数量从10扩展至526时性能单调提升（BFCLv3: 40%→64.5%），表明多样性对RL训练至关重要

4. 局限与未来方向

当前局限包括固定生成流程缺乏自演化能力、未覆盖跨场景任务、以及计算资源限制导致仅使用部分环境训练。未来可探索智能体驱动的环境进化、更复杂的历史上下文管理、以及合成环境与真实环境的混合训练策略。

5. 开源贡献

论文开源了完整的合成流程及1,000个可执行环境（含35,062个工具、10,000个任务），为社区提供了目前规模最大的开源工具使用环境集，支持并行隔离实例与高效在线RL训练。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Zhaoyang Wang,Canwen Xu,Boyi Liu,Yite Wang,Siwei Han,Zhewei Yao,Huaxiu Yao,Yuxiong He

Categories: cs.AI,cs.CL,cs.LG

PDF URL: https://arxiv.org/pdf/2602.10090.pdf

Arxiv URL: https://arxiv.org/abs/2602.10090

Arxiv ID: 2602.10090

CoolPaper URL: https://papers.cool/arxiv/2602.10090

Published: 2026-02-10T18:55:41Z

Updated: 2026-02-10T18:55:41.000Z

8. Prism: Spectral-Aware Block-Sparse Attention

Block-sparse attention is promising for accelerating long-context LLM pre-filling, yet identifying relevant blocks efficiently remains a bottleneck. Existing methods typically employ coarse-grained attention as a proxy for block importance estimation, but often resort to expensive token-level searching or scoring, resulting in significant selection overhead. In this work, we trace the inaccuracy of standard coarse-grained attention via mean pooling to a theoretical root cause: the interaction between mean pooling and Rotary Positional Embeddings (RoPE). We prove that mean pooling acts as a low-pass filter that induces destructive interference in high-frequency dimensions, effectively creating a “blind spot” for local positional information (e.g., slash patterns). To address this, we introduce Prism, a training-free spectral-aware approach that decomposes block selection into high-frequency and low-frequency branches. By applying energy-based temperature calibration, Prism restores the attenuated positional signals directly from pooled representations, enabling block importance estimation using purely block-level operations, thereby improving efficiency. Extensive evaluations confirm that Prism maintains accuracy parity with full attention while delivering up to $\mathbf{5.1\times}$ speedup.

中文摘要

块稀疏注意力有助于加速长上下文LLM预填充，但高效识别相关块仍是一个瓶颈。现有方法通常采用粗粒度注意力作为块重要性估计的代理，但常常依赖昂贵的令牌级搜索或评分，导致显著的选择开销。在本研究中，我们追溯了通过均值池法实现标准粗粒度注意力不准确的原因，归根于一个理论根本原因：平均池化与旋转位置嵌入（RoPE）之间的相互作用。我们证明了均值池作为低通滤波器，在高频维度中诱导破坏性干涉，有效地为局部位置信息（如斜杠模式）创造了“盲区”。为此，我们引入了棱镜（Prism），这是一种无训练的频谱感知方法，将块选择分解为高频和低频分支。通过应用基于能量的温度校准，棱镜直接从汇集表示恢复衰减的位置信号，使得仅用块级作即可估算块重要性，从而提高效率。大量评估确认，Prism在全神贯注下保持准确率，同时实现高达$\mathbf{5.1\times}$的加速。

LLM Analysis

Q: 这篇论文试图解决什么问题？

该论文旨在解决长上下文大语言模型（LLM）预填充（pre-filling）阶段中，块稀疏注意力（block-sparse attention）的块重要性估计（block importance estimation）效率与准确性之间的核心矛盾。

具体而言，论文识别出以下关键问题：

1. 现有方法的瓶颈：选择开销抵消稀疏收益 块稀疏注意力通过仅计算部分相关块对来近似全注意力，其有效性取决于如何在不计算完整注意力矩阵的前提下，高效识别出重要的键（Key）块。现有无训练（training-free）方法通常采用均值池化（mean pooling）生成粗粒度表示来估计块重要性，但由于这种代理（proxy）不够准确， state-of-the-art 方法（如 MInference、FlexPrefill、XAttention）不得不依赖昂贵的启发式搜索或令牌级（token-level）验证来维持性能。这导致了一个根本性的权衡：繁重的估计开销往往抵消了稀疏性带来的计算收益，使得这些方法在中等序列长度下甚至无法超越高度优化的全注意力实现（如 FlashAttention）。

2. 理论根源：均值池化作为低通滤波器导致的”频谱盲点” 论文从理论上追溯了标准粗粒度注意力不准确的根源：均值池化与旋转位置编码（RoPE）之间的频谱交互。数学上证明，均值池化充当了一个低通滤波器（low-pass filter）。在 RoPE 的高频维度（编码细粒度相对位置信息，如局部斜线模式）中，快速旋转的向量在聚合过程中产生破坏性干涉（destructive interference），导致信号幅度崩溃（ |q^((j))| ≈ 0 ）。这创造了一个**“盲点”（Blind Spot）**，使得基于池化的表示丢失了关键的局部位置结构，从而无法准确识别重要的键块。

3. 核心挑战：如何在纯块级操作下恢复高频信号 为了克服上述”盲点”而不引入令牌级开销，论文提出了Prism框架，其核心挑战是仅通过块级操作（block-level operations）恢复被衰减的高频位置信号，从而实现准确的块重要性估计。该框架通过将块选择分解为高频和低频两个并行分支，并引入基于能量分布的温度校准（energy-based temperature calibration），在不增加计算复杂度的前提下，显式地保留和校准频谱信息，最终实现对相关块的高效、精确识别。

Q: 有哪些相关研究？

根据论文第2节”Related Work”的内容，相关研究主要分为以下两个方向：

1. 块稀疏注意力（Block-Sparse Attention）

静态稀疏模式（Static Sparse Patterns） 早期研究依赖于预定义的固定稀疏结构来降低计算复杂度：

Sparse Transformers
11
：采用固定滑动窗口（fixed sliding windows）和膨胀窗口（dilated windows）模式
Longformer
12
：结合局部窗口和全局”sink”token来处理长文档
StreamingLLM
13
：利用注意力汇聚点（attention sinks）维持局部连贯性和稳定性

局限性：静态模式难以捕捉序列中任意分布的长程依赖关系（即”大海捞针”问题）。

动态块稀疏注意力（Dynamic Block-Sparse Attention） 近期研究转向根据输入内容自适应确定注意力模式：

将序列划分为固定大小的块（如 128 × 128 ），以适配 FlashAttention
6
的切片机制（tiling mechanism）
通过限制密集计算仅应用于选定的块对，显著减少预填充阶段的 FLOPs，同时便于使用 Triton 或 CUDA 优化 GPU 内核

2. 块重要性估计（Block Importance Estimation）

这是动态块稀疏注意力的核心挑战：如何在不产生二次计算成本的情况下识别与查询块相关的键块。

基于启发式搜索的方法

MInference
4
：采用离线搜索策略，将注意力头预分类为垂直斜线（Vertical Slash）或块稀疏（Block-Sparse）等模式，对不同头采用差异化的估计技术（对语义检索头使用粗粒度注意力，对其他模式回退到特定选择策略）
FlexPrefill
5
：使用在线搜索动态切换静态模式和基于均值池化的估计

统一估计指标的方法

SpargeAttention
14
：对所有头采用粗粒度注意力，同时强制块内相似度较低的块被选中
XAttention
15
：引入反对角线（antidiagonal）评分机制，试图同时捕捉块稀疏和垂直斜线模式，但仍涉及额外的令牌级操作
PBS-Attn
16
：利用令牌置换（token permutation）聚类关键token以提高可分离性

共同局限：上述方法通常涉及令牌级操作（token-level operations）或昂贵的启发式搜索，在中等序列长度下，选择开销往往超过稀疏性带来的收益，导致实际效率低于优化的全注意力实现。

Q: 论文如何解决这个问题？

论文通过提出 Prism（Precise Spectral-aware Block-Spare Attention）框架解决上述问题，核心思路是通过频谱解耦与能量校准，在不引入令牌级开销的前提下恢复被均值池化破坏的高频位置信号。具体解决方案包含以下关键组件：

1. 双频段块重要性估计（Dual-Band Block Importance Estimation）

针对均值池化对不同频率信号的差异化衰减（高频破坏性干涉 vs 低频构造性干涉），Prism 将块选择显式分解为两个并行分支，避免信号在聚合过程中相互干扰：

高频分支（High-Frequency Branch）：切片前 d(high) 个维度（如 d(high) = 64 ），保留编码细粒度相对位置的斜线模式（slash patterns）
低频分支（Low-Frequency Branch）：切片后 d(low) 个维度（如 d(low) = 96 ），捕获全局语义依赖的块稀疏模式

对两个频带独立执行均值池化，得到 Q(high), K(high) ∈ R^(N × d(high)) 和 Q(low), K(low) ∈ R^(N × d(low)) ，分别计算粗粒度注意力分数：
S_z = softmax( barQ_z K_z^top{τ_z √d_z} ), quad z ∈ high, low

最终块掩码为两个分支选择的并集：
M = M(high) ∪ M(low)

2. 基于能量的温度校准（Energy-Based Temperature Calibration）

为解决高频分支因破坏性干涉导致的信号幅度衰减（ λ_j(B) ≈ 0 ），Prism 提出无需超参数的能量自适应校准机制。通过分析池化后表示的 RMS 能量分布，推导分支特定的温度系数 τ_z ，将各频带的 logit 幅度恢复至全谱水平：

基于注意力 logit 的尺度特性 |L| propto √d · RMS(Q)RMS(K) ，校准因子推导为：
τz ≈ √(d_z) / (d) · RMS(barQ_z)RMS(Q(full)) · RMS(barKz)RMS(K(full))

该校准确保高频分支的衰减信号被适当放大，使得 softmax 分布能够区分真实的位置模式与背景噪声，避免 Top-P 选择因信号平坦（高熵）而被迫选择过多无关块。

3. 纯块级操作（Exclusively Block-Level Operations）

与现有方法（如 MInference、FlexPrefill、XAttention）依赖令牌级搜索或验证不同，Prism 的所有计算（池化、切片、矩阵乘法、Top-P 选择）均基于块级表示执行。这消除了与序列长度成线性关系的令牌级开销，使得选择代价仅取决于块数 N = lceil L/B rceil ，从而在 128K 上下文等极端长度下仍保持低开销（ sim 9ms 估计时间 vs. XAttention 的 sim 85ms ）。

通过上述设计，Prism 在不引入训练或令牌级操作的前提下，克服了均值池化的”频谱盲点”，实现了与全注意力相当的准确性（ Delta PPL ≈ 0 ）和高达 5.1× 的加速比。

Q: 论文做了哪些实验？

论文在第4节”Experiments”中开展了系统性的评估，涵盖准确性、效率和设计消融三个维度。具体实验内容如下：

1. 实验设置

评估基准

PG19
8
：语言建模能力评估（困惑度指标）
LongBench
1
：长上下文理解（涵盖单文档QA、多文档QA、摘要、少样本学习、代码、合成任务等6类）
RULER
9
：长上下文检索能力（ needle-in-a-haystack 类任务）
VideoMME
10
与 LongVideoBench
2
：视频理解（多模态场景，测试30分钟至1小时时长视频）

模型与基线

模型：Llama-3.1-8B-Instruct (128K)、Qwen3-8B（使用YaRN
22
外推至128K）、Qwen3-VL-8B（多模态）
对比基线：FlashAttention-2（全注意力基准）、MInference
4
、FlexPrefill
5
、XAttention
15

2. 主要结果评估

语言建模（PG19）

指标：困惑度下降值 ( Delta PPL) 与加速比 (Speedup)
结果（见图5）：Prism 在所有序列长度（8K至128K）上保持与全注意力几乎一致的困惑度（ DeltaPPL ≈ 0 ），在128K长度下实现 5.1× 加速，显著优于基线（XAttention 为 3.0× ，且存在选择开销瓶颈）

长上下文理解（LongBench）

结果（见表1）：在 Llama-3.1-8B 上平均得分 41.08（全注意力为 41.47），在 Qwen3-8B 上平均得分 39.12（全注意力为 39.49），准确率损失小于 0.4% 。值得注意的是，Prism 在 Qwen3 的少样本学习任务上甚至略超全注意力（58.36 vs 56.69），归因于高频信号的恢复增强了归纳头（Induction Heads）的模式复制能力。

长上下文检索（RULER）

结果（见表2）：在4K至128K长度范围内，Prism 与全注意力的性能差距保持在 1.5% 以内（平均 87.54 vs 88.94 for Llama；85.27 vs 86.61 for Qwen）。实验验证了即使不依赖针对检索优化的令牌级启发式策略（如基线方法使用的末位查询块技巧），Prism 的低频分支仍能有效完成语义检索。

视频理解（VideoMME & LongVideoBench）

结果（见表3）：使用 Qwen3-VL-8B 在 VideoMME 长视频分割（30-60分钟，54K-107K tokens）上，Prism 达到 64.00 分，超过全注意力基线（63.11），验证了稀疏注意力的去噪效应以及对多模态 RoPE 变体（Interleaved M-RoPE）的泛化能力。

3. 效率分析

预填充延迟与加速比

设置：在 H100 GPU 上测试 Llama-3.1-8B-Instruct，序列长度 8K 至 128K
结果（见图6）：Prism 在所有长度下均保持加速，在 128K 达到 5× 加速。相比之下，MInference 和 FlexPrefill 分别仅在 64K 和 32K 以上才超过 FlashAttention，XAttention 在 128K 时因开销增加导致收益递减。

估计开销分解

结果（见图7）：Prism 的块重要性估计延迟在所有长度下最低（128K 时约 9ms），显著优于 XAttention（约 85ms）和基于令牌级估计的基线。内存开销方面，Prism 在 128K 时仅占 FlexPrefill 的约 20%，且随序列长度扩展最为平缓。

4. 消融研究

频谱划分策略（Spectral Division）

发现（见图8）：
仅使用低频带（ d(high)=0, d(low)=96 ）与全维度性能几乎一致，证实高频信息在均值池化中确实被破坏
将高频带限制在理论”死区”（ d_(high)=32 ）会导致性能崩溃，验证了解构性干涉的存在
将高频带扩展至过渡区（ d_(high)=64 ，与低频带重叠）可恢复信号并稳定性能

能量基温度校准的效果

结果（见图9）：与固定温度（ τ=1.0 ）相比，基于能量分布的校准显著改善了困惑度-密度权衡曲线（Pareto frontier）。未校准情况下，高频 logit 幅值过低导致 softmax 分布过于平坦（高熵），Top-P 策略被迫选择大量无关块，造成密度膨胀和效率下降。

Q: 有什么可以进一步探索的点？

基于论文的理论贡献与实验局限，以下几个方向值得进一步探索：

1. 自适应频谱边界与动态块划分

论文采用固定的频谱划分（ d(high)=64, d(low)=96 ）和块大小（ B=128 ）。然而，不同模型架构、不同注意力头乃至不同层可能对频谱的敏感度存在差异（如图3所示各层RMS分布并不均匀）。未来可探索：

头自适应（Head-wise Adaptive）频谱分割：根据各注意力头的固有频率响应动态调整 d(high) 与 d(low) 的边界
内容自适应块大小：结合序列内容的局部相关性强度动态调整 B ，在信号变化剧烈区域使用更细粒度以避免信息损失

2. 与压缩及量化技术的正交结合

Prism 当前聚焦于稀疏化计算图，但未与显存优化技术深度耦合。可探索：

频谱感知的 KV Cache 压缩：利用高频分支对局部位置的敏感特性，设计差异化的 KV Cache 精度分配策略（如高频维度保留 FP16，低频维度量化至 INT8/FP8）
低比特稀疏注意力：将能量校准机制扩展至低精度计算域，验证在 INT8/INT4 近似下的数值稳定性

3. 跨架构与更长上下文的泛化验证

非 RoPE 架构：验证频谱感知方法在 ALiBi、XPOS 或其他无显式旋转编码架构中的适用性，需重新推导相应的位置编码与池化操作的频谱交互
超长上下文（>128K）：当前实验上限为 128K tokens，在 1M+ tokens 的极长序列中，”死区”（Dead Zone）的维度范围可能扩大，需验证现有校准策略的鲁棒性
Encoder-Decoder 与多模态融合架构：论文仅在 Decoder-only LLMs 和视频理解任务中验证，在编码器-解码器架构（如 T5、BART）或混合专家模型（MoE）中的适用性尚待探索

4. 训练阶段的轻量适应（Lightweight Training）

尽管论文强调无训练（training-free）的优势，但轻量级微调可能进一步提升性能：

频谱分支的适配器微调：冻结主模型参数，仅对高频/低频分支的投影层或温度校准参数进行少量步数的微调，以学习任务特定的稀疏模式
端到端可学习的块选择：将 Top-P 选择松弛为可微的软掩码（soft masking），通过梯度下降优化块选择策略，而非依赖启发式能量校准

5. 更细粒度的理论分析与硬件协同优化

替代池化算子的频谱分析：论文聚焦均值池化，可进一步分析 Max Pooling、Learned Pooling 或 Spectral Pooling 与 RoPE 的交互，是否存在无”死区”的聚合算子
专用内核设计：当前基于 Triton 的实现在块级操作已较高效，但针对双分支频谱解耦的计算模式，可设计专用 CUDA kernel 进一步减少内存搬移（如融合切片、池化与矩阵乘法操作），实现更激进的加速

6. 解码阶段（Decoding）的扩展

论文专注于预填充阶段（pre-filling）的加速，而长上下文解码阶段受限于 KV Cache 访问带宽。Prism 的块稀疏掩码生成逻辑可扩展至解码阶段，探索稀疏 KV Cache 检索与**投机解码（Speculative Decoding）**的结合，以解决自回归生成的内存带宽瓶颈。

Q: 总结一下论文的主要内容

该论文针对长上下文大语言模型（LLM）预填充阶段的计算瓶颈，提出了 Prism（Spectral-Aware Block-Sparse Attention）框架。以下是主要内容总结：

1. 核心问题与理论洞察

论文识别出块稀疏注意力中块重要性估计的效率瓶颈：现有方法依赖均值池化（mean pooling）生成粗粒度表示以估计块重要性，但此方法存在理论缺陷。

关键发现：均值池化与旋转位置编码（RoPE）交互时充当低通滤波器（Low-Pass Filter）。在高频维度（编码细粒度相对位置信息），RoPE向量的快速旋转导致破坏性干涉（destructive interference），使得池化后的信号幅度崩溃（ |q^((j))| ≈ 0 ），形成”频谱盲点”（Spectral Blind Spot）。这解释了为何标准方法无法捕捉局部位置结构（如斜线模式），被迫依赖昂贵的令牌级操作进行修正。

2. 方法：Prism 框架

为解决上述问题，Prism 采用频谱解耦与能量校准策略：

双频段块重要性估计：将特征显式划分为高频分支（捕捉局部位置， d(high)=64 ）和低频分支（捕捉全局语义， d(low)=96 ），独立进行均值池化与注意力评分，避免信号干扰。
能量基温度校准：基于池化后表示的 RMS 能量分布，推导无超参数的温度系数 τz ，恢复被衰减的高频信号幅度，使 softmax 分布能够准确识别重要块：
τ_z ≈ √(d_z) / (d) · RMS(barQ_z)RMS(Q(full)) · RMS(barKz)RMS(K(full))
纯块级操作：所有计算（池化、切片、矩阵乘法、Top-P 选择）均在块级别完成，消除令牌级开销。

3. 实验验证

在多种任务和模型上进行了广泛评估：

语言建模（PG19）：在 128K 序列长度下，Prism 实现 5.1× 加速，且困惑度与全注意力持平（ DeltaPPL ≈ 0 ），显著优于 MInference、FlexPrefill 和 XAttention 等基线。
长文本理解（LongBench）与检索（RULER）：准确率损失小于 0.4% ，在部分任务（如少样本学习）上因增强的局部位置感知甚至略超全注意力基线。
视频理解（VideoMME & LongVideoBench）：在 30-60 分钟视频（54K-107K tokens）上表现与全注意力相当或更优，验证了其对多模态 RoPE 变体（Interleaved M-RoPE）的泛化能力。
效率分析：在 H100 GPU 上，Prism 的块选择延迟在 128K 长度下仅约 9ms（XAttention 为 85ms），内存开销为 FlexPrefill 的 20%。

4. 消融研究

频谱划分：验证高频带必须覆盖过渡区（ d(high)=64 ）而非仅理论”死区”（ d(high)=32 ），以有效恢复位置信号；双频段重叠设计起到正则化作用。
校准必要性：无能量校准时，高频信号衰减导致 softmax 分布平坦（高熵），迫使 Top-P 选择过多无关块，效率显著下降。

5. 结论

Prism 通过揭示均值池化的频谱衰减机制，提出了一种无训练、纯块级的稀疏注意力方案，在保持全注意力准确率的同时，实现了高达 5× 的预填充加速，为长上下文和多模态 LLM 的高效推理提供了可扩展的解决方案。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Xinghao Wang,Pengyu Wang,Xiaoran Liu,Fangxu Liu,Jason Chu,Kai Song,Xipeng Qiu

Categories: cs.CL,cs.AI,cs.CV

PDF URL: https://arxiv.org/pdf/2602.08426.pdf

Arxiv URL: https://arxiv.org/abs/2602.08426

Arxiv ID: 2602.08426

CoolPaper URL: https://papers.cool/arxiv/2602.08426

Published: 2026-02-09T09:31:06Z

Updated: 2026-02-09T09:31:06.000Z

9. DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

Recently, Diffusion Large Language Models (dLLMs) have demonstrated unique efficiency advantages, enabled by their inherently parallel decoding mechanism and flexible generation paradigm. Meanwhile, despite the rapid advancement of Search Agents, their practical deployment is constrained by a fundamental limitation, termed as 1) Latency Challenge: the serial execution of multi-round reasoning, tool calling, and tool response waiting under the ReAct agent paradigm induces severe end-to-end latency. Intuitively, dLLMs can leverage their distinctive strengths to optimize the operational efficiency of agents under the ReAct agent paradigm. Practically, existing dLLM backbones face the 2) Agent Ability Challenge. That is, existing dLLMs exhibit remarkably weak reasoning and tool-calling capabilities, preventing these advantages from being effectively realized in practice. In this paper, we propose DLLM-Searcher, an optimization framework for dLLM-based Search Agents. To solve the Agent Ability Challenge, we design a two-stage post-training pipeline encompassing Agentic Supervised Fine-Tuning (Agentic SFT) and Agentic Variance-Reduced Preference Optimization Agentic VRPO, which enhances the backbone dLLM’s information seeking and reasoning capabilities. To mitigate the Latency Challenge, we leverage the flexible generation mechanism of dLLMs and propose a novel agent paradigm termed Parallel-Reasoning and Acting P-ReAct. P-ReAct guides the model to prioritize decoding tool_call instructions, thereby allowing the model to keep thinking while waiting for the tool’s return. Experimental results demonstrate that DLLM-Searcher achieves performance comparable to mainstream LLM-based search agents and P-ReAct delivers approximately 15% inference acceleration. Our code is available at https://anonymous.4open.science/r/DLLM-Searcher-553C

中文摘要

最近，扩散大语言模型（Diffusion Large Language Models, dLLMs）展示了独特的效率优势，这得益于其本质上的并行解码机制和灵活的生成范式。与此同时，尽管搜索代理（Search Agents）发展迅速，但其实际部署受到一个根本性限制的制约，即：1）延迟挑战（Latency Challenge）：在ReAct代理范式下，多轮推理、工具调用和等待工具响应的串行执行会导致严重的端到端延迟。直观上，dLLMs可以利用其独特优势来优化ReAct代理范式下代理的操作效率。实际上，现有的dLLM骨干模型面临着2）代理能力挑战（Agent Ability Challenge），即现有dLLMs的推理和工具调用能力非常弱，使得这些优势无法在实际中有效发挥。本文提出了DLLM-Searcher，一种基于dLLM的搜索代理优化框架。为了解决代理能力挑战，我们设计了一个包含代理监督微调（Agentic Supervised Fine-Tuning, Agentic SFT）和代理方差减少偏好优化（Agentic Variance-Reduced Preference Optimization, Agentic VRPO）的两阶段后训练流程，以增强骨干dLLM的信息搜索和推理能力。为缓解延迟挑战，我们利用dLLMs的灵活生成机制，提出了一种新型代理范式——并行推理与执行（Parallel-Reasoning and Acting, P-ReAct）。P-ReAct引导模型优先解码工具调用（tool_call）指令，从而使模型在等待工具返回时仍能继续思考。实验结果表明，DLLM-Searcher的性能可与主流基于LLM的搜索代理媲美，而P-ReAct可实现约15%的推理加速。我们的代码可在 https://anonymous.4open.science/r/DLLM-Searcher-553C 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文旨在解决**基于扩散大语言模型（dLLMs）的搜索智能体（Search Agents）**在实际部署中面临的两个核心挑战：

1. 延迟挑战（Latency Challenge）

在传统的ReAct（Reasoning and Acting）智能体范式下，搜索智能体采用串行执行模式：模型首先生成思考（think）区域，然后生成工具调用（tool_call）指令，随后暂停生成以等待外部工具返回结果。这种”思考-行动-观察”的串行流程导致：

端到端响应时间被多轮推理、工具调用生成和工具响应等待的累积延迟严重瓶颈
模型在外部工具执行期间处于非活动状态，造成计算资源闲置和用户体验延迟

2. 智能体能力挑战（Agent Ability Challenge）

尽管dLLMs具有并行解码和灵活生成的潜在优势，但现有的dLLM骨干模型在作为搜索智能体时表现出显著的能力缺陷：

推理能力不足：在多跳问答等需要复杂推理的任务上性能明显落后于自回归模型（ARMs）
工具调用格式遵循能力差：难以生成符合严格语法规范的工具调用指令（如JSON格式），经常出现格式错误、特殊令牌使用不当或结构不完整等问题
指令跟随能力弱：缺乏针对智能体工作流的特定对齐，导致在ReAct交互过程中因解析失败而提前终止

解决方案概述

论文提出DLLM-Searcher框架，通过以下方式应对上述挑战：

针对智能体能力挑战：设计两阶段后训练流程（Agentic SFT + Agentic VRPO），增强dLLMs的信息检索、多步推理和工具调用格式遵循能力
针对延迟挑战：提出**P-ReAct（Parallel-Reasoning and Acting）**范式，利用dLLMs的块内双向注意力机制，通过令牌预填充（Token Pre-filling）和置信度偏置（Confidence Biasing）策略，强制模型优先解码工具调用区域，实现”边思考边等待”的并行执行，从而在不牺牲性能的前提下实现约15%的推理加速。

Q: 有哪些相关研究？

根据论文第2节内容，相关研究主要分布在以下两个方向：

1. 扩散大语言模型（Diffusion Large Language Models）

基础扩散语言模型

受离散扩散模型（Discrete Diffusion Models）$
2,5,20,21,42
$启发，扩散大语言模型（dLLMs）作为自回归模型（ARMs）的有前景替代方案涌现：

LLaDA$
22
$：从头训练的8B参数扩散语言模型，性能与LLaMA3-8B相当
Dream7B$
41
$：引入基于AR的LLM初始化和上下文自适应噪声调度的综合训练框架，用于扩展扩散语言模型规模
工业级模型：Gemini Diffusion$
7
、Mercury
10
、Seed-Diffusion
31
$等进一步扩展了dLLMs规模并展示其高效推理潜力

块扩散语言模型（Block Diffusion Language Models, BDLMs）

混合架构成为重要研究焦点，这类模型采用**块内双向注意力（intra-block bidirectional）与块间因果注意力（inter-block causal）**相结合的机制：

SDAR$
6
$：参数规模从1.7B到8B的BDLM系列，支持KV Cache和可变长度文本生成，同时保持块内非自回归生成能力，展现出与最新开源ARMs相当的多任务能力
Fast-dLLM$
38
$：针对BDLM的无训练加速方法，通过启用KV Cache和并行解码提升效率

当前局限

尽管dLLMs在数学等任务上表现优异，但在复杂推理和智能体任务方面仍落后于ARMs，其薄弱的推理能力和指令跟随能力阻碍了作为智能体骨干模型的应用$
1,3,6,37
$。

2. 搜索智能体（Search Agent）

基础架构与范式

RAG集成：将信息检索与LLM集成，使模型能够自主调用工具以提升生成质量并缓解幻觉问题$
8,27
$
ReAct范式$
40
$：采用”思考-行动-观察”（Thought-Action-Observation）的迭代框架，成为搜索智能体的主流操作范式

后训练优化策略

为增强推理与工具调用的协同能力，研究者探索了多种后训练策略：

方法	核心贡献
R1-Searcher [28]	采用SFT+RL两阶段流程，在开源数据集上训练以提升推理和搜索能力
Search-R1 [11]	通过强化学习激励搜索能力
WebSailor [15]	合成更具挑战性的问题以推动模型搜索和推理能力边界
MiroThinker [33]	通过扩展搜索迭代次数实现更优性能

效率瓶颈

现有搜索智能体均遵循ReAct串行执行模式：推理、工具调用和等待工具响应依次进行。这种顺序执行模式迫使模型在外部工具执行期间处于非活动状态，导致延迟成为实际部署的关键瓶颈$
28,40
$。

3. 与本文工作的关系

现有研究存在的 gaps：

dLLMs研究：尚未有工作系统性地将dLLMs适配为搜索智能体骨干，特别是解决其工具调用格式遵循和多步推理缺陷
搜索智能体效率：现有工作均基于ARMs的ReAct范式，未能利用dLLMs的灵活生成机制打破串行执行限制

DLLM-Searcher通过专门针对dLLMs的两阶段后训练流程和P-ReAct并行范式填补上述空白。

Q: 论文如何解决这个问题？

论文提出 DLLM-Searcher 框架，通过两阶段后训练流程与P-ReAct推理范式分别应对智能体能力挑战与延迟挑战。具体解决方案如下：

1. 解决智能体能力挑战：两阶段后训练

针对dLLMs推理能力薄弱、工具调用格式遵循差的问题，设计专门适配dLLM特性的后训练流程，包含Agentic SFT与Agentic VRPO两个阶段。

1.1 Agentic 监督微调（Agentic SFT）

核心目标：使模型掌握基础的信息检索能力、多步推理能力，并严格遵循工具调用格式（如JSON格式）。

关键技术：

Agentic Noising 过程：针对搜索智能体轨迹中同时包含生成内容（think/tool_call）与外部工具返回内容（tool_response）的特点，设计特殊的噪声注入策略。仅对需要学习的生成部分注入噪声，而对tool_response或完全掩码或保留原始内容，防止块内双向注意力导致的信息泄漏。形式化定义为：

qt(y_t | y, x) = prod(i=1)^L q_t(y_t^((i)) | y^((i)), x)

其中对每个token的掩码决策基于其是否属于工具响应区域$
R
$。

Agentic ELBO：改进标准的证据下界（ELBO），仅对生成区域（非tool_response）的掩码位置计算损失：

L(θ)^(block)(y|x) triangleq E(tsim U[0,1], yt sim q)_t(y_t|y,x) [ (1) / (t) ∑(k=1)^K ∑(i=1)^B 1[(y(k,i)^t = [M]) land (y(k,i) ∉ [R])] log pθ(y(k,i) | y_k^t, y(<k), x) ]

数据构建：使用高性能教师模型（如Doubao-Seed-1.8）生成轨迹，经LLM-as-Judge筛选，保留答案正确、推理完整、格式合规的轨迹作为训练数据。

1.2 Agentic 方差缩减偏好优化（Agentic VRPO）

核心目标：在SFT基础上进一步对齐模型行为，强化正确的推理与检索路径，适配P-ReAct范式。

关键技术：

偏好数据构建：使用SFT模型配合P-ReAct进行两轮轨迹采样（rollout），筛选出同一查询下一条正确、一条错误的轨迹对 (Q, H_w, H_l) 。
VRPO 适配：将标准VRPO中的似然项替换为Agentic ELBO估计：

L(VRPO)(θ) triangleq E((x,y_w,y_l)sim D) [ -log σ ( β [ Delta L(y_w|x) - Delta L(y_l|x) ] ) ]

其中 Delta L(y|x) triangleq L(θ)^(block)(y|x) - L(ref)^(block)(y|x) 表示策略模型相对于参考模型的Agentic ELBO优势。

2. 解决延迟挑战：P-ReAct 推理范式

针对ReAct串行执行导致的等待延迟，提出**Parallel-Reasoning and Acting (P-ReAct)**范式，利用dLLMs块内双向注意力和灵活生成顺序的特性，实现”边思考边等待”。

2.1 核心机制

Token 预填充（Token Pre-filling）：

在解码初始阶段，不再使用全掩码序列，而是预填充工具调用的边界token，强制构建结构化骨架：

y_0^((i)) = & if i = pos_s & if i = pos_e [M] & otherwise

其中 pos_s 和 pos_e 分别为工具调用区域的起点和终点索引。

置信度偏置（Confidence Biasing）：

在解码迭代过程中，对位于<tool_call>与</tool_call>之间的token置信度分数添加正偏置 α ，强制提升其解码优先级：

C_i^n = C_i^n + α & if pos_s < i < pos_e C_i^n & otherwise

其中 Ci^n = max(w ∈ V) P_θ(y_i = w | y_n, x) 为标准置信度分数。

2.2 执行流程

P-ReAct将单次迭代内的生成过程重组为：

优先解码：通过预填充和置信度偏置，模型优先完成tool_call区域的解码
即时解析：一旦tool_call内容完整生成，立即解析参数并异步提交给搜索引擎
并行思考：在等待工具响应期间，模型继续解码think区域的剩余token，利用块内双向注意力隐式利用已生成的工具调用上下文进行”潜在推理”

3. 技术实现总结

挑战	解决方案	关键技术
智能体能力	两阶段后训练	Agentic Noising、Agentic ELBO、偏好优化
延迟	P-ReAct范式	Token Pre-filling、Confidence Biasing、块内并行解码

通过上述设计，DLLM-Searcher在保持与主流ARM-based搜索智能体（如R1Searcher）相当性能的同时，实现了约15%的推理加速，且工具调用区域优先解码成功率接近100%。

Q: 论文做了哪些实验？

论文在第5节进行了系统的实验验证，涵盖整体性能对比、组件消融分析与定性案例研究三个层面：

1. 实验设置

1.1 数据集与指标

数据集：四个多跳QA基准
HotpotQA（训练域内）
2WikiMultiHopQA（训练域内）
Musique（训练域内）
Bamboogle（训练域外，用于验证泛化性）
评估指标：
ACC_R ：基于字符匹配的准确率，检查黄金答案是否包含于模型输出
ACC_L ：基于LLM-as-Judge（使用Doubao-seed-1.8）的判断准确率，用于处理模型输出包含额外信息的情况

1.2 对比基线

论文对比了三类方法：

传统RAG方法：SuRe、Selective-Context、Adaptive-RAG、IRCoT、Iter-RetGen、CR-Planner、ReARTeR（基于MCTS的推理时扩展方法）

基于ARM的LLM智能体：

Search-o1（提示工程结合CoT）
Search-R1（强化学习训练）
WebSailor（双工具训练，实验中仅使用search工具）
R1Searcher（本地搜索与Google Search取较高性能）

基于dLLM的智能体：

SDAR（本文骨干模型，无后训练）
Dream、LLaDA（使用Fast-dLLM加速推理）

2. 整体性能实验（表1）

主要发现：

相比传统RAG：DLLM-Searcher平均提升约19%（相比ReARTeR），显著优于所有传统RAG方法
相比ARM-based智能体：性能与R1Searcher等主流方法相当，仅在Musique数据集上略低
相比vanilla dLLM：SDAR基础模型因格式错误完全无法完成ReAct交互（成功率0%），而DLLM-Searcher实现了有效部署
泛化能力：在未见过的Bamboogle数据集上仍保持强劲性能，证明模型学会了检索与推理的有效结合

3. 实证分析（研究问题）

RQ1：后训练流程的有效性（表2、表3）

错误分析（表3）：对vanilla SDAR在500个HotpotQA样本上的失败案例分类：

空输出：31.20%
无tool_call生成：28.40%
think格式错误：17.80%
tool_call格式错误：7.00%

阶段对比（表2）：

Agentic SFT：使模型从完全无法生成有效格式，到获得基础信息检索与推理能力（HotpotQA ACC_R 达57.2%）
Agentic VRPO：进一步提升所有数据集性能（HotpotQA ACC_R 提升至60.4%，平均提升3-5个百分点），验证了偏好优化对推理质量的增强作用

RQ2：P-ReAct的推理效率（图3）

对比DLLM-Searcher在标准ReAct与P-ReAct下的表现：

加速效果：在四个数据集上分别实现14.77%、21.00%、22.08%、12.67%的端到端延迟降低
性能保持：准确率几乎无下降，部分数据集（如Musique）甚至有轻微提升

RQ3：dLLMs无序生成的优势（图4）

对比实验：将ARM（Qwen3-8B、Qwen3-30B-A3B、Qwen3-235B-A22B）通过提示工程强制改为”先生成tool_call，后生成think”的顺序，观察性能变化：

ARMs：强制调整生成顺序导致显著性能下降（准确率降低明显），证明ARMs严重依赖显式解码的think内容来生成高质量tool_call
DLLM-Searcher：P-ReAct在保持相近性能的同时实现加速，甚至在HotpotQA和Musique上略有提升
结论：dLLMs的块内双向注意力使其能够在tool_call解码时利用”潜在推理”（latent reasoning），无需显式生成think文本即可保持工具调用质量，这是ARMs无法实现的特性

4. 案例研究（5.4节）

定性对比：

Vanilla SDAR：生成错误的特殊token（<tool>而非<tool_call>），JSON格式错误
DLLM-Searcher：严格遵循格式，生成完整的think标签与规范的tool_call JSON结构

解码顺序可视化：展示单次P-ReAct迭代的解码时序：在第32个解码步时，tool_call区域已完全解码，而think区域仍保持掩码状态，直至后续步骤才逐步填充，直观验证了”工具优先、思考并行”的行为模式。

Q: 有什么可以进一步探索的点？

基于论文内容与实验结果，以下方向值得进一步探索：

1. 多工具复杂场景扩展

当前DLLM-Searcher主要针对单一搜索工具优化。未来可探索：

多工具协同：集成浏览（visit）、代码执行、数据库查询等多种工具，研究P-ReAct在复杂工具链下的优先级调度策略
工具依赖关系建模：当工具调用存在先后顺序或条件依赖时，如何设计更精细的token预填充策略与置信度偏置机制

2. 隐式推理机制的理论深化

实验观察到dLLMs可在未显式解码think区域时生成高质量tool_call，表明存在潜在推理（latent reasoning）：

深入分析块内双向注意力如何通过隐式状态传递推理信息
量化研究”思考深度”与解码顺序的关系，建立理论框架解释为何优先解码工具调用不会牺牲推理质量

3. 长轨迹与多轮次优化

当前实验主要集中于2-3跳问答：

探索需要10轮以上交互的复杂任务（如深度研究、多步骤数据分析），验证P-ReAct在长时间等待场景下的累积加速效果
研究块大小（block size）与轨迹长度的动态适配机制，而非固定128的块大小

4. 与互补技术的协同优化

P-ReAct实现了约15%的加速，可与其他效率技术叠加：

推测解码（Speculative Decoding）：利用dLLMs的并行解码特性，设计针对工具调用格式的草稿模型
模型压缩：结合量化或剪枝技术，进一步降低dLLMs在智能体场景中的部署成本
自适应解码步数：根据当前迭代复杂度动态调整去噪步数，而非固定128步

5. 跨领域应用验证

验证框架在其他智能体场景的通用性：

代码生成智能体：在需要调用代码执行器或API的场景下，验证格式遵循能力与并行执行优势
多模态智能体：将P-ReAct扩展到需要调用图像生成、视觉识别工具的扩散多模态模型
实时决策系统：探索在延迟敏感场景（如自动驾驶、高频交易）中的应用潜力

6. 训练效率与数据效率提升

当前两阶段后训练依赖大量教师模型轨迹：

探索在线强化学习变体，减少对人类标注或强教师模型的依赖
研究课程学习策略，从简单单跳任务逐步过渡到复杂多跳任务，提高样本效率
开发针对dLLMs的蒸馏方法，将ARM-based搜索智能体的能力高效迁移至dLLMs

7. 混合架构设计

探索dLLMs与ARMs的协同：

分工架构：利用dLLMs处理工具调用（利用其格式鲁棒性和并行性），ARMs负责复杂逻辑推理，通过路由机制动态分配
级联生成：在单轮交互中，先使用dLLMs快速生成工具调用获取信息，再使用ARMs基于检索结果生成最终答案

8. 安全性与可靠性增强

研究P-ReAct优先解码工具调用可能带来的**过早承诺（premature commitment）**风险，即模型在未充分思考时即发起不可逆的工具调用
设计安全回退机制，当置信度偏置导致工具调用质量下降时自动切换回标准ReAct模式

Q: 总结一下论文的主要内容

这篇论文围绕基于扩散大语言模型（dLLMs）的搜索智能体展开，核心内容可概括如下：

1. 研究背景与核心挑战

扩散大语言模型（dLLMs）凭借并行解码机制与灵活生成范式展现出效率优势，但在实际部署为搜索智能体时面临双重挑战：

延迟挑战（Latency Challenge）：传统ReAct范式采用串行执行（思考→工具调用→等待响应），导致模型在外部工具执行期间处于非活动状态，端到端延迟严重。
智能体能力挑战（Agent Ability Challenge）：现有dLLMs缺乏多步推理能力与严格的工具调用格式遵循能力，常出现JSON语法错误、特殊令牌误用等问题，无法完成有效交互。

2. 方法框架：DLLM-Searcher

论文提出DLLM-Searcher优化框架，从训练与推理两个层面解决上述挑战：

2.1 两阶段后训练（解决能力挑战）

Agentic 监督微调（Agentic SFT）：

设计Agentic Noising策略：针对搜索轨迹中生成内容（think/tool_call）与工具返回内容（tool_response）的混合特性，仅对生成区域注入噪声，对工具响应区域完全掩码，防止块内双向注意力导致的信息泄漏。
提出Agentic ELBO：改进证据下界，仅对生成区域的掩码位置计算损失：
L(θ)^(block)(y|x) triangleq E(tsim U[0,1], yt sim q)_t [ (1) / (t) ∑(k=1)^K ∑(i=1)^B 1[(y(k,i)^t = [M]) land (y(k,i) ∉ [R])] log pθ(y_(k,i) | ·) ]

Agentic 方差缩减偏好优化（Agentic VRPO）：

使用SFT模型配合P-ReAct进行双轨迹采样，构建正确/错误轨迹对的偏好数据。
将标准VRPO中的似然估计替换为Agentic ELBO，进一步对齐模型行为：
L(VRPO)(θ) triangleq E((x,y_w,y_l)) [ -log σ ( β [ Delta L(y_w|x) - Delta L(y_l|x) ] ) ]

2.2 P-ReAct 推理范式（解决延迟挑战）

提出**Parallel-Reasoning and Acting (P-ReAct)**范式，利用dLLMs块内双向注意力实现”边思考边等待”：

Token 预填充：在解码初始化时预填充<tool_call>与</tool_call>边界token，构建结构化骨架：
y_0^((i)) = & if i = pos_s & if i = pos_e [M] & otherwise
置信度偏置：对位于工具调用区域内的token置信度分数添加正偏置 α ，强制优先解码：
C_i^n = C_i^n + α & if pos_s < i < pos_e C_i^n & otherwise

通过上述机制，模型优先完成工具调用解码并立即提交执行，同时继续解码思考内容，实现推理与等待的并行化。

3. 实验验证

在四个多跳QA基准（HotpotQA、2WikiMultiHopQA、Musique、Bamboogle）上进行评估：

主要结果：

性能对比：DLLM-Searcher性能比肩主流ARM-based搜索智能体（如R1Searcher），显著优于传统RAG方法（平均提升约19%）与vanilla dLLMs（SDAR基础模型成功率0%）。
效率提升：P-ReAct相比标准ReAct实现约15%的推理加速，且工具调用区域优先解码成功率接近100%。
能力分析：后训练有效解决了格式遵循问题；dLLMs的块内双向注意力使其能在未显式解码思考内容时生成高质量工具调用（潜在推理），而ARMs强制调整生成顺序会导致性能显著下降。

4. 核心贡献

首次系统性地将dLLMs适配为搜索智能体骨干，解决其推理与格式遵循缺陷。
提出P-ReAct训练无关范式，打破ReAct串行执行限制，验证dLLMs在智能体效率优化中的独特优势。
在保持与ARM-based智能体相当性能的同时，实现显著推理加速，为高效搜索智能体部署提供新路径。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Jiahao Zhao,Shaoxuan Xu,Zhongxiang Sun,Fengqi Zhu,Jingyang Ou,Yuling Shi,Chongxuan Li,Xiao Zhang,Jun Xu

Categories: cs.AI,cs.LG

PDF URL: https://arxiv.org/pdf/2602.07035.pdf

Arxiv URL: https://arxiv.org/abs/2602.07035

Arxiv ID: 2602.07035

CoolPaper URL: https://papers.cool/arxiv/2602.07035

Published: 2026-02-03T09:12:08Z

Updated: 2026-02-03T09:12:08.000Z

10. Olaf-World: Orienting Latent Actions for Video World Modeling

Scaling action-controllable world models is limited by the scarcity of action labels. While latent action learning promises to extract control interfaces from unlabeled video, learned latents often fail to transfer across contexts: they entangle scene-specific cues and lack a shared coordinate system. This occurs because standard objectives operate only within each clip, providing no mechanism to align action semantics across contexts. Our key insight is that although actions are unobserved, their semantic effects are observable and can serve as a shared reference. We introduce Seq$Δ$-REPA, a sequence-level control-effect alignment objective that anchors integrated latent action to temporal feature differences from a frozen, self-supervised video encoder. Building on this, we present Olaf-World, a pipeline that pretrains action-conditioned video world models from large-scale passive video. Extensive experiments demonstrate that our method learns a more structured latent action space, leading to stronger zero-shot action transfer and more data-efficient adaptation to new control interfaces than state-of-the-art baselines.

中文摘要

可控动作世界模型的扩展受到动作标签稀缺的限制。虽然潜在动作学习有望从未标注的视频中提取控制接口，但学习到的潜在变量往往无法跨情境迁移：它们会将场景特定的线索纠缠在一起，并且缺乏共享的坐标系。这是因为标准目标函数只在每个视频片段内运作，没有提供机制来跨情境对齐动作语义。我们的核心洞察是，尽管动作不可观测，其语义效果是可观测的，并且可以作为共享参考。我们提出了 Seq$Δ$-REPA，一种序列级的控制效果对齐目标，它将集成的潜在动作固定在冻结的自监督视频编码器输出的时间特征差异上。在此基础上，我们提出了 Olaf-World，这是一条从大规模被动视频中预训练动作条件视频世界模型的管线。大量实验表明，我们的方法学习到了更结构化的潜在动作空间，从而实现了更强的零样本动作迁移能力，并比最先进的基线方法更高效地适应新的控制接口。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决潜在动作学习（Latent Action Learning）中的跨上下文转移失败问题，即从无标签视频中学习到的潜在动作（latent actions）无法在视觉环境发生变化时保持一致的语义含义。

具体而言，论文识别并针对以下两个关键挑战：

捷径学习（Shortcut Learning）与上下文泄漏

逆动力学编码器（inverse-dynamics encoder）往往依赖与上下文相关的视觉线索（如场景外观、光照、布局等）而非底层可控的物理原因来推断潜在动作
这导致学习到的潜在动作与特定场景的表象纠缠，而非编码可转移的控制语义

跨上下文不可识别性（Cross-Context Non-Identifiability）

标准的逐步重建目标（step-wise reconstruction objectives）仅在单个视频片段内操作，缺乏跨片段对齐动作语义的机制
因此，潜在空间缺乏共享的坐标系：相同的语义动作（如”向前移动”）在不同环境中可能映射到潜在空间的不同方向，破坏了跨环境迁移能力

核心后果：现有方法无法建立一个共享的、与视觉上下文无关的控制接口（shared control interface），导致：

零样本（zero-shot）动作转移失败
适应新控制接口时需要大量标注数据
对未见场景的泛化能力受限

为解决上述问题，论文提出Seq∆-REPA方法，通过将潜在动作轨迹与冻结自监督视频编码器提取的语义效果方向（temporal feature differences）对齐，强制实现跨上下文一致的动作语义，并基于此构建Olaf-World框架，实现从大规模被动视频中预训练动作可控的视频世界模型。

Q: 有哪些相关研究？

根据论文第2节内容，相关研究可分为以下三个方向：

2.1 从视频中学习潜在动作（Learning Latent Action from Videos）

潜在动作模型（Latent Action Models, LAMs）旨在从无标签视频中推断潜在控制信号，其应用主要包括：

统一控制接口：用于交互式世界模型（如Genie、AdaWorld等）
跨具身策略学习：作为机器人策略学习的动作表示，桥接不同具身形态之间的差距
离线强化学习：实现仅基于观察数据的离线RL

技术路线：

模型架构：大多数LAMs采用逆动力学编码器（从观察转换 (xi, x(i+1)) 推断潜在动作 z_i ）结合前向解码器（基于重建或预测目标训练）
表征形式：包括离散（VQ-based）和连续潜在参数化两种方案

现有局限：

局部基于转换的目标对干扰因素（nuisance factors）和动作相关干扰物敏感，易导致捷径学习（shortcut learning）
现有方法通过施加潜在空间约束或设计强调运动而非像素外观的目标来缓解此问题，但这些方法仅在孤立片段上操作，无法强制潜在动作语义在不同环境间保持一致

2.2 视频世界模型（Video World Model）

世界模型预测未来观察，支持游戏、机器人、自动驾驶等领域的规划或交互式模拟。

依赖显式动作信号的方法：

大多数动作可控视频世界模型依赖从交互式游戏引擎（如Unreal Engine、Minecraft）收集的显式控制信号（帧级键盘/鼠标输入）
优势：产生强可控性
局限：将模型绑定到特定动作模式和数据收集流程，难以泛化到新控制接口

潜在动作世界模型：

直接从视频推断控制接口，无需真实动作标签即可实现交互（如Genie、AdaWorld、Garrido et al., 2026等）
关键瓶颈：其可控性和转移能力最终取决于学习到的潜在动作空间在不同上下文中是否语义一致，这正是本文要解决的核心问题

2.3 表征对齐（Representation Alignment）

对齐方法通过将生成模型的内部特征与大型自监督编码器匹配，以提高语义保真度和训练效率：

图像生成：最初专注于空间特征对齐（如REPA等）
视频扩展：近期工作纳入时间结构，将视频生成器的内部状态与预训练视频编码器对齐（如VideoREPA、MoAlign等）
目标：主要改进生成器的内部状态表示以实现更高质量合成（特征到特征对齐）

本文差异：

使用预训练时空编码器（如V-JEPA2）作为参考，通过匹配语义效果（特征差异 Delta y ）来监督潜在动作
实现控制到效果对齐（control-to-effect alignment），而非单纯的特征到特征对齐

Q: 论文如何解决这个问题？

论文通过提出 Seq∆-REPA（Sequence-level Delta REPresentation Alignment）方法和构建 Olaf-World 框架来解决跨上下文潜在动作学习问题。具体解决方案分为两个阶段：

3.1 学习可转移的潜在动作空间（Seq∆-REPA）

核心洞察：虽然显式动作标签不可用，但控制的语义效果在视频中被观测为时间特征差异，且该差异在不同上下文中具有可比性。

方法实现：

效果方向提取（共享参考）
利用冻结的自监督视频编码器（如 V-JEPA2 ViT）提取每帧特征 si ∈ R^D 。定义片段的效果方向为特征变化的净方向：
τ^* = (1) / (K)∑(i=0)^(K-1)(s_(i+1) - s_i) ∈ R^D
该时序差异自然抑制空间细节、强调动态变化，对视觉上下文变化具有稳定性。
潜在动作聚合与投影
逆动力学编码器推断潜在动作序列 z(0:K-1) ，通过平均池化聚合后投影到编码器特征空间：
z = (1) / (K)∑(i=0)^(K-1)z_i, quad u = h_psi(z) ∈ R^D
控制到效果对齐
通过余弦相似度将聚合的控制方向 u 与效果方向 τ^ 对齐：
L(Seq)Delta-REPA = 1 - langle norm(u), norm(τ^_) rangle
联合训练目标
结合标准 β -VAE 重建目标与对齐损失：
L(LAM) = L(VAE) + λ L(Seq)Delta-REPA
其中 L(VAE) 确保潜在动作能解释像素级转移，而 L_(Seq)Delta-REPA 强制跨上下文语义一致性。

3.2 Olaf-World：动作感知的视频世界模型预训练

基于对齐的潜在动作空间，构建两阶段流程：

阶段一：动作感知预训练

使用冻结的 LAM 从大规模被动视频中提取潜在动作序列 z_(0:T-1)
基于预训练的图像到视频扩散 Transformer（DiT）构建世界模型
将每帧潜在动作线性投影并融合到扩散时间步嵌入，通过 AdaLN-Zero 调制各 DiT 块
采用标准流匹配目标（flow-matching objective）训练，使模型学会在给定潜在动作条件下预测未来帧

阶段二：特定世界适应
当目标环境提供显式动作标签 a_t 时：

学习轻量级动作适配器 A_eta （对离散动作可实现为嵌入表 E ∈ R^(|A|× d_z) ），将环境动作映射到预训练潜在空间： z_t = A_eta(a_t)
使用类别原型初始化嵌入表：对每类动作运行冻结 LAM 并取平均潜在动作
仅微调适配器与低秩适配（LoRA，秩 16）参数，实现数据高效适应（例如仅需 1 分钟标注数据）

通过上述设计，潜在动作空间获得全局坐标系，确保相同语义动作在不同视觉上下文中映射到一致的潜在方向，从而实现可靠的跨上下文零样本转移与高效适应。

Q: 论文做了哪些实验？

论文在第4节及附录中开展了系统性实验，围绕三个研究问题（RQ）展开：

4.1 实验设置

数据集：预训练使用 MiraData（3D Rendering 和 City Walking 类别）；适应与评估使用 MIND（包含 First-Person 1ST-P 和 Third-Person 3RD-P 两个不同视角/场景子集，共享8维动作空间）
基线：AdaWorld（SOTA 潜在动作世界模型），采用相同主干、数据与训练预算以确保公平比较
评估指标：
潜在空间结构：线性探测 F1 分数、跨域原型余弦相似度
世界模型质量：VBench（图像质量、时间一致性）、RPE（相对位姿误差，衡量动作跟随精度）

4.2 潜在空间诊断（RQ1：结构）

4.2.1 跨上下文线性探测

训练线性分类器从潜在动作 z_t 预测8个原子动作，并在不同域间零样本迁移：

同域评估（1ST-P→1ST-P 或 3RD-P→3RD-P）：验证线性可分性
跨域评估（1ST-P↔3RD-P）：验证上下文不变性

结果：Seq∆-REPA 显著提升了同域和跨域的 Macro-F1 分数，尤其在更具挑战性的 3RD-P 域上，AdaWorld 饱和于低 F1 而本文方法保持较高性能。

4.2.2 跨上下文动作一致性

计算两个域中各类动作原型（类中心）的余弦相似度矩阵。理想情况下矩阵应对角线主导（同动作跨域相似度高）。

结果：AdaWorld 的相似度矩阵呈现高相似度遍布（不同动作间混淆），而本文方法矩阵更显对角主导，表明潜在动作语义在视角和外观变化下保持一致。

4.3 零样本动作转移（RQ2：转移）

将参考视频中的潜在动作序列提取后，零样本应用于不同目标上下文的初始帧，检验是否能在保持目标外观的同时复现参考运动。

结果：AdaWorld 在转移时出现时间退化、主体消失、轨迹漂移等问题；Olaf-World 能更好地保持场景和主体一致性，同时忠实执行目标运动。

4.4 世界模型适应（RQ3：适应）

4.4.1 数据高效适应

使用不同规模的标注数据（0、1、50 个视频，对应约 0、1 分钟、2 小时）适应到目标控制接口，比较：

DirectAct：直接在真实动作上训练
AdaWorld：基于 β-VAE 的潜在动作预训练
Ours：基于 Seq∆-REPA 的潜在动作预训练

结果：

Olaf-World 在所有数据预算下均实现最低的 RPE-trans 和 RPE-rot，表明动作跟随最忠实
在极低数据（1 视频）下优势尤为明显，表明对齐的潜在空间更易于适应
视觉质量（VBench）与基线相当

4.4.2 对未见过上下文的泛化

使用完全适应的模型（50 视频，1ST-P 动作空间）在包含多样化风格（油画、动漫等）和场景的 OOD 测试集上评估。

结果：Olaf-World 在未见视觉上下文中保持最低 RPE，表明潜在动作预训练提升了 OOD 鲁棒性，而非过拟合于适应阶段的视觉特征。

4.5 消融研究

验证 Seq∆-REPA 的关键设计：

w/o Δ：对齐静态特征 s_i 而非效果方向 Delta s ，导致上下文相关空间线索泄漏，跨域探测性能显著下降
w/o norm：移除 L2 归一化并使用 MSE 损失，使对齐对特征幅度敏感，跨域稳定性降低

附录补充实验

数据预算扩展：在 {0,1,3,5,10,25,50} 视频上验证适应 scaling 曲线，显示在低数据区间提升最显著
LoRA 秩消融：在固定 50 视频预算下测试秩 {16,32,64,128,256} 及全参数微调，表明更高容量持续提升控制精度而视觉质量稳定
失败案例分析：展示控制-物理冲突（碰撞避免导致的场景变化）、大区域揭示退化、事件级语义歧义等局限

Q: 有什么可以进一步探索的点？

根据论文第5节及附录F，以下方向值得进一步探索：

1. 潜在动作空间的结构增强

替代对齐目标与效果表征
当前采用简单的余弦相似度对齐潜在动作与特征差异方向。探索更鲁棒的效果目标（如更高阶的时空特征变化）和更精细的对齐形式（如对比学习或最优传输），可能进一步提升跨域一致性和潜在空间的结构化程度。

层次化潜在动作（技能抽象）
现有方法在帧级（16 FPS）学习逐步潜在动作。构建层次化表征——将短程控制组合为长程”技能”（skills）——可能改善长程视频生成的稳定性，支持多速率控制，并为下游决策提供更清晰的接口（如高层策略输出技能、低层策略执行动作）。

2. 物理规则与多实体交互

物理约束的可转移性
将效果对齐的潜在动作与物理规则结合，确保转移的轨迹在视觉忠实度和物理合理性上同时成立。具体包括：

通过后训练引入可验证的运动学奖励（如牛顿加速度、碰撞一致性）
扩展到接触丰富的交互（如物体操作），超越当前以导航为主的场景

多实体动态与因子化控制
Seq∆-REPA 目前用单一信号总结观测变化，可能混淆自我运动、可控主体运动、其他实体行为及环境事件。探索因子化控制——将效果分解为自我（ego）、他人（others）与环境（environment）——可提升可解释性，并支持更复杂的多实体可控世界建模。

3. 规划与推理应用

潜在动作空间中的规划
当前潜在动作主要用于迁移和适配。下一步可直接在潜在动作空间内进行想象式搜索或轨迹优化，利用世界模型进行前向模拟，实现基于模型的强化学习规划。

从视觉思维链到潜在动作轨迹
近期研究表明稀疏关键帧或”思维”提示可提升长程视频生成的一致性。将潜在动作序列作为紧凑的动态轨迹（替代密集帧级视觉思维链），研究其如何支持动作与事件的评估、编辑和高层推理，可能提供更高效、低冗余的推理接口。

4. 跨具身迁移与机器人学

具身无关的技能迁移
效果对齐的潜在动作可作为可转移技能（transferable skills），通过具身特定的动作-技能适配器（如人类视频→机器人执行）桥接不同具身形态。这需要构建从特定具身动作到通用潜在技能的轻量级映射，实现跨域模仿学习。

5. 当前局限性的突破

事件级语义转移
当前方法在处理隐含事件的动作（如”角色从左侧进入”）时存在歧义：模型可能将其解释为相机漂移而非对象进入。未来需发展更丰富的事件级控制语义，明确指定对象身份与交互类型。

大区域揭示与视觉一致性
当动作导致大面积新内容揭示（如快速缩放、大角度转向）时，生成区域可能出现模糊或不一致。改进视频生成器的长程记忆与上下文保持能力，或结合显式的场景几何表征，可缓解此问题。

Q: 总结一下论文的主要内容

本文提出 Olaf-World，一种通过 Seq∆-REPA（Sequence-level Delta REPresentation Alignment）学习可迁移潜在动作（latent actions）的视频世界模型预训练框架，旨在解决无标签视频学习中潜在动作的跨上下文不可识别性问题。

核心问题

从大规模被动视频（无动作标注）中学习潜在动作时，现有方法面临两个关键局限：

跨上下文不可识别性（Cross-Context Non-Identifiability）：局部重建目标仅在单个视频片段内优化，缺乏跨片段对齐机制，导致潜在空间缺乏共享坐标系。相同语义动作（如”向前移动”）在不同视觉上下文（场景、视角、光照）中可能映射到潜在空间的不同方向，破坏跨环境迁移能力。
捷径学习（Shortcut Learning）：逆动力学编码器倾向于编码与上下文相关的视觉线索（如特定场景外观）而非底层控制语义，导致潜在动作与场景表象纠缠。

方法：Seq∆-REPA

基于”控制的语义效果虽不可直接观测，但其在视频中的时序特征差异可被观测”的洞察，提出序列级控制-效果对齐目标：

效果方向提取：利用冻结的自监督视频编码器（如 V-JEPA2）提取每帧特征 si ，计算片段的净效果方向：
τ^* = (1) / (K)∑(i=0)^(K-1)(s_(i+1) - s_i) ∈ R^D
时序差异 Delta s 自然抑制静态外观、强调动态变化，对视觉上下文变化具有稳定性。
潜在动作对齐：将推断的潜在动作序列 z(0:K-1) 聚合并投影到特征空间：
z = (1) / (K)∑(i=0)^(K-1)zi, quad u = h_psi(z)
通过余弦相似度对齐控制方向 u 与效果方向 τ^ ：
L(Seq)Delta-REPA = 1 - langle norm(u), norm(τ^) rangle
联合训练：结合 β -VAE 重建目标与对齐损失，强制潜在动作既解释像素级转移，又保持跨上下文语义一致性。

框架：Olaf-World

两阶段流程构建动作可控视频世界模型：

预训练：使用冻结 LAM 从大规模被动视频提取潜在动作，训练基于 DiT 的扩散视频生成模型，将潜在动作作为统一控制接口注入模型。
适应：在目标环境中，通过轻量级适配器（如嵌入表）将显式动作映射到预训练潜在空间，仅微调适配器与 LoRA 参数即可实现数据高效适应（例如仅需 1 分钟标注数据）。

实验验证

在 MiraData 预训练、MIND（1ST-P/3RD-P 双域）评估的实验表明：

潜在空间结构：Seq∆-REPA 显著提升跨域线性探测 F1 分数，动作原型余弦相似度矩阵呈现对角主导特性，证明潜在动作语义在视角/外观变化下保持一致。
零样本转移：提取的潜在动作序列可直接应用于新上下文，在保持目标外观的同时忠实复现参考运动，显著优于基线的轨迹漂移与主体消失问题。
数据高效适应：在 0、1、50 个视频（约 0、1 分钟、2 小时）的适应预算下，Olaf-World 均实现最低的相对位姿误差（RPE），尤其在极少标注数据时优势显著。
泛化能力：对未见风格（油画、动漫）和场景的测试集，模型保持最佳控制精度，表明潜在动作预训练提升 OOD 鲁棒性。

主要贡献

形式化分析了潜在动作学习中的跨上下文不可识别性，揭示局部重建目标无法保证全局坐标系一致性的本质局限。
提出 Seq∆-REPA，通过将潜在动作锚定到自监督视频表征的时序差异，首次实现序列级控制-效果对齐，强制跨上下文语义一致。
构建 Olaf-World 框架，实现从被动视频到可迁移动作可控世界模型的预训练，支持零样本动作转移与分钟级数据适应新控制接口。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yuxin Jiang,Yuchao Gu,Ivor W. Tsang,Mike Zheng Shou

Categories: cs.CV,cs.AI,cs.LG

PDF URL: https://arxiv.org/pdf/2602.10104.pdf

Arxiv URL: https://arxiv.org/abs/2602.10104

Arxiv ID: 2602.10104

CoolPaper URL: https://papers.cool/arxiv/2602.10104

Published: 2026-02-10T18:58:41Z

Updated: 2026-02-10T18:58:41.000Z

11. Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user’s intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.

中文摘要

我们研究了基于指令的图像编辑在专业工作流程下的应用，并确定了三个持续存在的挑战：(i) 编辑器往往会过度编辑，修改超出用户意图的内容；(ii) 现有模型大多是单轮的，而多轮编辑可能会影响对象的忠实度；(iii) 在约1K分辨率下进行评估与实际工作流程不一致，而实际工作流程往往在超高清图像（如4K）上操作。我们提出了 Agent Banana，一种用于高保真、对象感知、深思熟虑编辑的分层代理规划执行框架。Agent Banana 引入了两个关键机制：(1) 上下文折叠：将长交互历史压缩为结构化记忆，以实现稳定的长程控制；(2) 图像层分解：进行局部的基于图层的编辑，以在保留非目标区域的同时实现原生分辨率输出。为了支持严格评估，我们构建了 HDD-Bench，一个高分辨率、基于对话的基准，具有可验证的逐步目标和原生4K图像（1180万像素），用于诊断长程失败。在 HDD-Bench 上，Agent Banana 在多轮一致性和背景保真度方面表现最佳（如 IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12），同时在指令遵循上保持竞争力，并在标准单轮编辑基准上也取得了强劲表现。我们希望这项工作能够推动可靠的专业级代理图像编辑及其在实际工作流程中的应用。

LLM Analysis

Q: 这篇论文试图解决什么问题？

该论文针对**基于指令的图像编辑（instruction-based image editing）**在 professional workflows 中面临的系统性挑战，主要试图解决以下核心问题：

1. 过度编辑与局部保真度缺失

现有生成式编辑器常在执行编辑时修改超出用户意图的区域（over-editing），无法精确限制修改范围至目标对象，导致非目标内容（背景、无关物体）被意外改变或退化。

2. 多轮交互中的状态漂移与一致性崩溃

现有模型多为单轮交互（single-turn）设计，而在实际专业工作流中，用户通常需要进行多轮、逻辑依赖的序列编辑（multi-turn editing）。随着编辑轮次增加，模型难以：

保持跨轮次的一致性（object faithfulness across turns）
避免错误累积（error accumulation）
支持状态回溯与重规划（rollback and replanning）

3. 分辨率 misalignment 与细节退化

现有基准与模型通常在约1K分辨率下评估与运行，而真实专业工作流（摄影、VFX、平面设计）直接操作原生超高清资产（4K及以上，如11.8M像素）。这导致：

下采样-上采样过程中的高频纹理丢失
全图重采样引起的逐轮细节劣化（iterative degradation of fine details）

4. 长程上下文管理瓶颈

在多轮编辑中，代理需持续基于完整交互历史（文本+视觉）进行条件判断，导致：

上下文长度指数爆炸（context overflow），超出LLM上下文限制
推理噪声累积，历史信息中的无关细节干扰后续决策

5. 缺乏可验证的逐步评估机制

现有基准多为单轮或弱依赖设计，缺乏逐轮可验证的中间状态监督（stepwise verifiable targets），难以诊断长程失败模式（如 Prior-Induced Editing Drift, PIED）。

为系统性解决上述问题，论文提出 Agent Banana 框架，通过分层代理架构（Planner-Executor）、**上下文折叠（Context Folding）机制与图像层分解（Image Layer Decomposition, ILD）**技术，实现高保真、对象感知、可回滚的原生分辨率编辑；并构建 HDD-Bench 基准，提供4K原生分辨率、逻辑依赖的多轮编辑评估环境。

Q: 有哪些相关研究？

该论文在第5节”Related Work”中系统梳理了相关研究，主要分为以下两个方向：

5.1 基于指令的图像编辑（Instruction-based Image Editing）

扩散模型与自回归基础模型驱动的方法：

GLIDE
31
：基于文本引导的扩散模型实现照片级真实感图像生成与编辑
InstructPix2Pix
3
：学习遵循图像编辑指令，实现零样本图像到图像转换
MagicBrush
53
：人工标注的指令引导图像编辑数据集与基准
Prompt-to-Prompt
13
：通过交叉注意力控制实现图像编辑，无需重新训练模型
UltraEdit
58
：大规模基于指令的细粒度图像编辑框架

交互式与多轮编辑系统：

GPT-Image-1
33
和 Nano Banana
8
：新兴的交互式、上下文感知多轮编辑系统，标志着从单轮向多轮交互的转变

细粒度控制与局部分解技术：

注意力操作：通过操纵扩散模型中的交叉注意力层实现语义控制
13
基于Mask的修复（Mask-based inpainting）：如 Blended Diffusion
2
、DiffEdit
6
，通过掩码引导实现局部编辑
自动区域检测：自动识别编辑目标区域的方法
6
分层分解（Layer Decomposition）：将场景分解为对象特定层以实现精确局部编辑，如
30, 48, 41
等方法探索了无监督或生成式图像层分解

5.2 用于图像编辑的代理系统（Agentic Systems for Image Editing）

基础代理范式与协议：

ReAct
49, 50
：推理与行动协同的范式，通过迭代”思考-行动”循环实现任务求解，为代理系统奠定框架基础
MCP (Model Context Protocol)
29
：Anthropic提出的模型上下文协议，统一LLM与外部工具的通信接口，提升工具编排的标准化与可扩展性

视觉-语言模型（VLM）驱动的代理系统：

闭环自适应框架：在视觉与学习领域长期探索的感知-决策-行动范式
37, 7, 39, 61, 24, 5
CogAgent
15
、UI-TARS
36
、OS-Atlas
46
、Aguvis
47
：展示VLMs作为规划器在GUI交互与视觉任务中的能力

图像/视频修复与增强代理：

AgenticIR
60
和 MoA-VR
25
：独立提出集成VLM的多代理修复范式，用于图像或视频恢复
JarvisIR
21
：面向自动驾驶感知的智能图像修复代理
JarvisArt
22
：面向艺术照片修饰的智能代理
4KAgent
62
：面向4K超分辨率的代理系统
JarvisEvo
23
：具有自进化能力的照片编辑代理，通过编辑器-评估器协同优化

与Agent Banana的关联： 论文强调现有工作多聚焦于单轮编辑或特定修复任务，而Agent Banana首次将分层代理架构（Planner-Executor分离）、上下文折叠机制与原生4K分辨率层分解编辑相结合，填补了专业工作流中长期存在的多轮高保真编辑空白。

Q: 论文如何解决这个问题？

论文通过提出 Agent Banana 框架与 HDD-Bench 基准，从系统架构、记忆机制、执行策略与评估协议四个维度系统性解决上述挑战：

1. 分层代理架构：Planner–Executor 分离

针对复杂请求的意图理解与原子化执行之间的张力，Agent Banana 采用 hierarchical multi-agent 设计：

Planner（规划器）：负责全局意图解读、将复杂指令分解为可执行的子目标（sub-goals），并监控整体进度。其通过维护图像状态图（image state graph）实现跨轮次的状态追踪与回滚决策。
Executor（执行器）：负责调用工具在局部区域执行原子编辑操作，包含质量自检机制（Quality Test）。若编辑结果未通过验证，Executor 可触发重试或回滚，形成闭环控制。

这种分离使系统既能进行长程目标推理，又能执行细粒度视觉操作，避免单一模型在高层规划与低层像素操作之间的能力冲突。

2. 上下文折叠（Context Folding）：长程记忆压缩

为解决多轮交互中的上下文溢出与历史噪声问题，论文提出 Context Folding 机制，将原始高维交互历史压缩为三级结构化记忆：

Asset Level（ImageContext）：以图节点形式存储图像状态，包含唯一标识符（URI）、VLM 生成的语义描述、父节点 URI 及变换类型。通过文本化的图表示，以最小上下文开销追踪完整的图像演化历史。
Execution Level（ToolContext）：作为执行器的瞬态工作记忆，记录单步原子操作的工具选择、参数配置与中间推理过程（Thought）。任务完成后，这些试错细节被“折叠”丢弃，防止执行噪声进入长期记忆。
Planning Level（ActionContext）：每轮用户交互后的持久记忆，仅保留经 Planner 验证的有效编辑路径（高层意图与关键 ImageContext 序列）。这是对 ToolContext 的语义压缩，丢弃过程性工具调用细节，保留高层任务语义与结果状态。

通过层级抽象与选择性记忆，Agent Banana 在数十轮交互后仍能保持清晰的认知 grasp，避免超出 LLM 上下文限制。

3. 图像层分解（Image Layer Decomposition, ILD）：局部高保真编辑

针对过度编辑、迭代退化与原生 4K 分辨率需求，论文提出 ILD 机制，采用“分解-编辑-融合”（decompose-edit-fuse）的局部处理范式：

动态对象感知掩码（Dynamic Object-aware Masking）：精确锁定目标区域，将其从原生高分辨率图像中无损裁剪为独立层（layer patch）。
局部坐标系编辑：所有生成式编辑仅在层补丁的局部坐标系内进行，冻结背景区域像素状态，避免全图重采样导致的非目标区域退化。
高斯融合（Gaussian Blending）：编辑完成后，将更新后的补丁无缝融合回原图，保持边缘一致性。

由于仅处理局部补丁，该机制天然支持超越模型原生分辨率限制的超高清晰度编辑（如 4K/11.8M 像素）。

基于 ILD，系统定义了五种原子操作构成动作空间：

replace ：基于修复技术替换目标层内容，保持边缘一致
remove ：消除目标层并使用背景补全算法填充
add ：在指定位置生成新层并执行层叠加
adjust ：对目标层应用属性变换（如色彩校正、风格迁移），不改变几何结构
undo ：基于 Context Folding 维护的状态图快速回滚至先前图像状态节点

4. HDD-Bench：可验证的多轮高分辨率基准

针对评估 misalignment与缺乏逐步监督的问题，论文构建 HDD-Bench（High-Definition, Dialogue-based benchmark）：

符号状态引擎（Symbolic Data Engine）：将编辑轨迹建模为属性级状态转移。对于每张输入图像，构建初始场景状态 s0 （包含显著对象及其属性：名称、颜色、大小、材质、形状）。每轮编辑指令通过确定性转移算子 T 更新状态：
s(t+1) = T(s_t, c_t)
其中 c_t 为规范编辑命令。该设计将交互合成与图像生成解耦，无需像素级标注即可生成可验证的中间目标状态 s_1, s_2, … 。
语言代理改写：由语言代理将规范命令 ct 改写为自然语言指令 q_t ，可混合多意图（如同时添加对象并改变另一对象颜色），但保留 c_t 与 s(t+1) 作为内部真值。
图基评估协议（Graph-based Evaluation）：
状态级指标：通过感知管道将生成图像映射为预测状态 s_t ，与真值 s_t 对比计算：
Instruction Following (IF)：目标对象属性是否与请求编辑匹配
Image Consistency (IC)：非目标对象是否跨轮次保持不变
Otsu-Masked 背景保真度：计算预编辑与后编辑图像的像素级差异图，应用 Otsu 阈值分割获取自适应背景掩码 M(bg) ，仅在该掩码上计算 PSNR(OM) 、 SSIM(OM) 、 LPIPS(OM) ，从而隔离非编辑区域的保持质量。

5. 先验诱导编辑漂移（PIED）的识别与抑制

论文进一步识别了多轮编辑中的隐蔽失效模式 Prior-Induced Editing Drift (PIED)：即使每轮编辑视觉上高度真实，所谓“未编辑”区域（实际被反复重生成）会随轮次逐渐向生成器的偏好纹理与风格统计量漂移。通过对比实验发现，基线模型的 PSNR(OM) 随轮次上升（因 Otsu 分区错误地缩小了背景变化区域），而 Agent Banana 通过 ILD 的局部处理保持 PSNR(OM) 几乎恒定，有效抑制了漂移累积。

综上，Agent Banana 通过分层代理架构实现复杂任务的分解与验证，通过Context Folding实现长程状态追踪，通过ILD实现像素级精确的局部高分辨率编辑，并通过HDD-Bench提供可诊断的评估环境，系统性 bridging the gap between current generative editors and professional workflows。

Q: 论文做了哪些实验？

论文在第4节”Experiments”中开展了系统性实验验证，涵盖多轮/单轮编辑性能、消融研究、原生分辨率分析及失效模式诊断：

4.1 实验设置

基础模型：采用 GPT-5-mini 作为 Planner 与 Executor 的底层 LLM
工具集：集成开源与私有视觉模型（包括 Nano Banana Pro 等）构建生成与编辑工具集，使用 GPT-5-mini 进行视觉验证
对照设置：当使用 Nano Banana Pro 作为底层图像模型时，确保增益来源于代理架构（分解、掩码、验证）而非生成器权重变化

4.2 多轮编辑性能（HDD-Bench）

在 HDD-Bench（原生4K分辨率，3轮交互）上与代表性模型对比：

对比模型	类型	关键指标表现
FLUX.1 Kontext [Pro]	商业闭源	IF 0.845, IC 0.702, 不支持原生4K
Nano Banana Pro	基座模型	IF 0.911, IC 0.861, 支持4K
GPT Image 1 [High]	商业API	IF 0.882, IC 0.727, 不支持原生4K
Agent Banana (Ours)	本文方法	IC 0.871 (最佳), SSIMOM 0.84, LPIPSOM 0.12, 支持4K

关键发现：

Agent Banana 在多轮一致性 (IC) 和背景保真度（PSNROM 28.40, SSIMOM 0.84）上达到 SOTA
仅 Agent Banana 与 Nano Banana Pro 能维持原生4K处理能力，其余基线需下采样至1K后上采样，导致细节丢失
在保持高保真度的同时，指令遵循 (IF 0.849) 与商业模型相当

4.3 单轮编辑性能（ImgEdit-Bench）

在 ImgEdit-Bench 上验证原子编辑能力：

在 Add (4.58)、Adjust (4.59)、Replace (4.62)、Remove (4.60) 四项任务上均达到领先或可比水平
证明尽管架构专为复杂规划而设计，在处理原子指令时仍保持 SOTA 精度，归因于 Executor 的精确工具参数控制与 Quality Test 自验证机制

4.4 消融研究

基础 LLM 能力敏感性：

将 Planner 与 Executor 的骨干模型替换为 Qwen-3-8B（较小规模）
观察结果：弱基础模型在处理模糊指令与长序列规划时显著退化，频繁生成不可解析的工具参数或错误依赖关系，导致工作流中断
结论：鲁棒的推理能力是处理复杂多轮编辑任务的先决条件

4.5 原生分辨率编辑分析

定性对比（图5）：

输入分辨率： 2716 × 4060 （4K级别）
基线（Nano Banana Pro）：全局编辑导致未目标区域（如沙发垫纹理）因重采样而扭曲
Agent Banana：通过 ILD 机制完美保持未编辑区域的高频信息与纹理细节

定量验证：

基线在下采样-上采样过程中丢失大量纹理细节，且常引入非预期的结构变化（如修改物体形状或位置）或未能应用目标颜色变更
Agent Banana 通过精确的局部处理避免全局重采样失真

4.6 先验诱导编辑漂移（PIED）诊断

现象识别：

发现 Prior-Induced Editing Drift (PIED)：即使每轮编辑视觉上高度真实，反复重生成的”未编辑”区域会随轮次逐渐向生成器的偏好纹理与风格统计量漂移

实验验证（图6）：

基线行为：多轮编辑中 PSNROM 持续上升（因 Otsu 分区错误地将背景变化区域缩小），但这掩盖了与原始输入真实度的实际退化
Agent Banana 表现：PSNROM 在三轮中保持几乎恒定，匹配定性观察到的更少累积伪影与更好的非编辑区域高频细节保持

结论：PIED 表明每轮视觉保真度与长程真实性可能解耦，评估多轮编辑器时应显式测量漂移累积。

实验总结：通过 HDD-Bench 的多轮压力测试、ImgEdit-Bench 的单轮精度验证、消融实验的架构必要性证明，以及 PIED 现象的揭示，系统验证了 Agent Banana 在高分辨率保真、多轮一致性与局部精确控制方面的优越性。

Q: 有什么可以进一步探索的点？

基于论文的局限性与技术脉络，以下方向值得进一步探索：

1. 极长程交互的上下文管理

论文在 HDD-Bench 中采用 3 轮交互以控制难度，尽管提到引擎可生成更长会话，但Context Folding 在极长程（如 20+ 轮）复杂项目中的表现尚未验证。未来可探索：

当图像状态图（Image State Graph）演变为复杂 DAG（有向无环图）时的分支管理与合并策略（类似 Git 的 merge/conflict resolution）
层级记忆压缩的信息损失边界：确定在何种压缩率下会丢失关键历史依赖

2. 视频与时空一致性扩展

论文聚焦静态图像，但引言明确提及 VFX 与 filmmaking 需求。将 Agent Banana 扩展至视频编辑需解决：

跨帧层分解的时序一致性：如何在视频帧序列上保持对象掩码的连续性，避免”闪烁”（flickering）
长视频的记忆管理：视频帧序列的上下文长度远超图像，需设计**时空折叠（Spatio-Temporal Folding）**机制

3. 开放域原子操作的学习与扩展

当前动作空间限定为 5 种原子操作（replace/remove/add/adjust/undo）。专业工作流常涉及更复杂的复合操作（如”将物体 A 的材质纹理迁移到物体 B 同时保持光照一致”）。未来可探索：

工具学习（Tool Learning）：让代理通过观察人类演示自动学习新的原子操作
可微分工具优化：将工具参数优化纳入端到端训练，而非仅依赖 LLM 启发式调用

4. 计算效率与实时性优化

处理 4K 图像的层分解与多轮 VLM 调用带来显著计算开销：

分层缓存机制：对未编辑层进行哈希指纹存储，避免重复编码
边缘-云端协同：在边缘设备执行轻量级掩码预测，仅将关键层上传云端进行生成
模型蒸馏：将 Planner 与 Executor 的推理模式蒸馏为专用小模型，降低对 GPT-5-mini 等闭源大模型的依赖

5. 人类在环中的主动学习

论文采用合成数据引擎避免人工标注瓶颈，但专业编辑中的人类反馈（如摄影师的审美判断）仍不可替代：

主动查询策略：当 Planner 对指令歧义性（如”make it pop”）置信度低时，主动请求人类澄清特定属性（色彩/对比度/饱和度）
偏好对齐（Preference Alignment）：基于人类编辑历史微调 Planner 的奖励模型，使其适应个体用户的编辑风格

6. 多模态指令与交互

当前主要依赖自然语言指令，可扩展至：

指代分割与草图引导：结合点击（click）、涂鸦（scribble）、边界框（box）等空间信号精确定位编辑区域，降低语言指代的歧义性
语音与情感线索：在视频编辑场景中整合语音指令的时序韵律与情感强度

7. 先验诱导漂移（PIED）的量化与消除

论文揭示了 PIED 现象，但未提出主动消除机制：

统计对齐模块：检测并校正非编辑区域的风格统计量漂移（如颜色直方图、纹理特征的微妙偏移）
基于参考的约束生成：在扩散模型的去噪过程中注入原始背景区域的特征约束，强制保持未编辑区域的分布不变性

8. 安全审计与溯源机制

论文在 Impact Statement 中提及滥用风险，未来需构建：

编辑链的不可篡改日志：利用区块链或数字水印记录每一轮的 ActionContext 与 ImageContext，实现深度伪造（Deepfake）溯源
一致性检测器：自动检测多轮编辑中是否出现非预期的语义漂移（如背景中逐渐出现的伪造物体）

9. 跨领域迁移与专业化适配

当前基准侧重通用摄影场景，可向专业垂直领域迁移：

医学影像编辑：在保持病理特征不变的前提下调整对比度或去除噪声，需满足严格的诊断一致性
遥感图像处理：处理 10K × 10K 级别的卫星图像，测试 ILD 在极大分辨率下的可扩展性

10. 神经符号规划的融合

当前 Planner 基于 LLM 的文本推理，可探索神经符号（Neuro-Symbolic）方法：

将编辑计划表示为可微分逻辑程序，结合符号推理的严谨性与神经网络的感知能力，确保编辑操作的数学正确性（如光照物理一致性、几何透视约束）

Q: 总结一下论文的主要内容

该论文针对专业级图像编辑工作流中的关键瓶颈，提出了一种新型代理框架及配套评估基准，核心内容可概括如下：

1. 研究背景与核心挑战

识别出现有生成式图像编辑器与专业工作流（摄影、VFX、平面设计）之间的三大鸿沟：

过度编辑（Over-editing）：非目标区域被意外修改，背景保真度低
单轮交互限制：缺乏对多轮、逻辑依赖式编辑（multi-turn editing）的支持，难以处理复杂序列指令
分辨率错位：现有模型多在 1K 分辨率运行，而真实工作流需直接处理原生 4K （ 11.8M 像素）资产，导致下采样-上采样过程中的细节劣化

2. Agent Banana 框架

提出一种分层代理架构（Hierarchical Agentic Planner–Executor），将高级推理与底层执行解耦：

Planner（规划器）：负责全局意图理解、任务分解（将复杂”vibe”提示拆解为原子子目标），并通过图像状态图（Image State Graph）维护跨轮次状态，支持回滚与重规划（rollback-safe）
Executor（执行器）：负责调用视觉工具执行局部编辑，包含质量自检（Quality Test）机制，未通过验证时触发重试

核心机制包括：

上下文折叠（Context Folding）：三级记忆架构（ImageContext/ToolContext/ActionContext）压缩长程交互历史，避免上下文溢出
图像层分解（Image Layer Decomposition, ILD）：采用”分解-编辑-融合”范式，通过动态对象感知掩码将目标区域无损裁剪为高分辨率层（layer patch），在局部坐标系编辑后融合回原生分辨率图像，避免全图重采样导致的细节退化

定义五种原子操作构成动作空间： replace 、 remove 、 add 、 adjust 、 undo 。

3. HDD-Bench 基准

构建高分辨率、对话式编辑基准（High-Definition, Dialogue-based Benchmark），特征包括：

多轮依赖：3轮逻辑依赖的指令链，每轮定义明确的状态转移
原生 4K 分辨率： 11.8M 像素图像，测试真实专业场景
可验证中间状态：基于符号状态引擎（Symbolic Data Engine），将编辑建模为确定性属性转移 s_(t+1) = T(s_t, c_t) ，提供逐轮真值用于诊断

评估协议结合：

状态级指标：Instruction Following (IF) 与 Image Consistency (IC)，基于对象属性匹配度计算
Otsu-Masked 像素级指标： PSNR(OM) 、 SSIM(OM) 、 LPIPS_(OM) ，通过自适应阈值分割隔离背景区域，量化非目标区域保真度

4. 实验结果与关键发现

多轮编辑：在 HDD-Bench 上，Agent Banana 达到最优的多轮一致性（ IC = 0.871 ）与背景保真度（ SSIM(OM) = 0.84 ， LPIPS(OM) = 0.12 ），同时保持有竞争力的指令遵循率（ IF = 0.849 ），且原生支持 4K 处理
单轮编辑：在 ImgEdit-Bench 上达到 SOTA 精度，证明架构在原子任务上的有效性
消融研究：验证基础 LLM 能力对复杂规划的必要性；弱模型（Qwen-3-8B）导致工具调用错误与规划失败
PIED 现象：发现并量化了先验诱导编辑漂移（Prior-Induced Editing Drift）——基线模型虽每轮视觉真实，但非编辑区域随轮次向生成器偏好统计量漂移；Agent Banana 通过 ILD 机制有效抑制该漂移，保持 PSNR_(OM) 跨轮恒定

5. 贡献与影响

技术层面：首次将分层代理架构、结构化记忆压缩与原生分辨率层分解结合，实现可回滚、高保真的专业级编辑
评估层面：提出支持逐步验证的 4K 多轮基准，推动社区从单轮演示转向长程失败模式（漂移、累积误差）的诊断
伦理考量：强调编辑链的可审计性与溯源机制，呼吁在部署时采用来源验证与披露机制，防范深度伪造滥用

该工作为可靠、专业级的代理式图像编辑及其在真实创意工作流中的集成奠定了技术与评估基础。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Ruijie Ye,Jiayi Zhang,Zhuoxin Liu,Zihao Zhu,Siyuan Yang,Li Li,Tianfu Fu,Franck Dernoncourt,Yue Zhao,Jiacheng Zhu,Ryan Rossi,Wenhao Chai,Zhengzhong Tu

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2602.09084.pdf

Arxiv URL: https://arxiv.org/abs/2602.09084

Arxiv ID: 2602.09084

CoolPaper URL: https://papers.cool/arxiv/2602.09084

Published: 2026-02-09T18:59:18Z

Updated: 2026-02-09T18:59:18.000Z

Recent studies have explored autoregressive models for image generation, with promising results, and have combined diffusion models with autoregressive frameworks to optimize image generation via diffusion losses. In this study, we present a theoretical analysis of diffusion and autoregressive models with diffusion loss, highlighting the latter’s advantages. We present a theoretical comparison of conditional diffusion and autoregressive diffusion with diffusion loss, demonstrating that patch denoising optimization in autoregressive models effectively mitigates condition errors and leads to a stable condition distribution. Our analysis also reveals that autoregressive condition generation refines the condition, causing the condition error influence to decay exponentially. In addition, we introduce a novel condition refinement approach based on Optimal Transport (OT) theory to address ``condition inconsistency’’. We theoretically demonstrate that formulating condition refinement as a Wasserstein Gradient Flow ensures convergence toward the ideal condition distribution, effectively mitigating condition inconsistency. Experiments demonstrate the superiority of our method over diffusion and autoregressive models with diffusion loss methods.

中文摘要

近期的研究探索了用于图像生成的自回归模型，取得了令人鼓舞的成果，并将扩散模型与自回归框架相结合，通过扩散损失优化图像生成。在本研究中，我们对带有扩散损失的扩散模型和自回归模型进行了理论分析，突出了后者的优势。我们还对条件扩散和带扩散损失的自回归扩散进行了理论比较，表明自回归模型中的块去噪优化可以有效减轻条件误差，并实现稳定的条件分布。我们的分析还显示，自回归条件生成能够精炼条件，使条件误差的影响呈指数衰减。此外，我们提出了一种基于最优传输（OT）理论的新型条件精炼方法，以解决“条件不一致”问题。我们在理论上证明，将条件精炼形式化为瓦瑟斯坦梯度流（Wasserstein Gradient Flow）可以确保收敛到理想的条件分布，从而有效缓解条件不一致的问题。实验结果表明，我们的方法优于具有扩散损失的扩散模型和自回归模型方法。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文旨在解决基于扩散损失的自回归图像生成中的条件误差（condition errors）与条件不一致（condition inconsistency）问题，以提升生成质量。具体而言，论文聚焦于以下核心问题：

1. 条件误差的理论分析与缓解

传统条件扩散模型依赖静态全局条件 c ，而自回归模型通过序列化动态条件 c_i 生成图像块（patch）。论文指出，自回归过程中的条件可能存在误差，且这些误差会沿序列累积。论文通过理论分析证明：

块去噪优化（Patch Denoising Optimization） 能够有效缓解条件误差，使条件分布趋于稳定；
自回归条件生成对条件具有**精炼（refinement）**作用，条件对生成结果的影响（以梯度范数量化）随迭代指数级衰减至稳态值。

2. 条件不一致（Condition Inconsistency）问题

在自回归生成过程中，模型通过历史信息 c_(<i) 预测当前条件 c_i ，导致条件不仅包含生成当前块所需的关键信息，还累积了无关的冗余信息（extraneous information）。这种“条件不一致”现象使得实际条件分布 p(x_i|c_i) 偏离理想分布 p(x_i|c_i^*) ，从而损害生成质量。

3. 基于最优传输的条件精炼机制

为解决上述不一致问题，论文提出一种基于最优传输（Optimal Transport, OT）理论的条件精炼方法，将条件修正建模为Wasserstein梯度流（Wasserstein Gradient Flow）。理论证明该方法能够：

以几何方式度量并修正噪声条件分布与理想分布之间的偏差；
保证收敛至理想条件分布 P_(c^*) ，显著抑制条件不一致性。

总结

论文通过理论推导与算法设计，系统性地解决了自回归图像生成中动态条件的误差累积与信息冗余问题，最终实现了优于标准扩散模型与现有自回归方法的生成性能（在 ImageNet 256×256 上达到 FID 1.31）。

Q: 有哪些相关研究？

根据论文第2页、第11-14页及附录A的内容，相关研究可分为以下两大主线：

1. 扩散模型（Diffusion Models）

基础理论框架

生成范式对比：早期生成对抗网络（GANs）与变分自编码器（VAEs）作为对比基线。
去噪扩散概率模型（DDPMs）：奠定了噪声训练与重建的理论基础，并与分数匹配（Score Matching）及去噪自编码器（DAEs）建立理论联系。
采样加速：DDIMs通过非马尔可夫形式加速生成；LDMs（Latent Diffusion Models）通过在低维潜在空间进行扩散提升效率。

条件控制与优化

Classifier-Free Guidance：无需外部分类器即可实现灵活条件控制的核心技术。
结构感知适应：针对结构化数据的效率优化方法。
条件生成应用：包括Palette（图像修复）、GLIDE（文本引导合成）、CDMs（级联扩散模型）及ControlNet（结构条件集成）。
理论性质：扩散模型隐式最小化Wasserstein距离，相比GANs具有更好的收敛性与鲁棒性。

2. 自回归图像生成（Autoregressive Image Generation）

传统离散Token方法

VQ-VAEs：传统方法依赖向量量化变分自编码器将视觉内容编码为离散Token进行预测，但存在梯度近似敏感性与量化误差问题。

近期高效架构

LlamaGen：通过大规模训练在质量与效率上超越扩散模型。
VAR（Visual Autoregressive Model）：通过”下一尺度预测”（next-scale prediction）降低推理延迟。
ImageFolder：利用空间对齐策略改进自回归建模。
Emu3：统一跨模态（图像、文本、视频）的Token预测。

连续Token与扩散损失结合

VQ-free自回归：MAR（Masked Autoregressive Model）等方法引入基于扩散的逐Token概率建模，避免VQ缺陷。
多模态扩展：LatentLM整合下一Token扩散机制实现跨模态（图像、语音、文本）合成；Lumina-mGPT与MMAR探索连续Token建模以增强多模态理解与生成。

计算效率研究

针对自回归模型序列生成带来的计算约束，相关研究探索了架构优化与并行生成策略以提升可扩展性。

Q: 论文如何解决这个问题？

论文通过理论分析与算法设计相结合的方式解决条件误差与条件不一致问题，具体解决方案如下：

1. 理论分析：揭示自回归去噪的条件误差缓解机制

论文首先建立条件扩散与自回归扩散的理论对比框架，证明自回归结构本身具有条件精炼能力：

（1）块去噪优化稳定条件分布

将条件更新建模为离散时间马尔可夫链 c_(i+1) = T(c_i) ，其中 T 为扩散转移函数。
命题1证明：在标准马尔可夫性与高斯假设下，通过块去噪（patch denoising）迭代优化条件，可使条件分布收敛至稳态分布，从而降低条件误差的波动性。

（2）自回归条件生成的指数衰减效应

定理2量化证明：自回归过程生成的条件序列 ci 对生成结果的影响（以条件概率梯度范数 |∇(xt) log p(x_t|c_i)| 度量）随迭代次数指数衰减：
|∇(x_t) log p(x_t|c_i)| ≤ Mβ^i + m
其中 β ∈ (0,1) 为衰减率， m 为稳态梯度范数。这表明历史条件误差的干扰随序列推进迅速减弱。

2. 基于最优传输（OT）的条件精炼方法

针对自回归累积导致的”条件不一致”（即实际条件 ci 包含无关冗余信息，偏离理想条件 c_i^ ），论文提出*Wasserstein梯度流框架_：

（1）问题建模

定义理想条件 ci^ 为最小充分信息子空间 Ii^ 上的投影，实际条件与理想条件的偏差（extraneous information）为 eta_i = c_i - c_i^* 。
将条件精炼转化为分布空间上的优化问题，最小化与理想分布 P(c^) 的Wasserstein距离：
F(Pc) := W_2^2(P_c, P(c^)) + λ E(csim P_c)[|c - T^(-1)(x)|^2]
其中 T^(-1) 为信息累积逆过程，用于约束条件与生成内容的一致性。

（2）Wasserstein梯度流求解

通过Jordan-Kinderlehrer-Otto (JKO) 迭代格式离散化梯度流：
Pc^((k+1)) = argmin(P) W_2^2(P, P_c^((k))) + eta_k F(P)
定理3证明：该梯度流以收缩率 rho < 1 指数收敛至理想条件分布：
W2(P_c^((k)), P(c^)) ≤ rho^k W_2(P_c^((0)), P(c^_))

（3）实现机制

采用熵正则化最优传输（Sinkhorn算法）计算条件更新：
构建代价矩阵融合潜在空间匹配与条件一致性约束；
通过迭代投影（Sinkhorn迭代）求解传输计划 γ^((k)) ；
结合扩散模型的去噪轨迹（DDIM更新）与逆过程对齐项 φ(c^((k))) 计算条件梯度。

3. 算法实现：Autoregressive Condition Optimization (ACO)

论文给出完整计算流程（Algorithm 1），核心步骤包括：

初始化：基于历史条件与已生成块计算初始条件 c^((0)) ；
去噪轨迹生成：利用当前条件 c^((k)) 通过扩散模型 D_t 生成去噪轨迹 z^((k,0)) ；
最优传输精炼：

采样参考潜在变量 zj^ sim P(z^) ；
计算融合潜在匹配与条件一致性的代价矩阵 C_(mn) ；
执行Sinkhorn迭代求解传输计划；

条件更新：计算传输梯度与正则化梯度，经裁剪后更新条件 c^((k+1)) = c^((k)) - eta_k ∇_c^(total) 。

通过上述机制，方法在保持自回归模型顺序生成优势的同时，通过OT-based精炼有效抑制条件不一致，实现高质量图像生成（在ImageNet 256×256上达到FID 1.31）。

Q: 论文做了哪些实验？

论文在 ImageNet 数据集上进行了系统性实验验证，涵盖条件生成性能对比、模型可扩展性分析及生成过程机理分析，具体实验内容如下：

1. 实验设置（Experimental Settings）

数据集：ImageNet（256×256 及 512×512 分辨率）条件生成。
评估指标：Fréchet Inception Distance (FID↓)、Inception Score (IS↑)、Precision (↑) 及 Recall (↑)。
实现细节：
基于 GPT-XL 架构构建自回归模型，去噪模块采用 MAR（Masked Autoregressive Model）结构；
使用 KL-16 版本的 LDM 作为 VAE；
训练配置：1000 步余弦噪声调度、学习率 1× 10^(-5) 、batch size 2048、400 轮训练、EMA 动量 0.9999。

2. 性能比较（Performance Comparison）

在 ImageNet 256×256 条件生成任务上与当前主流方法对比：

方法	FID ↓	IS ↑	Precision ↑	Recall ↑
LDM-4	3.60	247.7	0.87	0.48
DiT-XL/2	2.27	278.2	0.83	0.57
DiffiT	1.73	276.5	0.80	0.62
MDTv2-XL/2	1.58	314.7	0.79	0.65
MAR (基线)	1.55	303.7	0.81	0.62
De-MAR	1.47	305.8	0.83	0.62
RAR	1.50	306.9	0.80	0.62
Ours (AR)	1.52	317.6	0.82	0.60
Ours (MAR)	1.31	324.2	0.81	0.63

关键结果：

基于自回归（AR）的模型达到 FID 1.52 和 IS 317.6，显著优于基线方法；
在 MAR 架构基础上集成所提方法后，FID 降至 1.31，IS 提升至 324.2，超越包括 MDTv2 和 De-MAR 在内的当前领先方法。

3. 可扩展性分析（Scalability Analysis）

验证方法在不同模型规模及高分辨率下的有效性：

（1）跨模型规模比较（ImageNet 256×256）：

在 208M、479M 及 943M 三种参数规模下，所提方法均 consistently 优于 MAR 基线。
随着模型规模增大，性能差距扩大（943M 时 FID 1.31 vs. MAR 的 1.55）。

（2）高分辨率生成（ImageNet 512×512）：

使用约 481M 参数模型，在 512×512 分辨率下达到 FID 1.58，优于 MAR 的 1.73。
证明 OT-based 条件精炼在高维空间依然有效。

4. 条件误差与去噪过程分析（Condition Errors Analysis）

通过可视化分析验证条件精炼机制对生成过程的影响：

信号-噪声比（SNR）与噪声强度分析：

在去噪过程的时间轴上（从右至左表示从 t=T 到 t=0 ），监测图像空间的 SNR 与噪声强度。
结果：
所提方法在整个去噪过程中保持更高的 SNR，且在后半段差距扩大；
在噪声强度方面，方法在初期（对应去噪后期）即表现出更低的噪声水平。
结论：验证了基于最优传输的条件精炼有效抑制了自回归引入的条件不一致，使扩散过程更稳定。

5. 定性结果（Qualitative Results）

提供了在 ImageNet 256×256 类别条件生成下的视觉对比（图2），展示生成图像的视觉质量。

总结：实验从定量指标（FID/IS）、模型扩展性（不同规模与分辨率）及定性分析（SNR/噪声强度）多维度验证了理论分析的正确性与方法的有效性。

Q: 有什么可以进一步探索的点？

基于论文的理论贡献与实验验证，未来研究可从以下维度深入探索：

1. 大规模模型验证与效率优化

超大规模模型验证：附录B指出当前实验受限于计算资源，未在十亿级（Billion-scale）参数模型上验证。未来需验证方法在更大规模下的可扩展性，特别是与大型语言模型（LLMs）集成时的表现。
计算效率提升：当前采用Sinkhorn算法求解最优传输问题，其迭代复杂度为 O(K_(sink) · n^2) 。可探索：
低秩近似或稀疏化技术加速OT求解；
将条件精炼蒸馏为轻量级网络，避免迭代优化；
与扩散模型加速采样技术（如DDIM、Consistency Models）的协同优化。

2. 理论边界与泛化分析

非高斯与非马尔可夫设定：当前理论基于高斯噪声与马尔可夫假设（Assumption 1-2）。可放宽至：
非高斯噪声下的分数匹配误差分析；
非马尔可夫扩散过程（如DDIM的确定性采样路径）中的条件稳定性。
条件不一致的定量边界：Lemma 6给出了 extraneous information 的存在性证明，但缺乏其幅度与最终生成质量间精确的定量关系（如FID上界的紧性分析）。
更一般的最优传输度量：当前采用 W_2 距离，可探索其他度量（如 W_1 、Sinkhorn散度）对条件精炼收敛性的影响。

3. 多模态与时序扩展

视频生成中的时序条件精炼：当前方法针对空间块（spatial patches），视频生成需处理时空联合条件。可将OT框架扩展至时空条件分布，解决长视频生成中的时序不一致累积问题。
多模态统一生成：论文提及与LLMs集成的愿景（Introduction）。未来可探索文本-图像-视频联合生成中，跨模态条件（如文本嵌入与视觉特征）的联合最优传输精炼。
连续与离散混合模态：当前基于连续扩散损失，可探索与离散Token（如VQ-VAE）混合模态下的条件精炼策略。

4. 算法增强与自适应机制

自适应正则化强度：当前 λ 为固定超参数。可设计基于条件不确定性（如梯度范数 |∇_c log p| ）的自适应机制，在条件误差较大时增强OT正则化。
与Classifier-Free Guidance的深度融合：论文分析了条件控制项的唯一性（Lemma 2），但未充分利用CFG。可探索条件精炼与CFG的联合优化，如将 c_i^* 的估计嵌入CFG的评分函数中。
层次化条件精炼：当前按块（patch）顺序精炼，可引入层次化结构（如粗到细的多尺度条件），在不同分辨率上分别执行OT精炼。

5. 可解释性与可控性

条件子空间可视化：对最小充分信息子空间 I_i^* （Eq. 23）进行显式建模或可视化，理解自回归模型实际关注的历史信息成分。
条件干预分析：系统研究人为干预条件精炼过程（如强制重置 c_i 至先验）对生成内容语义的影响，增强可控性。
误差传播监测：开发实时监测工具，量化各生成步骤中 |eta_i| （extraneous information）的累积，用于诊断生成失败案例。

6. 领域特定应用

高分辨率医学图像：验证方法在医学影像（如CT、MRI）生成中的有效性，这类任务对条件一致性（如解剖结构连贯性）要求极高。
复杂场景合成：在包含多个对象交互的复杂场景中，测试条件精炼对物体间关系一致性的保持能力。

Q: 总结一下论文的主要内容

这篇论文围绕基于扩散损失的自回归图像生成中的条件误差与条件不一致问题展开，主要贡献可概括如下：

1. 研究背景与核心问题

背景：自回归（AR）模型结合扩散损失（diffusion loss）避免了VQ-VAE的量化误差，展现出潜力，但缺乏与条件扩散模型（CDM）的理论对比分析。
问题：自回归生成过程中，条件序列 c_i 会累积条件误差与无关信息（extraneous information），导致”条件不一致”（condition inconsistency），即实际条件偏离生成当前块所需的最小充分信息，影响图像质量。

2. 理论分析

论文建立了自回归扩散模型的理论基础，证明其具有内在的条件精炼机制：

条件分数匹配上界（Theorem 1）：证明标准分数匹配损失被条件分数匹配损失上界约束，为条件生成提供理论依据。
条件误差度量：定义条件误差项 ε_c 和简化形式 ε_c ，量化条件对分数函数范数的影响。
块去噪优化（Proposition 1）：在马尔可夫性与高斯假设下，证明通过块去噪迭代更新条件 c_(i+1)=T(c_i) 可使条件分布趋于稳定，有效缓解条件误差。
指数衰减特性（Theorem 2）：严格证明自回归条件生成中，条件对生成结果的影响（以梯度范数 |∇(x_t)log p(x_t|c_i)| 度量）随迭代次数指数衰减至稳态值：
|∇(x_t)log p(x_t|c_i)| ≤ Mβ^i + m

3. 方法：基于最优传输的条件精炼

针对”条件不一致”问题，提出基于最优传输（OT）的条件精炼方法：

问题建模：将条件精炼转化为分布空间上的优化，最小化与理想条件分布 P_(c^*) 的Wasserstein距离，并引入逆过程正则化 T^(-1) 消除信息累积。
Wasserstein梯度流（Theorem 3）：将条件更新建模为Wasserstein梯度流，证明其以收缩率 rho<1 指数收敛至理想条件分布：
W2(P_c^((k)), P(c^)) ≤ rho^k W_2(P_c^((0)), P(c^_))
算法实现：采用Sinkhorn算法求解熵正则化OT问题，结合DDIM去噪轨迹与逆过程对齐，实现条件的迭代精炼（Autoregressive Condition Optimization, ACO）。

4. 实验验证

在ImageNet数据集上验证方法有效性：

性能对比：在256×256分辨率下，基于MAR架构达到FID 1.31、IS 324.2，超越现有扩散与自回归方法（如MAR 1.55、RAR 1.50）。
可扩展性：在208M至943M不同参数规模及512×512高分辨率下均 consistently 优于基线，且随规模增大优势扩大。
机理分析：通过信噪比（SNR）与噪声强度曲线验证，所提方法在去噪过程中保持更高SNR与更低噪声，证明条件精炼有效抑制了不一致性。

5. 总结

论文通过理论证明（自回归结构固有的条件误差缓解与指数衰减特性）与算法创新（OT-based Wasserstein梯度流条件精炼），系统解决了自回归图像生成中的条件不一致问题，实现了高质量图像生成。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yucheng Zhou,Hao Li,Jianbing Shen

Categories: eess.IV,cs.CV,cs.LG

PDF URL: https://arxiv.org/pdf/2602.07022.pdf

Arxiv URL: https://arxiv.org/abs/2602.07022

Arxiv ID: 2602.07022

CoolPaper URL: https://papers.cool/arxiv/2602.07022

Published: 2026-02-02T07:48:04Z

Updated: 2026-02-02T07:48:04.000Z

13. TokenTrim: Inference-Time Token Pruning for Autoregressive Long Video Generation

Auto-regressive video generation enables long video synthesis by iteratively conditioning each new batch of frames on previously generated content. However, recent work has shown that such pipelines suffer from severe temporal drift, where errors accumulate and amplify over long horizons. We hypothesize that this drift does not primarily stem from insufficient model capacity, but rather from inference-time error propagation. Specifically, we contend that drift arises from the uncontrolled reuse of corrupted latent conditioning tokens during auto-regressive inference. To correct this accumulation of errors, we propose a simple, inference-time method that mitigates temporal drift by identifying and removing unstable latent tokens before they are reused for conditioning. For this purpose, we define unstable tokens as latent tokens whose representations deviate significantly from those of the previously generated batch, indicating potential corruption or semantic drift. By explicitly removing corrupted latent tokens from the auto-regressive context, rather than modifying entire spatial regions or model parameters, our method prevents unreliable latent information from influencing future generation steps. As a result, it significantly improves long-horizon temporal consistency without modifying the model architecture, training procedure, or leaving latent space.

中文摘要

自回归视频生成通过迭代地将每一批新帧的生成建立在之前生成的内容之上，实现了长视频的合成。然而，近期的研究表明，这类生成流程存在严重的时间漂移问题，即随着时间跨度的增加，误差会不断积累和放大。我们假设这种漂移并非主要源于模型容量不足，而是由推理阶段的误差传播引起的。具体来说，我们认为漂移是由于在自回归推理过程中不受控制地重复使用已损坏的潜在条件化标记而产生的。为了纠正这种误差积累，我们提出了一种简单的推理阶段方法，通过在重复使用潜在标记进行条件化之前，识别并去除不稳定的潜在标记，从而缓解时间漂移。为此，我们将不稳定标记定义为其表示与之前生成批次的显著偏离的潜在标记，表明可能存在损坏或语义漂移。通过显式地从自回归上下文中移除已损坏的潜在标记，而不是修改整个空间区域或模型参数，我们的方法可以防止不可靠的潜在信息影响后续的生成步骤。结果表明，该方法在不修改模型架构、训练过程或潜在空间的前提下，显著提高了长时间跨度下的时间一致性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决自回归（auto-regressive）长视频生成中的时间漂移（temporal drift）与误差累积（error accumulation）问题。

具体而言，该问题表现为：

误差传播与放大：在逐块（chunk-wise）自回归生成过程中，模型通过条件化先前生成的内容来迭代合成新帧。早期生成批次中引入的微小伪影或不一致性会在后续自回归步骤中被反复重用并放大，导致视觉质量随时间逐步退化。
潜在条件令牌的损坏：作者假设漂移主要并非源于模型容量不足，而是源于推理时的信息传播机制——即损坏的潜在条件令牌（latent conditioning tokens）在自回归循环中被无控制地重用，这些不可靠的潜在信息通过Key-Value（KV）缓存机制持续影响未来生成步骤。
长期一致性的丧失：随着生成长度增加，上述累积效应导致身份变化（identity changes）、结构退化（structural degradation）、颜色漂移（color shifts）以及全局时间一致性的丧失，使得生成长视频保持时空连贯性成为重大挑战。

针对此问题，论文提出TokenTrim方法，通过在推理时主动识别并剪枝（prune）高漂移的不稳定潜在令牌，阻断误差反馈循环，从而在不修改模型架构或重新训练的情况下提升长时程时间一致性。

Q: 有哪些相关研究？

根据论文第2节，相关研究可分为以下三个主要方向：

1. 自回归长视频生成（Auto-regressive Long Video Generation）

早期方法采用分层”由粗到精”策略（如 NUWA-XL），先生成全局关键帧再填充局部间隙，但难以实现实时流式生成。当前主流方法转向连续自回归建模，但面临”训练-测试差异”或”暴露偏差”（exposure bias）问题：

Self Forcing：通过在自生成 rollout 上训练并使用随机梯度截断，使模型学会从自身的推理伪影中恢复。
CausVid：将双向注意力教师模型蒸馏为块因果（block-causal）学生模型，实现逐帧高效生成。
Rolling Forcing：引入”宽松因果性”（relaxed causality）和滚动窗口联合去噪，配合注意力汇聚（attention sink）机制锚定身份。
LongLive：采用 KV 重新缓存机制处理交互式提示变更，保持时间连续性。

这些基于训练的方法需要大量计算资源重新对齐模型分布，且本质上仍易受滚雪球式误差影响。

2. 推理时引导（Inference-time guidance）

这类方法无需重新训练，通过修改采样动态或上下文来提升生成质量：

频谱分析与噪声优化：FreeInit 和 FreeLong 利用频谱分析迭代优化初始噪声分布，对齐低频成分以稳定全局结构。
运动一致性优化：FlowMo 计算生成帧的块级时间方差，通过梯度更新最小化非相干运动轨迹。
显式条件锚定：ConsistI2V 修改时空注意力机制，使其关注首帧高频细节，防止身份退化。
KV 缓存管理：TeaCache 和 TaoCache 主要通过选择性上下文管理实现加速，展示了选择性管理 KV 缓存可作为强大的引导形式。

TokenTrim 沿此方向推进，基于潜在不稳定性（latent instability）进行剪枝，而非仅为了加速。

3. 长视频生成中的误差累积（Error-Accumulation In Long Video Generation）

时间漂移是 pervasive failure mode，理论分析将其归因于暴露偏差——即训练时见到的真实历史与推理时自生成历史之间的分布偏移。

量化指标：常用 Fréchet Video Distance (FVD) 或 Rolling Forcing 提出的 Delta Quality Drift 度量漂移程度。
架构级缓解：StreamingT2V 采用专门的外观保持模块（Appearance Preservation Module）重新注入锚帧特征；Bagger 提出自监督训练方案，聚合反向轨迹以纠正漂移。
频域分析：FreeLong 发现漂移在频带间非均匀表现，高频细节比低频结构退化更快。

现有方法多依赖刚性锚定（rigid anchoring）或大量重新训练，而 TokenTrim 提出在令牌级别（token level）显式拦截误差累积。

Q: 论文如何解决这个问题？

论文通过提出 TokenTrim 方法解决该问题。这是一种完全在推理时（inference-time）运行的潜在空间令牌剪枝机制，无需修改模型架构或重新训练。其核心思想是：通过识别并移除自回归上下文中高漂移的不稳定潜在令牌，阻断误差的累积与传播。

具体解决方案包含以下关键步骤：

1. 运动稳定初始化（Motion-Stabilized Initialization）

为减少早期误差传播，第一批次帧使用 FlowMo 生成。FlowMo 通过运动感知方差引导产生时间连贯的初始潜在锚点，为后续自回归步骤提供稳定的起始上下文。后续批次则停用 FlowMo，仅由基础自回归模型生成。

2. 潜在摘要构建（Latent Summary Construction）

在自回归步骤 t ，将前一批次 X(t-1) 和当前候选批次 X_t 的每一帧编码为空间潜在令牌，并在时间维度上取平均，构建潜在摘要：
Z(t-1) = (1) / (F)∑(f=1)^(F)E(x(t-1)^((f))) ∈ R^(N × D), quad Zt = (1) / (F)∑(f=1)^(F)E(x_(t)^((f))) ∈ R^(N × D)
其中 E(·) 为编码器， F 为帧数， N 为空间令牌数， D 为潜在维度。

3. 逐令牌潜在漂移估计（Per-Token Latent Drift Estimation）

计算相邻批次间每个空间位置 i 的漂移分数，衡量语义与结构特征的偏差：
di = |Z_t(i) - Z(t-1)(i)|_2^2
该度量可区分正常的相机运动（表现为相邻令牌的平滑变化）与损坏区域（表现为局部高幅度尖峰）。

4. 漂移严重程度评估与触发准则（Drift Severity and Trigger Criterion）

选择漂移分数最高的 p · N 个令牌构成不稳定集合 S_t （ p 为剪枝比例）。
计算漂移严重程度分数：
Dt = (1) / (|S_t|)∑(i ∈ S_t) d_i
维护历史接受批次的运行均值 μt 和标准差 σ_t 。当满足以下条件时触发剪枝干预：
D_t > μ_t + λσ_t
其中 λ 为敏感度超参数。前 T(warm) 个批次为预热期，仅累积统计量而不剪枝。

5. 硬剪枝与重新生成（Hard Pruning and Regeneration）

一旦触发漂移准则，执行以下操作：

构建空间剪枝掩码 m_t ∈ 0,1^N ，其中 $m_t(i) = I
i ∉ S_t
$。
将掩码应用于时序 KV 缓存，移除不稳定令牌对应位置的键值：
K = K(cache)[m_t], quad V = V(cache)[m_t]
使用剪枝后的缓存 (K, V) 重新生成当前批次，阻止损坏的潜在信息影响未来步骤。
若重新生成后仍不满足准则，或达到最大重试次数 R （通常 R=1 ），则接受该批次以避免无限循环。

6. 与自回归框架的集成

Self Forcing：在将新的 KV 条目追加到滚动缓存之前，执行漂移估计和硬剪枝。
Rolling Forcing：仅对近期上下文缓存（recent context cache）执行剪枝，保留全局锚点缓存（global anchor cache）不变。

通过上述机制，TokenTrim 将 KV 缓存从被动的历史记录转变为主动的自校正记忆系统，在潜在空间显式打断误差累积的反馈循环，从而显著提升长程时间一致性。

Q: 论文做了哪些实验？

论文在第5节及附录中进行了全面的实验评估，具体包括以下方面：

1. 实验设置

基础模型：Wan2.1-1.3B 文本到视频模型
测试框架：Rolling Forcing
18
和 Self Forcing
19
两种自回归推理策略
生成配置：30秒视频，16 FPS，分辨率 832 × 480
TokenTrim 参数：剪枝比例 p=0.1 ，漂移阈值参数 λ=2.0 ，预热期 T_(warm)=2 批次，最大重试次数 R=1
硬件：单张 NVIDIA H100 GPU

2. 定量评估（Quantitative Evaluation）

使用 VBench 综合基准测试
22
，对比以下配置：

基线（Rolling Forcing / Self Forcing）
基线 + FlowMo
20
（应用于所有批次）
基线 + TokenTrim（FlowMo仅用于第一批次初始化）

主要结果（见 Table 1）：

Rolling Forcing：TokenTrim 将 Final Score 从 75.12% 提升至 79.67%（+4.55%），Semantic Score 提升 +3.53%，Quality Score 提升 +5.58%
Self Forcing：TokenTrim 将 Final Score 从 75.93% 提升至 81.84%（+5.91%），Semantic Score 提升 +4.91%，Quality Score 提升 +6.90%
与 FlowMo 对比：TokenTrim 在所有聚合指标上均显著优于 FlowMo（FlowMo 在 Self Forcing 上仅提升 Final Score 0.12%）

详细维度分析（见 Appendix A, Table 3）：

在时间稳定性指标上表现突出：Temporal Flickering（Rolling Forcing +2.12%）、Motion Smoothness（+1.81%）、Overall Consistency（+3.45%）
在运动复杂度上保持优势：Dynamic Degree 提升（Rolling Forcing +2.54%，Self Forcing +1.22%），而 FlowMo 会导致该指标下降（-3.50%）

3. 定性评估（Qualitative Evaluation）

生成长于 1 分钟的视频进行视觉对比，展示 TokenTrim 在以下方面的改善：

颜色稳定性：避免背景与主体颜色随时间漂移（如 Figure 3c 中的女孩与背景、Figure 3d 中的熊与草地）
结构保持：防止物体变形与身份丢失（如 Figure 3a 中的皮卡丘肢体保持完整，Figure 4a 中的气球狗避免鼻部变形）
伪影抑制：消除光晕累积（Figure 3b）和背景扭曲（Figure 4d）
运动连贯性：保持全局运动模式稳定（如 Figure 8 中的水母透明度、鸟群集体运动）

附录 D、E、F 提供了与 Self Forcing、Rolling Forcing 及 FlowMo 的额外定性比较。

4. 人类偏好研究（Human Preference Study）

使用 VideoJAM-bench
28
提示集，通过 Google Forms 进行成对比较：

评估维度：文本-视频对齐（Text alignment）、美学质量（Quality）、运动连贯性（Motion）、时间漂移（(No) Drift）
统计方法：每个提示对由 5 名独立注释者评估，共 640 份回复，使用 Dirichlet 采样与 Laplace 平滑计算 95% 置信区间

关键发现（见 Figure 5、Figure 6）：

对抗基线：TokenTrim 在 “(No) Drift” 维度上获得 41.7%（Rolling Forcing 基线仅 15.2%）和 43.3%（Self Forcing 基线仅 13.2%）的偏好率；在运动质量上分别获得 30.3% 和 26.2%，显著高于基线（约 10%）。
对抗 FlowMo：TokenTrim 在 “(No) Drift” 上获得 49.7% 对 FlowMo 的 10.2%；在运动连贯性（27.8% vs 15.1%）和美学质量（41.7% vs 13.1%）上亦大幅领先。

5. 消融研究（Ablation Study）

分析各组件贡献（见 Table 2、Appendix C）：

剪枝比例敏感性：
5% 剪枝：Final Score 78.35%（较完整方法 -1.32%），表现适中
20% 剪枝：Final Score 骤降至 68.25%（-11.87%），表明过度剪枝会破坏语义连续性
FlowMo 初始化：移除后 Final Score 降至 77.33%（-2.34%），且该降幅大于 FlowMo 单独应用于基线时的增益，表明 TokenTrim 与 FlowMo 初始化存在协同效应

6. 推理时间开销分析

TokenTrim：相较于 Rolling Forcing 基线， wall-clock 运行时间仅增加 ×1.08（即 8% 开销）
FlowMo（全序列）：导致 ×2.18 的减速（即 118% 开销）

综上，实验验证了 TokenTrim 在不修改模型、不显著增加计算开销的前提下，通过推理时上下文管理有效抑制长视频生成中的时间漂移。

Q: 有什么可以进一步探索的点？

根据论文第6节”Limitations & Future Work”，以下方向值得进一步探索：

1. 自适应剪枝策略（Adaptive Pruning）

当前 TokenTrim 采用固定的硬剪枝预算（如固定的剪枝比例 p=0.1 ）。虽然这种设计计算开销极小，但单一的全球剪枝设置对于不同提示（prompts）、内容类型以及生成长度（rollout lengths）可能并非最优。

未来方向：开发动态自适应剪枝机制，根据以下信号实时调整剪枝率和结构：

基于漂移统计（drift statistics）估计当前序列的不稳定程度
利用不确定性估计（uncertainty estimates）识别需要更强抑制的困难序列
对于稳定序列保留更丰富的上下文，对于易漂移序列实施更激进的剪枝

2. 基础模型能力的边界拓展

TokenTrim 作为纯推理时方法，不改变模型参数，因此其性能提升本质上受限于底层视频扩散模型的能力和训练数据分布。

未来方向：

当基础模型在特定对象表示、身份保持或稳定运动生成方面存在持续性困难时，探索如何将 TokenTrim 与模型微调或训练时正则化相结合
研究更强大的基础架构（如更大规模的 DiT）与 TokenTrim 的协同效应，明确推理时上下文管理的上界

3. 长时程滚动的优化机制

当前方法在极长视频生成（远超测试的30秒/1分钟）时，可能面临运行统计量 μ_t 和 σ_t 的累积偏差问题。

未来方向：

设计滑动窗口统计更新策略，避免早期批次统计对长程决策的过度影响
引入分层记忆机制，区分近期上下文与远期锚点的不同剪枝策略

4. 与其他推理时技术的深度集成

论文已展示 TokenTrim 可与 FlowMo 初始化结合，但尚未探索与其他推理时引导技术的协同。

未来方向：

将令牌级剪枝与频谱域引导（如 FreeLong
8
的 SpectralBlend）结合，同时在令牌空间和频率空间控制漂移
探索与对抗性净化（adversarial purification）或基于梯度的潜在优化的联合框架

5. 理论分析与可解释性

当前漂移检测基于潜在空间的欧氏距离，缺乏对”为何特定令牌不稳定”的深层解释。

未来方向：

建立误差传播的数学模型，量化剪枝对自回归过程稳定性的理论保证
可视化分析不稳定令牌的语义对应关系，理解模型在哪些空间区域更容易产生幻觉（hallucination）

Q: 总结一下论文的主要内容

这篇论文针对自回归长视频生成中的时间漂移（temporal drift）与误差累积问题，提出了一种无需重新训练的推理时解决方法 TokenTrim。

1. 研究背景与核心假设

当前自回归视频生成通过逐块（chunk-wise）迭代生成扩展视频时长，但面临严重的时间漂移：早期帧的微小伪影会在后续生成中被不断放大，导致身份变化、结构退化和全局一致性丧失。与传统观点不同，作者假设漂移并非主要源于模型容量不足，而是源于推理时损坏的潜在条件令牌（latent conditioning tokens）在 Key-Value (KV) 缓存中被无控制地重用，形成误差传播的反馈循环。

2. 方法：TokenTrim

TokenTrim 是一种完全在潜在空间运行的推理时干预机制，通过识别并剪枝高漂移的不稳定令牌来阻断误差累积：

运动稳定初始化：首批次使用 FlowMo
20
生成，利用运动感知方差引导建立稳定的初始潜在锚点。
潜在漂移估计：将相邻批次的帧编码为潜在摘要 Z(t-1), Z_t ∈ R^(N × D) ，计算逐令牌漂移分数：
d_i = |Z_t(i) - Z(t-1)(i)|_2^2
自适应触发准则：选取漂移最高的 p · N 个令牌构成集合 S_t ，计算平均漂移严重程度 D_t 。当 D_t > μ_t + λσ_t （基于历史统计的自适应阈值）时触发剪枝。
硬剪枝与再生：构建掩码 $mt(i) = I
i ∉ S_t
$，将其应用于时序 KV 缓存：
K = K(cache)[mt], quad V = V(cache)[m_t]
使用剪枝后的缓存 (K, V) 重新生成当前批次，阻止损坏的潜在信息影响未来步骤。

3. 实验验证

在 Wan2.1-1.3B 模型上的 Rolling Forcing
18
和 Self Forcing
19
框架中进行评估：

定量结果：使用 VBench 基准，TokenTrim 将 Rolling Forcing 的 Final Score 从 75.12% 提升至 79.67%（+4.55%），将 Self Forcing 从 75.93% 提升至 81.84%（+5.91%），显著优于推理时基线 FlowMo。
人类偏好研究：在 VideoJAM-bench 上，TokenTrim 在时间漂移控制方面获得 49.7% 的偏好率（对比 FlowMo 的 10.2%），在视觉质量和运动连贯性上亦大幅领先。
计算开销：相较于基线仅增加 ×1.08 的运行时间，远低于 FlowMo 的 ×2.18。

4. 主要贡献

揭示了自回归视频漂移的推理时信息传播本质，提出通过潜在空间令牌剪枝主动抑制误差累积的新范式。
实现了无需模型修改、训练或离开潜在空间的即插即用解决方案，兼容现有自回归框架（Rolling Forcing、Self Forcing）。
证明了控制条件上下文（”知道该遗忘什么”）与增强模型记忆同等重要，为无限长视频生成提供了新的技术路径。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Ariel Shaulov,Eitan Shaar,Amit Edenzon,Lior Wolf

Categories: cs.CV,cs.AI

PDF URL: https://arxiv.org/pdf/2602.00268.pdf

Arxiv URL: https://arxiv.org/abs/2602.00268

Arxiv ID: 2602.00268

CoolPaper URL: https://papers.cool/arxiv/2602.00268

Published: 2026-01-30T19:44:16Z

Updated: 2026-01-30T19:44:16.000Z

14. SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic control, with test-time scaling (TTS) gaining attention to enhance robustness beyond training. However, existing TTS methods for VLAs require additional training, verifiers, and multiple forward passes, making them impractical for deployment. Moreover, they intervene only at action decoding while keeping visual representations fixed-insufficient under perceptual ambiguity, where reconsidering how to perceive is as important as deciding what to do. To address these limitations, we propose SCALE, a simple inference strategy that jointly modulates visual perception and action based on ‘self-uncertainty’, inspired by uncertainty-driven exploration in Active Inference theory-requiring no additional training, no verifier, and only a single forward pass. SCALE broadens exploration in both perception and action under high uncertainty, while focusing on exploitation when confident-enabling adaptive execution across varying conditions. Experiments on simulated and real-world benchmarks demonstrate that SCALE improves state-of-the-art VLAs and outperforms existing TTS methods while maintaining single-pass efficiency.

中文摘要

视觉-语言-行动 (VLA) 模型已经成为通用机器人控制的一个有前景的范式，而测试时扩展 (TTS) 正受到关注，以增强训练之外的鲁棒性。然而，现有的 VLA TTS 方法需要额外的训练、验证器和多次前向传递，使其在部署中不切实际。此外，它们仅在动作解码阶段进行干预，而保持视觉表征不变——在感知存在歧义时，这种做法是不够的，因为重新考虑如何感知与决定做什么同样重要。为了解决这些限制，我们提出了 SCALE，一种简单的推理策略，基于“自我不确定性”联合调节视觉感知和动作，其灵感来自主动推理理论中的不确定性驱动探索——无需额外训练，无需验证器，仅需一次前向传递。SCALE 在高不确定性下扩大了感知和动作的探索，同时在有信心时聚焦于利用，从而实现跨不同条件的自适应执行。在模拟和真实世界基准上的实验表明，SCALE 提升了最先进的 VLA 性能，并且在保持单次前向效率的同时，优于现有的 TTS 方法。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文旨在解决Vision-Language-Action (VLA) 模型在测试时增强鲁棒性（test-time robustness）方面存在的计算效率低下与感知-动作协调不足两大核心问题。具体而言，论文针对以下局限性提出了系统性解决方案：

1. 现有测试时缩放（TTS）方法的部署瓶颈

现有的测试时缩放（Test-Time Scaling, TTS）方法虽能提升VLA模型的鲁棒性，但普遍存在以下实用化障碍：

高昂的计算成本：传统TTS方法（如Best-of-N选择）依赖外部验证器或自验证机制，需要多次前向传播（multiple forward passes）生成候选动作并筛选，导致推理延迟显著增加，难以满足实时控制约束。
额外的训练开销：这些方法通常需要为验证器或价值函数进行辅助训练（auxiliary training），且在分布外（out-of-distribution）场景下泛化能力受限。

2. 固定感知管道的局限性

现有TTS方法仅干预动作解码（action decoding）阶段，而保持视觉表示（visual representation）固定。这种解耦的推理范式在感知模糊（perceptual ambiguity）场景（如存在相似干扰物、遮挡或光照变化）下表现脆弱：

视觉注意力固化：固定的视觉编码器可能错过任务相关线索（如错误关注干扰物而非目标物体）。
感知-动作脱节：在闭环控制中，若视觉感知未能根据情境不确定性动态调整，即使动作解码优化也无法纠正错误的视觉理解，导致错误随时间累积。

3. 不确定性量化的维度缺失

现有基于分布的置信度估计（如Self-certainty）仅衡量整体分布的离散程度（distributional spread），未能同时捕捉模型对Top-1选择的决断力（decisiveness）。对于采用贪心解码（greedy decoding）的VLA模型，这种决断力对执行可靠性至关重要。

论文提出的解决路径

为解决上述问题，论文提出了SCALE（Self-uncertainty Conditioned Adaptive Looking and Execution），一种无需额外训练、无需验证器、单次前向传播的自适应推理策略：

联合调制机制：基于自不确定性（self-uncertainty）同时调节视觉感知（通过视觉编码器注意力温度 γ_t ）和动作执行（通过动作采样温度 τ_t^k ）。
双参考不确定性度量：通过对比预测分布与”完全确定”（one-hot）和”完全模糊”（均匀分布）两个参考分布的相对距离，量化 token-level 和 step-level 的不确定性。
主动感知闭环：在高不确定性时拓宽视觉探索（ γ_t > 1 ）并启用多样化动作采样（高温度），在低不确定性时聚焦视觉注意（ γ_t < 1 ）并执行近贪心策略，实现感知与动作的协同适应。

实验表明，该方法在LIBERO、SIMPLER-WidowX等基准测试中超越了需要多次推理的现有TTS方法，同时保持单次前向传播的计算效率。

Q: 有哪些相关研究？

根据论文第2节及相关内容，相关研究主要围绕以下三个方向展开：

1. VLA模型上的测试时缩放（Test-Time Scaling on VLA Models）

该方向关注在推理阶段分配额外计算资源以提升VLA模型性能，而不改变模型参数。

Best-of-N选择与外部验证：近期研究将大语言模型（LLM）中的测试时缩放（TTS）策略扩展至VLA领域，通过生成多个动作候选并利用验证器进行选择。例如：
V-GPS (Nakamoto et al., 2024)：训练离线强化学习价值函数对动作进行重排序；
RoboMonkey (Kwok et al., 2025)：扩大动作验证器训练规模；
TACO (Yang et al., 2025)：采用学习得到的价值函数进行动作选择；
MG-Select (Jang et al., 2025)：利用模型自身分布进行自验证，避免外部验证器。
局限性与本文区别：上述方法普遍存在三大缺陷：

需要为验证器或价值函数进行额外训练；
需要多次前向传播（multiple forward passes）生成候选动作，与实时控制约束冲突；
仅干预动作解码（action decoding），保持视觉表示固定，在感知模糊（perceptual ambiguity）场景下难以纠正错误的视觉理解。

相比之下，本文提出的SCALE无需辅助训练、无需外部验证器、单次前向传播，并首次实现视觉感知与动作解码的联合调制。

2. 生成模型中的不确定性估计（Uncertainty Estimation in Generative Models）

该方向研究如何量化生成模型（特别是LLM）的预测不确定性，以指导解码策略。

基于分布截断的解码：早期工作利用输出分布特性进行截断采样，如top-k (Fan et al., 2018) 和 top-p (Holtzman et al., 2020) 采样，通过限制候选词元范围控制生成质量。
自适应温度调整：近期研究基于不确定性动态调整采样温度，包括：
基于熵 (entropy) 的温度调整 (Zhang et al., 2024)；
基于词元难度（token difficulty）的温度调整 (Zhu et al., 2024; Nguyen et al., 2025)；
Self-certainty (Kang et al., 2025)：通过测量预测分布与均匀分布的KL散度估计不确定性，实现免训练的测试时缩放。
局限性与本文区别：现有方法（包括Self-certainty）主要捕捉整体分布不确定性（distributional spread），即分布的离散程度，但未能反映模型对Top-1选择的决断力（decisiveness）。对于采用贪心解码的VLA模型，这种决断力对执行可靠性至关重要。本文提出的双参考不确定性度量（对比one-hot分布与均匀分布）同时捕捉分布不确定性和Top-1置信度，更适合VLA的闭环控制场景。

3. VLM与VLA的视觉注意力（Visual Attention for VLMs and VLAs）

该方向关注如何有效分配视觉注意力至任务相关区域，以提升模型准确性并减轻幻觉。

VLM中的注意力机制：研究表明，将注意力集中于图像中的任务相关区域可提升VLM性能并减轻幻觉 (Zhang et al., 2025a; Chen et al., 2025)。
VLA中的视觉注意力：针对机器人操纵任务，现有方法通过以下方式调节视觉处理：
对比掩码（contrastive masking）；
训练专用模块（trained modules）强制关注操纵相关区域 (Wu et al., 2025; Zhang et al., 2025b; Xiao et al., 2025)。
局限性与本文区别：上述方法均依赖额外的训练或监督信号（如掩码标注或对比学习）来调节视觉处理。相比之下，本文提出的SCALE是一种**免训练（training-free）**方法，基于模型内部不确定性信号动态调节视觉编码器的注意力温度（attention temperature），在不确定性高时拓宽探索（explore），在不确定性低时聚焦利用（focus），实现与闭环控制相适应的主动感知（active perception）。

理论基础：主动推理（Active Inference）

本文的理论框架受到Active Inference理论 (Friston et al., 2016; Schwartenbeck et al., 2019) 的启发，该理论认为智能体通过最小化期望自由能（expected free energy）来减少不确定性，通过适应性感知（adaptive perception）和动作（action）实现不确定性驱动的探索。这一原则在人类决策 (Daw et al., 2006; Wilson et al., 2014) 和机器人主动感知 (Bohg et al., 2017; Bajcsy et al., 2018) 中均有体现，为SCALE联合调制感知与动作提供了理论依据。

Q: 论文如何解决这个问题？

论文通过提出 SCALE（Self-uncertainty Conditioned Adaptive Looking and Execution）框架来解决上述问题。该方法是一种免训练、免验证器、单次前向传播的推理策略，核心在于利用模型自身的预测不确定性（self-uncertainty）作为内在信号，联合调制视觉感知与动作执行。具体解决方案包含以下四个关键组成部分：

1. 双参考自不确定性度量（Self-Uncertainty via Distributional Positioning）

针对现有不确定性度量仅关注分布离散程度而忽略Top-1决断力的问题，论文提出了一种基于对数似然比检验（log-likelihood ratio testing）的新颖度量方法。

核心思想：衡量预测分布在”完全确定”（full certainty）与”完全模糊”（full ambiguity）之间的相对位置。

双参考分布定义：
低不确定性参考 q_(low) ：以Top-1词元为中心的one-hot分布（代表模型对当前选择的完全承诺）
高不确定性参考 q_(high) ：均匀分布（代表对所有可能动作的完全无知）
不确定性计算公式（式2）：
ut^k = D(KL)(pt^k | q(low)) - D(KL)(p_t^k | q(high))

该式计算预测分布 pt^k 相对于两个参考分布的KL散度差。当 u_t^k > 0 时，表明分布更接近均匀分布（高不确定性）；当 u_t^k < 0 时，表明分布更接近one-hot分布（低不确定性）。这一度量同时捕捉了整体分布不确定性（通过 q(high) ）和Top-1决断力（通过 q_(low) ）。

2. 自适应动作解码（Adaptive Action Decoding）

针对固定贪心解码在动作多模态（action multimodality）场景下的局限性，SCALE基于词元级不确定性（token-level uncertainty）动态调整采样策略。

机制：

温度自适应（式4）：
τ_t^k = T_0 · σ(u_t^k)
其中 T_0 为最大探索温度， σ(·) 为sigmoid函数。该式将不确定性映射为采样温度：
高不确定性时（ u_t^k gg 0 ）： τ_t^k ≈ T_0 ，启用探索性采样（explorative sampling），考虑多种可行动作
低不确定性时（ u_t^k ll 0 ）： τ_t^k ≈ 0 ，执行近贪心解码（near-greedy execution），专注 exploitation
动作采样（式5）：
a_t^k sim Cat(softmax(ell_t^k / τ_t^k))
通过温度缩放后的分布采样动作词元，实现”不确定时探索，确定时利用”的自适应执行。

3. 自适应视觉注意力（Adaptive Visual Attention）

针对固定视觉编码在感知模糊（perceptual ambiguity）场景下的缺陷，SCALE基于步骤级不确定性（step-level uncertainty）动态调整视觉感知策略。

关键设计（区别于动作解码的瞬时响应）：视觉调制需要考虑时序上下文，因为感知依赖于对场景变化的持续理解。因此SCALE采用基于历史偏差的调制策略：

步骤级不确定性聚合（式6）：
ut = (1) / (K)∑(k=1)^K u_t^k
将当前步骤所有动作词元的不确定性平均，得到该时间步的整体不确定性。
指数移动平均（EMA）更新（式7）：
ut = α u(t-1) + (1-α)u_t
维护近期不确定性的平滑估计，用于检测场景复杂度变化。
不确定性偏差计算：
Delta u(t-1) = u(t-1) - u_(t-2)
通过比较当前不确定性与历史平均的偏差，判断不确定性是上升（需探索）还是下降（可聚焦）。
注意力温度调制（式8）：
γt = kappa^(tanh(Delta u(t-1)))
其中 kappa > 1 为边界参数。该式将不确定性偏差映射为视觉编码器的注意力温度：
γ_t > 1 （探索模式）：当 Delta u_(t-1) > 0 （不确定性上升），通过温度缩放平坦化注意力权重（式9），拓宽感受野，搜寻更多视觉线索
γ_t < 1 （聚焦模式）：当 Delta u_(t-1) < 0 （不确定性下降），锐化注意力权重，聚焦任务相关区域，提高感知精度

实现细节：该调制应用于视觉编码器（如SigLIP）的自注意力层（式9），在视觉特征提取阶段即动态调整”看什么”。

4. 闭环反馈与单轮推理（Closed-loop Single-Pass Inference）

SCALE将上述机制整合为闭环控制系统（图2）：

时间步 t 的执行流程（算法1）：

视觉编码：使用上一时刻计算的注意力温度 γ_t 处理当前观测 o_t ，得到视觉表示 v_t
动作解码：基于 v_t 自回归预测动作词元，计算每个词元的 u_t^k 并自适应采样
不确定性更新：聚合 u_t 并更新EMA，计算偏差 Delta u_t 用于下一时刻的视觉调制

计算效率：整个过程仅需单次前向传播（single forward pass），视觉调制利用上一时刻的不确定性（基于视觉帧的高度时序相关性假设），无需额外推理轮次。

总结

通过上述设计，SCALE实现了：

计算高效性：无需训练验证器，无需生成多个候选动作，单次前向传播完成推理
感知-动作协同：不确定性信号同时驱动”如何看”（视觉注意力温度）和”怎么做”（动作采样温度）
情境适应性：在感知模糊或动作多模态时自动拓宽探索，在确定时聚焦执行，有效处理分布外场景和长期任务

实验表明，该方法在LIBERO、SIMPLER-WidowX等基准上超越了需要多次推理的现有TTS方法，同时保持实时部署能力。

Q: 论文做了哪些实验？

论文在模拟环境和真实世界中开展了系统性实验，评估了SCALE在不同VLA骨干网络（OpenVLA、π0-FAST、SpatialVLA）上的性能。实验设计涵盖与现有测试时缩放（TTS）方法的对比、组件消融分析以及定性可视化验证。

1. 实验设置（Benchmarks & Setup）

模拟基准测试（Simulation Benchmarks）

基准测试	特点	评估设置
LIBERO (Liu et al., 2023)	多任务泛化基准，包含四个套件：Spatial（空间布局变化）、Object（物体类别变化）、Goal（目标变化）、Long（长程任务）	在OpenVLA和π0-FAST上进行微调后评估
SIMPLER-WidowX (Li et al., 2024)	真实到模拟（real-to-sim）的精确拾取放置任务，包含窄公差约束	在π0-FAST和SpatialVLA上评估（后者分别测试微调和零样本）
LIBERO-PRO-Long (Zhou et al., 2025)	分布外鲁棒性测试，引入语言、物体、任务交换等扰动	零样本评估（模型仅在LIBERO-Long上微调，在扰动版本上测试）

真实世界实验（Real-World Setup）

硬件平台：6-DoF UR10e机械臂 + Robotiq 2F-85夹爪，配备第三人称和腕部摄像头
任务设计：
分布内（ID）：Put Carrot on Towel、Put Eggplant in Bowl、Put Lemon on Plate（不同几何形状物体）
分布外（OOD）：Put Teddy Bear in Bowl（柔软材质）、Put Cube on Plate（小尺寸几何体，未见过的物体）
评估协议：每个任务24个回合，模型在48个人类远程操作演示上进行微调

2. 主要定量结果（Main Quantitative Results）

(1) 与训练需求的TTS方法对比（表1）

在LIBERO基准上使用OpenVLA骨干，SCALE（免训练、单轮推理）超越了需要额外训练和多轮推理的SOTA方法：

vs. MG-Select：平均成功率提升 +10.7%（81.5% vs 70.8%），在长程任务（Long）上提升 +7.9%（63.3% vs 55.4%）
vs. RoboMonkey/TACO：在LIBERO-Long上分别提升 +6.8% 和 +3.3%（见附录表12）

(2) 与免训练基线对比（表1、表2、表3）

相比固定参数的采样策略（Temperature、Top-k、Top-p），SCALE展现出一致的鲁棒性优势：

LIBERO（OpenVLA）：平均 81.5%，优于最佳基线Top-p的77.2%
LIBERO（π0-FAST）：平均 93.0%，而温度采样（t=1.0）导致性能严重下降（84.3%）
SIMPLER-WidowX（π0-FAST）：平均 49.0%，显著优于贪心解码的34.4%

(3) 分布外鲁棒性（表4）

在LIBERO-PRO-Long扰动测试中：

OpenVLA上平均提升 +3.5%（21.5% vs 18.0%）
π0-FAST上平均提升 +3.1%（38.8% vs 35.7%）

(4) 真实世界性能（表5）

OpenVLA：ID场景提升 +19.5%（55.6% vs 36.1%），OOD场景提升 +16.7%（39.6% vs 22.9%）
π0-FAST：ID场景提升 +13.9%（86.1% vs 72.2%），OOD场景提升 +12.5%（56.3% vs 43.8%）

3. 详细分析实验（Detailed Analyses）

(1) 组件消融研究（表6）

验证自适应动作解码与自适应视觉注意力的互补性：

自适应解码	自适应视觉注意力	成功率（LIBERO-Long）
✗	✗	52.7%（基线）
✓	✗	58.0%
✗	✓	56.0%
✓	✓	63.3%（SCALE）

(2) 不确定性度量对比（表7）

对比不同不确定性指标在相同框架下的表现：

Self-uncertainty（本文）：63.3%
Gini Impurity：57.8%
Entropy：55.4%
Self-certainty（Kang et al.）：53.8%（仅捕捉分布不确定性，表现接近基线）

(3) 视觉调制设计选择（表8）

系统验证三个设计维度：

调制目标	调制策略	不确定性信号	成功率
基线	-	-	52.7%
Cross-modal（VLA内部）	Adaptive	偏差 Delta u	57.4%
Uni-modal（视觉编码器）	Fixed	瞬时 u	55.4%
Uni-modal（视觉编码器）	Adaptive	偏差 Delta u	63.3%

结论：在视觉编码器（uni-modal）进行连续自适应调制，并基于历史偏差（change-based）而非瞬时值，效果最佳。

(4) 计算效率验证（附录图6、表10）

延迟分析：在N=16样本时，OpenVLA和π0-FAST的TTS延迟分别增加15.9倍和3.2倍，而SCALE保持单轮延迟
双轮Oracle对比：使用当前时刻真实不确定性的两轮推理（Oracle）达到64.6%，SCALE基于上一时刻偏差达到63.3%，性能损失仅**-1.3%**但节省50%时间

4. 定性分析（Qualitative Analyses）

(1) 自适应视觉注意力可视化（图3）

场景：”将黄色杯子放入微波炉”任务
关键帧（t=45）：当不确定性突然增加时，固定注意力（ γ=1 ）错误关注微波炉门（干扰物），而SCALE提高温度（ γ>1 ）拓宽注意力，成功捕捉目标杯子，最终完成任务。

(2) 自适应动作解码行为（图4）

任务：将茄子放入碗中（π0-FAST）
行为差异：
贪心解码：直接路径导致与碗碰撞（失败）
SCALE：初期高不确定性时采用抬升轨迹（探索性采样，黄色阶段），后期不确定性降低后稳定执行（绿色阶段），成功避障

(3) 不确定性-成功率相关性（附录图5）

分析6,000个回合发现：平均Top-1概率（ p_(max) ）处于最低10%分位的回合，成功率显著下降，验证了自参考不确定性作为失败风险信号的有效性。

5. 敏感性分析（Sensitivity Analysis）

ε 参数敏感性（附录表9）：在 10^(-10) 至 10^(-14) 范围内，性能稳定（57.0%-58.0%）
基线解码策略调参（附录表11）：固定温度（0.3-1.0）、Top-k（10-40）、Top-p（0.9-0.95）在LIBERO上表现波动小（76.2%-77.2%），无单一参数能超越SCALE的自适应策略（81.5%）

这些实验全面验证了SCALE在计算效率（单轮推理）、任务性能（超越训练需求的TTS方法）、分布外泛化（真实世界OOD场景）以及组件设计（不确定性度量与调制机制）方面的优越性。

Q: 有什么可以进一步探索的点？

基于论文提出的方法框架与实验验证，以下几个方面值得进一步探索：

1. 架构扩展与多模态融合

非自回归VLA架构的适配：当前SCALE针对自回归（autoregressive）VLA设计。将其扩展至基于扩散模型（diffusion-based）或流匹配（flow matching）的VLA（如 π_0 的扩散版本）需要重新定义不确定性度量，例如通过估计去噪步骤中的方差或似然梯度。
语言指令歧义的联合建模：现有方法主要处理视觉感知模糊与动作多模态性，但尚未显式处理语言指令本身的不确定性（如含糊的指代表达）。可探索将指令解析的置信度纳入统一的不确定性框架，实现”语言-视觉-动作”三重自适应。

2. 细粒度视觉调制策略

空间选择性注意力：当前通过全局温度参数 γ_t 调节视觉编码器，未来可探索空间自适应的注意力掩码（spatial attention masking），仅在图像的特定区域（如高不确定性区域）进行探索性放大，而非全局调整。
多视角协同感知：在具身智能体配备多摄像头（如第三人称+腕部+触觉）的场景下，可研究不确定性驱动的视角选择与信息融合策略，动态决定何时依赖近距离视角（高确定性）或广角视角（探索模式）。

3. 不确定性估计的增强与校准

混合不确定性量化：结合本文的自不确定性（模型内部信号）与外部验证器（如轻量级价值函数或世界模型），在关键决策点（如接触前）进行快速验证，形成”快速直觉+慢速验证”的双系统架构。
元学习超参数自适应：当前 T_0 、 kappa 、 α 为手动设定的超参数。可通过在线元学习（online meta-learning）或贝叶斯优化，使模型根据任务类型或环境复杂度自动调整探索-利用的权衡强度。

4. 长期记忆与持续学习

跨回合不确定性累积：现有EMA仅维护单回合内的不确定性历史。引入跨回合记忆机制（如任务相关的先验不确定性图谱），使模型能在相似任务中利用历史经验快速切换探索/利用模式，减少对瞬时偏差 Delta u_(t-1) 的依赖。
失败案例驱动的自适应：建立基于不确定性触发的失败案例检索机制，当检测到高不确定性且任务失败时，自动检索相似场景的成功策略并微调视觉-动作关联。

5. 安全约束下的主动探索

风险感知的不确定性调节：当前方法在高不确定性时扩大探索范围，但可能在物理环境中导致危险动作（如碰撞）。可引入安全屏障函数（control barrier functions）或约束MDP框架，确保探索性采样始终位于安全动作集合内。
人类在环的不确定性通信：当自不确定性持续高位时，主动触发人类干预请求（询问-确认机制），而非盲目探索，这在医疗或工业精密操作中尤为重要。

6. 理论深化与神经科学联系

与Active Inference的形式化统一：将SCALE的启发式设计（sigmoid门控、EMA更新）严格映射至自由能最小化（free energy minimization）的变分推断框架，推导视觉温度 γ_t 与动作温度 τ_t 的最优调度策略。
神经启发的多时间尺度适应：借鉴人类认知中”快速视觉注意切换”与”慢速动作策略更新”的双时间尺度机制，分别优化视觉编码器与策略网络的自适应频率。

7. 计算效率与硬件协同

硬件感知的动态推理：针对边缘计算设备（如机器人 onboard GPU），研究不确定性驱动的动态网络剪枝或早期退出机制（early exiting），在低不确定性时跳过部分视觉编码层，进一步降低延迟。
事件相机（Event Camera）的集成：利用事件相机的高时间分辨率特性，在不确定性突变时（ Delta u 较大）触发高频视觉处理，实现微秒级的感知-动作闭环。

Q: 总结一下论文的主要内容

本文提出 SCALE（Self-uncertainty Conditioned Adaptive Looking and Execution），一种针对Vision-Language-Action（VLA）模型的免训练、单轮推理测试时增强策略，旨在解决现有测试时缩放（TTS）方法计算开销高且忽视感知-动作协同的问题。

核心问题

现有VLA推理范式存在双重局限：（1）固定视觉感知导致在视觉模糊场景（如干扰物相似）中易错过关键线索；（2）固定贪心解码在动作多模态场景下忽略可行替代方案。现有TTS方法虽通过多轮采样与验证提升鲁棒性，但需额外训练、多前向传播，且仅干预动作解码而保持视觉表示不变，难以纠正感知错误。

方法创新

SCALE基于主动推理（Active Inference）理论，利用模型输出分布的自不确定性（self-uncertainty）作为内在信号，实现感知与动作的联合自适应：

双参考不确定性度量：通过对比预测分布与两个极端参考（one-hot分布代表”完全确定”，均匀分布代表”完全模糊”）的KL散度差，量化同时包含分布离散度与Top-1决断力的不确定度 ut^k = D(KL)(p|q(low)) - D(KL)(p|q_(high)) 。
自适应动作解码：基于词元级不确定性 u_t^k 动态调整采样温度 τ_t^k = T_0 · σ(u_t^k) ，高不确定性时启用探索性采样，低不确定性时执行近贪心策略。
自适应视觉注意力：基于步骤级不确定性相对于历史EMA的偏差 Delta u(t-1) ，调整视觉编码器注意力温度 γ_t = kappa^(tanh(Delta u(t-1))) 。不确定性上升时拓宽视野（ γ>1 ）以搜寻线索，下降时锐化聚焦（ γ<1 ）以提高精度。

上述机制形成闭环：当前动作解码产生的不确定性信号调制下一步视觉感知，全程仅需单次前向传播。

实验验证

在模拟基准（LIBERO、SIMPLER-WidowX、LIBERO-PRO-Long）与真实世界（UR10e机械臂）中，SCALE应用于OpenVLA、π0-FAST、SpatialVLA等骨干网络：

性能优势：在LIBERO-Long上超越需训练验证器的MG-Select（+10.7%）、RoboMonkey（+6.8%）和TACO（+3.3%）；在真实世界OOD任务中较基线提升最高达16.7%。
鲁棒性：固定参数采样策略（temperature/top-k/top-p）常因无法适应情境变化而失效，SCALE则 consistently 提升性能。
消融验证：联合使用自适应解码与视觉注意力（63.3%）显著优于单独使用（58.0% / 56.0%）及基线（52.7%）；基于历史偏差的视觉调制优于瞬时不确定性（63.3% vs 55.4%）。

结论

SCALE证明了通过自不确定性同时调制”如何感知”（looking）与”如何执行”（execution），可在不增加训练开销与推理延迟的前提下，显著提升VLA模型在分布内与分布外场景的鲁棒性，为实时机器人控制提供了高效的测试时增强方案。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Hyeonbeom Choi,Daechul Ahn,Youhan Lee,Taewook Kang,Seongwon Cho,Jonghyun Choi

Categories: cs.RO,cs.AI,cs.LG

PDF URL: https://arxiv.org/pdf/2602.04208.pdf

Arxiv URL: https://arxiv.org/abs/2602.04208

Arxiv ID: 2602.04208

CoolPaper URL: https://papers.cool/arxiv/2602.04208

Published: 2026-02-04T04:48:16Z

Updated: 2026-02-04T04:48:16.000Z

15. LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder into the embedding space of an LLM. Intriguingly, this mapping can be as simple as a shallow MLP transformation. To understand why LLMs can so readily process visual tokens, we need interpretability methods that reveal what is encoded in the visual token representations at every layer of LLM processing. In this work, we introduce LatentLens, a novel approach for mapping latent representations to descriptions in natural language. LatentLens works by encoding a large text corpus and storing contextualized token representations for each token in that corpus. Visual token representations are then compared to their contextualized textual representations, with the top-k nearest neighbor representations providing descriptions of the visual token. We evaluate this method on 10 different VLMs, showing that commonly used methods, such as LogitLens, substantially underestimate the interpretability of visual tokens. With LatentLens instead, the majority of visual tokens are interpretable across all studied models and all layers. Qualitatively, we show that the descriptions produced by LatentLens are semantically meaningful and provide more fine-grained interpretations for humans compared to individual tokens. More broadly, our findings contribute new evidence on the alignment between vision and language representations, opening up new directions for analyzing latent representations.

中文摘要

将大型语言模型（LLM）转变为视觉-语言模型（VLM）可以通过将视觉编码器中的视觉令牌映射到LLM的嵌入空间来实现。有趣的是，这种映射可以简单到使用一个浅层的多层感知机（MLP）即可。为了理解为什么LLM能如此容易地处理视觉令牌，我们需要可解释性方法来揭示在LLM处理的每一层中视觉令牌表示所编码的内容。在本研究中，我们引入了LatentLens，这是一种将潜在表示映射到自然语言描述的新方法。LatentLens通过对大规模文本语料库进行编码，并存储该语料库中每个令牌的上下文令牌表示来工作。然后将视觉令牌表示与其上下文文本表示进行比较，获得最相似的前k个邻近表示，从而为视觉令牌提供描述。我们在10种不同的VLM上评估了该方法，结果显示，常用方法如LogitLens显著低估了视觉令牌的可解释性。使用LatentLens后，绝大多数视觉令牌在所有研究的模型和层中都是可解释的。定性分析表明，LatentLens生成的描述在语义上具有意义，并且相比单个令牌，为人类提供了更细粒度的解释。从更广泛的角度来看，我们的发现为视觉与语言表示之间的对齐提供了新的证据，并为潜在表示的分析开辟了新的方向。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决的核心问题是：理解为什么冻结的大型语言模型（LLM）能够通过简单的投影层（如浅层MLP）处理视觉token，并揭示这些视觉token在LLM内部表示空间中的可解释性。

具体而言，论文针对以下关键问题展开研究：

视觉token的可解释性被低估的问题

现有方法（如LogitLens和EmbeddingLens）通过将视觉token与LLM的输入嵌入矩阵或输出词汇表进行比较，得出视觉token在输入层和早期层几乎不可解释的结论
论文质疑这种比较方式是否合适，并提出视觉token实际上可能对应于更具上下文语义的表示

跨模态对齐机制的理解缺失

尽管已知LLM可以作为”通用计算引擎”处理多模态输入，但视觉表示如何在LLM的潜在空间中被整合和处理仍不清楚
需要解释视觉token在LLM各层处理过程中究竟编码了什么信息，以及它们是否与语言表示存在结构上的对齐

缺乏细粒度的视觉token解释方法

现有训练无关的解释方法（如EmbeddingLens和LogitLens）局限于返回子词（subword）token或下一个token预测，无法提供句子级别的语义描述
需要一种能够映射到自然语言描述（而非仅仅是词汇表token）的方法来解释潜在表示

为应对这些问题，论文提出了LATENTLENS方法，通过将视觉token表示与大型文本语料库中预计算的上下文文本表示进行比较，发现：

视觉token在LLM的所有层（包括输入层）都具有高度可解释性（平均72%的token可被解释）
早期层的视觉token倾向于与LLM中间层（如8-16层）的上下文表示对齐，表明投影层学习的是语义而非词汇层面的映射
相比现有方法，LATENTLENS能提供更丰富的句子级描述，而非孤立的子词token

Q: 有哪些相关研究？

根据论文第6节（Related Work）的内容，相关研究可分为以下四个主要方向：

1. 连接冻结的视觉与语言模型

这类研究探讨如何通过简单的适配器将预训练的视觉编码器与冻结的LLM连接，形成视觉-语言模型（VLM）：

早期工作：Tsimpoukelli et al. (2021) 和 Mañas et al. (2023) 展示了通过小型MLP或注意力模块即可让冻结的LLM处理视觉输入。
线性映射：Merullo et al. (2023) 研究了从图像到文本空间的线性映射。
通用计算引擎：Lu et al. (2022) 提出LLM可作为”通用计算引擎”，能以极少的权重更新处理任意数据序列。
当前SOTA：Yang et al. (2025)、Deitke et al. (2025) 和 Li et al. (2025) 在此基础上增加了更复杂的图像token预处理和多阶段适配训练。
显式词汇表示：Liao et al. (2025) 和 Masry et al. (2025) 探索将视觉token表示为LLM词汇的加权和，而非传统的MLP投影。

理论解释：

Patel & Pavlick (2022) 认为LLM仅通过语言训练就能学习物理世界的隐式模型。
Han et al. (2025) 将LLM的视觉先验分解为感知和推理先验。

2. VLM的可解释性方法

论文区分了基于训练的方法与无需训练的方法：

基于训练的方法：

稀疏自编码器（SAEs）：Cunningham et al. (2023); Venhoff et al. (2025)
探测（Probing）：Fu et al. (2025); Belinkov (2022)
LatentQA：Pan et al. (2024)
Patchscopes：Ghandeharioun et al. (2024)

无需训练的方法（与本文直接相关）：

EmbeddingLens：Mokady et al. (2021) 和 Jiang et al. (2025a) 通过比较视觉token与LLM嵌入矩阵的元素来解释视觉token，但仅在1-2个模型上展示了定性示例。
LogitLens：nostalgebraist (2020) 提出的方法，通过LLM的unembedding矩阵将潜在表示投影到词汇表分布。近期被应用于VLM：Neo et al. (2025); Jiang et al. (2025b); Shukor & Cord (2024); Park & Li (2025); Wu et al. (2025)。

其他VLM分析：

跨模态概念：Papadimitriou et al. (2025)
跨模态电路：Nikankin et al. (2025)
注意力机制：Neo et al. (2025); Zhang et al. (2025) 分析注意力如何从视觉token中提取信息。

近期相关工作：

Phukan et al. (2025) 利用生成答案的平均中间上下文嵌入来缓解VQA中的幻觉，但未系统研究视觉token的可解释性。

3. LLM中的表示研究

这类研究为理解LATENTLENS提供了基础：

Soft Prompts：Lester et al. (2021) 发现soft prompts有时能展示可解释的最近邻，但Bailey et al. (2023) 挑战了soft prompts作为”类词”单元的观点。
上下文词嵌入：Peters et al. (2018); Eyal et al. (2022); Wiedemann et al. (2019); Chang & Chen (2019) 研究了上下文嵌入中的词义消歧。
层演化：Voita et al. (2019); Aken et al. (2020) 研究了表示在Transformer各层的演化。
嵌入几何：Ethayarajh (2019) 分析了BERT、ELMo和GPT-2嵌入的几何结构。

4. 视觉与语言表示空间的关系

模态差距（Modality Gap）：Liang et al. (2022); Jiang et al. (2024) 研究了多模态对比表示学习中的模态差距。
窄锥效应（Narrow-Cone Effects）：Shukor & Cord (2024)
柏拉图表示假说（Platonic Representation Hypothesis）：Huh et al. (2024) 提出不同模态的表示空间会收敛到共享结构，本文的发现为这一假说提供了新证据。

基础理论背景：

符号接地问题：Harnad (1990) 关于物理世界与抽象符号处理之间关系的经典论述。
经验基础语言：Bisk et al. (2020) 探讨经验如何为语言提供基础。

Q: 论文如何解决这个问题？

论文通过提出 LATENTLENS 这一新型可解释性方法来解决上述问题。该方法的核心在于改变比较视觉token表示的参照系——从静态的词嵌入/反嵌入矩阵转向动态的上下文文本表示。

1. 核心方法设计

关键洞察

现有方法（EmbeddingLens和LogitLens）将视觉token h_i^((ell)) 与固定的词汇表嵌入进行比较，存在两个局限：

描述粒度受限：仅限于子词（subword）token，无法提供句子级语义
参照系不匹配：不同层的潜在表示始终与输入/输出嵌入空间比较，忽略了LLM内部表示的层次化特性

LATENTLENS的核心假设：视觉token最自然的比较对象应是上下文语境中的文本token表示，而非孤立的词汇嵌入。

具体实现步骤

步骤1：构建上下文嵌入数据库

使用大规模文本语料库（Visual Genome，约299万条描述）
用目标LLM编码每条描述，存储每个token在多个中间层（如第1、2、4、8、16、24层等）的上下文表示 r_j^((ell)) ∈ R^d

步骤2：提取视觉token表示

将图像输入VLM，通过视觉编码器和投影层获得视觉token
提取LLM各层中视觉token的潜在表示 h_i^((ell))

步骤3：最近邻检索

计算视觉token表示与预存上下文表示的余弦相似度：
s_j = cosine_sim(h_i^((ell)), r_j^((ell)))
返回相似度最高的top-k个上下文描述作为解释

2. 解决可解释性评估难题

论文设计了一个基于GPT-4o的自动化评判框架来解决”何种描述算作可解释”的主观性问题：

输入：图像（含红色边界框标示视觉token区域）+ top-5候选描述
分类标准：
Concrete（具体）：描述直接可见的对象、颜色、纹理
Abstract（抽象）：概念相关但非字面可见（如情感、活动）
Global（全局）：描述图像其他区域的内容
验证：通过与人工标注的一致性检验（Cohen’s kappa = 0.68 ）

3. 关键发现与解释

发现1：视觉token在多层高度可解释

LATENTLENS：平均72%的视觉token在所有层可被解释
对比基线：EmbeddingLens仅30%，LogitLens仅23%
结论：先前方法严重低估了视觉token的可解释性

发现2：Mid-Layer Leap现象

通过比较视觉token与各层上下文表示的相似度，发现：

输入层（Layer 0）的视觉token与LLM**中间层（如8-16层）**的文本表示最为相似
解释：投影层学习的并非词汇级映射，而是语义级映射；视觉token进入LLM时已处于”预上下文化”状态，类似于文本经过多层处理后的表示

发现3：表示漂移差异

文本token：在LLM处理过程中迅速偏离初始嵌入（早期层相似度即降至0.4以下）
视觉token：保持与输入表示的高度相似（中间层仍高于0.8），表明冻结LLM对视觉token的变换较小

4. 方法优势总结

特性	EmbeddingLens	LogitLens	LATENTLENS
参照系	输入嵌入矩阵	输出反嵌入矩阵	上下文化中间层表示
描述粒度	子词token	子词token	句子/短语级描述
跨层适用性	主要适用于输入层	主要适用于深层	适用于所有层
语义丰富度	低（孤立token）	低（next-token预测）	高（完整语境）

通过这一方法，论文证明了：尽管视觉token不一定与LLM词汇表一一对应，但它们与上下文文本表示高度对齐，其语义内容与图像内容密切相关。这为理解跨模态对齐机制提供了实证基础。

Q: 论文做了哪些实验？

论文通过以下系列实验验证LATENTLENS的有效性并揭示视觉token的表示特性：

1. 主实验：跨模型、跨层可解释性评估（第4.2节）

在10种VLM配置（3个LLM：OLMo-7B、LLaMA3-8B、Qwen2-7B × 3个视觉编码器：CLIP-ViT-L/14、SigLIP、DINOv2-L-336）上，系统比较三种解释方法：

EmbeddingLens：与输入嵌入矩阵比较
LogitLens：通过反嵌入矩阵投影到词汇表
LATENTLENS：与预计算的上下文文本表示比较

评估设置：

从PixMo-Cap验证集随机采样100张图像的100个patch
评估9个LLM层（0, 1, 2, 4, 8, 16, 24, L-2, L-1）
使用GPT-4o作为自动评判器，判定top-5描述中是否有至少一个与图像区域相关（Concrete/Abstract/Global）

关键结果：

LATENTLENS：平均**72%**的视觉token在所有层可被解释（范围60-80%）
EmbeddingLens：平均30%（且模型间差异大，OLMo系列40-60%，Qwen2系列<20%）
LogitLens：平均23%（早期层<20%，后期层对多数模型跃升至60-80%）

2. Mid-Layer Leap现象分析（第4.3节）

探究视觉token表示与LLM哪一层的上下文表示最相似：

方法：

对每一层的视觉token h_i^((ell)) ，计算其与所有层（0到L）上下文表示的top-5最近邻
统计最近邻来源层的分布

发现：

输入层（Layer 0）的视觉token与LLM**中间层（8-16层）**的文本表示最相似，而非与输入层文本表示
例如：OLMo-7B + SigLIP中，Layer 0视觉token的最近邻主要来自Layer 8
Qwen2-7B系列中，所有层视觉token的最近邻都集中在Layer 16
达到中间层后，呈现对角线模式（Layer ell 视觉token与Layer ell 文本表示最相似）

3. 消融实验（附录D）

在OLMo-7B + CLIP-ViT配置上测试训练设置的鲁棒性：

消融条件	可解释性变化	Top-5重叠度
不同随机种子	+1.3%	2.5/5
线性连接器（替代3层MLP）	+0.8%	2.1/5
单句caption（替代多句详细描述）	-1.6%	1.8/5
解冻LLM训练	+6.4%	1.9/5
空间预测任务（冻结LLM）	-33.2%	0.0/5
空间预测任务（解冻LLM）	-29.2%	0.0/5

结论：

线性投影已足够产生可解释对齐
语言生成任务（captioning）对可解释性至关重要，纯空间预测任务导致对齐消失

4. 表示特性分析

4.1 L2范数分布（附录E）

观察：视觉token的L2范数比文本token大1-2个数量级（LLaMA3和Qwen2中可达 10^5 ，而OLMo约为 10^3 ）
分析：高范数并非来自稀疏异常值（rogue dimensions），而是所有维度的均匀高斯分布

4.2 Token漂移分析（附录F）

文本token：在LLM处理过程中迅速偏离初始表示（Layer 4时与输入层相似度<0.4）
视觉token：保持与输入表示的高度相似（中间层仍>0.8），表明冻结LLM对视觉token的变换很小

5. 现成模型验证（第4.4节 & 附录G）

在Qwen2-VL-7B-Instruct（经过多阶段训练、非冻结LLM的工业级模型）上验证：

LATENTLENS仍保持高可解释性（60-73%），显著优于基线
Mid-Layer Leap现象较弱：Layer 0视觉token主要对齐Layer 4，之后呈现对角线模式
视觉token的表示漂移比冻结LLM模型更明显（从0.96降至0.10）

6. 细粒度解释分析（附录H）

6.1 解释类型分布

Concrete（具体）：65-75%（直接可见的对象、颜色）
Abstract（抽象）：11-19%（情感、活动、功能）
Global（全局）：11-16%（图像其他区域的内容）

6.2 词性分析

名词占主导（45-50%）
专有名词（10-20%）、动词（10-15%）、形容词（约5%）

6.3 视觉属性

颜色词在早期层更常见（5-6%），后期层下降至3%
形状和纹理词罕见（<1%）

7. 短语级解释价值量化（附录I）

人工评估表明：在**64%**的情况下，完整的句子上下文比孤立单词提供更好的解释
仅8%的情况下上下文具有误导性

8. 动态语料库生成（附录J）

使用进化搜索（GPT-4o生成变体）优化描述上下文
在85%的情况下提高了余弦相似度（平均+0.017）
35%的情况下，原本非top-1的token在优化上下文后成为最佳匹配

9. Caption质量验证（附录K）

使用DCScore（GPT-4o评判）验证训练模型的生成质量：

CLIP/SigLIP编码器模型：平均6.8/10
DINOv2编码器模型：平均4.4/10（因其缺乏语言预训练）
参考模型Qwen2-VL-7B-Instruct：8.5/10

所有实验数据、可视化结果及额外定性示例详见论文附录A-M。

Q: 有什么可以进一步探索的点？

基于论文的局限性、讨论部分以及未完全展开的探索，以下是可进一步研究的关键方向：

1. 方法论的扩展与优化

动态与领域自适应语料库

论文附录J初步展示了通过进化搜索生成最优描述的可能性。可进一步开发自适应语料库生成机制，针对特定视觉领域（如医学影像、科学图表）动态构建上下文嵌入库，而非依赖固定的Visual Genome语料。
探索多语言语料库对视觉token解释的影响，验证跨语言表示空间的对齐程度。

存储与计算效率

当前方法需要存储数百万上下文嵌入（float8压缩后仍有显著开销）。可研究压缩感知或哈希技术（如局部敏感哈希）来降低存储需求，同时保持最近邻检索的准确性。
开发增量式LATENTLENS，支持在线更新语料库而无需重新编码全部文本。

2. 跨模态与跨架构泛化

原生多模态模型（Natively Multimodal Models）

将LATENTLENS应用于Chameleon、Transfusion等原生多模态模型（这些模型不区分视觉/语言编码器），检验在联合预训练空间中视觉token是否仍表现出类似的”Mid-Layer Leap”现象。

非Transformer架构

当前研究局限于Transformer-based模型。探索**状态空间模型（SSMs）如Mamba，或混合专家模型（MoE）**中视觉token的表示特性，验证发现是否依赖于Transformer的特定归纳偏置。

其他模态迁移

论文提及但未深入探索：软提示（soft prompts）、潜在思维（latent thinking/thought tokens）、语音表示的可解释性。这些非语言token是否也呈现与中间层文本表示的对齐？

3. 因果机制与功能性分析

因果消融研究（Causal Ablations）

论文提到但未实施：通过干预可解释与不可解释的视觉token（如使用LATENTLENS识别”关键token”后对其进行掩码或扰动），量化其对下游任务（如VQA、Captioning）性能的影响。
区分”可解释性”与”功能性”：高可解释性token是否必然对任务性能更重要？那些不可解释的token（可能是背景或register tokens）是否承担其他计算功能？

幻觉缓解的实际应用

基于发现（视觉token与语言表示高度对齐），开发实时幻觉检测机制：当视觉token的最近邻与生成文本的上下文表示出现显著不匹配时触发警告。

4. 表示空间的深层结构

超越余弦相似度的几何分析

论文观察到视觉token与文本token的L2范数差异显著（附录E）。可进一步研究流形对齐（manifold alignment）、子空间交集或黎曼几何视角下的模态对齐，而非仅依赖最近邻检索。
探索** rogue dimensions**（Timkey & van Schijndel, 2021）在视觉token中的具体作用，尽管论文初步分析未发现系统性证据。

任务向量的视觉对应物

Behind The Scenes部分提及的”奇怪不可解释token”可能对应任务向量（task vectors）或寄存器token（register tokens）。可系统研究这些token在视觉处理中的计算角色。

5. 投影层（Connector）的优化

目标层选择策略

基于Mid-Layer Leap发现（视觉token天然对齐中间层），研究投影层的目标层选择：是否应将视觉投影直接优化以匹配特定中间层（如Layer 8或16），而非假设输入层对齐？这可能减少训练时的表示空间扭曲。

线性vs非线性投影的理论分析

消融实验显示线性投影已足够（附录D），但需要更严格的理论分析：什么条件下线性映射足以保持语义可解释性？ 这与表示空间的固有维度（intrinsic dimensionality）有何关联？

6. 评估框架的完善

更细粒度的语义分类

当前LLM judge仅区分Concrete/Abstract/Global。可扩展至空间关系（above/beside）、属性组合（颜色+材质）、功能可见性（affordances）等更精细的语义类别。

人类对齐的自动化度量

开发不依赖GPT-4o API的轻量级评估指标，基于学习的相似度函数或人类反馈的对比学习，降低大规模评估成本。

这些方向既包含对LATENTLENS方法本身的工程改进，也包含对视觉-语言对齐基础理论的深入探索，同时兼顾了实际应用价值（如幻觉检测）。论文已开源其上下文嵌入数据库，为上述研究提供了基础设施支持。

Q: 总结一下论文的主要内容

这篇论文的主要内容包括以下几个方面：

1. 研究背景与核心问题

论文针对冻结大型语言模型（LLM）处理视觉token的机制展开研究。尽管通过简单的投影层（如浅层MLP）即可将视觉编码器与冻结的LLM连接形成视觉-语言模型（VLM），但视觉token在LLM内部表示空间中的可解释性长期存在争议。现有方法（如LogitLens和EmbeddingLens）通过将视觉token与LLM的输入/输出嵌入矩阵比较，得出视觉token在输入层和早期层几乎不可解释的结论。论文质疑这一观点，提出核心问题：视觉token在LLM处理过程中究竟编码了什么信息？它们是否与语言表示存在结构对齐？

2. LATENTLENS方法

论文提出LATENTLENS，一种无需训练的可解释性方法，其核心创新在于：

参照系的转变：不再将视觉token hi^((ell)) 与静态的词嵌入矩阵 E(emb) 或反嵌入矩阵 W_(unemb) 比较，而是与预计算的上下文文本表示（contextualized token representations）进行最近邻检索。
实现流程：

使用大规模文本语料库（Visual Genome，约299万条描述）通过目标LLM编码，存储各层（如1, 2, 4, 8, 16, 24层）的上下文token表示 r_j^((ell))
提取VLM中各层视觉token的潜在表示 h_i^((ell))
计算余弦相似度，返回top-k最相似的上下文描述作为解释

3. 核心实验发现

通过在10种VLM配置（3个LLM：OLMo-7B、LLaMA3-8B、Qwen2-7B × 3个视觉编码器：CLIP、SigLIP、DINOv2）上的系统评估，论文发现：

(1) 视觉token的高度可解释性

LATENTLENS：平均**72%**的视觉token在所有层可被解释为自然语言（句子级描述）
对比基线：EmbeddingLens仅30%，LogitLens仅23%
跨层一致性：不同于LogitLens仅在深层有效，LATENTLENS在输入层至最终层均保持60-80%的可解释性

(2) Mid-Layer Leap现象

视觉token表示呈现**“中层跳跃”**特性：

输入层（Layer 0）的视觉token与LLM**中间层（8-16层）**的上下文文本表示最为相似，而非与输入层文本表示
这表明投影层学习的是语义级映射而非词汇级映射，视觉token进入LLM时已处于”预上下文化”状态
该现象在现成模型（Qwen2-VL-7B-Instruct）中减弱，表明微调会改变对齐模式

(3) 表示漂移差异

文本token：在LLM处理中迅速偏离初始嵌入（早期层相似度即降至0.4以下）
视觉token：保持与输入表示的高度相似（中间层仍>0.8），表明冻结LLM对视觉token的变换较小

4. 消融与扩展分析

训练鲁棒性：线性投影（替代MLP）仍保持高可解释性；单句caption训练数据足够产生可解释对齐；但语言生成任务（captioning）对可解释性至关重要，纯空间预测任务导致对齐消失（-33%）
细粒度分析：65-75%的解释属于”具体”（直接可见），名词占主导（45-50%），颜色词在早期层更常见
动态生成：通过进化搜索优化描述上下文，可在85%的情况下提高相似度

5. 理论贡献与意义

挑战既有假设：证明视觉token在LLM内部具有高度语言可解释性，先前方法因使用不适当的参照系（词汇表嵌入）而严重低估了这一特性
跨模态对齐证据：为”柏拉图表示假说”（Platonic Representation Hypothesis）提供新证据，表明视觉与语言表示空间存在深层结构相似性
机制解释：Mid-Layer Leap现象解释了为何简单投影层能有效连接视觉与语言模型——投影层直接将视觉表示映射到LLM的语义处理层，而非词汇输入层

论文提供了交互式演示和开源代码库，支持研究者探索不同VLM中视觉token的语义内容。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Benno Krojer,Shravan Nayak,Oscar Mañas,Vaibhav Adlakha,Desmond Elliott,Siva Reddy,Marius Mosbach

Categories: cs.CV,cs.AI

PDF URL: https://arxiv.org/pdf/2602.00462.pdf

Arxiv URL: https://arxiv.org/abs/2602.00462

Arxiv ID: 2602.00462

CoolPaper URL: https://papers.cool/arxiv/2602.00462

Published: 2026-01-31T02:33:07Z

Updated: 2026-01-31T02:33:07.000Z

16. BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

Equipping embodied agents with the ability to reason about tasks, foresee physical outcomes, and generate precise actions is essential for general-purpose manipulation. While recent Vision-Language-Action (VLA) models have leveraged pre-trained foundation models, they typically focus on either linguistic planning or visual forecasting in isolation. These methods rarely integrate both capabilities simultaneously to guide action generation, leading to suboptimal performance in complex, long-horizon manipulation tasks. To bridge this gap, we propose BagelVLA, a unified model that integrates linguistic planning, visual forecasting, and action generation within a single framework. Initialized from a pretrained unified understanding and generative model, BagelVLA is trained to interleave textual reasoning and visual prediction directly into the action execution loop. To efficiently couple these modalities, we introduce Residual Flow Guidance (RFG), which initializes from current observation and leverages single-step denoising to extract predictive visual features, guiding action generation with minimal latency. Extensive experiments demonstrate that BagelVLA outperforms existing baselines by a significant margin on multiple simulated and real-world benchmarks, particularly in tasks requiring multi-stage reasoning.

中文摘要

赋予具身智能体推理任务、预见物理结果以及生成精确动作的能力，对于通用操作至关重要。虽然近期的视觉-语言-动作（VLA）模型利用了预训练的基础模型，但它们通常只专注于语言规划或视觉预测中的某一方面。这些方法很少同时整合两种能力来指导动作生成，导致在复杂的长时间操作任务中性能不尽如人意。为弥补这一空白，我们提出了 BagelVLA，一种将语言规划、视觉预测与动作生成整合在单一框架中的统一模型。BagelVLA 从预训练的统一理解与生成模型初始化，通过训练将文本推理与视觉预测直接交织到动作执行循环中。为了高效地结合这些模态，我们引入了残差流指导（Residual Flow Guidance, RFG），其从当前观测初始化，并利用单步去噪提取预测性视觉特征，从而以最小延迟指导动作生成。大量实验表明，BagelVLA 在多个模拟与真实世界基准测试中显著优于现有基线模型，尤其是在需要多阶段推理的任务中表现突出。

LLM Analysis

Q: 这篇论文试图解决什么问题？

该论文旨在解决长程机器人操作任务中语言规划、视觉预测与动作生成缺乏有效整合的问题。具体而言，现有Vision-Language-Action (VLA)模型面临以下核心局限：

1. 模态能力分离

现有方法通常将关键能力视为独立模块：

仅关注语言规划的方法（如基于VLM的高层规划）缺乏视觉预测能力，无法预见物理环境的动态变化；
仅关注视觉预测的方法（如视频生成模型）虽能预测未来状态，但难以处理复杂任务所需的逻辑推理与指令遵循。

2. 动作生成的信息缺口

传统VLA模型通常学习直接映射策略 p_θ(a_t|v_t, L) ，仅基于当前观测 v_t 和全局指令 L 生成动作。这种”黑盒”映射忽略了长程任务中隐含的阶段性结构，无法显式建模子任务分解与未来状态预测对动作选择的指导作用。

3. 计算效率与视觉前瞻的权衡

引入视觉预测作为辅助任务时，完整图像生成（如视频扩散模型）会带来高昂的计算延迟，难以满足实时控制需求；而完全舍弃视觉前瞻则导致模型缺乏对未来物理结果的预见能力。

解决方案概述

为应对上述挑战，论文提出 BagelVLA 框架，将长程操作重新形式化为**交错式规划（Interleaved Planning）**问题：

J = maxθ E_D log pθ(lt|v_t, L) · pθ(v(t+k)|v_t, L, l_t) · pθ(at|v_t, L, l_t, v(t+k))

该框架通过单一Transformer架构联合优化：

语言规划：生成当前子任务文本 l_t ；
视觉预测：基于子任务预测未来关键帧 v_(t+k) ；
动作生成：基于文本计划与视觉预测生成动作 a_t 。

同时引入**残差流引导（Residual Flow Guidance, RFG）**机制，利用当前观测作为结构先验，通过单步去噪提取预测视觉特征，在保持低延迟的同时实现有效的视觉前瞻。

Q: 有哪些相关研究？

根据论文第2节，相关研究主要分为以下两个方向：

2.1 Vision-Language-Action (VLA) 模型

基于离散动作表示的方法

RT-2
3
和 OpenVLA
22
：将机器人动作表示为离散token，使其与VLM兼容，实现从视觉-语言表示到可执行动作的直接映射。然而，这种方法可能限制连续控制任务的表达能力。

基于连续动作表示的方法

Octo
41
、3D Diffuser Actor
20
和 π0
2
：利用扩散模型学习连续动作表示，以捕捉多模态分布，更好地处理细粒度操作任务。

结合视觉预测的方法

UP-VLA
51
、VPP
17
、Cosmos Policy
24
、DreamVLA
53
等：引入视觉预测任务作为桥梁，将视觉-语言信号映射到动作信号。
VPP
17
提出视频预测策略（Video Prediction Policy），基于视频扩散模型预测未来视觉表示来条件化机器人动作。
Cosmos Policy
24
直接微调大规模预训练视频模型作为机器人策略。

现有局限：上述方法要么忽略VLM预训练与VLA微调之间的对齐差距，导致视觉-语言能力退化；要么缺乏专用VLM backbone而导致指令跟随性能不佳，特别是在需要复杂推理的任务中。

2.2 统一理解与生成模型

统一多模态架构

Bagel
10
：使用单一transformer backbone联合处理和生成文本与图像，在交错数据集上训练展现出多模态推理能力。
Chameleon
39
：采用基于token的框架处理混合模态输入/输出，支持问答和图像生成等任务。
LMFusion
38
：在融合transformer中整合语言与视觉，专注于高效的跨模态对齐。
Show-o
47
：强调统一的多模态理解与生成，包括文本条件的图像生成与编辑。

在机器人领域的应用

VILLA-X
8
、F1
35
、UniUGP
34
、UniCoD
52
等：引入动作专家（action experts）将统一多模态模型的能力迁移到具身场景。

关键差距：现有方法缺乏显式的具身视觉-语言交错推理能力，仅保留原始模型能力的子集，无法实现逐步的多模态思维链（Chain-of-Thought）推理，这对复杂长程任务至关重要。

Q: 论文如何解决这个问题？

论文通过提出 BagelVLA 框架，从架构设计、训练范式与推理优化三个维度系统性解决上述问题。具体方法如下：

1. 统一交错式规划框架

将长程操作重新形式化为**交错式规划（Interleaved Planning）**问题，显式建模语言规划、视觉预测与动作生成之间的因果依赖关系。给定全局指令 L 和当前观测 v_t ，模型学习联合分布的分解形式：

pθ(a_t, v(t+k), lt|v_t, L) = pθ(lt|v_t, L) · pθ(v(t+k)|v_t, L, l_t) · pθ(at|v_t, L, l_t, v(t+k))

其中：

语言规划：生成当前子任务文本 l_t （如”抓取红色积木”），实现任务分解；
视觉预测：基于子任务预测未来关键帧 v_(t+k) ，作为世界模型（World Model）；
动作生成：基于文本计划与视觉预测生成动作块 a_t ，实现与高层推理对齐的低层控制。

2. 混合专家架构（Mixture-of-Transformers）

采用 MoT（Mixture-of-Transformers） 架构协调三种模态的专家，在单一Transformer框架内处理异构数据：

专家模块	初始化来源	参数规模	功能
理解专家	Bagel [10] / Qwen2.5-LLM-7B	7B	处理视觉-语言理解，生成子任务文本 l_t
生成专家	Bagel [10] / Qwen2.5-LLM-7B	7B	基于Flow Matching预测关键帧 v_(t+k)
动作专家	独立Transformer	2B	基于Flow Matching生成连续动作块

通过自注意力机制实现跨模态信息交互，动作专家在生成过程中可访问生成专家的中间隐状态。

3. 双流程匹配与残差流引导（RFG）

为解决视觉预测带来的高延迟问题，论文提出三种**双流程匹配（Dual Flow-Matching）**交互方案，最终采用 Residual Flow Guidance (RFG)：

核心思想：利用当前观测 v_t 作为强结构先验，通过单步去噪提取预测视觉特征，而非从零生成完整图像。

具体实现上，关键帧预测的噪声初始化策略为：
v_(t+k)^(τ=0) sim N(v_t, I) quad (RFG)

相比朴素单步去噪（ v_(t+k)^(τ=0) sim N(0, I) ），RFG使模型专注于建模机器人操作导致的动态区域变化，而非重建静态背景。动作生成基于生成专家第一步去噪的KV缓存进行条件化：

L(a) = E [ |v(a,θ)(L, vt, l_t, v(t+k)^(τ=0), τ, a_t^τ) - (a_t^1 - a_t^0)|_2^2 ]

该机制将推理延迟从完整去噪的 N_1+N_2 步降至单步，实现约 1.2秒/动作块 的推理速度（在RTX 5090上）。

4. 渐进式两阶段训练策略

阶段一：预训练（语言规划与视觉动力学）

冻结动作专家，微调理解与生成专家；
数据构成：298万通用VQA对 + 31万人类操作视频 + 146万开源机器人数据（含子任务标注）；
目标：将基础模型的通用推理与视觉生成能力迁移至具身场景。

阶段二：微调（动作规划）

引入包含动作标签的下游机器人数据，联合训练三个专家；
同时优化三个目标函数：
J = -(L_l + L_v + L_a)
其中 L_l 为子任务生成的交叉熵损失， L_v 和 L_a 分别为关键帧与动作生成的Flow Matching均方误差。

5. 数据引擎与异步推理

数据标注流程：

对缺乏细粒度标签的数据集（如Bridge、EgoDex），利用Seed-1.5-VL-thinking模型自动生成子任务描述 l_t 与关键帧时间边界；
自采集数据包含75k条真实机器人演示，含人工标注的子任务与关键帧。

异步执行优化：训练时随机用历史帧替换当前帧，使推理时可降低理解与生成专家的KV缓存更新频率，仅更新本体感觉输入即可输出新动作块，将执行频率提升至 72Hz。

通过上述设计，BagelVLA实现了在单一框架内”思考”（语言规划）、”想象”（视觉预测）与”执行”（动作生成）的闭环，显著提升了长程任务的推理能力与动作精度。

Q: 论文做了哪些实验？

论文在仿真环境与真实世界场景中开展了系统性实验验证，涵盖基础操作能力、长程规划性能及模块消融分析。

4.1 仿真环境评估

实验设置

Calvin基准
36
：在ABC split上训练，D环境测试（背景与颜色分布外）。评估指标为平均连续完成任务数（Avg. Len）。
Robotwin 2.0
7
：使用50个任务的清洁演示数据（每任务50条）训练，在**清洁（Clean）与随机化（Randomized）**两种设置下测试，使用未见过指令。评估指标为成功率。

对比基线

π0
2
：连续动作扩散模型
RDT
32
：双臂操作扩散基础模型
UP-VLA
51
：结合视觉预测的VLA模型
VPP
17
：视频预测策略

关键结果

模型	Calvin (ABC-D) ↑	Robotwin Clean ↑	Robotwin Randomized ↑
π0	3.65	46.42	16.34
RDT	-	34.50	13.72
UP-VLA	4.08	52.92	15.16
VPP	4.33	-	-
BagelVLA	4.41	75.26	20.87

Calvin：BagelVLA平均连续完成4.41个任务，显著优于基线，证明视觉预测辅助任务能有效泛化至分布外场景。
Robotwin：在未见指令的随机化环境中，BagelVLA成功率达20.87%，较π0提升4.5个百分点，较UP-VLA提升5.7个百分点。

4.2 真实世界实验

在AgileX双臂机器人平台（14自由度）上开展两类任务评估：

4.2.1 基础操作任务（Basic Tasks）

涵盖9类技能（拾取放置、浇花、叠碗、倒薯条、扫地等），测试多任务学习与泛化能力。

模型	平均成功率	OOD拾取放置
π0	65.0%	55%
VPP	59.5%	45%
BagelVLA	75.5%	85%

分布外泛化：在未见过物体（梨、桃子、紫色积木）的拾取放置任务中，BagelVLA成功率达85%，显著高于π0（55%）与VPP（45%），归因于预训练保留的强语义特征。

4.2.2 长程规划任务（Long-Horizon Planning）

设计两类需显式规划的任务：

任务1：按序堆叠立方体（Stack Cubes in Requested Order）

按语言指令指定顺序（如”红→黄→蓝”）堆叠2-5个彩色积木，层数1-3层。
难度分级：简单（2-3块，1-2层）、中等（3-4块，2层）、困难（3-5块，3层）。

任务2：计算并放置符号积木（Calculate and Place Symbol Blocks）

完成算术方程（如”21+3=?”），需先计算结果再抓取对应数字/符号积木放置。
难度分级：简单（个位数加法）、中等（两位数加法答案）、困难（多位数运算）。

实验结果（20次试验平均）：

模型	堆叠任务成功率	算术任务成功率	规划准确率*
π0	40.0%	31.7%	40-55%
VPP	25.0%	23.3%	30-45%
w/o 关键帧预测	53.3%	50.0%	75-80%
w/o 语言规划	43.3%	33.3%	50-70%
BagelVLA	73.3%	63.3%	85-95%

*规划准确率：衡量子任务语义理解与动作趋势正确性。

关键发现：BagelVLA在困难难度下仍保持60%（堆叠）和45%（算术）成功率，而基线几乎失效（0-10%）。
规划能力：规划准确率高达90%，证明交错式规划能有效保持语义推理能力；任务成功率与规划准确率的差距揭示了细粒度动作控制的改进空间。

4.3 消融研究（Ablation Study）

4.3.1 双流程匹配条件方案对比

在Calvin单视图设置下比较三种视觉-动作交互机制：

方案	延迟/动作块	ABC-D性能
完整去噪（Complete Denoise）	6.04s	2.48
联合去噪（Joint Denoise）	2.90s	2.04
单步去噪（Naive）	1.23s	3.35
RFG（残差流引导）	1.23s	3.60

结论：单步去噪方案在速度与精度上均优于完整/联合去噪；RFG通过引入当前帧先验进一步提升性能。

4.3.2 RFG vs. 朴素单步去噪

视觉质量：RFG在10步去噪内即可生成高质量关键帧，保留背景细节；朴素方法需更多步数且背景失真（见图5）。
动作学习：RFG在真实世界基础任务中收敛更快，因当前帧先验为动作生成提供更丰富的上下文。

4.3.3 大规模预训练有效性

对比无预训练（从头训练）与完整模型：

语义泛化：预训练模型在OOD拾取放置任务上成功率提升30%+
隐式规划：即使不使用显式交错推理，预训练仍使中等时长任务（扫地、倒薯条）准确率提升，因保留了状态预测能力。

4.3.4 各模态贡献分析

移除语言规划：Robotwin成功率从75.26%降至54.00%（-21%），长程任务显著退化。
移除关键帧预测：Calvin性能从4.41降至3.35，证明视觉前瞻对动作精度至关重要。

4.4 可视化与定性分析

交错规划可视化（图4、图10）：展示模型在每一步生成子任务文本（如”抓取蓝色积木”）、预测目标图像、执行动作的完整链条。
失败案例分析：在算术任务中，模型偶发数字识别错误（如将”2”误认为”5”），但规划逻辑（先计算再放置）保持正确。

实验结果表明，BagelVLA通过显式耦合语言规划与视觉预测，在长程推理任务上显著优于现有基线，同时通过RFG机制实现了可接受的推理延迟（1.2秒/动作块，异步模式下72Hz执行频率）。

Q: 有什么可以进一步探索的点？

基于论文的实验发现与方法论局限，以下方向值得进一步探索：

1. 细粒度动作控制的精度提升

论文在真实世界长程任务中发现：规划准确率（90%）显著高于任务成功率（70%），表明”知道做什么”与”精确执行”之间存在差距（Sec. 4.2.2）。未来工作可探索：

更高频率的动作生成或自适应动作粒度
结合 tactile feedback 的闭环控制
针对细 motor control（如抓取细茎花束、精准按按钮）的专项优化

2. 动态重规划与错误恢复

当前框架采用一次性顺序生成（语言→视觉→动作），缺乏显式的执行监控与重规划机制。当物理环境发生意外变化（如物体滑动、碰撞）时，模型无法自动回溯或调整子任务序列。可探索：

引入基于视觉的进度验证模块，检测预测与现实的不一致
在线重规划策略，支持子任务级别的回退与重新推理

3. 轻量化与边缘部署

尽管 RFG 降低了延迟，但完整模型仍包含 16B 参数（7B+7B+2B），依赖高端 GPU（RTX 5090/A800）。进一步方向包括：

专家剪枝与量化：压缩视觉生成专家或采用 MoE 稀疏激活
层次化异步架构：将高频控制（如阻抗控制）与低频规划解耦，仅在关键节点调用大模型
蒸馏策略：将交错规划能力蒸馏到更小的策略网络

4. 长视频预测与世界模型扩展

当前仅预测单帧关键帧（keyframe），缺乏对完整动作序列的动态建模。扩展方向：

视频扩散策略：生成未来几秒的视频片段而非静态图像，提供更丰富的时序动态信息
物理一致性约束：在视觉预测中引入物理引擎约束（如物体 permanence、重力一致性），减少幻觉

5. 跨本体（Cross-Embodiment）泛化

论文使用了 Agibot、Bridge、Franka 等多源数据（Sec. 3.4），但实验集中在特定硬件（AgileX 双臂）。可验证：

零样本本体迁移：将在单臂机器人上学习的规划策略迁移到双臂/人形机器人
动作空间统一：探索跨本体的统一动作表示（如末端执行器轨迹 vs. 关节角度），减少对特定形态的依赖

6. 自动数据标注与自我改进

当前依赖 Seed-1.5-VL-thinking 进行自动子任务标注（Sec. 3.4），但仍需人工筛选与真实机器人数据采集。未来可探索：

自主数据收集：利用模型自身在仿真或真实环境中的探索，自动生成并验证子任务标签
增量学习：在部署过程中持续收集失败案例，自动构建”困难负样本”进行模型更新

7. 安全约束与对齐

论文未显式讨论安全约束（如碰撞避免、力限制）。在开放环境中部署需考虑：

将安全约束嵌入语言规划（如生成”避免碰撞”的子任务描述）
在视觉预测中建模危险状态（如掉落、滑落）并提前规避
结合人类反馈的强化学习（RLHF）对齐操作偏好

8. 更复杂的非结构化环境

当前实验主要在桌面场景进行。扩展到：

移动操作（mobile manipulation）：结合导航与操作的长程任务
多智能体协作：多机器人场景下的分布式交错规划
柔性物体操作：如折叠衣物、处理变形物体，这类任务难以通过关键帧预测有效建模

这些方向既呼应了论文中观察到的规划-执行差距（planning-action gap），也指向了将 VLA 模型从实验室推向开放世界所需的效率、鲁棒性与安全性挑战。

Q: 总结一下论文的主要内容

该论文提出 BagelVLA，一种通过交错式视觉-语言-动作生成增强长程机器人操作能力的统一框架。以下是核心内容总结：

1. 研究动机与问题定义

现有 Vision-Language-Action (VLA) 模型通常将语言规划（任务分解）、视觉预测（未来状态想象）与动作生成（低层控制）作为孤立模块处理，导致：

纯语言规划缺乏物理世界动态感知；
纯视觉预测难以处理复杂逻辑推理；
直接动作映射忽略长程任务的阶段性结构，难以应对多步骤操作。

论文将长程操作重新形式化为**交错式规划（Interleaved Planning）**问题，要求模型显式建模三者的因果依赖：
pθ(a_t, v(t+k), lt mid v_t, L) = pθ(lt mid v_t, L)(语言规划) · pθ(v(t+k) mid vt, L, l_t)(视觉预测) · pθ(a_t mid v_t, L, l_t, v(t+k))_(动作生成)

2. 模型架构：Mixture-of-Transformers

BagelVLA 采用混合专家架构（MoT），基于预训练统一多模态模型 Bagel 初始化，包含三个协同工作的 Transformer：

理解专家（7B）：基于 Qwen2.5-LLM，处理视觉-语言理解，生成子任务文本 l_t ；
生成专家（7B）：基于 Flow Matching，预测未来关键帧 v_(t+k) ，充当世界模型；
动作专家（2B）：基于 Flow Matching，生成连续动作块 a_t ，可访问生成专家的中间隐状态进行条件化。

3. 关键技术创新

(1) 残差流引导（Residual Flow Guidance, RFG）

为解决视觉预测带来的高延迟，RFG 利用当前观测 v_t 作为结构先验，通过单步去噪提取预测特征：
v(t+k)^(τ=0) sim N(v_t, I) quad (RFG) quad vs. quad v(t+k)^(τ=0) sim N(0, I) quad (朴素单步)
相比从零生成完整图像，RFG 使模型专注于建模操作导致的动态变化，在保持 1.23 秒/动作块低延迟的同时，提供有效的视觉前瞻指导。

(2) 双阶段渐进训练

阶段一：冻结动作专家，利用通用 VQA 数据与机器人演示（含自动标注的子任务）微调理解与生成专家，保留高层推理与视觉生成能力；
阶段二：引入含动作标签的数据，联合优化三个专家，实现语言、视觉与控制的深度耦合。

4. 实验验证

在仿真环境（Calvin、Robotwin 2.0）与真实世界（AgileX 双臂机器人）中开展评估：

场景	关键结果
Calvin (ABC→D)	平均连续完成任务长度 4.41，优于 π0 (3.65) 与 VPP (4.33)
Robotwin	随机化环境下成功率 20.87%，较基线提升 5+ 个百分点
真实世界长程任务	在”按序堆叠积木”与”算术方程摆放”任务中，成功率分别达 73.3% 与 63.3%，规划准确率高达 90%
分布外泛化	未见过物体拾取放置成功率 85%，显著优于 π0 (55%)

消融实验证实：显式语言规划对长程任务贡献 21% 性能提升，视觉预测关键帧对动作精度至关重要，RFG 在速度与质量上均优于完整去噪方案。

5. 结论

BagelVLA 通过统一架构内的交错式多模态推理，首次实现了”思考”（语言规划）、”想象”（视觉预测）与”执行”（动作生成）的闭环整合。残差流引导机制有效平衡了计算效率与预测能力，显著提升了机器人在复杂长程任务中的鲁棒性与指令遵循能力。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yucheng Hu,Jianke Zhang,Yuanfei Luo,Yanjiang Guo,Xiaoyu Chen,Xinshu Sun,Kun Feng,Qingzhou Lu,Sheng Chen,Yangang Zhang,Wei Li,Jianyu Chen

Categories: cs.RO

PDF URL: https://arxiv.org/pdf/2602.09849.pdf

Arxiv URL: https://arxiv.org/abs/2602.09849

Arxiv ID: 2602.09849

CoolPaper URL: https://papers.cool/arxiv/2602.09849

Published: 2026-02-10T14:54:01Z

Updated: 2026-02-10T14:54:01.000Z

17. VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Pretraining Vision-Language-Action (VLA) policies on internet-scale video is appealing, yet current latent-action objectives often learn the wrong thing: they remain anchored to pixel variation rather than action-relevant state transitions, making them vulnerable to appearance bias, nuisance motion, and information leakage. We introduce VLA-JEPA, a JEPA-style pretraining framework that sidesteps these pitfalls by design. The key idea is \emph{leakage-free state prediction}: a target encoder produces latent representations from future frames, while the student pathway sees only the current observation — future information is used solely as supervision targets, never as input. By predicting in latent space rather than pixel space, VLA-JEPA learns dynamics abstractions that are robust to camera motion and irrelevant background changes. This yields a simple two-stage recipe — JEPA pretraining followed by action-head fine-tuning — without the multi-stage complexity of prior latent-action pipelines. Experiments on LIBERO, LIBERO-Plus, SimplerEnv and real-world manipulation tasks show that VLA-JEPA achieves consistent gains in generalization and robustness over existing methods.

中文摘要

在互联网规模的视频上进行视觉-语言-动作（VLA）策略的预训练具有吸引力，但当前的潜在动作目标往往学错东西：它们仍然依赖于像素变化，而不是与动作相关的状态转变，这使得它们容易受到外观偏差、无关运动和信息泄漏的影响。我们提出了 VLA-JEPA，一种 JEPA 风格的预训练框架，通过设计规避了这些问题。其核心思想是\emph{无泄漏状态预测}：目标编码器从未来帧生成潜在表示，而学生路径仅看到当前观测 —— 未来信息仅作为监督目标使用，从不作为输入。通过在潜在空间而非像素空间进行预测，VLA-JEPA 学会了对摄像机运动和无关背景变化具有鲁棒性的动态抽象。这产生了一个简单的两阶段方案 —— 先进行 JEPA 预训练，再进行动作头微调 —— 无需像以往潜在动作管线那样的多阶段复杂性。在 LIBERO、LIBERO-Plus、SimplerEnv 以及真实世界操作任务上的实验表明，VLA-JEPA 在泛化性和鲁棒性方面相较现有方法取得了一致提升。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文旨在解决Vision-Language-Action (VLA) 模型在互联网规模视频预训练过程中，潜在动作（latent-action）学习存在的根本性错位问题。具体而言，现有方法往往学习的是像素层面的变化而非动作相关的状态转换语义，导致下游控制性能脆弱、泛化能力差且训练流程复杂。

论文识别并试图解决以下四个核心问题：

1. 像素级目标的表征偏差

现有方法通过预测未来像素或将帧间变化压缩为潜在变量来学习”动作”，导致监督信号被视觉外观变化（纹理、光照、背景杂乱、视角）主导。这些因素高方差但低可控性，容易使模型学习到的表示与实际控制自由度弱相关。

2. 真实世界视频的噪声运动干扰

在人类视频和野外 footage 中，相机运动与非因果的背景变化往往比交互引起的状态变化更强烈。基于帧差异的潜在动作目标会编码这些主导信号，使潜在动作退化为干扰运动的差分帧编码器，而非有意义的过渡动力学表示。

3. 信息泄漏导致的语义坍塌

许多方法将当前观测和未来观测同时输入同一模块，或允许未来上下文在训练期间影响学习到的动作变量。这种设计创造了捷径（shortcut）：潜在动作可以直接编码未来信息本身，而非捕捉状态转换的解释，导致”动作”在语义上空洞化。

4. 多阶段训练管道的复杂性

为缓解上述问题，现有方法常依赖三阶段（或更多）流程：表征预训练、潜在动作学习/对齐、策略学习。这些流程增加了工程复杂度，引入了阶段间的不一致性，使训练和评估难以清晰进行。

核心解决方案

论文提出 VLA-JEPA，通过无泄漏状态预测（leakage-free state prediction） 机制解决上述问题：

目标编码器从未来帧生成潜在表示作为监督目标
学生路径仅接收当前观测，未来信息仅用作监督目标而永不作为输入
在潜在空间而非像素空间进行预测，学习对相机运动和无关背景变化鲁棒的动态抽象
实现简化的两阶段流程：JEPA 预训练 + 动作头微调，无需多阶段复杂性

Q: 有哪些相关研究？

论文的相关研究主要分为以下两个领域：

1. Vision-Language-Action (VLA) 模型

基础范式与发展

RT 系列（RT-1, RT-2 等）开创了在机器人演示数据上微调多模态大语言模型（LLMs）的先河，后续工作进一步提升了操作和导航性能。
数据依赖问题：大多数 VLA 方法严重依赖大规模动作标注的机器人数据，这类数据获取成本高昂且难以扩展。

减少对显式动作监督依赖的探索 近期研究尝试引入多模态思维链（Chain-of-Thought）信号，包括：

层次规划（hierarchical planning）
子目标或展开预测（subgoal or rollout prediction）
以对象为中心的调节（object-centric conditioning）
潜在未来嵌入或动作（latent future embeddings or actions）

与 VLA-JEPA 的区别：上述方法仍主要依赖动作标注数据。相比之下，VLA-JEPA 通过**潜在预测对齐（latent predictive alignment）**学习以动作为中心的表示，避免显式未来重建，从而减少对大规模动作监督的需求。

2. 机器人学中的潜在动作学习

早期工作

ILPO、LAPO 和 Genie 在视频游戏领域提出了潜在动作（latent action）的概念。

机器人学习中的潜在动作方法

代表性工作：LAPA、IGOR、UniVLA、MotoGPT、Adaworld、CoMo、StaMo 等。
共同范式：从帧转换中提取离散或连续的运动 token，先预训练 VLA 预测这些潜在动作，再将其映射到真实机器人控制。

潜在动作与真实动作空间的对齐

villa-x、XR-1、CLAP、VITA 等方法提出从机器人和人类视频中提取潜在动作，并使用统一码本（unified codebook）进行对齐。

现有方法的局限性

像素级捷径（Pixel Shortcuts）：由于潜在动作通常直接从相邻帧学习，模型可能利用像素级捷径并编码未来帧泄漏（future-frame leakage）。
与干扰因素纠缠：尽管 LAOF 和 Motus 尝试使用光流约束潜在动作空间，但仍将可控动态与相机运动和背景变化纠缠在一起。
表示退化：学习的潜在空间更可能与视觉增量（visual deltas）而非可控制信号对齐，因此需要多阶段训练管道和额外的对齐机制。

与 VLA-JEPA 的区别：VLA-JEPA 学习以动作为中心的表示，不依赖差分帧信息提取，从而避免信息泄漏和像素捷径，同时实现单阶段端到端预训练，无需复杂的分阶段对齐机制。

Q: 论文如何解决这个问题？

论文通过提出 VLA-JEPA（Joint-Embedding Predictive Architecture for Vision-Language-Action）框架来解决上述问题。该方法的核心在于在潜在空间进行无泄漏的世界状态预测，而非在像素空间重建未来帧。具体解决方案如下：

1. 核心架构设计

VLA-JEPA 采用以下关键组件构建统一的预训练框架：

VLM 骨干：采用 Qwen3-VL 作为大视觉-语言模型骨干，利用其预训练获得的世界知识（图像理解、关键物体检测等）
特殊可学习 Token：引入 langlelatent_irangle （潜在动作 token）和 langleactionrangle （动作 token），其中 i 表示时间步
世界状态编码器：采用 V-JEPA2 编码器将多视角视频帧编码为统一的世界状态表示 st （公式 1）：
s_t^i = parallel_v F(I(v,t_i))
其中 F(·) 为单视角视频编码器， parallel 表示跨视角向量拼接
潜在世界模型：基于 Transformer 的自回归世界模型，采用时间因果注意力机制（time-causal attention）

2. 无泄漏状态预测机制（解决信息泄漏与像素偏差）

这是解决前述问题的关键设计：

目标编码器路径：使用冻结的 V-JEPA2 编码器处理未来帧，生成潜在状态目标 s_(t+1) （带梯度停止，stop-gradient）
学生路径：VLM 仅接收当前观测（初始图像和语言指令），通过 langlelatentirangle token 生成潜在动作表示 z_t （公式 2）：
z(ti) = pθ^(VLM)(langlelatentirangle mid I(j,t0)(j=0)^v, ell)
预测与对齐：世界模型 pθ^(WM) 基于历史状态 s(0:t) 和潜在动作 z(0:t) 预测未来状态 s(t+1) （公式 3）：
s(t_1:i+1) = pθ^(WM)(s(t_0:i), z(t_0:i))

关键约束：未来帧仅用于构建监督目标，永不作为 VLM 的输入。这彻底消除了信息泄漏的捷径，强制潜在动作必须捕捉状态转换语义而非未来帧本身。

3. JEPA 风格的对齐损失（解决外观偏差与噪声运动）

不同于像素级重建，VLA-JEPA 在潜在空间优化预测对齐（predictive alignment）：

目标函数：最大化预测对数似然的证据下界（ELBO，公式 4），由于目标编码器确定性，简化为潜在空间的重构损失（公式 5）：
L(WM) = ∑(k=1)^(T) E(s_t_k)sim F(·) |s(tk) - s(t_k)|
语义鲁棒性：通过在 V-JEPA2 学习的潜在空间中对齐，模型自然丢弃相机运动、光照变化、背景 clutter 等干扰因素，仅保留与交互相关的状态转换语义。

4. 统一的联合优化目标（简化训练流程）

VLA-JEPA 支持在无动作标签的人类视频和有动作标签的机器人数据上进行统一预训练，避免多阶段复杂性：

对于人类视频（无动作标签）：

仅使用世界建模损失 L_(WM) （公式 5）训练，使潜在动作 token 捕捉物理动态

对于机器人数据（有动作标签）：

引入条件流匹配动作头（Conditional Flow-Matching Action Head）：基于 DiT-B 架构，以动作 token z_a 为条件生成连续动作轨迹
动作通过流匹配目标训练（公式 7-8）：
at = (1-t)ε + t a(0:H), quad L(FM) = E|vθ(at, t mid z_a) - (a(0:H) - ε)|^2
联合损失（公式 9）：
L = L(FM) + β L(WM)

5. 简化的两阶段流程

不同于以往的三阶段（表征预训练→潜在动作学习→策略学习）或更复杂的流程，VLA-JEPA 采用：

预训练阶段：在人类视频和/或机器人数据上进行 JEPA 预训练（单阶段）
微调阶段：在下游任务数据上微调动作头，同时可选择性地继续优化潜在动作表示

这种设计消除了阶段间的不一致性，同时通过潜在世界建模学到的动态知识有效迁移到下游控制任务。

总结

通过在潜在空间而非像素空间进行预测、严格隔离未来信息仅作为监督目标、以及统一的动作-世界模型联合优化，VLA-JEPA 从根本上解决了现有方法中潜在动作与像素变化锚定、易受干扰运动影响、信息泄漏导致语义坍塌以及训练流程复杂等核心问题。

Q: 论文做了哪些实验？

论文进行了全面的实验评估，涵盖模拟环境和真实世界设置，主要包括以下实验：

1. 实验设置与基准测试

评估环境

LIBERO：使用Franka Emika Panda机械臂的四个任务套件（Spatial、Object、Goal、10），测试分布内（in-distribution）场景
LIBERO-Plus：在七个维度（Camera、Robot、Language、Light、Background、Noise、Layout）进行扰动的鲁棒性测试，评估分布外（out-of-distribution）性能
SimplerEnv：包含WidowX和Google Robot两种机器人形态，测试真实到模拟（real-to-sim）迁移能力
真实世界：使用Franka Research 3机械臂和Robotiq 2F-85夹爪，设计桌面操作任务

对比基线

包括最新的VLA基线：LAPA、UniVLA、villa-X、CoT-VLA、WorldVLA、GR00T N1、OpenVLA-OFT、π0、π0-Fast、π0.5、Moto、RoboVLMs等。

2. 主要实验结果

模拟实验结果

LIBERO基准（表1）：

VLA-JEPA在4个任务套件中的2个达到最优，平均成功率97.2%，与OpenVLA-OFT（97.1%）和π0.5（96.9%）相当，但后者依赖大规模机器人数据预训练，而VLA-JEPA使用更少训练数据

SimplerEnv基准（表2）：

Google Robot：平均成功率65.2%，达到最优
WidowX Robot：平均成功率57.3%，排名第二
特别值得注意的是，在仅用少量数据（<1%的villa-X训练数据）的情况下，性能超过或接近大规模训练的方法

LIBERO-Plus鲁棒性测试（表3）：

在7个扰动维度中的5个达到最优，平均成功率79.5%
显著优于UniVLA（42.9%）、OpenVLA-OFT（69.6%）和π0（53.6%）
在Language、Light、Background、Layout等任务无关扰动上优势明显，验证了潜在动作对干扰因素的鲁棒性

真实世界实验结果（图4）

分布内（ID）设置：达到最优性能
物体布局OOD设置：达到最优，显著优于π0和π0.5
任务OOD设置：达到第二优
关键发现：VLA-JEPA展现出**重复抓取（repeated grasping）**能力（抓取失败后重新打开夹爪尝试），而π0和π0.5缺乏此能力，这归因于人类视频预训练中学到的知识

3. 消融实验与分析

Q1：人类视频预训练的影响（第4.5节）

LIBERO和SimplerEnv：去除人类视频（w/o human videos）不会导致显著性能下降，在某些情况下甚至更高，表明对于分布内和真实到模拟场景，高质量专家演示比人类视频更关键
LIBERO-Plus：人类视频提供显著性能增益（平均62.9% vs 79.5%），主要增强模型对现有技能的鲁棒性和稳定性，而非引入新的动作执行能力

Q2：统一预训练与注意力可视化（第4.5节）

通过可视化潜在动作token对图像token的注意力权重（图6）：

LAPA：注意力过于密集，包含过多操作无关细节（如桌面上无关物体），存在信息泄漏
UniVLA：通过任务相关文本引导缓解问题，但过度关注语义导致关注背景元素（如静止的笔或桌布纹理）
VLA-JEPA：更精确地关注操作相关区域（机械臂、手、待操作物体），证明统一预训练方法有效减少了任务无关信息的影响

Q3：未来视频时间范围（Future Video Horizon）的影响（表4）

测试不同预测范围 T ∈ 4, 8, 16 ：

T=8时性能最佳（平均96.1%），接近预定义动作范围
T=4（过小）：编码信息不足，长程任务性能差（特别是Goal套件）
T=16（过大）：引入冗余信息，在空间任务（Spatial）上表现最差，因为需要细粒度操作

4. 关键实验发现总结

数据效率：使用远少于SOTA方法（如villa-X）的训练数据，在SimplerEnv上取得 competitive 或更优性能
鲁棒性优势：在涉及光照、背景、语言指令变化的扰动测试中显著优于依赖大规模机器人数据的方法
技能迁移：从人类视频中学习到重复抓取等故障恢复行为，这是仅使用机器人数据的方法所缺乏的
简化流程：两阶段流程（JEPA预训练→动作头微调）相比传统三阶段流程，在保持性能的同时降低了工程复杂度

Q: 有什么可以进一步探索的点？

基于论文的结论和实验分析，以下是几个值得进一步探索的研究方向：

1. 融合文本推理数据的扩展

论文结论指出，人类视频预训练范式”可以自然地扩展，通过结合机器人数据和基于文本的推理数据（text-based reasoning data），进一步提高VLA模型的泛化和鲁棒性”。未来可以探索：

如何将Chain-of-Thought（CoT）推理与JEPA风格的世界建模结合
在多模态预训练中平衡视觉动态预测与符号推理能力
利用文本描述增强潜在动作的语义可解释性

2. 自适应预测范围（Adaptive Horizon）

消融实验显示，固定的时间范围 T=8 表现最佳，而 T 过小或过大都会导致性能下降。未来可以探索：

动态时间范围选择：根据任务复杂度或当前状态自适应调整预测步长
层次化世界模型：结合短期精细操作（low-level）和长期任务规划（high-level）的多尺度预测
可变长度潜在动作：不再固定每个时间步的token数量 K ，而是根据信息密度动态分配

3. 细粒度语言理解与物理对齐

真实世界实验观察到，VLA-JEPA”缺乏对文本指令的细粒度推理“，导致可能抓取与命令不符的物体，但执行轨迹更稳定。改进方向包括：

在JEPA框架中引入语言 grounding 机制，确保潜在动作与语言指令的细粒度对齐
结合视觉-语言对齐损失（如CLIP-style contrastive loss）增强跨模态理解
开发安全约束下的探索机制，在保持稳定性的同时提高指令遵循精度

4. 多模态世界状态编码

当前方法主要依赖视觉输入。扩展方向包括：

触觉/力觉融合：将力反馈编码到世界状态 s_t 中，学习接触丰富的操作（如装配、变形物体操作）
3D几何表示：结合点云或神经辐射场（NeRF）表示，提升对空间关系的理解
音频模态：利用操作过程中的声音反馈（如抓取成功的声音、物体碰撞声）增强状态预测

5. 在线适应与持续学习

论文采用离线预训练+微调的范式。未来可探索：

测试时适应（Test-time Adaptation）：在部署过程中利用JEPA的预测误差在线调整潜在动作表示
人类视频的持续更新：开发增量学习机制，持续从新的互联网视频中学习新技能，避免灾难性遗忘
跨具身迁移：研究如何将学习的潜在动作空间迁移到不同形态（morphology）的机器人

6. 与其他生成模型的结合

论文使用了流匹配（Flow Matching）作为动作头。可以探索：

扩散模型与JEPA的结合：利用扩散模型的多模态生成能力建模多样化的操作轨迹
离散-连续混合表示：在潜在动作空间中结合VQ-VAE的离散表示与连续表示，平衡语义抽象与精细控制
视频扩散世界模型：将JEPA的潜在预测与视频扩散模型的像素级生成能力结合，实现可解释的想象（imagined）未来

7. 安全性与鲁棒性的形式化保证

论文提到π0.5虽然指令遵循更好但常违反安全边界，而VLA-JEPA更保守。研究方向包括：

约束预测：在JEPA的潜在空间中加入硬性约束（hard constraints），确保预测状态始终在安全操作空间内
不确定性量化：建模世界模型预测的不确定性，在置信度低时触发保守策略或人类接管
对抗鲁棒性：针对视觉对抗攻击（如光照变化、遮挡）增强潜在状态编码器的鲁棒性

这些方向既延续了VLA-JEPA的核心优势（泄漏自由、潜在空间预测、人类视频预训练），又针对其当前局限性（细粒度推理、固定架构、单模态感知）提出了具体的技术路径。

Q: 总结一下论文的主要内容

本文提出 VLA-JEPA，一种基于联合嵌入预测架构（Joint-Embedding Predictive Architecture, JEPA）的视觉-语言-动作（VLA）模型预训练框架，旨在解决现有潜在动作（latent-action）学习方法中的根本性缺陷。

研究背景与核心问题

当前VLA模型通过互联网规模视频进行潜在动作预训练时，存在四个关键问题：

像素级偏差：目标函数锚定在像素变化（纹理、光照、背景）而非动作相关的状态转换语义
噪声运动敏感：真实世界视频中的相机运动和背景变化被错误编码为”动作”
信息泄漏：未来帧信息通过输入网络泄漏到潜在动作表示中，导致语义坍塌（潜在动作直接编码未来而非状态转换）
训练流程复杂：现有方法通常需要三阶段或更多阶段的训练流程（表征预训练→潜在动作对齐→策略学习）

核心方法

VLA-JEPA 的核心设计是无泄漏状态预测（leakage-free state prediction）：

架构组成：采用 Qwen3-VL 作为VLM骨干，引入可学习的潜在动作token langlelatentirangle 和动作token langleactionrangle ；使用 V-JEPA2 编码器作为世界状态编码器 F(·) ，将多视角视频帧编码为统一世界状态 s_t = parallel_v F(I(v,t))
关键机制：目标编码器处理未来帧生成潜在状态目标 s_(t+1) （带梯度停止），而VLM学生路径仅接收当前观测。未来信息仅用作监督目标，永不作为输入，彻底消除信息泄漏
潜在空间预测：世界模型 pθ^(WM) 基于历史状态 s(0:t) 和潜在动作 z(0:t) 预测未来状态 s(t+1) ，优化潜在空间对齐损失：
L(WM) = ∑(k=1)^(T) |s(t_k) - s(t_k)|
动作生成：对于机器人数据，采用条件流匹配（Flow Matching）动作头，基于动作token za 生成连续动作轨迹，联合优化：
L = L(FM) + βL_(WM)

实验验证

在模拟和真实环境中进行全面评估：

LIBERO：平均成功率 97.2%，在Object和Goal套件上达到最优，与依赖大规模机器人数据的SOTA方法（如 π 0.5 ）性能相当但使用更少数据
SimplerEnv（真实到模拟迁移）：在Google Robot上平均成功率 65.2%（最优），在WidowX上 57.3%（第二优），仅使用villa-X不到1%的训练数据
LIBERO-Plus（鲁棒性测试）：在7种扰动（光照、背景、布局等）中的5种达到最优，平均成功率 79.5%，显著优于OpenVLA-OFT（69.6%）和 π 0 （53.6%）
真实世界：在Franka机器人上，展现出从人类视频中习得的**重复抓取（repeated grasping）**能力（故障后重新尝试），这是仅使用机器人数据的方法所缺乏的

主要贡献

问题分析：系统分析了潜在动作预训练中的像素锚定、噪声敏感和信息泄漏问题
方法创新：提出首个JEPA风格的VLA预训练框架，通过在潜在空间而非像素空间进行预测，学习对相机运动和背景变化鲁棒的动态抽象
流程简化：实现简化的两阶段流程（JEPA预训练→动作头微调），消除了传统多阶段流程的复杂性和阶段间不一致性
性能提升：在分布内任务、跨域迁移和扰动鲁棒性方面均取得一致的性能增益，特别是在处理光照、背景和布局变化时展现出优越的泛化能力

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Jingwen Sun,Wenyao Zhang,Zekun Qi,Shaojie Ren,Zezhi Liu,Hanxin Zhu,Guangzhong Sun,Xin Jin,Zhibo Chen

Categories: cs.RO,cs.CV

PDF URL: https://arxiv.org/pdf/2602.10098.pdf

Arxiv URL: https://arxiv.org/abs/2602.10098

Arxiv ID: 2602.10098

CoolPaper URL: https://papers.cool/arxiv/2602.10098

Published: 2026-02-10T18:58:01Z

Updated: 2026-02-10T18:58:01.000Z

18. ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

Training generalist agents capable of adapting to diverse scenarios requires interactive environments for self-exploration. However, interactive environments remain critically scarce, and existing synthesis methods suffer from significant limitations regarding environmental diversity and scalability. To address these challenges, we introduce ScaleEnv, a framework that constructs fully interactive environments and verifiable tasks entirely from scratch. Specifically, ScaleEnv ensures environment reliability through procedural testing, and guarantees task completeness and solvability via tool dependency graph expansion and executable action verification. By enabling agents to learn through exploration within ScaleEnv, we demonstrate significant performance improvements on unseen, multi-turn tool-use benchmarks such as $τ^2$-Bench and VitaBench, highlighting strong generalization capabilities. Furthermore, we investigate the relationship between increasing number of domains and model generalization performance, providing empirical evidence that scaling environmental diversity is critical for robust agent learning.

中文摘要

训练能够适应多种场景的通用智能体需要可供自我探索的交互环境。然而，交互环境仍然极为稀缺，现有的合成方法在环境多样性和可扩展性方面存在显著局限。为了解决这些挑战，我们提出了 ScaleEnv，这是一个能够从零构建完全交互环境和可验证任务的框架。具体而言，ScaleEnv 通过程序化测试确保环境的可靠性，并通过工具依赖图扩展和可执行操作验证保证任务的完整性和可解性。通过让智能体在 ScaleEnv 中通过探索进行学习，我们在未见过的多回合工具使用基准测试（如 $τ^2$-Bench 和 VitaBench）上展示了显著的性能提升，凸显出强大的泛化能力。此外，我们还研究了领域数量增加与模型泛化性能之间的关系，为环境多样性扩展对于稳健智能体学习的重要性提供了实证依据。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决训练通用型交互式工具使用代理（generalist interactive tool-use agents）时所面临的环境稀缺性与合成局限性问题。具体而言，论文针对以下核心挑战：

1. 交互式环境的严重稀缺性

训练能够适应多样化场景的通用型代理需要动态交互环境进行自我探索，但现有可交互环境极度匮乏，且构建过程通常依赖有限的外部文档或人工干预，难以满足大规模强化学习（RL）训练的需求。

2. 现有合成方法的关键缺陷

现有环境合成方法在以下维度存在显著局限：

真实性（Realism）不足：直接由大语言模型（LLM）生成的工具往往功能不可靠，而基于LLM的模拟器容易产生严重幻觉（hallucinations），无法提供鲁棒的环境反馈
可扩展性（Scalability）受限：现有方法难以摆脱对固定环境或人工API集成的依赖，无法实现自动化、大规模的环境生成

3. 强化学习训练的环境保真度要求

与监督微调（SFT）不同，基于RL的代理训练要求环境具备：

实体一致性（Entity Consistency）：跨数据库表的实体映射必须正确
交互完整性（Interaction Completeness）：环境必须支持在整个可行动作空间内的执行保真度，而非仅沿最优轨迹

为解决上述问题，论文提出了ScaleEnv框架，通过**程序测试（Procedural Testing）确保代码级可靠性，通过工具依赖图扩展（Tool Dependency Graph Expansion）**生成复杂非线性环境状态，从而从零开始合成高保真、可验证的交互环境，支持代理的规模化探索与训练。

Q: 有哪些相关研究？

这篇论文的相关研究主要集中在**工具学习（Tool Learning）与环境扩展（Environment Scaling）**两个维度，具体如下：

2.1 工具学习（Tool Learning）

该领域的发展经历了从监督微调到自主探索的演进：

早期工作（静态演示学习）：通过静态演示（static demonstrations）使大语言模型掌握函数调用能力，代表工作包括 Toolformer (Schick et al., 2023)、ToolLLM (Qin et al., 2023)、ToolACE (Liu et al., 2024) 等。这类方法依赖昂贵的专家轨迹（expert trajectories）。
前沿研究（强化学习探索）：近期研究转向基于强化学习（RL）的方法以减少对专家数据的依赖并增强自我探索能力，代表工作包括 Search-R1 (Jin et al., 2025)、DeepSWE (Luo et al., 2025)、ARPO (Lu et al., 2025) 等。这些工作迫切需要可扩展的交互环境来支持大规模RL探索。

2.2 环境扩展（Environment Scaling）

构建有效的代理环境需考虑三个关键维度：多样性（diversity）、真实性（realism）和可扩展性（scalability）。现有方法可分为三类：

(1) 真实世界环境（Real-world Environments）

方法：收集实际工具或远程API（如 MCP 环境）
代表工作：Toucan (Xu et al., 2025)、Yao et al. (2026)、Fang et al. (2025)
局限性：受限于有限的领域可用性、安全策略对动作空间的限制；缺乏改变状态的多样化任务；延迟和成本高昂，成为可扩展训练的瓶颈

(2) LLM模拟环境（LLM-simulated Environments）

方法：利用大语言模型生成工具响应和执行结果，提供可扩展、低成本的执行和灵活的领域定义
代表工作：ToolACE (Liu et al., 2024)、Chen et al. (2025)、Li et al. (2025)、Kimi Team (2025)、Ye et al. (2025)
局限性：存在根本性的真实性和保真度限制，容易产生幻觉（Kadavath et al., 2022; Zhang et al., 2025），且难以维持真实的环境状态

(3) 合成环境（Synthetic Environments）

代表工作：
AutoForge (Cai et al., 2025)：提供可执行的环境合成管道，但受限于基于文档生成的有限可扩展性
EnvScaler (Song et al., 2026)：尝试通过程序化合成扩展工具交互环境，但难以构建复杂的用户交互任务，且生成的任务与对应环境状态之间的一致性不足

与现有工作的区别：ScaleEnv 通过**基于执行的验证（execution-based verification）**确保一致性和执行可靠性，克服了上述三类方法的缺陷，为复杂推理任务提供了高保真沙盒（high-fidelity sandbox）。

Q: 论文如何解决这个问题？

论文提出 ScaleEnv 框架，通过两阶段协同架构从零开始合成高保真交互环境与可验证任务，具体解决方案如下：

4.1 可执行图构建阶段（Executable Graph Construction）

该阶段建立领域的逻辑骨架，确保代码级严谨性：

模式定义与反向工程

自上而下工具模式合成：以领域关键词（如”Job Seeking”）为输入，利用大语言模型（LLM）生成工具模式（Tool Schema），精确定义原子工具集 T 的接口、参数及逻辑前/后置条件（如”submit application”逻辑上必须先有”upload resume”）
数据库模式推导：数据库智能体（Database Agent）分析工具定义，反向推导支持环境所需的数据库结构（如”submit application”工具隐含需要 Application 表和 Job 表），建立工具-数据库显式映射

程序化测试验证（Procedural Testing）

为解决直接生成代码易产生幻觉的问题，引入多智能体验证机制：

数据库实现验证：LLM生成数据库代码后，并发生成测试脚本验证完整性约束；执行失败时由调试智能体（Debug Agent）基于错误追踪迭代修复
工具实现验证：代码智能体（Code Agent）实现工具逻辑的同时，测试智能体（Test Agent）合成单元测试用例及匹配的数据库实例。执行验证三种结果：
成功：执行无错误且状态转换严格匹配预期
预期拒绝：工具正确识别无效输入并抛出预定义异常
意外失败：运行时错误或状态不一致触发调试智能体迭代修复

工具依赖图构建

利用工具依赖智能体（Tool Dependency Agent）基于数据流（参数传递）、前/后置条件（逻辑依赖）和状态依赖（共享数据库表）三个维度，评估工具间成对关系，构建有向的工具依赖图 G ，为后续任务生成提供逻辑基础

4.2 任务实例化阶段（Task Instantiation）

该阶段基于可执行图生成多样化任务，确保支持强化学习（RL）所需的试错探索：

任务初始化（Task Initialization）

可执行种子工具链采样：从依赖图 G 中采样种子工具链 C_1 = (a_1, a_2, …, a_k) ，表示为可执行代码，确保数据流约束（前序动作输出作为后续动作输入）
带干扰项的初始状态构建：基于 C_1 构建初始环境状态 s_0^(env) ，执行 C_1 验证可行性；同时注入与真值轨迹正交的干扰数据（distractors），密度随任务复杂度动态调整，迫使代理学习精确信息过滤
指令合成：基于验证后的 C1 和 s_0^(env) ，生成用户画像 P(user) 和用户指令 u ，确保指令严格 grounded 于 C_1 ；奖励函数 R 直接源于执行 C_1 后的最终状态 s_T^(env) ，确保与真值轨迹对齐

受控环境扩展（Controlled Environment Expansion）

为防止代理过拟合到稀疏轨迹，通过迭代扩展增加环境复杂度：

依赖感知拓扑扩展：将初始工具链 C_1 扩展为局部子图 H_1 = K(C_1) ⊂ G ，采用依赖感知BFS（Dependency-Aware BFS）：仅当新工具节点 v 的输入输出依赖可被 H_1 中工具子集满足时才加入，避免依赖死锁；对新加入工具执行参数推导并修复环境错误
LLM门控链扩展：为增加多样性，在剩余工具集 Dn = G setminus H_n 中采样新工具链 C(n+1) ，通过参数化门控策略 π 控制扩展：
结构复杂度 c(Hn) = |V(H)n| + λ |E(H)n|S(sat) ：评估当前子图的工具覆盖与依赖复杂度
可行性评分 g(D_n) ：使用”Oracle”智能体（如Qwen3-235B-A22B）在 D_n 中发现有效工具链的成功率
综合指标与剩余工具数 |Dn| 输入LLM，输出兼容性分数 $p ∈
0,1
；若 p ≥ τ 则采样新链 C(n+1) 并扩展为 K(C(n+1)) ，合并入 H(n+1) = Hn ∪ K(C(n+1))$
最小探索约束：强制要求 |H_n| ≥ 20 ，不足时随机采样辅助链补足，确保充分探索空间

关键保障机制

实体一致性（Entity Consistency）：跨数据库表的实体映射必须正确（如 Order 表中的 user_id 必须正确映射到 User 表）
交互完整性（Interaction Completeness）：对任意有效工具调用动作 a ∈ A(tool) ，环境必须返回有效、语义有意义的观察 o(tool) ，确保探索不会因缺失数据而中断
基于规则的奖励（Rule-Based Reward）：替代易遭受奖励破解（reward hacking）的LLM-as-a-judge，采用确定性规则直接比对最终数据库状态 sT^(env) 与真值状态 s(gt)^(env) ，按列类别（豁免字段/硬约束/语义对齐）实施差异化匹配策略

Q: 论文做了哪些实验？

论文的实验部分（第5节）系统评估了ScaleEnv合成环境对代理泛化能力的影响，主要包含以下实验：

5.1 实验设置

合成环境：使用Deepseek-V3.2、GLM-4.7、GPT-5.1和Qwen3-32B等模型实例化各类智能体角色，合成16个领域；每个环境包含约50个工具与5–20个数据库表
训练配置：以Qwen3为基础模型，采用GRPO（Group Relative Policy Optimization）算法在合成任务上训练得到Qwen3-SE系列模型；使用Qwen2.5-72B-Instruct作为用户模拟器
超参数：Qwen3-8B模型使用rollout batch size 1024，Qwen3-32B使用2048；学习率 10^(-6) ，训练48步

5.2 主实验：泛化到未见领域

在严格分布外（Out-of-Distribution, OOD）设置下（训练领域与评估领域完全不重叠，且数据格式不同），评估三个维度的泛化能力：

评估维度	基准测试	关键发现
推理泛化	VitaBench跨域子集	在需要主动信息检索和复杂多步规划的模糊任务上，Qwen3-SE-32B性能较基线翻倍
领域泛化	τ2-Bench（Retail, Airline, Telecom）VitaBench（Delivery, In-store, OTA）	在7个不同领域上均实现 consistent 提升，尽管这些领域与16个训练领域在工具嵌入空间中存在显著语义分离（见图4）
格式泛化	τ2-Bench的策略约束对话	成功适应需要遵循冗长文本策略的交互格式，尽管训练时未接触此类格式

性能上限分析（Pass@4）：在VitaBench上，Qwen3-SE-32B在复杂跨域子集上的成功潜力（Pass@4）从15%提升至29%，接近翻倍，表明合成环境不仅提升平均稳定性，更显著提高了模型在困难任务上的能力上限。

5.3 领域扩展分析（Domain Scaling Analysis）

为验证环境多样性对泛化的影响，固定任务总数为1024，变化训练领域数量 N ∈ 2, 4, 8, 16 ：

观察到零样本泛化性能随 N 增加呈单调上升趋势（见图3）
在VitaBench和τ2-Bench上，性能在 N=16 时仍未饱和，证实环境多样性比任务数量对培养通用代理能力更为关键

5.4 分析实验

消融实验：可执行性验证（Executability Verification）

对比移除执行验证（w/o EV）与完整系统（Qwen3-SE-8B）：

无EV时，合成数据包含运行时失败的工具调用（如尝试退款不存在的订单），引入冲突奖励信号
结果：移除EV导致τ2-Bench所有领域性能一致下降（Retail: 50.9 vs 42.3；Airline: 37.5 vs 30.0；Telecom: 27.2 vs 25.2）

消融实验：奖励机制（Reward Mechanism）

对比基于规则的奖励（Rule-Based）与LLM-as-a-Judge：

基于规则的方法在Avg@4、Pass@4等指标上均优于LLM评判（38.5 vs 36.5）
证实基于规则的奖励更客观、计算开销更低，且不易受奖励破解（reward hacking）影响

领域稳定性分析（Domain Stability）

排除性能提升源于特定”幸运”领域的可能性：

使用两个不重叠的4领域子集（Set A：wedding planning, knowledge management, job seeking, healthcare telemedicine；Set B：express logistics, job seeking, email management, pet care）分别训练
两个子集在VitaBench所有领域上均稳定超越基线，证明框架鲁棒性

工具语义多样性与OOD验证

使用t-SNE可视化工具嵌入（见图4）：

16个合成训练领域形成广泛分布的语义集群
评估领域（τ2-Bench和VitaBench）与训练集群存在明显空间分离， empirically 验证了评估的OOD性质，确认性能提升非源于简单模板记忆

Q: 有什么可以进一步探索的点？

基于论文内容与现有局限，以下方向值得进一步探索：

1. 环境规模的极限探索

论文在领域扩展分析（Section 5.3）中发现，当训练领域从 N=2 增至 N=16 时，模型泛化性能呈单调上升且尚未饱和。这暗示：

继续扩大领域数量（如 N=32, 64, 128 ）可能进一步解锁模型的通用推理能力
需研究领域数量与模型参数规模的最优配比关系，即”环境扩展定律”（Environment Scaling Laws）的具体形态

2. 安全对齐与伦理约束机制

论文在影响声明（Impact Statement）中指出，SCALEENV 的域无关性（domain-agnostic）能力理论上可合成任意交互环境，存在被滥用于构建恶意场景的风险。未来需探索：

自动化的安全筛选机制：在环境合成阶段检测并过滤可能模拟有害行为（如欺诈、隐私侵犯）的领域
价值对齐的环境约束：在工具依赖图构建阶段嵌入伦理约束（ethical constraints），确保合成任务符合人类价值观

3. 动态与开放世界环境

当前框架主要合成静态的工具依赖图和预定义的数据库模式。可扩展至：

时变环境动态：工具可用性随时间变化（如某些API在特定条件下失效），测试代理的适应性与鲁棒性
开放式工具发现：允许代理在探索过程中发现并学习全新工具（而非固定工具集），更接近真实世界的终身学习场景

4. 多模态交互环境

现有环境主要基于文本和结构化数据库（Section 4.1.2）。可进一步探索：

视觉-语言-工具协同：合成包含图像、视频理解的多模态工具（如”分析图表并更新数据库”）
具身交互（Embodied Interaction）：将框架扩展至机器人控制或GUI交互，合成物理环境或虚拟界面的交互逻辑

5. 细粒度信用分配与中间奖励

当前采用基于最终状态（terminal state）的稀疏奖励（Section 4.2.2）。可研究：

过程级奖励建模（Process Reward Model）：在工具链执行的关键中间节点提供细粒度反馈，加速复杂多步任务的学习
反事实环境生成：合成”如果执行了替代动作会怎样”的对比环境，强化代理的因果推理能力

6. 跨领域组合泛化

论文主要评估了领域内的零样本迁移（Section 5.2）。未来可设计：

混合领域任务：要求代理同时调用来自多个训练领域的工具（如同时处理”医疗预约”和”差旅预订”），测试领域组合（compositional generalization）能力
工具链长度的系统性扩展：研究工具依赖图深度与代理规划能力上限的关系，突破当前 |H_n| ≥ 20 的约束

7. 人机协作的环境共建

当前流程完全自动化（Section 4）。引入人类专家可：

领域专家知识注入：允许人类在模式定义阶段修正工具逻辑，提升特定专业领域（如法律、医疗）的环境保真度
交互式任务精化：基于人类反馈（RLHF）动态调整任务难度和干扰项分布，实现自适应课程学习（adaptive curriculum）

Q: 总结一下论文的主要内容

这篇论文提出 ScaleEnv，一个用于从零开始合成高保真交互环境以训练通用型工具使用代理的框架，解决了环境稀缺性与合成可靠性问题。

1. 研究背景与问题

训练具备泛化能力的工具使用代理需要大量多样化的交互环境进行强化学习（RL）探索，但面临两大核心挑战：

真实性（Realism）：LLM直接生成的工具功能不可靠，LLM模拟器易产生幻觉（hallucinations），无法提供鲁棒的执行反馈
可扩展性（Scalability）：现有方法依赖有限的外部文档或人工干预，难以实现自动化、大规模的环境构建

2. 核心方法：ScaleEnv框架

ScaleEnv通过两阶段协同架构合成完全可执行的环境与可验证任务：

阶段一：可执行图构建（Executable Graph Construction）

建立领域的逻辑骨架，确保代码级严谨性：

模式定义：以领域关键词（如”Job Seeking”）为输入，LLM生成工具模式（Tool Schema）定义接口、参数及逻辑前/后置条件；数据库智能体反向推导所需数据库结构
程序化测试（Procedural Testing）：通过多智能体验证确保代码可靠性：
数据库代码通过完整性约束测试，失败时由调试智能体迭代修复
工具代码通过单元测试验证，区分”成功”、”预期拒绝”与”意外失败”三种执行结果
工具依赖图构建：基于数据流、前/后置条件和状态依赖三个维度，构建有向图 G 建模工具间逻辑关系

阶段二：任务实例化（Task Instantiation）

基于依赖图生成支持RL探索的复杂任务：

种子工具链采样：从 G 中采样可执行工具链 C_1 作为参考解决方案，确保数据流约束满足
环境状态构建：构建初始状态 s_0^(env) 并注入动态密度的干扰项（distractors），同时满足实体一致性（跨表实体映射正确）和交互完整性（全动作空间可执行）
受控环境扩展：通过依赖感知BFS将种子链扩展为局部子图 H_n ，并采用LLM门控策略 π 基于结构复杂度 c(H_n) 和可行性评分 g(D_n) 动态决策是否引入新工具链，确保环境复杂度与可解性平衡

3. 训练与评估

训练：基于Qwen3模型，使用GRPO（Group Relative Policy Optimization）在合成任务上训练，采用基于规则的奖励函数（直接比对最终数据库状态与真值）替代易遭受奖励破解的LLM-as-a-judge
评估：在严格分布外（OOD）设置下（训练领域与评估领域完全不重叠，数据格式不同）测试：
领域泛化：在τ2-Bench（Retail, Airline, Telecom）和VitaBench（Delivery, In-store, OTA）等7个未见领域上性能显著提升
推理泛化：在VitaBench跨域子集（需多步推理和主动规划）上，Qwen3-SE-32B性能较基线翻倍
格式泛化：成功适应τ2-Bench的策略约束对话格式，尽管训练时未接触此类格式

4. 关键发现

环境扩展曲线：固定任务数量，将训练领域从 N=2 增至 N=16 ，模型泛化性能呈单调上升且未饱和，证实环境多样性比任务数量对培养通用能力更为关键
消融验证：移除程序化测试导致性能显著下降；基于规则的奖励机制优于LLM评判，计算开销更低且更鲁棒

5. 主要贡献

提出首个完全自动化的大规模环境合成管道， circumvent 固定环境与人工API集成的限制
设计程序化测试与图扩展机制，确保合成环境同时具备代码级可验证性与逻辑复杂性
建立数据-centric代理训练新范式，通过环境扩展曲线实证多样性对鲁棒泛化的决定性作用，为开发通用自主代理提供可扩展基础

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Dunwei Tu,Hongyan Hao,Hansi Yang,Yihao Chen,Yi-Kai Zhang,Zhikang Xia,Yu Yang,Yueqing Sun,Xingchen Liu,Furao Shen,Qi Gu,Hui Su,Xunliang Cai

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2602.06820.pdf

Arxiv URL: https://arxiv.org/abs/2602.06820

Arxiv ID: 2602.06820

CoolPaper URL: https://papers.cool/arxiv/2602.06820

Published: 2026-02-06T16:05:55Z

Updated: 2026-02-06T16:05:55.000Z

19. Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models

The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/

中文摘要

机器人学习中的普遍范式试图通过运行时的语言提示在不同环境、物理形态和任务之间进行泛化。然而，这种方法存在一个根本性的矛盾：语言往往过于抽象，难以指导实现稳健操作所需的具体物理理解。在本工作中，我们引入了接触锚定策略（Contact-Anchored Policies, CAP），它用空间中的物理接触点替代语言条件。同时，我们将CAP结构化为模块化效用模型库，而不是单一的通用策略。这种分解使我们能够实现现实-模拟迭代循环：我们构建了EgoGym，一个轻量级模拟基准，用于快速识别失败模式并在实际部署前优化我们的模型和数据集。我们展示了，通过基于接触进行条件控制并通过模拟迭代，CAP可以在三项基本操作技能上开箱即用地泛化到新的环境和物理形态，仅使用23小时的演示数据，并在零样本评估中比大型最先进的视觉语言代理（VLA）高出56%。所有模型检查点、代码库、硬件、模拟环境和数据集将开源。项目页面：https://cap-policy.github.io/

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决基于语言条件的机器人学习范式在资源效率与物理操作精确性之间的根本张力。

具体而言，论文针对以下核心问题：

1. 语言条件的抽象性与物理操作具体性之间的矛盾

当前主流范式依赖语言提示（language prompting）来泛化跨环境、跨实体和跨任务的行为，但语言作为机器人策略的条件存在关键缺陷：

空间不精确性：自然语言缺乏指导精确物理操作所需的空间感知精度（”language is imprecise: robotics needs precise spatial awareness which is not easy to convey in natural language abstractions”）
模型膨胀与效率低下：语言理解需要庞大的模型尺寸，导致推理效率低下，且包含大量与机器人操作无关的冗余信息（如”地月距离”等）

2. 通用策略训练的资源不可持续性

现有通用机器人策略（如 π_0 等VLA模型）需要：

数千小时的人类数据收集
大规模GPU集群训练
大量真实世界评估

即便如此，其泛化能力仍远不如儿童或家养宠物，呈现出”资源-性能”的严重错配。

3. 单一体化策略的迭代困难

大型端到端通用策略难以迭代优化，因为验证损失与真实世界性能相关性差，且故障模式分析困难。

解决方案框架（CAP）：

论文提出Contact-Anchored Policies (CAP)，通过以下方式解决上述问题：

问题维度	传统方法	CAP解决方案
条件媒介	自然语言提示	物理接触点（3D坐标 p ∈ R^3 ）作为策略条件
架构范式	单一通用策略（monolithic generalist）	模块化效用模型库（library of modular utility models）
开发流程	直接真实世界迭代	EgoGym仿真循环：轻量化仿真环境用于快速故障模式识别与策略改进

核心创新在于用物理接触锚定（contact anchoring）替代语言条件，将策略学习重新表述为：
π(a(t:t+h) | o(t-k:t), p_(t-k:t))
其中 p 为接触锚点坐标，使策略能够基于具体的几何接触约束生成动作，而非依赖抽象语义理解。

通过这一框架，论文仅用23小时演示数据（相比传统方法的数千小时），在零样本（zero-shot）泛化到新环境和新物体时，性能超过最先进的视觉-语言-动作模型（VLA）如 π_(0.5) 达56%。

Q: 有哪些相关研究？

根据论文第5节及全文引用，相关研究可分为以下四个维度：

1. 通用行为模型（Generalist Behavior Models）

大规模多任务通用策略
利用大规模跨机器人数据集（如Open X-Embodiment
Padalkar et al., 2023
、DROID
Khazatsky et al., 2024
）训练端到端模型，代表工作包括 π0
Black et al., 2024
、 π(0.5)
Physical Intelligence Team et al., 2025
、GR00T N1
Bjorck et al., 2025
等。这些模型通常需要1,000-10,000小时数据及大规模计算资源，且往往需要在特定场景下进行后训练才能表现良好。

单任务通用策略（Robot Utility Models）
Etukuru et al. (2025) 提出在多样化场景中训练单一任务的通用策略，仅需数小时演示数据即可实现零样本部署。CAP继承此范式，但将条件从语言改为物理接触点。类似工作还包括Diffusion Policy
Chi et al., 2023
等专注于特定技能学习的方法。

2. 多模态行为模型的条件化（Conditioning Multi-modal Behavior Models）

早期条件化方式

目标状态/图像条件：Lynch et al. (2020)、Cui et al. (2022)、RoboCat
Bousmalis et al., 2023
使用未来状态或目标图像作为策略输入
语言条件：RT-1
Brohan et al., 2022
、RT-2
Brohan et al., 2023
、BC-Z
Jang et al., 2021
将自然语言直接作为输入模态；CLIPort
Shridhar et al., 2022a
和 Perceiver-Actor
Shridhar et al., 2022b
结合CLIP
Radford et al., 2021
实现语言的空间 grounding

空间与几何条件化

RT-Trajectory
Gu et al., 2023
：与CAP最相关的工作，使用事后重标记的轨迹草图（hindsight trajectory sketches）作为条件，包含夹爪运动与关节信息
关键点方法：Track2Act
Bharadhwaj et al., 2024
、ReKep
Huang et al., 2024
、Point Policy
Haldar and Pinto, 2025
、P3-PO
Levy et al., 2025
利用预训练模型提取关键点实现泛化，但通常放弃像素到动作的直接映射或依赖规划器

CAP的差异化：将条件简化为单一的物理接触锚点（3D坐标 p ∈ R^3 ），作为最小化接口替代语言或完整轨迹草图，实现更精确的空间控制。

3. 真实策略的仿真评估（Evaluating Real Policies in Simulation）

高保真仿真基准
Behavior-1K
Li et al., 2024a
、RoboCasa
Nasiriany et al., 2024
、LIBERO
Liu et al., 2023
专注于比较不同学习算法在固定数据集上的性能，而非测试分布外泛化。

真实到仿真（Real-to-Sim）评估
Polaris
Jain et al., 2025
、RobotArena
Jangir et al., 2025
、Li et al. (2024b) 及 Barreiros et al. (2025) 尝试从真实环境建模高保真仿真场景，但面临仿真-现实差异（sim-to-real gap）导致的评估指标难以优化的问题。

程序生成环境
ProcTHOR
Deitke et al., 2022
、AI2-THOR
Kolve et al., 2017
、Habitat
Savva et al., 2019
在室内导航任务中成功使用程序生成场景实现泛化。

EgoGym的定位：与上述追求仿真保真度不同，EgoGym采用轻量级MuJoCo仿真，通过程序生成多样化场景（915个Objaverse物体、随机几何参数的柜门），专门用于检测分布外泛化能力与过拟合，而非模拟精确物理。

4. 基础训练方法与数据收集

行为克隆（Behavior Cloning）
包括IBC
Florence et al., 2021
、Behavior Transformers
Shafiullah et al., 2022a
、Diffusion Policy
Chi et al., 2023
、VQ-BeT
Lee et al., 2024
（CAP采用的算法基础）等动作表示与建模方法。

数据收集工具

主从遥操作：GELLO
Wu et al., 2023
、ALOHA
Zhao et al., 2023
VR遥操作：Open-Television
Cheng et al., 2024
、Open-Teach
Iyer et al., 2024
手持工具：AnySense
Bhirangi et al., 2024
、UMI
Chi et al., 2024
、Grasping in the Wild
Song et al., 2020

工具调用与组合
Schick et al. (2023) 提出Toolformer框架，CAP借鉴此思想，通过高层VLM将原子技能（Pick/Open/Close）作为工具调用实现长程任务组合。

Q: 论文如何解决这个问题？

论文通过**Contact-Anchored Policies (CAP)**框架，从条件媒介、架构设计、数据工程及开发流程四个维度系统性地解决上述问题。具体解决方案如下：

1. 核心范式：以物理接触点替代语言条件

将策略条件从抽象语言转换为具体的3D空间接触锚点（Contact Anchor） p ∈ R^3 。该锚点定义为机器人与环境的预期物理接触位置，在相机坐标系中表示为坐标 (x, y, z) 。

关键优势：

空间精确性：接触点直接编码操纵所需的几何与物理约束，消除语言的空间歧义性
模态解耦：将”做什么”（任务语义）与”在哪里做”（空间定位）分离，前者由外部VLM处理，后者由策略通过接触点建模
效率提升：基于VQ-BeT
Lee et al., 2024
的自回归架构，模型参数量仅5200万，远小于大型VLA模型

2. 数据工程：手持夹具与事后接触标记

2.1 统一硬件设计

设计低成本3D打印手持夹具（Handheld Gripper），与iPhone 13 Pro刚性连接作为传感器套件。该夹具既用于数据收集（人工手持操作），也直接作为机器人末端执行器（由Dynamixel伺服驱动），消除 embodiment gap。

2.2 事后接触锚点标记（Hindsight Contact Labeling）

训练数据通过以下流程自动生成接触标签（无需人工标注）：

接触检测：识别夹具停止闭合的帧 t=c （Pick/Open任务）或记录接触时标记（Close任务）
锚点定义：在 t=c 时刻，将接触锚点 p_c 定义为夹具双指中心点的3D坐标
时序传播：对于 t < c 的历史帧，通过相机里程计 A_t ∈ SE(3) 反向投影：
p_t = A_t^(-1) A_c p_c
对于 t > c 的后续帧，冻结锚点为 p_c （因物体随夹具刚体运动）

此过程生成轨迹级接触标签，使策略学习如何将视觉观测与接触锚点关联到动作生成。

3. 策略学习架构：条件化矢量量化行为克隆

将策略学习建模为条件模仿学习问题：

π(a(t:t+h) | o(t-k:t), p_(t-k:t))

其中 o 为视觉观测， p 为接触锚点序列， k=3 为观测上下文长度。

网络架构：

视觉编码：预训练ResNet-50（MoCo自监督）将 224 × 224 RGB图像编码为 z_v ∈ R^(256)
接触嵌入：线性投影将3D接触点 p_t 映射为 z_c ∈ R^(256)
** token 拼接**：观测token $s_t =
z_v, z_c
$ 作为VQ-BeT的输入
动作预测：VQ-BeT预测离散的action tokens，解码为7维动作（6-DoF末端执行器位姿增量 + 夹具开度）

通过联合条件化RGB观测与接触锚点，策略适应多样化物体几何，同时锚定操纵轨迹至特定交互点。

4. 推理机制：接触提示与实时跟踪

4.1 初始接触提示生成

推理时需先指定初始接触锚点 p_0 ，通过两种方式：

人工指定：用户在RGB-D图像上点击像素 (u,v) ，通过深度 d(u,v) 和相机内参 K 反投影：
p_0 = d(u,v) K^(-1) [u, v, 1]^top
VLM自动生成：使用Gemini Robotics-ER 1.5等模型，输入语言指令（如”指向红色杯子”）生成像素坐标

4.2 接触点跟踪

执行过程中，利用机器人正运动学实时更新接触锚点在相机坐标系中的位置：
p_t = A_t^(-1) A_0 p_0
其中 A_t 为当前相机位姿（由机器人运动学计算，精度高于视觉里程计）。夹具闭合后冻结锚点，匹配训练数据分布。

5. 开发基础设施：EgoGym仿真循环

构建轻量级仿真环境EgoGym（基于MuJoCo），支持快速迭代：

设计原则：

速度优先：牺牲视觉真实感换取执行速度，可直接嵌入训练循环进行频繁checkpoint评估
程序生成多样性：从915个Objaverse资产采样物体，随机化柜门几何参数、表面纹理及干扰物体
过拟合检测：通过分布外场景测试验证泛化能力，而非依赖验证损失（其与真实性能相关性差）

迭代流程：

在EgoGym中快速评估checkpoint，识别故障模式（如”抓取后提升不足”、”空夹”等）
基于仿真反馈改进数据处理（如引入静态帧过滤static-frame filtering）
部署至真实机器人验证

实验表明，EgoGym性能与真实世界性能强相关（图10），可作为可靠的预部署分析工具。

6. 系统组合：工具调用与验证器引导重试

CAP作为模块化效用模型（modular utility models）而非单一通用策略，支持通过高层VLM进行工具调用（tool calling）组合：

原子技能库：训练独立的Pick、Open、Close策略
长程任务执行：高层控制器（如GPT-4o）将复杂任务分解为工具调用序列（如”打开柜门→抓取咖啡豆→放置→关闭柜门”）
验证器重试：使用VLM验证任务完成状态，失败时自动重新生成接触锚点并重试，使单次尝试成功率83%提升至90%+（Pick任务）

此架构避免了端到端策略的数据扩展律约束，允许通过组合现有技能实现长程行为。

Q: 论文做了哪些实验？

论文通过零样本（zero-shot）评估验证CAP的泛化能力，实验设计围绕环境泛化、跨实体部署、基线对比、长程组合及消融分析五个维度展开。以下是详细实验内容：

1. 零样本环境泛化（Zero-shot Environment Generalization）

在完全未见的场景与物体上评估三个核心操作技能，所有实验均不经过微调。

1.1 Pick任务评估

设置：使用Stretch 3机器人，在5个未见场景（厨房、沙发、会议室、储物柜、工作区）中测试25个未见物体（每个场景5个）。每个物体进行10次试验，随机化机器人初始位置（水平16cm×垂直11cm范围），共250次试验。
结果：
人工指定接触点（Oracle）：83.2% 成功率
VLM生成接触点（Gemini Robotics-ER 1.5）：81.0% 成功率（与Oracle相当，见图6）
增加VLM验证器重试（最多10次）：90.4% 成功率

1.2 Open与Close任务评估

设置：在5个未见柜门和5个未见抽屉上测试，每个进行10次试验，共100次试验。
结果：
Open：Oracle 81%，VLM 80%，带重试91%
Close：Oracle 96%，VLM 97%，带重试98%（见Table 1）

2. 零样本跨实体泛化（Zero-shot Embodiment Generalization）

验证CAP在不同机器人硬件上的即插即用能力，所有测试使用同一模型权重。

2.1 多平台Pick任务测试

在固定环境下测试10个未见物体（每物体10次试验，共100次）：

Franka FR3：79.0% 成功率（内部评估）；外部独立评估88%
XArm 6：83.0% 成功率（内部）；外部评估79%
Universal Robotics UR3e：70.0% 成功率（因臂展较短受限）

2.2 外部独立评估

为验证系统集成鲁棒性，研究团队将checkpoint与评估协议提供给Hello Robot、UCLA、Ai2三个外部机构进行独立测试。外部评估结果与内部数据高度一致（Fig. 8），确认跨实体部署的可靠性。

2.3 iPhone实时部署

开发iOS应用将CAP（5200万参数）部署于iPhone 13 Pro，利用Neural Engine实现实时推理（2Hz）。用户通过触屏指定接触点，应用可视化预测轨迹，用于预验证场景中的策略行为。

3. 基线方法对比（Baseline Comparisons）

与前沿任务专用与通用模型对比：

任务	方法	成功率	备注
Pick	π_(0.5) -DROID	25.0%	大型VLA模型，基于DROID微调
Pick	AnyGrasp	46.7%	RGB-D抓取位姿预测+规划器
Pick	CAP (VLM)	81.0%	本方法，零样本
Open	stretch-open	58.0%	模块化开柜门管道
Open	CAP	81.0%	本方法，零样本

CAP在Pick任务上较 π_(0.5) 提升56%，较AnyGrasp提升34%；在Open任务上较stretch-open提升23%（见Table 1）。

4. 工具调用与长程任务（Tool Calling for Long-horizon Tasks）

验证CAP作为原子技能模块通过高层VLM组合执行复杂任务的能力：

4.1 实验设置

使用GPT-4o作为高层控制器，通过工具调用（tool calling）组合Pick、Open、Close策略及”Drop”脚本，执行：

获取咖啡豆：打开橱柜→抓取咖啡豆袋→放置于桌面→关闭橱柜（10次试验）
清理桌面：连续抓取5个不同物体并放入收纳箱（10次试验）

4.2 结果（Table 2）

获取咖啡豆：总体成功6/10，各阶段成功率为Open 10/10、Pick 7/10、Drop 7/10、Close 6/10。失败主要源于柜门未完全打开导致的碰撞。
清理桌面：10/10 成功率，所有物体均被成功转移，验证CAP组合的长程稳定性。

5. 仿真-现实关联与故障分析（Sim-to-Real Correlation）

5.1 单盲相关性研究

评估者不知晓EgoGym仿真结果的情况下，测试4个不同训练阶段的Pick checkpoints：

在EgoGym中运行5,000 episodes（含纹理随机化与4个干扰物）
在真实世界运行250次试验
结果：仿真成功率与真实成功率呈现强线性相关（Fig. 10左），验证EgoGym作为开发指标的可靠性。

5.2 故障模式迭代分析

通过EgoGym分析4个checkpoints（A-D）的故障分布（Fig. 10右）：

Checkpoint B发现”提升不足”（Did not lift enough）故障高发，归因于数据中存在大量抓取后静止帧
改进措施：引入静态帧过滤（Static-frame filtering），移除 gripper 移动不足的帧
效果：Checkpoint C/D中该故障显著减少，真实世界性能同步提升

6. 消融实验（Ablations）

6.1 接触锚点必要性（Contact Anchor Ablation）

在Close任务上对比RGB-only策略与完整CAP：

CAP：96.0% 成功率
RGB-only：58.0% 成功率（Table 3）验证接触锚点条件对空间精确操控的关键作用。

6.2 视觉干扰物鲁棒性（Distractor Objects）

在EgoGym-Pick中测试0-4个干扰物的影响（Fig. 11）：

CAP + Oracle：性能几乎不受干扰物数量影响（曲线平坦）
CAP + VLMs（Gemini-ER/Moondream/Molmo）：随干扰物增加，抓取错误物体（pick wrong object）概率上升，性能下降
π_(0.5) ：下降幅度最大，显示CAP在视觉干扰下的相对优势

关键实验统计汇总

数据量：仅23.1小时演示数据（20,365条轨迹）
参数量：5200万（VQ-BeT架构）
零样本场景：424个训练环境 vs. 完全未见的测试环境
跨实体验证：4种机器人平台 + 3个外部独立评估点

Q: 有什么可以进一步探索的点？

基于论文第6节（Conclusion）及全文分析，以下方向值得进一步探索：

1. 多接触点与双手操作扩展

当前CAP仅支持单一接触锚点（single contact anchor）。未来可扩展至：

多接触点预测与融合：对于需要多点接触的任务（如双手协调搬运大型物体、需要支撑与操作分离的复杂操纵），策略需具备预测和整合多个接触锚点（或接触点分布 P(p) ）的能力
双手操作（Bimanual Tasks）：将CAP框架扩展至双臂机器人，需解决双手接触点的时空协调与任务分配问题

2. 模态融合机制的深入理解

CAP依赖视觉token与接触点token的拼接（$s_t =
z_v, z_c
$），但两者的相对决策权重动态机制尚不明确：

研究策略在何时、何种程度上依赖视觉特征 vs. 接触点几何约束
探索注意力机制（attention maps）在接触锚定策略中的分配模式，以揭示物理接触信息如何约束视觉感知

3. 端到端强化学习整合验证器重试

当前采用模块化的VLM验证器（GPT-4o）进行失败检测与重试（verifier-guided retrying）。可探索：

将重试逻辑内化至策略本身，通过真实世界或仿真的强化学习（RL）训练策略具备”自我纠正”能力
构建统一的策略-验证器联合训练框架，而非分离的模块组合

4. 接触表示的泛化与优化

接触区域 vs. 接触点：将单一3D点扩展为接触区域（contact patch）或接触姿态（contact pose），以表征更丰富的几何与力交互信息
接触点概率分布：训练策略预测接触点的条件分布 p(contact | o) ，而非确定性坐标，以捕捉操作不确定性
动态接触规划：当前接触点由外部VLM或人工预先指定，可探索主动感知（active perception）机制，使策略在执行过程中动态调整接触位置

5. 仿真-现实闭环的深化

域随机化策略优化：EgoGym目前用于过拟合检测，可进一步利用其进行域随机化训练（domain randomization），提升极端分布外场景的鲁棒性
仿真引导的数据收集：基于EgoGym识别的故障模式，主动生成或筛选真实世界训练数据，形成自动化的数据引擎

6. 扩展至更复杂的操作原语

当前CAP局限于Pick、Open、Close三种原子技能。可探索：

柔性物体操作（如折叠衣物、擦拭表面），其中接触锚点可能随物体形变而动态变化
接触丰富的操作（如装配、拧紧螺丝），需要精细的力/力矩控制与接触状态机
工具使用：将接触锚点概念扩展至工具-物体交互（tool-object contact），实现更复杂的工具操作策略

7. 计算效率与边缘部署

尽管CAP已在iPhone上实现实时推理，但多策略组合（如长程任务中的工具调用）的延迟优化仍有空间
探索模型蒸馏或专家混合（MoE）架构，在保持性能的同时进一步压缩模型尺寸，支持更广泛的边缘设备部署

Q: 总结一下论文的主要内容

本文介绍Contact-Anchored Policies (CAP)，一种以物理接触点为条件的机器人操作策略框架，旨在解决传统语言条件方法在资源效率与空间精确性方面的根本局限。

1. 研究背景与核心问题

当前机器人学习依赖语言提示实现跨环境、跨任务泛化，但存在关键张力：

空间抽象性：自然语言难以精确传达物理操作所需的几何约束（如”拿起那个东西”缺乏具体接触位置信息）
资源不可持续：前沿视觉-语言-动作模型（VLA）需数千小时数据与大规模计算，泛化能力仍有限
迭代困难：端到端通用策略难以诊断故障模式与快速优化

2. 核心方法论：接触锚定策略（CAP）

CAP以3D物理接触点 p ∈ R^3 替代语言作为策略条件，将策略学习重构为：
π(a(t:t+h) | o(t-k:t), p_(t-k:t))
其中 o 为视觉观测， p 为接触锚点坐标， k=3 为观测上下文长度。

关键设计选择：

模块化效用模型：将通用策略分解为特定技能的独立模型（Pick/Open/Close），而非单一庞大模型
手持夹具数据收集：设计低成本3D打印夹具兼容人工手持与机器人部署，消除实体差距（embodiment gap）
事后接触标记（Hindsight Contact Labeling）：通过检测夹具闭合停滞帧自动提取接触点，并通过相机里程计 A_t ∈ SE(3) 反向投影至历史帧：
p_t = A_t^(-1) A_c p_c

3. 技术实现架构

策略网络：基于VQ-BeT（Vector-Quantized Behavior Transformer），5200万参数，使用ResNet-50视觉编码器（MoCo预训练）
接触嵌入：将3D接触点线性投影至256维，与视觉token拼接作为Transformer输入
推理机制：支持人工点击或VLM（如Gemini Robotics-ER）自动生成接触点，通过正运动学实时跟踪更新锚点位置
EgoGym仿真循环：轻量级MuJoCo环境，通过程序生成多样化场景（915个Objaverse物体、随机几何柜门），用于快速故障模式识别与过拟合检测，验证与真实性能强相关

4. 实验验证

数据效率：仅用23.1小时演示数据（20,365条轨迹），在424个环境中收集。

零样本泛化结果（Stretch 3平台，未见场景与物体）：

Pick：83%（人工条件）/ 81%（VLM条件）→ 带验证器重试达90%
Open：81% → 重试后91%
Close：96% → 重试后98%

跨实体泛化：同一模型权重零样本部署于Franka FR3（79%）、XArm 6（83%）、UR3e（70%）及iPhone实时应用，经三所外部机构独立验证。

基线对比：

较 π_(0.5) -DROID（25%）在Pick任务提升56%
较AnyGrasp（47%）提升34%
较stretch-open（58%）在Open任务提升23%

长程任务组合：通过高层VLM工具调用（tool calling）组合CAP模块，完成”从橱柜取咖啡豆”（6/10成功率）与”桌面清理”（10/10成功率）等长程任务。

消融实验：

RGB-only基线在Close任务仅58%，验证接触锚点的必要性
在EgoGym中，Oracle接触点条件下策略对视觉干扰物数量不敏感，显著优于VLA基线

5. 结论与影响

CAP证明：物理接触条件结合模块化策略设计与仿真迭代，可在极小数据规模（23小时）下实现强零样本泛化，为资源受限的学术研究提供可行路径。该方法将”做什么”（高层语义）与”在哪里做”（空间定位）解耦，前者由外部VLM处理，后者由轻量级策略通过接触锚点精确建模，突破了语言条件范式的资源-性能瓶颈。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Zichen Jeff Cui,Omar Rayyan,Haritheja Etukuru,Bowen Tan,Zavier Andrianarivo,Zicheng Teng,Yihang Zhou,Krish Mehta,Nicholas Wojno,Kevin Yuanbo Wu,Manan H Anjaria,Ziyuan Wu,Manrong Mao,Guangxun Zhang,Binit Shah,Yejin Kim,Soumith Chintala,Lerrel Pinto,Nur Muhammad Mahi Shafiullah

Categories: cs.RO,cs.LG

PDF URL: https://arxiv.org/pdf/2602.09017.pdf

Arxiv URL: https://arxiv.org/abs/2602.09017

Arxiv ID: 2602.09017

CoolPaper URL: https://papers.cool/arxiv/2602.09017

Published: 2026-02-09T18:58:50Z

Updated: 2026-02-09T18:58:50.000Z

20. Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems

Multi-agent LLM systems enable advanced reasoning and tool use via role specialization, yet reliable reinforcement learning (RL) post-training for such systems remains difficult. In this work, we theoretically pinpoint a key reason for training instability when extending group-based RL to multi-agent LLM systems. We show that under GRPO-style optimization, a global normalization baseline may deviate from diverse agents’ reward distributions, which ultimately leads to gradient-norm instability. Based on this finding, we propose Dr. MAS, a simple and stable RL training recipe for multi-agent LLM systems. Dr. MAS uses an agent-wise remedy: normalizing advantages per agent using each agent’s own reward statistics, which calibrates gradient scales and dramatically stabilizes training, both theoretically and empirically. Beyond the algorithm, Dr. MAS provides an end-to-end RL training framework for multi-agent LLM systems, supporting scalable orchestration, flexible per-agent LLM serving and optimization configs, and shared resource scheduling of LLM actor backends. We evaluate Dr. MAS on multi-agent math reasoning and multi-turn search benchmarks using Qwen2.5 and Qwen3 series models. Dr. MAS achieves clear gains over vanilla GRPO (e.g., +5.6\% avg@16 and +4.6\% pass@16 on math, and +15.2\% avg@16 and +13.1\% pass@16 on search) while largely eliminating gradient spikes. Moreover, it remains highly effective under heterogeneous agent-model assignments while improving efficiency.

中文摘要

多智能体大语言模型（LLM）系统通过角色专化实现高级推理和工具使用，但对于此类系统，可靠的强化学习（RL）后训练仍然困难。在本工作中，我们从理论上指出了将基于群体的RL扩展到多智能体LLM系统时训练不稳定的一个关键原因。我们表明，在GRPO风格的优化下，全局归一化基线可能偏离不同智能体的奖励分布，这最终导致梯度范数不稳定。基于这一发现，我们提出了Dr. MAS，这是一个针对多智能体LLM系统的简单且稳定的RL训练方法。Dr. MAS采用按智能体的处理方式：使用每个智能体自身的奖励统计数据对优势进行归一化，这校准了梯度尺度，并理论上和实证上显著稳定了训练。除了算法，Dr. MAS还提供了一个多智能体LLM系统的端到端RL训练框架，支持可扩展的协作、灵活的每智能体LLM服务和优化配置，以及LLM执行器后端的共享资源调度。我们使用Qwen2.5和Qwen3系列模型，在多智能体数学推理和多轮搜索基准上评估了Dr. MAS。Dr. MAS在数学任务上相比原生GRPO取得了明显提升（例如，平均@16提高5.6%，pass@16提高4.6%），在搜索任务上也有显著提高（平均@16提高15.2%，pass@16提高13.1%），同时大幅消除了梯度峰值。此外，在异构智能体模型分配下，它依然具有高效性，同时提升了训练效率。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决多智能体大语言模型系统（Multi-Agent LLM Systems, MAS）中强化学习（RL）后训练的不稳定性问题。

具体而言，论文针对以下关键挑战：

1. 算法层面的不稳定性

核心问题：将单智能体场景中表现良好的基于组的RL方法（如GRPO）直接扩展到多智能体设置时，会出现系统性的训练不稳定。
理论根源：论文从理论上证明，使用全局归一化基线（global normalization baseline）对所有智能体进行优势估计时，当不同智能体具有异构的奖励分布（µk, σk）时，会导致梯度范数膨胀（gradient-norm inflation）。具体表现为：

E[|gk^(global)|^2] = E[|z(i,t)^((k))|^2](σ_k^2+(μ_k-μ)^2) / (σ^2) + Delta_k

当某个智能体的奖励均值 μ_k 偏离全局均值 μ ，或方差 σ_k^2 与全局方差 σ^2 差异较大时，梯度二阶矩会线性增长，引发梯度尖峰（gradient spikes）和训练崩溃。

2. 系统层面的限制

编排复杂性：现有RL框架（如veRL、OpenRLHF）主要针对单LLM actor优化，缺乏对多智能体编排、异构模型协同训练和共享资源池调度的原生支持。
异构配置需求：不同智能体可能需要不同的模型规模（如7B vs 3B）、优化超参数和调用频率，现有系统难以灵活支持。

3. 提出的解决方案

论文提出 Dr. MAS，包含两个核心贡献：

智能体级归一化（Agent-wise Remedy）：摒弃全局基线，改为每个智能体 k 使用自身的奖励统计量进行优势归一化：

A_(i,k)^(agent) = (R_i - μ_k) / (σ_k)

这确保了梯度尺度在各智能体间保持均衡，理论上将梯度二阶矩控制在 $E
|z_(i,t)^((k))|^2

Delta_k$ 的有界范围内。

端到端训练框架：支持可扩展的多智能体编排、灵活的智能体-模型分配（支持LLM共享与非共享模式）、每智能体独立优化配置，以及基于共享资源池的高效LLM actor调度。

实验表明，Dr. MAS在数学推理（Math）和多轮搜索（Search）任务上相比vanilla GRPO实现了**+5.6% avg@16和+15.2% avg@16**的性能提升，同时基本消除了梯度尖峰。

Q: 有哪些相关研究？

该论文的相关研究主要分为以下三个方向：

1. 大语言模型的强化学习（Reinforcement Learning for LLMs）

早期对齐方法：

RLHF（基于人类反馈的强化学习）：Ziegler et al. (2019); Stiennon et al. (2020); Ouyang et al. (2022); Rafailov et al. (2024)

基于可验证奖励的强化学习（RLVR）：

利用自动可验证信号（如数学正确性、代码通过率）提升LLM能力 (Zeng et al., 2025)

基于组的RL方法（Group-based RL）：

GRPO（Group Relative Policy Optimization）：通过组内相对比较避免显式学习价值函数 (Shao et al., 2024)
RLOO（REINFORCE Leave-One-Out）：基于留一法基线的策略优化 (Kool et al., 2019; Ahmadian et al., 2024)
改进变体：Dr. GRPO (Liu et al., 2025c)、DAPO (Yu et al., 2025)、GSPO (Zheng et al., 2025)

Agentic与多轮设置：

将RLVR扩展到智能体场景，支持多轮交互和工具使用 (Zhou et al., 2024; Bai et al., 2024; Feng et al., 2025a; Wang et al., 2025a; Zhang et al., 2025b; Feng et al., 2026)
GRPO在工具学习 (Qian et al., 2025; Xue et al., 2025b)、OS控制 (Lai et al., 2025) 和游戏 (Wang et al., 2025c) 中的应用
组构建优化：GiGPO (Feng et al., 2025b)、ARPO (Dong et al., 2025)

2. 多智能体大语言模型的强化学习（Reinforcement Learning for Multi-Agent LLMs）

自对弈训练（Self-play）：

SPIRAL 和 MARSHAL：利用多轮动态生成课程和奖励，但局限于二元（双智能体）自对弈场景 (Liu et al., 2025a; Yuan et al., 2025)

知识蒸馏方法：

Chain-of-Agents：将多智能体轨迹蒸馏为单智能体策略以简化部署 (Li et al., 2025a)

基于组相对优化的多智能体扩展：

将GRPO风格优化扩展到多智能体设置的工作 (Liu et al., 2025b; Chen et al., 2025; Li et al., 2025b; Park et al., 2025; Wan et al., 2025; Xue et al., 2025a; Mo et al., 2025; Hong et al., 2025)
局限性：这些方法通常依赖启发式策略，缺乏理论稳定性保证

与Dr. MAS的区别：

现有工作未从理论上识别梯度范数膨胀（gradient-norm inflation）是训练不稳定的根本原因
Dr. MAS提出了基于智能体级归一化的严格解决方案，而非启发式方法

3. 强化学习基础设施（Reinforcement Learning Infrastructure）

通用RL后训练框架：

veRL (Sheng et al., 2024)、OpenRLHF (Hu et al., 2024)、ROLL (Wang et al., 2025b)、slime (Zhu et al., 2025)、AReaL (Fu et al., 2025)
特点：提供模块化管道抽象和分布式执行，但主要针对单LLM actor优化

支持Agentic用例的框架：

verl-agent (Feng et al., 2025b)、VerlTool (Jiang et al., 2025)、Agent-Lightning (Luo et al., 2025)
强调多轮展开和工具集成

多智能体训练接口：

MARTI (Zhang et al., 2025c)、PettingLLMs (Zhao et al., 2025)
局限性：对异构模型分配（heterogeneous model assignments）支持有限，缺乏共享资源池（shared resource pool）的高效调度机制

Dr. MAS的系统贡献：

支持灵活的智能体-模型分配（LLM共享/非共享模式）
提供每智能体独立的优化配置
实现共享资源池以高效调度多个LLM actor后端

Q: 论文如何解决这个问题？

该论文通过理论分析、算法改进和系统实现三个层面解决多智能体LLM系统的RL训练不稳定问题，具体方案如下：

1. 理论分析：识别梯度范数膨胀的根源

论文首先证明，标准GRPO使用全局归一化基线 (μ, σ) 会导致梯度范数膨胀。

对于智能体 k ，其（未裁剪）GRPO梯度贡献为：
gk^(global) triangleq (R_i - μ) / (σ) z(i,t)^((k))

其中 z(i,t)^((k)) triangleq ∇(θk) rho(θ_k)(a_t^i) 为得分函数。

关键发现（Lemma 4.2）：
E(a_t^i sim Y_k) [ |g_k^(global)|^2 ] = E(at^i sim Y_k) [ |z(i,t)^((k))|^2 ](σ_k^2+(μ_k-μ)^2) / (σ^2) + Delta_k

其中：

μ_k, σ_k^2 是智能体 k 活跃时的奖励均值和方差
μ, σ^2 是全局奖励统计量
Delta_k 是得分-奖励协方差修正项

不稳定性来源：

当智能体 k 的奖励分布偏离全局分布时（即 |μ_k - μ|/σ 或 σ_k^2/σ^2 较大），梯度二阶矩呈线性增长
这导致梯度尖峰（gradient spikes），破坏训练稳定性

2. 算法方案：智能体级归一化（Agent-Wise Remedy）

基于上述分析，论文提出Dr. MAS算法，核心改进是为每个智能体使用独立的归一化统计量：

A_(i,k)^(agent) = (R_i - μ_k) / (σ_k)

其中：
μk triangleq (1) / (|Y_k|) ∑(at^i ∈ Y_k) R_i, quad σ_k^2 triangleq (1) / (|Y_k|) ∑(a_t^i ∈ Y_k) (R_i - μ_k)^2

理论保证（公式6）：
E(a_t^i sim Y_k) [ |g_k^(agent)|^2 ] = E(at^i sim Y_k) [ |z(i,t)^((k))|^2 ] + Delta_k

此时乘数因子 (σ_k^2 + (μ_k - μ)^2) / (σ^2) = 1 ，梯度二阶矩仅取决于智能体自身的得分统计，消除了由分布不匹配引起的膨胀。

算法流程：

将轨迹经验按智能体分组 Y_k = a_t^i mid k_t^i = k
计算每个智能体独立的均值 μ_k 和标准差 σ_k
使用 A_(i,k)^(agent) 计算PPO风格的裁剪目标

3. 系统实现：端到端多智能体RL框架

除算法外，论文还提供了一个完整的训练系统（图2），解决多智能体编排和资源调度挑战：

3.1 多智能体编排（Multi-Agent Orchestration）

分布式轨迹收集器：管理多智能体系统与环境的交互
用户自定义编排逻辑：支持动态智能体选择和条件控制流（如层次化架构）

3.2 智能体-模型分配（Agent-Model Assignment）

非共享模式：每个智能体 k 拥有独立的工作组（worker group）和独立参数 θ_k
共享模式：相同模型配置的智能体映射到共享工作组，复用模型权重
动态映射：通过 agent_to_wg_mapping 在运行时路由智能体请求到对应后端

3.3 每智能体配置（Per-Agent Configuration）

支持为每个智能体独立设置优化超参数（如 actor.optim.lr、actor.ppo_micro_batch_size_per_gpu）
运行时检查确保共享工作组的智能体使用相同配置

3.4 共享资源池与调度（Shared Resource Pooling）

解耦逻辑与物理资源：使用Ray Placement Groups管理GPU资源池
高效推理后端：采用 sglang 作为推理引擎，支持多个LLM actor的并发调度
训练阶段：按 wg_id 将批次 B 划分为每模型微批次 B_(wg) ，确保梯度仅更新对应LLM后端

4. 实验验证效果

论文在数学推理（Math）和多轮搜索（Search）任务上验证了方案：

任务	指标	提升
Math (Qwen3)	avg@16	+5.6%
Math (Qwen3)	pass@16	+4.6%
Search (Qwen2.5)	avg@16	+15.2%
Search (Qwen2.5)	pass@16	+13.1%

关键观察：

梯度稳定性：Dr. MAS几乎完全消除了梯度范数尖峰（图4、图7）
异构兼容性：支持7B（Verifier）+ 3B（Search/Answer）的混合模型分配，在保持性能的同时降低41.8%的API成本（图5）
非共享设置收益更大：当智能体拥有独立参数时，分布差异更显著，Dr. MAS的校准作用更加关键

Q: 论文做了哪些实验？

论文在数学推理和多轮搜索两类任务上进行了系统性实验，涵盖算法有效性、训练稳定性、组件贡献及系统效率等多个维度。具体实验如下：

1. 数学推理任务（Math）

实验设置

智能体架构：两智能体循环管道（Solver + Verifier），见图3
Solver：生成候选解答
Verifier：评估并决定接受或要求修正（最多2轮循环）
模型：Qwen3-4B/8B（Yang et al., 2025）
设置：对比LLM共享（两智能体共用同一模型）与非共享（独立参数）两种模式
训练数据：DAPO-Math语料库（Yu et al., 2025）
评估指标：avg@16（平均准确率）和pass@16（最佳样本通过率）
基准测试：AIME’24、AIME’25、AMC’23、MATH500、Minerva、OlympiadBench

主要结果（表1）

Qwen3-4B：Dr. MAS相比vanilla GRPO在共享设置下提升**+2.2% avg@16**，在非共享设置下提升**+3.6% avg@16**
Qwen3-8B：提升更为显著，共享设置下**+4.5% avg@16**，非共享设置下**+2.6% avg@16**
关键观察：在困难任务（如AIME’24）上提升最大（42.7→54.8），表明Dr. MAS能有效稳定长程推理链的学习

2. 多轮搜索任务（Multi-Turn Search）

实验设置

智能体架构：三智能体层次化管道（Verifier + Searcher + Answer），见图3
Verifier：判断信息是否充足，决定调用搜索或回答
Searcher：调用搜索引擎检索外部信息
Answerer：综合证据生成最终答案
模型：Qwen2.5-3B/7B（Bai et al., 2025）
训练设置：最大4轮交互，group size=5，使用E5作为检索器
评估基准：
单跳QA：NQ、TriviaQA、PopQA
多跳QA：HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle

主要结果（表2）

Qwen2.5-3B：Dr. MAS在共享设置下提升**+1.8% avg@16**，非共享设置下**+2.4% avg@16**
Qwen2.5-7B：关键发现——vanilla GRPO在非共享设置下出现严重崩溃（28.0/40.5），智能体学会完全避免调用搜索；而Dr. MAS恢复性能至43.8/58.3，提升达**+15.8% avg@16和+17.8% pass@16**
总体提升：跨所有设置平均提升**+15.2% avg@16和+13.1% pass@16**

3. 梯度范数不稳定性分析

实验设计

跟踪训练过程中各智能体的梯度范数，对比GRPO与Dr. MAS的动态差异。

结果（图4、图6、图7）

GRPO：出现频繁的高幅度梯度尖峰（spikes）
Search智能体在早期和中期训练中出现极高梯度值（图4）
在Qwen2.5-7B非共享设置中，Search智能体梯度范数飙升至80+，最终导致NaN（图7）
Dr. MAS：所有智能体的梯度范数保持平滑且处于较低水平，无显著尖峰

4. 消融研究（Ablation Study）

实验设计

在Qwen2.5-7B非共享搜索任务上，对比四种优势归一化配置：

(μ, σ) ：全局均值和方差（vanilla GRPO）
(μ_k, σ) ：每智能体均值 + 全局方差
(μ, σ_k) ：全局均值 + 每智能体方差
(μ_k, σ_k) ：每智能体均值和方差（Dr. MAS）

结果（表3、图8）

配置	avg@16	pass@16
(μ, σ)	28.0	40.5
(μ_k, σ)	39.1	53.5
(μ, σ_k)	42.9	57.6
(μ_k, σ_k)	43.8	58.3

发现：仅使用每智能体方差（ (μ, σ_k) ）的收益大于仅使用每智能体均值，表明智能体间奖励分布的方差差异是主要问题来源
结论：完整的智能体级归一化（Dr. MAS）效果最佳

5. 异构模型分配实验（Heterogeneous Model Assignment）

实验设计

验证Dr. MAS在混合模型规模设置下的实用效率：

Homogeneous基线：所有三智能体均使用Qwen2.5-7B
Heterogeneous设置：Verifier使用7B，Search和Answer使用Llama-3.2-3B-Instruct

结果（图5）

性能保持：异构设置性能（42.0/57.5）与全7B基线（42.5/57.7）几乎持平
效率提升：
延迟降低31.6%
API成本降低41.8%（基于OpenRouter定价：7B 0.30/M tokens，3B 0.06/M tokens）
Token使用：各智能体平均Token数与同质设置相当，Verifier使用最多（约3093 tokens/轨迹）

6. 补充实验

训练曲线分析（附录E.3，图8）

展示了不同归一化配置下的训练准确率曲线，直观显示：

全局归一化（ (μ, σ) ）训练不稳定且收敛慢
部分智能体级归一化（ (μ_k, σ) 或 (μ, σ_k) ）显著改善
完整Dr. MAS（ (μ_k, σ_k) ）最稳定且最终性能最高

定性案例研究（附录F）

提供了多轮搜索和数学任务中多智能体协作的具体交互示例，展示Verifier如何路由决策、Solver如何迭代修正解答等实际行为模式。

Q: 有什么可以进一步探索的点？

基于论文第6节”Conclusions and Limitations”及全文内容，以下是值得进一步探索的研究方向：

1. 信用分配（Credit Assignment）的深化研究

当前局限：Dr. MAS主要解决由全局归一化引起的梯度尺度不稳定问题，但并未完全解决多智能体系统中跨智能体信用分配（credit assignment across agents）和跨轮次信用分配（credit assignment across turns）的根本难题。

探索方向：

开发显式的智能体间信用分配机制，区分最终奖励中各智能体的边际贡献
研究多轮交互中的长期信用传播方法，解决延迟奖励分配问题

2. 大规模多智能体系统的扩展性

当前局限：论文实验主要涉及2-3个智能体，框架虽支持灵活编排，但未在大量智能体（much larger number of agents）场景下验证。

潜在挑战与方向：

资源分配复杂性：当智能体数量增至数十或上百时，共享资源池的调度策略需要更精细的优化
异步执行问题：大量智能体可能引入显著的异步执行和通信开销，需要研究异步RL训练框架
稀疏激活优化：多数智能体在单条轨迹中仅部分激活，如何设计高效的稀疏更新策略

3. 动态异构性与自适应配置

当前局限：现有实验采用固定的异构配置（如7B+3B固定分配）。

探索方向：

动态模型分配：根据任务复杂度或训练阶段动态调整各智能体的模型规模
自适应归一化：研究在线估计奖励分布统计量的鲁棒方法，处理非平稳环境
自动角色发现：而非预定义角色，探索通过元学习自动发现最优智能体分工

4. 更广泛的算法组合

探索方向：

将智能体级归一化与其他RL变体结合（如DAPO、Dr. GRPO的改进）
研究在对抗性多智能体设置（非合作博弈）中的稳定性保证
探索离线RL（Offline RL）与智能体级归一化的结合，利用预先收集的多智能体轨迹

5. 理论分析的精细化

当前局限：Lemma 4.2中的协方差修正项 Delta_k 在分析中被假设为较小。

探索方向：

在特定任务结构下（如高度相关的奖励-动作分布）量化 Delta_k 的具体影响
建立更紧致的梯度方差上界，指导超参数（如group size）的自适应选择
研究非均匀采样（non-uniform sampling）对智能体级归一化效果的影响

6. 实际部署中的系统优化

探索方向：

模型并行与流水线：当单个智能体模型规模极大时，结合张量并行和流水线并行
异构硬件支持：针对边缘设备（edge devices）与云端混合部署场景优化资源池
容错机制：在多智能体系统中单个智能体失效时的优雅降级策略

这些方向既包含算法层面的理论深化，也涵盖系统层面的工程挑战，为后续研究提供了清晰的路线图。

Q: 总结一下论文的主要内容

该论文针对多智能体大语言模型系统（Multi-Agent LLM Systems, MAS）的强化学习（RL）后训练不稳定问题，提出了理论分析和系统性解决方案。以下是主要内容总结：

1. 研究背景与核心问题

多智能体LLM系统通过角色专业化实现复杂推理和工具使用，但将现有RL方法（如GRPO）扩展到多智能体设置时面临训练不稳定性。论文从理论上识别出关键原因：全局归一化基线（global baseline）与异构智能体的奖励分布失配。

通过分析梯度二阶矩，论文证明当使用全局统计量 (μ, σ) 时，智能体 k 的梯度满足：

E[|gk^(global)|^2] = E[|z(i,t)^((k))|^2](σ_k^2+(μ_k-μ)^2) / (σ^2) + Delta_k

当智能体奖励均值 μ_k 偏离全局均值 μ 或方差 σ_k^2 不匹配时，该乘数因子导致梯度范数膨胀（gradient-norm inflation），引发训练尖峰和崩溃。

2. 算法贡献：Dr. MAS

提出**智能体级归一化（agent-wise normalization）**作为解决方案：

A_(i,k)^(agent) = (R_i - μ_k) / (σ_k)

其中 μk 和 σ_k 仅基于智能体 k 活跃时的奖励计算。该方法将梯度二阶矩控制在 $E
|z(i,t)^((k))|^2

Delta_k$，消除由分布差异引起的方差爆炸，实现稳定的协同优化。

3. 系统贡献

构建了端到端的MAS RL训练框架，支持：

灵活的智能体-模型分配：支持LLM共享（多智能体共用模型）与非共享（独立参数）模式
每智能体配置：允许为不同智能体设置独立的学习率、批次大小等超参数
共享资源池调度：基于Ray和sglang的高效资源管理，支持异构模型并发推理

4. 实验验证

在两类任务上验证：

任务	架构	主要结果
数学推理	Solver+Verifier（2智能体）	相比GRPO提升 +5.6% avg@16（Qwen3-4B/8B）
多轮搜索	Verifier+Searcher+Answerer（3智能体）	提升 +15.2% avg@16（Qwen2.5-7B非共享设置下从28.0恢复至43.8）

关键发现：

基本消除梯度范数尖峰（图4、图7）
消融研究证实同时使用 (μ_k, σ_k) 效果最佳（表3）
支持异构部署（7B+3B混合），在保持性能同时降低41.8% API成本（图5）

5. 局限与未来方向

信用分配：未完全解决跨智能体和跨轮次的长期信用分配问题
规模扩展：未在超大量智能体（>>3）场景下验证系统性能
异步执行：大规模部署中的异步优化和资源分配仍是开放问题

总体而言，Dr. MAS通过简单的统计量分离（per-agent normalization）解决了多智能体RL训练中的关键稳定性瓶颈，为复杂MAS的后训练提供了可靠的基础设施和算法基础。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Lang Feng,Longtao Zheng,Shuo He,Fuxiang Zhang,Bo An

Categories: cs.LG,cs.AI

PDF URL: https://arxiv.org/pdf/2602.08847.pdf

Arxiv URL: https://arxiv.org/abs/2602.08847

Arxiv ID: 2602.08847

CoolPaper URL: https://papers.cool/arxiv/2602.08847

Published: 2026-02-09T16:13:39Z

Updated: 2026-02-09T16:13:39.000Z

HuggingFace Papers 2026-02-12

Latest Papers

1. OPUS: Towards Efficient and Principled Data Selection in Large Language Model Pre-training in Every Iteration

2. Code2World: A GUI World Model via Renderable Code Generation

3. UI-Venus-1.5 Technical Report

4. Chain of Mindset: Reasoning with Adaptive Cognitive Modes

5. SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

6. P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads

7. Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

8. Prism: Spectral-Aware Block-Sparse Attention

9. DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

10. Olaf-World: Orienting Latent Actions for Video World Modeling

11. Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

12. Condition Errors Refinement in Autoregressive Image Generation with Diffusion Loss

13. TokenTrim: Inference-Time Token Pruning for Autoregressive Long Video Generation

14. SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

15. LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

16. BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation

17. VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

18. ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

19. Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models

20. Dr. MAS: Stable Reinforcement Learning for Multi-Agent LLM Systems