HuggingFace Papers 2026-02-24
数据来源:HuggingFace Papers
Latest Papers
1. VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training
Training stability remains a central challenge in reinforcement learning (RL) for large language models (LLMs). Policy staleness, asynchronous training, and mismatches between training and inference engines all cause the behavior policy to diverge from the current policy, risking training collapse. Importance sampling provides a principled correction for this distribution shift but suffers from high variance; existing remedies such as token-level clipping and sequence-level normalization lack a unified theoretical foundation. We propose Variational sEquence-level Soft Policy Optimization (VESPO). By incorporating variance reduction into a variational formulation over proposal distributions, VESPO derives a closed-form reshaping kernel that operates directly on sequence-level importance weights without length normalization. Experiments on mathematical reasoning benchmarks show that VESPO maintains stable training under staleness ratios up to 64x and fully asynchronous execution, and delivers consistent gains across both dense and Mixture-of-Experts models. Code is available at https://github.com/FloyedShen/VESPO
中文摘要
在大语言模型(LLM)的强化学习(RL)中,训练稳定性仍然是一个核心挑战。策略过时、异步训练以及训练与推理引擎之间的不匹配都会导致行为策略偏离当前策略,从而有训练崩溃的风险。重要性采样为这种分布偏移提供了一种有原则的校正方法,但存在高方差问题;现有的缓解方法如令牌级裁剪和序列级归一化缺乏统一的理论基础。我们提出了变分序列级软策略优化(VESPO)。通过将方差降低纳入对提议分布的变分公式,VESPO 推导出一个闭式重塑核,该核直接作用于序列级重要性权重,无需长度归一化。在数学推理基准测试中的实验表明,VESPO 在策略过时率高达 64 倍以及完全异步执行的情况下仍能保持训练稳定,并在稠密模型和专家混合模型上均带来一致的提升。代码可在 https://github.com/FloyedShen/VESPO 获取。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文旨在解决大规模语言模型(LLM)强化学习(RL)中离策略(off-policy)训练的不稳定性问题,特别是由策略陈旧(policy staleness)、异步执行以及训练-推理引擎不匹配引起的分布偏移(distribution shift)所带来的挑战。
具体而言,论文聚焦于以下核心问题:
重要性采样的方差爆炸:在离策略设置中,序列级重要性权重(importance weight) W(τ) = prod_(t=1)^T rho_t 是逐token比率的乘积,其方差随序列长度 T 指数增长,导致梯度估计极不稳定。
现有方法的局限性:
- Token级方法(如GRPO):通过对每个token的比率独立裁剪来避免方差爆炸,但这破坏了序列的乘积结构,仅相当于序列级重要性采样的一阶近似,忽略了跨token的依赖关系。
- 序列级方法(如GSPO):通过长度归一化(如几何平均 W^(1/T) )控制方差,但这引入了长度相关的偏差(length-dependent bias),使得不同长度但具有相同逐token统计特性的序列获得相同的权重,且仍需要硬裁剪(hard clipping)。
- 缺乏理论指导:现有的重要性权重转换(如裁剪、归一化、启发式门控)大多基于经验设计,缺乏统一的理论框架来指导如何最优地重塑(reshape)这些权重以平衡偏差与方差。
论文提出 VESPO(Variational sEquence-level Soft Policy Optimization),通过将方差降低显式纳入变分优化框架,推导出一种封闭形式的软重塑核(soft reshaping kernel) φ(W) = W^(c_1) exp(c_2(1-W)) ,直接在序列级重要性权重上操作,无需长度归一化,从而在控制方差的同时避免引入长度偏差,实现高陈旧度比率(高达 64× )和完全异步训练下的稳定优化。
Q: 有哪些相关研究?
根据论文第9页的”Related Work”章节及相关引用,相关研究可分为以下四个主要方向:
1. 大语言模型的策略梯度方法(Policy Gradient Methods for LLMs)
- PPO (Schulman et al., 2017):使用带裁剪的替代目标函数(clipped surrogate objective)来稳定更新,是RLHF的主流方法。
- GRPO (Shao et al., 2024):无需critic的价值自由(value-free)替代方案,在样本组内归一化奖励,并对token级比率进行PPO风格的裁剪。
- GSPO (Zheng et al., 2025b):在序列级别操作,使用几何平均归一化( 1/T 长度归一化)并辅以裁剪机制。
- DAPO (Yu et al., 2025):引入解耦裁剪(decoupled clipping)和动态采样技术。
- SAPO (Gao et al., 2025):用软自适应门控(soft adaptive gating)替代硬裁剪,但仍在token级操作。
2. 强化学习中的重要性采样(Importance Sampling in RL)
- 经典IS技术:包括截断(truncation)、自归一化(self-normalization)和加权IS,这些方法在偏差与方差之间进行权衡。
- Token级与序列级IS:Zheng et al. (2025a) 证明token级IS实际上是序列级IS的一阶近似,忽略了跨token的依赖关系。VESPO通过变分框架重新构建了IS权重重塑(reshaping)的视角,将其解释为测度变换(measure change)。
3. 信任域与裁剪机制(Trust Region and Clipping)
- TRPO (Schulman et al., 2015):通过KL散度约束限制策略更新。
- PPO的硬裁剪:在token级应用硬裁剪可能与序列级奖励产生冲突。VESPO提供了一种软替代方案,通过核函数 φ(W) = W^(c_1)exp(c_2(1-W)) 逐渐衰减极端权重,而非突然截断。
4. 稳定LLM RL训练的工程方法(Stabilizing LLM RL Training)
- 路由重放(Routing Replay, R2) (Ma et al., 2025):针对MoE模型,在训练时记录路由器的专家分配,确保推理与训练时的一致性。
- 截断重要性采样(Truncated IS, TIS) (Liu et al., 2025):当重要性比率表明样本显著偏离策略时,将梯度置零。
- 异步RL系统:包括AREAL (Fu et al., 2025)、StreamRL (Zhong et al., 2025) 和异步RLHF (Noukhovitch et al., 2025),这些工作将推理与训练解耦,但加剧了策略陈旧问题。
此外,论文还引用了关于训练-推理不匹配(train-inference mismatch)的研究,如Liu et al. (2025) 对RL崩溃的分析,以及April (Zhou et al., 2025) 提出的主动部分回滚(active partial rollouts)方法来处理长尾生成。
Q: 论文如何解决这个问题?
论文通过提出 VESPO(Variational sEquence-level Soft Policy Optimization) 解决离策略训练的不稳定性问题,核心方法论包含以下关键步骤:
1. 测度变换视角(Measure-Change Perspective)
将重要性权重转换函数 φ(W) 重新诠释为隐式提议分布(implicit proposal distribution)的构造器。对于任意重塑函数 φ(W) ,存在对应的提议分布:
Q(τ) = (1) / (Z)μ(τ)·φ(W(τ))
其中 W(τ) = π(τ)/μ(τ) 为序列级重要性权重, Z 为归一化常数。这允许将权重设计问题转化为寻找最优提议分布的问题。
2. 变分优化框架(Variational Formulation)
将 φ 的设计转化为带约束的变分优化问题,目标函数包含两个关键组件:
对偶邻近性(Dual Proximity):要求提议分布 Q 同时接近行为策略 μ (保证采样效率)和目标策略 π (减少估计偏差):
minQ (1-α)D(KL)(Q|μ) + α D_(KL)(Q|π)方差约束(Variance Constraint):通过约束重要性权重的二阶矩控制方差:
E_Q[W(τ)] ≤ C
完整的约束优化形式为:
minQ & (1-α) D(KL)(Q|μ) + α D_(KL)(Q|π) s.t. & E_Q[W] ≤ C,quad ∫ Q = 1
3. 闭式解推导(Closed-Form Solution)
通过拉格朗日乘子法求解上述问题,得到最优提议分布:
Q^*(τ) propto μ(τ)^(1-α)π(τ)^αexp(-λ W(τ))
对应的最优权重重塑核(reshaping kernel)为指数-幂混合形式:
φ(W) = W^α · exp(-λ W)
该核函数具备以下特性:
- 幂项 W^α :控制 W<1 时的下权重行为
- 指数项 exp(-λ W) :对 Wgg 1 的极端权重进行软抑制(soft suppression),避免硬裁剪(hard clipping)的不连续性
4. 算法实现(Practical Algorithm)
实际采用位移形式确保 φ(1)=1 (同策略样本保持单位权重):
φ(W) = W^(c_1)exp(c_2(1-W))
并引入非对称超参数:
- 对于 A>0 (正优势): (c_1, c_2) = (2.0, 3.0)
- 对于 A<0 (负优势): (c_1, c_2) = (3.0, 2.0)
最终梯度估计器为:
∇ J(VESPO) = E(τsimμ)[ W^(c1)exp(c_2(1-W)) · A(τ) · ∇logπθ(τ) ]
5. 序列级操作(Sequence-Level Operation)
与现有方法不同,VESPO直接在序列级重要性权重上操作:
- 无长度归一化:避免GSPO等方法中 W^(1/T) 引入的长度相关偏差(length-dependent bias)
- 保留跨token依赖:完整保留 W(τ) = prod_(t=1)^T rho_t 的乘积结构,而非像GRPO那样将其分解为独立token级裁剪
6. 数值稳定性处理
通过对数空间计算确保数值稳定性:
log W = ∑(t=1)^T (logπθ(yt|x,y(<t)) - logμ(yt|x,y(<t)))
重塑权重在log空间计算 logφ(W) = c_2 + c_1log W - c_2W ,最后再进行指数运算,避免极端权重导致的数值溢出。
这一框架从根本上解决了:
- 策略陈旧(staleness ratios up to 64× )
- 完全异步训练(fully asynchronous execution)
- 训练-推理引擎不匹配(train-inference mismatch)
同时避免了token级近似和长度归一化带来的偏差问题。
Q: 论文做了哪些实验?
论文在数学推理基准上进行了系统性的实验评估,重点考察了策略陈旧、异步训练和训练-推理不匹配等实际场景下的训练稳定性。实验主要分为以下几个方面:
1. 实验设置(Experimental Setup)
模型与数据:
- 模型:涵盖不同规模和架构的模型
- Llama-3.2-3B-Instruct(密集模型)
- Qwen3-8B-Base(密集模型)
- Qwen3-30B-A3B-Base(MoE架构,用于重点分析)
- 数据集:DAPO-Math(未过滤版本)
- 评估基准:AIME 2024、AIME 2025、AMC 2023、MATH-500
- 基线方法:GRPO、GSPO、SAPO
离策略场景模拟:
- 策略陈旧:通过调整全局批次大小(gbs)与微批次大小(mbs)的比率 N = gbs/mbs ∈ 4, 8, 16, 32, 64 来模拟不同程度的陈旧度
- 完全异步训练:推理与训练在分离的节点组上运行,参数每4次本地更新同步一次,保留在途(in-flight)的过时回滚样本
2. 主要结果(Main Results)
在标准陈旧度设置( N=8 )下(表1):
- VESPO在所有三个模型上均获得最佳平均准确率
- 在Qwen3-30B-A3B-Base(MoE)上提升最为显著,相比最佳基线提升2.3%的平均准确率
- 表明VESPO在MoE架构上尤其有效,能够更好地处理路由不一致带来的分布偏移
3. 对策略陈旧的鲁棒性(Robustness to Policy Staleness)
不同陈旧度水平的训练稳定性(图3与表2):
- VESPO:在 N=4 到 N=64 的所有设置下,训练奖励曲线几乎完全重合,收敛稳定且最终奖励高(约0.7)
- GRPO:早期即达到次优饱和,且随 N 增大收敛变慢
- GSPO: N=4 时出现灾难性崩溃(奖励降至零);随 N 增大性能持续下降
- SAPO: N=4 时不稳定, N≥ 8 时完全崩溃
训练动态分析(图4,六个关键指标):
- GRPO:熵迅速下降,限制探索能力
- GSPO: N=4 时响应长度膨胀至近3000 token后崩溃;长度归一化导致长序列主导梯度
- SAPO: N=4 时响应长度激增至15k token;对负优势样本抑制不足导致长度爆炸
- VESPO:所有指标(奖励、基准准确率、响应长度、KL散度、熵、PG损失)在全部 N 值下均保持稳定
完全异步训练(图5):
- SAPO:早期即崩溃
- GRPO:极不稳定,回滚困惑度(log-perplexity)飙升至2.0以上,PG损失和梯度范数频繁出现尖峰
- GSPO:稳定但收敛至较低奖励
- VESPO:所有指标(KL、困惑度、PG损失、梯度范数)始终接近零且方差极小,同时达到最高训练奖励和AIME准确率
4. 对训练-推理不匹配的鲁棒性(Robustness to Train-Inference Mismatch)
针对MoE模型中训练与推理引擎(如vLLM与Megatron)实现差异导致的分布偏移(图6):
- GRPO:不匹配条件下表现次优(奖励约0.60)
- GRPO+TIS(截断IS)与GRPO+R2(路由重放):提升稳定性
- VESPO:无需任何专门修复即可达到与GRPO+R2相当的稳定性
- VESPO+R2:结合两者达到最高训练奖励和最佳AIME25准确率,证明VESPO与工程技巧互补
5. 消融实验(Ablations)
长度归一化消融(图7):
- VESPO(无归一化):训练稳定,KL散度可控,梯度范数稳定
- VESPOsqrt( √T 归一化):中等不稳定,奖励饱和后缓慢下降,出现周期性梯度尖峰
- VESPOlin( T 归一化,如GSPO):约350步时KL散度急剧上升,随后梯度爆炸和奖励崩溃
- 结论:长度归一化导致长序列主导批次梯度,形成正反馈循环使模型偏向更长输出直至崩溃
非对称超参数消融(图8):
- 全 c^+ 参数( (2,3) 用于正负优势):对负优势抑制不足,训练不稳定
- 全 c^- 参数( (3,2) 用于正负优势):对正优势抑制过强,学习缓慢且最终性能略低
- VESPO非对称设计(正优势 (2,3) ,负优势 (3,2) ):平衡两者,表现最佳
- 验证了近期研究观察(Tang et al., 2025):正负优势样本在训练中具有不同的梯度动态
6. 补充分析(Appendix)
- 附录A:分析现有方法(GRPO、GSPO、SAPO)的隐式提议分布
- 附录D:基线失败模式的详细可视化对比( N=4 vs N=8 )
- 附录E:VESPO策略损失函数的伪代码实现
- 附录F:完整的训练超参数表
这些实验全面验证了VESPO在高陈旧度( 64× )、完全异步、训练-推理不匹配等恶劣条件下的训练稳定性和性能优势,特别是在MoE架构上的显著改进。
Q: 有什么可以进一步探索的点?
根据论文第9页结论部分(Conclusion)的明确阐述,未来可以进一步探索的方向包括:
1. 扩展到更大规模的异步集群
将VESPO扩展到更大规模的异步训练集群,以验证其在分布式程度更高、策略陈旧更严重的极端场景下的表现。这包括探索更高程度的计算资源解耦(decoupling)和更长的同步间隔。
2. 智能体强化学习(Agentic RL)场景
将框架扩展到具有**多轮交互(multi-turn interactions)和工具使用(tool use)**的智能体RL设置。这类场景涉及更复杂的动作空间和更长的决策序列,对重要性采样的稳定性和方差控制提出了更高要求。
3. 策略蒸馏与离线训练(On-Policy Distillation & Offline Training)
将VESPO的变分框架应用于策略蒸馏(从教师模型向学生模型转移知识)和纯离线训练场景。论文的方法本质上是关于如何最优地重塑离策略重要性权重,这一原理可直接迁移到离线RL(offline RL)和模型蒸馏任务中。
其他潜在探索方向(基于论文内容推断)
此外,基于论文的技术贡献和实验观察,以下方向也值得探索:
- 自适应超参数调整:当前VESPO使用固定的 (c_1, c_2) 超参数(通过位移变体实现)。可以探索根据训练动态自适应调整这些参数(例如基于当前策略与行为策略的KL散度或有效样本量ESS),以进一步优化偏差-方差权衡。
更深入的理论分析:对变分目标(Equation 14)的收敛性质进行理论刻画,或分析在异步设置下软重塑核(soft reshaping kernel)与硬裁剪(hard clipping)的样本复杂度差异。
与其他工程技术的协同:论文显示VESPO可与Routing Replay (R2)等技术互补。未来可以系统性地探索VESPO与其他稳定性技术(如Truncated IS、各种路由一致性方法)的组合策略。
- 更长序列与复杂推理:在需要更长上下文(如代码生成、长文档分析)的任务上验证VESPO的有效性,进一步检验其避免长度归一化偏差的优势。
Q: 总结一下论文的主要内容
这篇论文针对大规模语言模型(LLM)强化学习(RL)中离策略(off-policy)训练的不稳定性问题,提出了**VESPO(Variational sEquence-level Soft Policy Optimization)**算法。以下是核心内容的总结:
1. 研究背景与问题
在LLM的RL训练(如数学推理、代码生成)中,离策略更新普遍存在,源于:
- 策略陈旧(Policy Staleness):大批量回滚被分割为小批次顺序更新,导致后续批次使用过时策略的样本。
- 异步训练:推理与训练完全解耦,行为策略严重滞后于当前策略。
- 训练-推理引擎不匹配:不同实现(如MoE模型的路由差异)导致分布偏移。
这些因素导致序列级重要性采样(IS)的权重 W(τ) = prod(t=1)^T (πθ(y_t)) / (μ(y_t)) 具有指数增长的方差,引发现有方法的缺陷:
- Token级方法(如GRPO):通过独立裁剪每个token的比率来控制方差,但破坏了序列的乘积结构,仅为序列级IS的一阶近似,忽略跨token依赖。
- 序列级方法(如GSPO):采用 W^(1/T) 长度归一化,但引入了长度相关的偏差,使不同长度但统计特性相同的序列获得相同权重,且仍需硬裁剪。
2. 核心方法:测度变换与变分优化
论文提出测度变换视角:任何权重重塑函数 φ(W) 都隐式定义了一个提议分布 Q(τ) propto μ(τ)φ(W(τ)) 。基于此,将权重设计转化为带约束的变分优化问题:
minQ & (1-α) D(KL)(Q|μ) + α D_(KL)(Q|π) s.t. & E_Q[W] ≤ C,quad ∫ Q = 1
- 目标:使 Q 同时接近 μ (采样效率)和 π (减少偏差)。
- 约束:控制重要性权重的二阶矩以限制方差。
求解得到闭式重塑核:
φ(W) = W^(c_1)exp(c_2(1-W))
该核函数结合幂项(控制 W<1 )和指数项(软抑制 Wgg 1 ),避免了硬裁剪的不连续性,且无需长度归一化,直接在序列级权重上操作。
3. 算法实现(VESPO)
- 非对称设计:对正优势( A>0 )和负优势( A<0 )采用不同超参数 (c_1, c_2) ,分别设为 (2.0, 3.0) 和 (3.0, 2.0) ,以平衡正负样本的梯度动态。
- 数值稳定性:在log空间计算 log W 和 log φ(W) ,避免极端权重的数值溢出。
- 梯度估计:
∇ J(VESPO) = E(τsimμ)[ W^(c1)exp(c_2(1-W)) · A(τ) · ∇logπθ(τ) ]
4. 实验验证
在Llama-3.2-3B、Qwen3-8B和Qwen3-30B-A3B(MoE)上的数学推理基准(AIME、AMC、MATH-500)表明:
- 对策略陈旧的鲁棒性:在陈旧度比率 N=gbs/mbs 从4到64的所有设置下,VESPO训练曲线稳定收敛,而GRPO饱和、GSPO在 N=4 时崩溃、SAPO在 N≥ 8 时完全失败。
- 完全异步训练:在推理与训练分离的极端异步场景下,VESPO的KL散度、困惑度、PG损失和梯度范数始终接近零,显著优于基线。
- 训练-推理不匹配:在MoE模型中,VESPO无需专门修复(如路由重放)即可保持训练稳定,与Routing Replay (R2)结合后性能进一步提升。
- 消融验证:长度归一化(如 √T 或 T )会导致梯度爆炸和奖励崩溃,而VESPO的无归一化设计避免了长度偏差;非对称超参数设计对稳定性至关重要。
5. 贡献与未来方向
主要贡献:
- 将方差降低显式纳入变分框架,推导出序列级重要性权重重塑的闭式解。
- VESPO直接在序列级操作,无长度归一化,保留token间依赖且无长度偏差。
- 在高达64×陈旧度和完全异步训练下保持稳定性,在MoE架构上取得显著增益。
未来方向:扩展至更大规模异步集群、多轮交互与工具使用的智能体RL场景、以及策略蒸馏和离线训练应用。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Guobin Shen,Chenxiao Zhao,Xiang Cheng,Lei Huang,Xing Yu
Categories: cs.LG,cs.AI
PDF URL: https://arxiv.org/pdf/2602.10693.pdf
Arxiv URL: https://arxiv.org/abs/2602.10693
Arxiv ID: 2602.10693
CoolPaper URL: https://papers.cool/arxiv/2602.10693
Published: 2026-02-11T09:48:08Z
Updated: 2026-02-11T09:48:08.000Z
2. Does Your Reasoning Model Implicitly Know When to Stop Thinking?
Recent advancements in large reasoning models (LRMs) have greatly improved their capabilities on complex reasoning tasks through Long Chains of Thought (CoTs). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. Recent studies show that longer reasoning chains are frequently uncorrelated with correctness and can even be detrimental to accuracy. In a further in-depth analysis of this phenomenon, we surprisingly uncover and empirically verify that LRMs implicitly know the appropriate time to stop thinking, while this capability is obscured by current sampling paradigms. Motivated by this, we introduce SAGE (Self-Aware Guided Efficient Reasoning), a novel sampling paradigm that unleashes this efficient reasoning potential. Furthermore, integrating SAGE as mixed sampling into group-based reinforcement learning (SAGE-RL) enables SAGE-RL to effectively incorporate SAGE-discovered efficient reasoning patterns into standard pass@1 inference, markedly enhancing both the reasoning accuracy and efficiency of LRMs across multiple challenging mathematical benchmarks.
中文摘要
近年来,大型推理模型(LRMs)的进展显著提升了它们在复杂推理任务中的能力,尤其是通过长链思维(CoTs)。然而,这种方法往往导致大量冗余,降低计算效率,并在实时应用中造成显著延迟。近期研究表明,更长的推理链常常与正确性无关,甚至可能对准确性产生负面影响。在对此现象进行进一步深入分析时,我们意外地发现并通过实验证实,LRMs隐式地知道何时应该停止思考,而这种能力在当前的采样范式下被掩盖。受到这一发现的启发,我们提出了SAGE(自知引导高效推理),这是一种能够释放高效推理潜力的新型采样范式。此外,将SAGE作为混合采样方法整合到基于组的强化学习中(SAGE-RL)使得SAGE-RL能够有效地将SAGE发现的高效推理模式应用于标准的pass@1推理,从而显著提升LRMs在多个挑战性数学基准中的推理准确性和效率。
LLM Analysis
Q: 这篇论文试图解决什么问题?
该研究旨在解决大型推理模型(Large Reasoning Models, LRMs)中存在的推理冗余与计算效率低下问题。
具体而言,当前基于长思维链(Chain of Thought, CoT)的推理模型虽然提升了复杂任务的解决能力,但普遍表现出严重的**过度思考(overthinking)**现象:模型生成大量与最终答案正确性无关甚至有害的冗余token,导致推理链长度膨胀,显著增加了计算开销和推理延迟。
通过深入分析,该研究揭示了问题的本质在于当前采样范式(sampling paradigms)掩盖了模型固有的高效推理能力。具体发现包括:
- 隐性停止能力:LRMs实际上具备识别”何时应停止思考”的隐性能力,即模型在探索多个推理路径时,会始终对简洁而有效的推理路径赋予高置信度;
- 范式局限:现有的pass@1训练和推理范式(如贪心采样或随机采样)无法有效识别或选择这些高置信度的短路径,导致模型被迫生成冗长的冗余推理步骤;
- 收敛特性:随着探索空间的扩大,模型识别精确且简洁推理路径的能力表现出明显的收敛趋势,进一步证实了这一潜力的存在。
基于上述发现,论文提出通过SAGE(Self-Aware Guided Efficient Reasoning)采样范式及其与强化学习结合的SAGE-RL方法,释放被掩盖的高效推理潜力,使模型能够在保持甚至提升推理准确性的同时,显著缩短推理链长度并降低计算成本。
Q: 有哪些相关研究?
根据论文内容,相关研究主要围绕通过强化学习提升推理能力以及高效推理的探索两大主题展开,具体如下:
1. 通过强化学习激发推理能力
OpenAI o1的发布标志着推理性能的重大突破,开启了大型推理模型(LRMs)时代。随后,DeepSeek-R1利用**GRPO(Group Relative Policy Optimization)算法和基于规则的简单奖励机制,实现了与o1相当的结果,确立了RLVR(Reinforcement Learning from Verifiable Rewards)**作为提升大语言模型推理能力的有效范式。
后续模型如Kimi K系列、QwQ和O3进一步推动了这些能力的发展。RLVR通过基于规则的正确性评估分配二元0/1奖励,无需单独的奖励模型,显著降低了训练开销。然而,这种范式也导致了**过度思考(overthinking)**问题——模型倾向于生成冗长的思维链以最大化正确性,造成计算资源浪费并限制了实际应用。
2. 高效推理的探索
2.1 无需训练的方法(Training-Free Methods)
- 提示工程:通过优化提示词来减少推理长度(如Han et al., 2024; Xu et al., 2025a; Renze & Guven, 2024等)。
- Best-of-N采样与剪枝:利用自评估引导的束搜索(Xie et al., 2023)或推测性解码(Liao et al., 2025)来选择高质量推理链。
- 提前退出机制:在推理过程中动态决定何时停止生成(Ma et al., 2025a; Yang et al., 2025b; Fan et al., 2025)。
这类方法虽能缓解冗余,但无法从根本上解决模型内在的过度推理问题,且效果高度依赖模型的指令遵循能力。
2.2 离线训练方法(Offline Training Methods)
主要通过**监督微调(SFT)**使用可变长度的CoT数据来提升效率:
- 数据构建策略:如ConCISE(Qiao et al., 2025)通过插入提示token和提前退出机制构建简洁的CoT数据,再结合SimPO进行优化。
- 知识蒸馏:将长CoT蒸馏为短CoT(Yu et al., 2024; Kang et al., 2025; Xia et al., 2025等)。
这类方法面临高质量短思维链数据难以获取的挑战,且离线训练范式可能限制模型在困难问题上的探索能力。
2.3 在线训练方法(Online Training Methods)
主要采用强化学习以获得更好的泛化能力:
- 长度惩罚机制:在奖励函数中引入显式或隐式的长度惩罚(Kimi Team, 2025b; Shen et al., 2025b; Cheng et al., 2025; Luo et al., 2025a等)。
- 预算约束优化:在固定token预算下平衡效率与效果(Yi et al., 2025; Hou et al., 2025; Qi et al., 2025)。
- 过采样与筛选:GFPO(Shrivastava et al., 2025)通过过采样获取与优化目标对齐的输出。
- 子链评估:S-GRPO(Dai et al., 2025)和VSRM(Yue et al., 2025)截断推理步骤并通过重复rollout评估子链奖励。
- 难度自适应:根据任务难度分配预定义的思考模式(Zhang et al., 2025; Huang et al., 2025a; Wu et al., 2025)。
这类方法通常依赖复杂的奖励设计,容易导致训练不稳定或奖励破解(reward hacking),且显式的长度压缩可能损害模型的推理能力。
Q: 论文如何解决这个问题?
该论文通过释放模型隐式的高效推理能力来解决过度思考问题,核心方法论包括SAGE采样范式及其与强化学习结合的SAGE-RL训练框架。
1. SAGE:自感知引导的高效推理采样
基于”模型隐式知道何时停止思考”的发现,论文提出SAGE(Self-Aware Guided Efficient Reasoning),一种利用模型自我置信度识别精确推理链的采样策略。
关键机制:累积置信度评分(Φ)
不同于标准采样仅依赖单步概率 φ(yi; y(<i)) = log πθ(y_i mid y(<i), x) ,SAGE引入平均累积对数概率作为评估推理路径质量的指标:
Phi(y(≤ k)) = (1) / (k) ∑(i=1)^(k) φ(yi; y(<i))
该指标使模型能够识别整体置信度高但长度更短的推理路径。
搜索过程
SAGE采用以下流程探索高效推理链:
- 候选扩展:在每一步维护 m 个候选序列(exploration width),每个序列扩展 2m 个最可能的下一个token,形成 2m^2 个候选
- 高置信度筛选:根据 Phi 分数保留得分最高的 m 个序列
- 自信终止:当候选序列生成终止符
</think>且其概率排名在前列时,立即将其纳入结果集,无需等待最大长度限制
从Token-wise到Step-wise的优化
为适配标准随机采样范式,论文进一步将SAGE简化为步级扩展(Step-Wise Exploration):
- 每次扩展完整推理步骤而非单个token
- 基于观察2(高置信度路径会自信终止),无需手动设置容忍阈值 T_R
- 通过并行采样 2m 个推理步骤,选择以
</think>结尾且整体置信度高的路径
2. SAGE-RL:将高效模式融入模型参数
为使模型在标准pass@1推理中也能展现高效推理能力,论文提出SAGE-RL,一种对RLVR(如GRPO/GSPO)的简单修改:
混合采样策略
在每组rollout中(group size G=8 ),SAGE-RL采用:
- SAGE采样:使用SAGE (m,r) 生成 r 个高质量、短路径样本 o^S_1, …, o^S_r
- 随机采样:剩余 G-r 个样本通过标准随机采样获得 o^R1, …, o^R(G-r)
学习目标
SAGE-RL保留RLVR的所有组件,仅修改采样阶段。以SAGE-GRPO为例,目标函数为:
J(SAGE-GRPO)(θ) = E(x sim D, {yi)(i=1)^G sim π(θ_old)(·|x)} [ (1) / (G) ( ∑(i=1)^(r) (1) / (|yi|) ∑(t=1)^(|yi|) clip(adv) + ∑(i=r+1)^(G) random sampling terms ) ]
通过组内对比学习,模型从SAGE生成的短路径中获得更高奖励信号,逐渐将推理模式向高效、精确的方向调整。
3. 与现有方法的关键区别
| 维度 | 现有方法 | SAGE/SAGE-RL |
|---|---|---|
| 核心机制 | 显式长度惩罚或预算限制 | 利用模型隐式置信度识别自然停止点 |
| 训练稳定性 | 修改奖励函数易导致reward hacking | 仅修改采样过程,保留RLVR稳定框架 |
| 计算开销 | 需过采样或重复rollout评估 | 单次并行探索( 2m 宽度)即可生成高质量样本 |
| 能力保留 | 可能因压缩而损失推理能力 | 同时提升准确率与效率(Avg. +2.1% Accuracy, -44.1% Tokens) |
4. 验证效果
实验表明,该方法实现了双重提升:
- 准确率提升:SAGE-RL调优后的模型在AIME 2025等困难基准上平均提升2-6个百分点
- 长度缩减:平均减少44.1%的推理token,RFCS(首次正确步数比例)显著提升,表明模型学会在得出正确答案后及时停止思考
通过这种设计,SAGE-RL成功将”测试时通过大规模搜索发现的高效模式”转化为”模型参数中固有的推理能力”,使标准单路推理也能实现高效精确的思考过程。
Q: 论文做了哪些实验?
该论文设计了多维度、多模型、多基准的实验验证体系,主要包括以下实验内容:
1. 现象验证与根因分析(第2-4节)
RFCS(Ratio of the First Correct Step)统计
- 在MATH-500上统计DS-1.5B、DeepScaleR和Qwen3-8B的推理步骤有效性
- 发现超过50%的正确样本存在冗余步骤(RFCS < 1),平均RFCS仅0.57-0.61,证明模型在得出正确答案后仍继续无效推理
TSearch对比实验(图4、表1、图5)
- 对比基于累积置信度 Phi 的TSearch与基于单步概率 φ 的变体
- 关键发现:扩大探索宽度(EW)时,TSearch w/ Phi 持续缩短长度并提升准确率;TSearch w/ φ 则出现”长度崩塌”(Length Collapse)且准确率骤降
终止置信度分析(表1、图5、图6)
- 验证高置信度路径中
</think>的排序:TSearch w/ Phi 中终止符几乎总是排名第一,而TSearch w/ φ 中排名逐渐下降 - 证明模型对高置信度推理链的终止具有”自信”特性
2. SAGE采样有效性验证(第5节)
推理扩展趋势实验(图8)
- 在MATH-500和AMC23上对比SAGE与Degrade-SAGE(逐步退化版本)在不同最大步数预算下的表现
- 结果:受限预算下SAGE准确率更高;充足预算下SAGE稳定发现更短且更准确的推理链
探索宽度收敛实验(图7、图15)
- 测试探索宽度 m 从0到较大值时的性能边界
- 观察到随着探索空间扩大,Pass@1提升、长度缩短,两者均呈现收敛趋势,验证模型存在固有高效推理能力上限
3. SAGE-RL主实验(第7节,表2、表4)
全基准测试 在六个数学推理基准(MATH-500、AIME 2024、AIME 2025、OlympiadBench、Minerva、AMC23)上测试四个基础模型:
- DeepSeek-R1-Distill-Qwen-1.5B(DS-1.5B)
- DeepSeek-R1-Distill-Qwen-7B(DS-7B)
- DeepScaleR
- Qwen3-8B
对比基线
- 现有压缩方法:LC-R1、ThinkPrune-2k、AdaptThink、Efficient Reasoning
- 标准RLVR方法:GRPO、GSPO、GRPO-LEAD
评估指标
- Pass@1准确率(↑)
- 平均响应长度LEN(↓)
- Token效率TE = Pass@1/LEN(↑)
核心结果
- 准确率:平均提升+2.1%(最高+8.2% on AMC23)
- 效率:平均减少44.1% token(最高减少70%+)
- 综合指标:Token效率平均提升80-100%+
4. 训练动态与行为分析(第7节,图9、图10)
训练过程监控(图9)
- 对比SAGE-RL与标准RLVR的:
- Pass@1收敛曲线
- 响应长度变化
- 策略熵(Entropy)
- KL散度
- 发现:SAGE-RL收敛更快、熵降低更显著(模型更自信)、KL散度更高(学习更充分)
推理行为量化(图10)
- 对SAGE-GRPO调优后的模型重新计算RFCS
- 结果:RFCS(<1)比例从50%降至30%,RFCS(avg)从0.6提升至0.7-0.8,证明模型学会及时停止
5. 消融实验与敏感性分析(附录D.2,表5、图12)
超参数影响 测试SAGE (m,r) 的不同配置:
- 探索宽度 m :从1增至2显著提升性能; m=1 时SAGE-RL几乎退化为标准GRPO
- 生成数量 r :从1增至2影响较小,因为相似轨迹提供的信息增益有限
6. 难度自适应分析(附录D.3,图13)
在MATH-500的5个难度级别上对比SAGE-GRPO与GRPO:
- 简单问题(Level 1-3):两者最终性能相当,SAGE-RL收敛更快
- 困难问题(Level 4-5):SAGE-RL显著优于GRPO,且持续降低响应长度,证明其在困难推理任务上的优势
7. 计算效率分析(附录D.4,图14)
时间复杂度
- 测试不同探索宽度下SAGE的推理开销
- 验证SAGE-RL调优后模型在标准pass@1推理中的时间效率
- 结果:相比基线平均减少28.7%推理延迟(通过响应长度近似),实际应用中最高可减少40%+
8. 案例研究(附录,图16、图17)
提供具体问题的推理过程对比:
- 案例1:数学应用题,DS-1.5B生成957 token(含452冗余),SAGE-GRPO仅需467 token
- 案例2:坐标转换题,基础模型生成1381 token(含669冗余),SAGE-GRPO仅需712 token
这些实验全面验证了:模型确实存在被掩盖的高效推理能力,SAGE能够有效释放该能力,而SAGE-RL能够将这些高效模式固化到模型参数中,实现推理能力与效率的双重提升。
Q: 有什么可以进一步探索的点?
基于该论文的发现与局限,以下从理论机制、方法优化、领域拓展及系统实现四个维度提出可进一步探索的研究方向:
1. 理论机制与可解释性
隐式停止能力的神经机制 论文发现LRMs隐式具备识别推理终止时机的能力,但其内在机理尚不明确。可进一步探索:
- Mechanistic Interpretability:通过探测模型内部状态(如隐藏层激活、注意力模式),定位模型在何时及如何形成”答案已完备”的判断信号,特别是
</think>生成前的表征变化。 - 预训练数据溯源:分析预训练语料中人类推理模式(如数学证明的简洁性偏好)如何影响模型形成对”高置信度短路径”的偏好。
长度-准确率权衡的动态边界 论文观察到更长推理链并不总是提升准确率。未来可建立:
- 形式化理论框架:量化问题复杂度与最优推理长度之间的函数关系,确定”过度思考”(overthinking)的临界条件。
- 相变分析:研究模型从”有效思考”到”无效重复”的相变点,以及其与模型规模、训练数据多样性的关系。
2. 方法优化与算法融合
自适应探索策略 当前SAGE使用固定的探索宽度 m 和返回数量 r 。可探索:
- 动态宽度调整:根据问题难度或当前推理步骤的不确定性,自适应调整 m 。例如,在复杂推导步骤增大探索,在简单计算步骤减小探索。
- 早停与剪枝:结合置信度阈值动态剪枝低质量路径,进一步降低SAGE的内存与计算开销。
与测试时搜索的深度融合 论文指出SAGE发现了被pass@1掩盖的pass@k中的高效路径。可进一步研究:
- SAGE-guided MCTS:将SAGE的置信度评分 Phi 作为蒙特卡洛树搜索(MCTS)的节点价值估计,指导更高效的测试时搜索。
- 混合推理架构:在标准推理中内嵌SAGE作为”元认知”模块,动态决定何时从快速思考(System 1)切换到深度推理(System 2)。
强化学习算法的改进
- 重要性采样稳定性:针对SAGE-GRPO中因混合采样导致的梯度方差问题,开发更稳定的优势估计方法(如论文提及的GSPO序列级采样的进一步优化)。
- 课程学习结合:利用SAGE识别模型在哪些类型问题上最容易产生冗余推理,设计针对性课程,逐步提升模型的高效推理能力。
3. 跨领域与跨模态拓展
非数学领域的验证 论文主要在数学推理(AIME、MATH等)上验证。可拓展至:
- 代码生成:验证SAGE是否能识别代码合成中的”顿悟时刻”,避免生成冗余的调试步骤或注释。
- 科学推理与逻辑推理:在物理问题求解、符号逻辑等需要长链推理的领域测试模型隐式停止能力的普适性。
- 多轮对话:将SAGE应用于需要多轮思考的开域对话,研究模型何时应停止内部反思并输出回复。
多模态推理(Multimodal CoT)
- 在视觉-语言任务(如几何题求解、图表理解)中,探索SAGE是否能协调视觉 tokens 与文本推理步骤的高效生成,避免在已识别的视觉特征上重复描述。
4. 系统实现与工程优化
与推测解码(Speculative Decoding)的协同 SAGE生成短路径的特性可与推测解码结合:
- 使用SAGE生成的高质量短推理链作为”草稿模型”(draft model)的输出,由主模型验证,进一步降低推理延迟。
内存与计算效率优化
- KV-Cache优化:针对SAGE维护多个候选序列的高内存开销,开发专门的KV-Cache复用策略(如论文提及的vLLM优化空间的限制下的改进方案)。
- 动态批处理:研究SAGE在动态批处理(continuous batching)场景下的适应性,解决不同长度候选序列的负载均衡问题。
自蒸馏与数据合成 论文提到担心自蒸馏限制模型上限,但可探索:
- 迭代精炼(Iterative Refinement):使用SAGE-RL调优后的模型作为教师,生成高质量短CoT数据,再通过SFT蒸馏给更小的模型,实现”高效推理能力的迁移”。
- 合成数据筛选:利用SAGE的置信度评分自动筛选开源长CoT数据中的”黄金片段”,构建高效推理的预训练或微调语料。
5. 认知科学视角的延伸
人类认知对齐
- 研究SAGE发现的”高置信度短路径”是否与人类专家的”顿悟”(insight)或”直觉”(intuition)在认知层面具有相似性,探索构建更符合人类认知效率的AI推理范式。
- 元认知(Metacognition)建模:赋予模型显式的”知晓感”(Feeling of Knowing)评估能力,使其能主动请求更多计算资源或提前终止思考。
Q: 总结一下论文的主要内容
该研究针对大型推理模型(LRMs)的过度思考(overthinking)问题,提出了创新性解决方案,核心内容与贡献如下:
1. 问题背景与关键发现
问题:当前基于长思维链(CoT)的推理模型(如DeepSeek-R1、o3)虽提升了复杂任务性能,但普遍生成大量冗余token,导致推理链长度膨胀(如DeepSeek-R1在AIME 2025上的响应长度是Claude 3.7 Sonnet的5倍),显著降低计算效率并增加延迟。
核心发现(反直觉):
- 隐性停止能力:LRMs实际上隐式知晓何时应停止思考。在探索多个推理路径时,模型始终对简洁而正确的推理链赋予高置信度
- 范式掩盖:当前的pass@1采样策略(贪心或随机采样)无法识别这些高置信度短路径,导致模型被迫生成冗长冗余的推理步骤
- 收敛特性:随着探索空间扩大,模型识别精确且简洁推理路径的能力表现出明显收敛趋势,证实高效推理潜力的存在
2. 方法论
SAGE:自感知引导的高效推理采样
基于累积置信度 Phi (平均累积对数概率)评估推理路径质量:
Phi(y(≤ k)) = (1) / (k) ∑(i=1)^(k) log πθ(y_i mid y(` 具有足够高排名时立即接受,从而识别被掩盖的短路径。
SAGE-RL:强化学习集成
将SAGE作为混合采样策略融入RLVR(如GRPO/GSPO)训练:
- 每组rollout中,使用SAGE生成 r 个高质量短路径样本,其余 G-r 个采用标准随机采样
- 通过组内对比学习,使策略模型自然习得高效推理模式,无需修改奖励函数
3. 实验验证与结果
评估基准:MATH-500、AIME 2024/2025、OlympiadBench、Minerva、AMC23
关键结果(相比基线):
- 准确率提升:平均提升 +2.1%(最高达+8.2% on AMC23)
- 效率提升:平均减少 44.1% 的推理token(最高减少70%+)
- 综合指标:Token效率(Pass@1/Length)平均提升 80-100%
模型适用性:在DS-1.5B、DS-7B、DeepScaleR、Qwen3-8B等多个模型上均有效,且对困难任务(Level 4-5)的改进更为显著。
4. 主要贡献
- 理论贡献:首次实证揭示LRMs隐式具备识别推理终止时机的能力,并指出当前采样范式是效率低下的根本原因
- 方法贡献:提出SAGE采样范式,无需训练即可释放模型高效推理潜力;提出SAGE-RL,将测试时发现的高效模式固化到模型参数中
- 实践贡献:在保持或提升推理准确率的同时,显著降低计算开销,为实时应用中的LRMs部署提供可行方案
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Zixuan Huang,Xin Xia,Yuxi Ren,Jianbin Zheng,Xuanda Wang,Zhixia Zhang,Hongyan Xie,Songshi Liang,Zehao Chen,Xuefeng Xiao,Fuzhen Zhuang,Jianxin Li,Yikun Ban,Deqing Wang
Categories: cs.AI
PDF URL: https://arxiv.org/pdf/2602.08354.pdf
Arxiv URL: https://arxiv.org/abs/2602.08354
Arxiv ID: 2602.08354
CoolPaper URL: https://papers.cool/arxiv/2602.08354
Published: 2026-02-09T07:38:22Z
Updated: 2026-02-09T07:38:22.000Z
3. Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control
Extended reality (XR) demands generative models that respond to users’ tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand—object interactions. We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.
中文摘要
扩展现实(XR)需要能够响应用户追踪的现实世界动作的生成模型,但现有的视频世界模型仅接受诸如文本或键盘输入等粗略控制信号,这限制了它们在具身交互中的应用。我们引入了一种以人为中心的视频世界模型,该模型以追踪的头部姿态和关节级手部姿态为条件。为此,我们评估了现有的扩散变换器条件策略,并提出了一种用于三维头部和手部控制的有效机制,从而实现灵巧的手-物交互。我们使用该策略训练了一个双向视频扩散模型教师,然后将其蒸馏为一个生成自我视角虚拟环境的因果交互系统。我们通过人体实验评估了该生成现实系统,并展示了任务表现的提升,以及与相关基线相比,对所执行动作的控制感知显著提高。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文试图解决扩展现实(XR)应用中视频世界模型缺乏精细人体运动控制能力的问题,具体表现为:
核心问题
当前的视频世界模型(Video World Models)主要依赖文本提示或键盘输入等粗粒度控制信号,无法有效响应用户真实的身体运动数据(特别是关节级别的手部姿态和头部姿态),从而限制了其在沉浸式、具身交互(embodied interaction)场景中的应用潜力。
具体挑战
- 精细手部控制缺失:现有方法缺乏对腕部和手指精细运动的精确表示能力,无法支持灵巧的手-物交互(dexterous hand-object interactions)。
- 条件化策略不明确:尚不清楚如何将关节级别的手部姿态有效整合到视频扩散模型中,以及哪种条件化策略能最佳地保持手部保真度、真实感和时间一致性。
- 实时交互需求:双向(bidirectional)视频扩散模型需要访问完整序列,无法满足XR应用所需的因果(causal)预测和实时交互要求。
解决方案概述
论文提出**“生成现实”(Generated Reality)**框架,通过以下技术路径解决上述问题:
- 混合2D-3D条件化策略:结合ControlNet风格的2D骨骼图与3D手部姿态参数(HPP),通过令牌相加(token addition)机制注入扩散变换器(DiT),解决深度歧义和自遮挡问题。
联合相机-手部控制:利用头戴设备(HMD)的6自由度(6-DoF)相机姿态和UmeTrack手部模型(包含手腕位姿和20个手指关节角度),实现第一人称视角下的同步视角与手部交互控制。
模型蒸馏:将双向教师模型蒸馏为因果自回归学生模型,在远程H100 GPU上实现11 FPS的实时生成,延迟1.4秒。
应用价值
该系统允许用户通过自然的手部和头部运动与生成的虚拟环境进行零样本(zero-shot)交互,无需繁琐的3D资产建模,可应用于沉浸式学习、技能训练、康复医疗和娱乐媒体等领域。
Q: 有哪些相关研究?
根据论文第3页”Related Work”章节,相关研究可分为以下两类:
1. 从视频生成到世界模拟(From Video Generation to World Simulation)
双向视频扩散模型
- LTX-Video
14
、HunyuanVideo
20
、Sora
24
、Veo
31
:利用全时空注意力(full spatiotemporal attention)生成逼真且时间连贯的视频序列。但这些双向去噪模型需要访问完整序列,限制了其在交互场景中的应用。
自回归视频模型
- Genie 3
5
、VideoWorld
40
:引入自回归生成方式,按顺序生成帧,更符合真实世界动态,支持因果预测和长时程展开(long-horizon rollouts)。
世界模拟器(World Simulators)
旨在预测给定当前状态下动作的视觉后果
39
,但现有方法存在控制信号粗糙的问题:
- Oasis
8
、MineWorld
13
、AnimeGamer
7
、Cosmos
23
、Genie 2
26
、Matrix
10
、GameFactory
41
、WorldMem
38
:主要依赖键盘输入、鼠标输入或原始相机姿态等粗粒度动作词汇,足以描述场景级信息,但无法支持灵巧的手-物交互。
2. 相机与手部条件生成(Camera- and Hand-conditioned Generation)
相机条件视频生成
在生成虚拟环境中,相机和手部运动共同决定用户如何感知和交互,因此两者是 egocentric 世界模拟器的关键控制信号:
- ReCamMaster
3
:通过专用相机编码器注入相机外参(extrinsic parameters)。 - CameraCtrl2
17
:编码 Plücker 射线并在 DiT 模块前与视觉特征逐元素相加。 - AC3D
2
:采用 ControlNet 风格的反馈分支动态引入相机嵌入。 - CameraCtrl
16
:本文使用的相机控制基线方法。
手部条件视频生成
该领域探索相对较少,现有方法在手部控制粒度上存在局限:
- PlayerOne
33
:将身体姿态嵌入添加到 DiT 主干前的视觉令牌中,但将手部仅视为全身姿态的一部分,限制了手部控制的粒度。 - PEVA
4
:扩展自适应层归一化(AdaLN)以注入姿态信息,同样将手部作为全身姿态处理。 - InterDyn
1
:使用二值掩码(binary masks)而非姿态参数作为条件信号,增加了手部尺寸与深度之间的歧义。
本文与上述工作的区别在于:首次系统性地比较了关节级(joint-level)手部姿态条件化策略,并提出结合 2D ControlNet 风格条件与 3D 手部姿态参数的混合策略,以实现 egocentric 视频生成中的精细手-物交互控制。
Q: 论文如何解决这个问题?
论文通过系统性策略设计、多模态条件融合与实时推理优化三个层面的技术方案解决该问题,具体如下:
1. 混合2D–3D手部姿态条件化策略
针对关节级手部控制的高维数与复杂关节特性,论文对比了四种条件注入机制(令牌拼接、令牌相加、自适应层归一化、交叉注意力),并提出混合条件化方案:
- 2D ControlNet风格条件:渲染手部骨骼的2D视频序列 V_c ,通过VAE编码为潜在变量 z_c ,提供像素空间对齐的空间先验。
- 3D手部姿态参数(HPP):采用UmeTrack手模型,将手部表示为 wrist 的6自由度(3D平移+四元数旋转)与20个手指关节旋转角,经轻量级1D卷积编码器 E_(conv) 嵌入。
- 特征融合:将原始视频潜在变量 zr 与骨骼图 z_c 在通道维度拼接后,与HPP嵌入进行令牌相加(token addition):
x = patchify([z_r, z_c](channel)) + E_(conv)(H)
该策略结合了2D骨骼图的空间锚定能力与3D参数的深度度量精度,解决了自遮挡与深度歧义问题。
2. 联合相机与手部控制框架
针对 egocentric 视角下的头部与手部协同控制需求,论文扩展了上述框架:
- 相机姿态表示:利用HMD内置传感器获取6自由度相机姿态(旋转矩阵 r ∈ R^(3×3) 与平移向量 t ∈ R^3 ),转换为Plücker射线嵌入 P ∈ R^(b× f×6× h× w) ,经相机编码器 E_(cam) 投影。
联合注入机制:在潜在空间对视频、手部与相机三者的嵌入进行逐元素相加:
x = patchify([zr, z_c](channel)) + E(conv)(H) + E(cam)(P)迭代训练策略:由于相机与手部运动在视觉特征上存在耦合歧义,采用两阶段训练:
- 独立训练相机编码器(初始化自FUN模型)与HPP编码器;
- 联合微调以解耦两种条件信号。
3. 因果模型蒸馏与实时推理
为解决双向扩散模型需访问完整序列、无法实时交互的局限:
- 自回归蒸馏:基于Wan2.2 5B双向教师模型,采用自强制(self-forcing)策略蒸馏为因果自回归学生模型,以12帧为块(chunk)进行逐块生成。
- 系统级优化:在Meta Quest 3与远程H100 GPU间建立流式传输管线,通过循环帧缓冲区读取最新跟踪数据,实现11 FPS生成速率与1.4秒延迟的实时闭环交互。
4. 验证与评估
- 定量验证:在HOT3D与GigaHands数据集上,混合策略在PA-MPJPE(3D关节误差)、PA-MPVPE(3D顶点误差)与2D像素误差等指标上均优于纯2D ControlNet或纯3D参数基线。
- 用户研究:通过”按下绿色按钮”、”打开罐子”、”转动方向盘”三项任务,证明联合控制模型在任务准确率(71.2% vs 3.0%)与主观控制感(Likert量表4.21 vs 1.74)上显著优于仅文本控制的基线。
综上,论文通过精细化的多模态条件注入与高效的因果推理架构,首次实现了支持灵巧手-物交互的 egocentric 生成式虚拟现实系统。
Q: 论文做了哪些实验?
论文进行了系统性的实验验证,涵盖条件化策略消融、联合控制评估、用户研究及跨数据集泛化四个维度,具体如下:
1. 手部姿态条件化策略消融实验(表1)
在HOT3D数据集上,基于Wan2.2 14B模型,对以下策略进行定量对比:
| 条件类型 | 具体方法 | 核心发现 |
|---|---|---|
| 无控制基线 | Wan 2.2 Video 14B | 手部误差最高(MPJPE 17.86mm) |
| 纯3D参数(HPP) | TokenConcat [33]AdaLN [4]CrossAttentionTokenAddition [3] | TokenAddition在纯3D方法中表现最佳(L2Err 56.66),但显著差于2D方法 |
| 纯2D视频 | Binary Mask [1]Skeleton Video (ControlNet* [44]) | ControlNet*在2D误差上表现优异(L2Err 11.72),但缺乏深度信息 |
| 混合2D–3D | Skeleton Video + HPP Cond. | 最优平衡:MPJPE 12.23mm,MPVPE 9.10mm,L2Err 11.50,视频质量指标(PSNR/FVD)与纯2D相当 |
关键结论:混合策略在保持视频质量(FVD 383.69)的同时,3D手部精度接近理论下界(MPJPE 9.42mm)。
2. 联合相机与手部控制评估(表2)
对比单一模态与联合模态的控制精度:
| 方法 | 视频质量(PSNR↑/FVD↓) | 手部精度(MPJPE↓) | 相机精度(TransErr↓/RotErr↓) |
|---|---|---|---|
| CameraCtrl [16] | 18.58 / 558.94 | 18.37 | 0.23m / 2.77° |
| HandCtrl | 16.85 / 383.69 | 12.23 | 2.27m / 13.40° |
| JointCtrl (Ours) | 18.60 / 396.93 | 12.81 | 0.25m / 2.79° |
关键结论:联合控制模型在视频质量(PSNR 18.60)与相机精度(接近CameraCtrl)之间取得平衡,同时显著优于纯相机控制的手部精度(12.81 vs 18.37)。
3. 用户研究(图7)
实验设计:
- 受试者:11名(4女7男,年龄22–30岁)
- 硬件:Meta Quest 3 VR头显
- 任务:三项具身交互任务(按绿色按钮、打开罐子、转动方向盘)
- 条件:
- 基线:仅头部姿态+文本提示控制
- 论文方法:头部姿态+关节级手部姿态控制
测量指标:
- 任务准确率:二进制成功/失败判定(由独立评估者盲审视频)
- 感知控制度:7点李克特量表(1=无控制,7=完全控制)
结果:
- 任务准确率:论文方法 71.2% vs 基线 3.0%
- 感知控制度:论文方法 4.21 vs 基线 1.74
4. 跨数据集泛化验证(补充材料表4)
在规模更大(8倍于HOT3D)的GigaHands数据集上,使用Wan2.2 5B模型验证:
| 方法 | MPJPE↓ | MPVPE↓ | L2Err↓ |
|---|---|---|---|
| Ground-truth | 16.41 | 11.03 | 59.38 |
| 2D Cond. | 19.67 | 14.03 | 134.77 |
| Hybrid Cond. | 17.78 | 12.48 | 89.59 |
关键结论:混合策略在更大规模数据上持续优于纯2D条件(MPJPE降低10%,2D误差降低34%),证明其可扩展性。
5. 定性可视化实验
- 图4:展示部分遮挡场景(手部位于图像边界)下,混合策略相比ControlNet能生成完整且空间一致的手部结构。
- 图5:展示联合控制相比单一控制在手-物交互意图理解上的优势(如避免”手伸向错误物体”的幻觉)。
- 补充材料图9–10:在GigaHands四个场景下的可视化对比,红色为真实输入,橙色为生成结果,绿色为重叠区域。
6. 系统性能基准测试
- 生成速率:11 FPS(12帧块自回归生成)
- 端到端延迟:1.4秒(主要瓶颈为12帧块的生成与解码时间)
- 条件编码开销:额外增加仅0.002秒延迟
Q: 有什么可以进一步探索的点?
根据论文第9页”Discussion”章节及技术局限性分析,可进一步探索的研究方向包括:
1. 系统性能与实时性优化
- 延迟压缩:当前系统端到端延迟为1.4秒,需进一步降低至**<20毫秒**以满足完全沉浸式XR的 imperceptible latency 要求。可通过改进蒸馏方法(超越DMD)、硬件加速(本地嵌入式计算替代远程GPU流式传输)及系统级优化实现。
- 计算效率与可穿戴化:需在头戴设备(HMD)集成的可穿戴计算机上实现实时推理,而非依赖远程H100 GPU服务器,涉及模型量化、剪枝及专用AI加速器设计。
- 立体渲染与视网膜分辨率:当前系统缺乏立体(stereo)渲染能力,且分辨率远低于现代VR系统的视网膜级图像分辨率(retinal image resolution),需探索高保真三维一致生成技术。
2. 长时程一致性与漂移抑制
- 长程世界一致性:自回归视频模型固有的**漂移(drift)**问题导致图像质量在数秒生成后显著下降。需研究记忆机制(memory-augmented generation)、世界状态维护(world state consistency)或闭环校正策略以支持长时程交互。
- 长程手-物-物依赖建模:当前系统在处理复杂的长距离手部-物体-物体交互依赖(longer-range hand-object-object dependencies)时存在困难,需增强模型的物理常识与因果推理能力。
3. 控制模态的扩展与精细化
- 全身多模态控制:论文提及的”下一代世界模型”愿景可整合更多人体运动流,包括注视方向(gaze direction)、身体姿态(body pose)、足部放置(foot placement)及全身运动(full-body movement),构建更完整的具身交互。
- 触觉与多感官反馈:当前仅关注视觉生成,未来可结合触觉反馈生成、空间音频生成等多模态输出,提升沉浸感。
4. 物理真实性与交互可靠性
- 物理一致性约束:当前方法主要优化视觉保真度,可引入物理引擎约束或物理可微渲染,确保手部交互遵循刚体动力学、软体形变等物理规律,避免穿透(interpenetration)等反物理现象。
- 自适应个性化:针对不同用户的手部形态差异、运动习惯及交互意图不确定性,开发用户自适应的条件化机制或少量样本适应(few-shot adaptation)策略。
Q: 总结一下论文的主要内容
本文提出**“生成现实”(Generated Reality)**框架,旨在通过视频生成模型构建支持精细人体交互的沉浸式虚拟环境,核心内容可总结如下:
研究背景与问题
扩展现实(XR)应用迫切需要能够响应用户真实运动信号的生成式世界模型。现有视频世界模型仅支持文本或键盘等粗粒度控制,缺乏对关节级手部姿态和头部相机姿态的精确建模能力,无法支持灵巧的手-物交互(dexterous hand-object interactions)和具身化(embodied)体验。
核心技术方法
1. 混合2D–3D手部姿态条件化策略
- 系统比较了四种条件注入机制(令牌拼接、令牌相加、自适应层归一化、交叉注意力),发现**令牌相加(token addition)**对高维手部参数最有效。
- 提出混合条件化方案:结合ControlNet风格的2D骨骼图(提供空间对齐)与UmeTrack 3D手部姿态参数(6自由度腕部位姿 + 20个手指关节角,提供深度度量精度),通过通道拼接与令牌相加注入扩散变换器(DiT):
x = patchify([zr, z_c](channel)) + E_(conv)(H)
2. 联合相机与手部控制框架
- 利用头戴设备(HMD)的6自由度(6-DoF)相机姿态(旋转+平移),转换为Plücker射线嵌入。
在潜在空间对视频潜在变量、手部嵌入与相机嵌入进行三重令牌相加:
x = patchify([zr, z_c](channel)) + E(conv)(H) + E(cam)(P)采用迭代训练策略(先独立训练各编码器,再联合微调)解决相机与手部运动的耦合歧义问题。
3. 实时因果推理系统
- 基于Wan2.2架构,将双向扩散教师模型通过自强制(self-forcing)蒸馏为因果自回归学生模型。
- 以12帧为块进行自回归生成,在远程H100 GPU上实现11 FPS的实时生成速率与1.4秒延迟,支持零样本(zero-shot)交互式虚拟环境生成。
实验验证
定量评估(HOT3D与GigaHands数据集):
- 混合条件化策略在手部姿态精度(PA-MPJPE 12.23mm)与视频质量(FVD 383.69)间达到最优平衡,显著优于纯2D ControlNet或纯3D参数基线。
- 联合控制模型(JointCtrl)在保持相机控制精度(旋转误差2.79°)的同时,手部精度接近单模态专家模型。
用户研究(11名受试者,Meta Quest 3):
- 三项具身任务(按按钮、开罐、转方向盘)中,任务准确率达71.2%(基线仅3.0%)。
- 感知控制度评分4.21(基线1.74,7分制),证明关节级手部控制显著增强用户代理感。
主要贡献
- 首次系统研究视频扩散模型中的关节级手部姿态条件化,确定混合2D–3D策略为最优方案。
- 构建首个支持实时头-手联合控制的生成现实系统,实现精细 egocentric 交互。
- 通过用户实验验证:显式手部控制对具身任务完成与主观体验具有决定性作用。
局限与未来方向
当前系统在分辨率、延迟(1.4秒)、立体渲染能力及长时程一致性(漂移问题)方面仍落后于商用VR系统。未来需探索模型效率优化、物理一致性约束及多模态(触觉、全身)控制集成,以实现真正意义上的视网膜级、低延迟、长时程沉浸式生成现实。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Linxi Xie,Lisong C. Sun,Ashley Neall,Tong Wu,Shengqu Cai,Gordon Wetzstein
Categories: cs.CV
PDF URL: https://arxiv.org/pdf/2602.18422.pdf
Arxiv URL: https://arxiv.org/abs/2602.18422
Arxiv ID: 2602.18422
CoolPaper URL: https://papers.cool/arxiv/2602.18422
Published: 2026-02-20T18:45:29Z
Updated: 2026-02-20T18:45:29.000Z
4. Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers
Decoding sits between a language model and everything we do with it, yet it is still treated as a heuristic knob-tuning exercise. We argue decoding should be understood as a principled optimisation layer: at each token, we solve a regularised problem over the probability simplex that trades off model score against structural preferences and constraints. This single template recovers greedy decoding, Softmax sampling, Top-K, Top-P, and Sparsemax-style sparsity as special cases, and explains their common structure through optimality conditions. More importantly, the framework makes it easy to invent new decoders without folklore. We demonstrate this by designing Best-of-K (BoK), a KL-anchored coverage objective aimed at multi-sample pipelines (self-consistency, reranking, verifier selection). BoK targets the probability of covering good alternatives within a fixed K-sample budget and improves empirical performance. We show that such samples can improve accuracy by, for example, +18.6% for Qwen2.5-Math-7B on MATH500 at high sampling temperatures.
中文摘要
解码位于语言模型与我们对其所做的一切之间,但它仍然被视为一种启发式的旋钮调节练习。我们认为,解码应该被理解为一个原则性的优化层:在每一个标记上,我们在概率单纯形上求解一个正则化问题,在模型得分与结构偏好及约束之间进行权衡。这个单一模板可以将贪心解码、Softmax 采样、Top-K、Top-P 和 Sparsemax 风格的稀疏性作为特殊情况,并通过最优性条件解释它们的共通结构。更重要的是,该框架使得发明新解码器变得容易,无需依赖经验法则。我们通过设计 Best-of-K (BoK) 来展示这一点,这是一种以 KL 为锚定的覆盖目标,旨在面向多样本流水线(自洽、重排序、验证器选择)。BoK 针对在固定的 K 样本预算内覆盖优质备选方案的概率,并改善了实证性能。我们展示了这些样本可以提升准确率,例如,在高采样温度下,Qwen2.5-Math-7B 在 MATH500 上的准确率提高了 +18.6%。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文试图解决大型语言模型(LLM)解码策略缺乏统一理论框架的问题,具体表现为:
- 现状的碎片化:现有的解码方法(如贪心解码、Softmax采样、Top-K、Top-P等)被视为彼此孤立的启发式技巧(heuristics),依赖经验调节和”民间传说”(folklore),缺乏原则性的数学基础。
- 设计新解码器的困难:由于缺乏系统性的理论指导,研究人员难以根据具体需求(如多样性、稀疏性、覆盖率等)系统地设计新的解码算法。
核心解决方案
论文提出将解码重新定义为概率单纯形(probability simplex)上的正则化优化问题:
qt^* = argmax(q ∈ Delta(V)) [ langle q, s_t rangle - λ Omega(q) ] quad s.t. quad q ∈ C_t
其中:
- langle q, s_t rangle 表示模型得分的期望
- Omega(q) 是编码结构偏好(如多样性、稀疏性)的正则化项
- λ 控制正则化强度
- C_t 表示硬约束(如支持集限制)
该框架解决的关键问题
理论统一:证明所有主流解码策略(贪心解码、温度采样、Top-K、Top-P、Sparsemax)都是上述优化问题在不同正则化选择下的闭式解(closed-form solutions),从而揭示了它们共同的数学结构。
系统性设计方法论:提供了一套基于KKT最优性条件的”主钥匙”(master key)框架,使得设计新解码器转化为:
- 明确期望的行为特性(如覆盖率、KL散度约束)
- 将其编码为正则化项或约束
- 通过求解优化问题自动获得算法
- 多采样场景的优化:针对现代LLM流程中常见的多采样需求(如自一致性、重排序),设计了**Best-of-K (BoK)**解码器,通过优化覆盖率目标(coverage objective)在固定采样预算 K 内最大化捕获高质量候选的概率,解决了传统方法在高温度下采样多样性过高但可靠性不足的问题。
Q: 有哪些相关研究?
这篇论文的相关研究主要围绕以下几个核心维度展开:
1. 经典解码策略的经验设计
早期解码方法主要基于启发式规则,包括:
- 截断采样:Top-K
10, 28
通过固定保留前K个候选词;Top-P (Nucleus)
14, 27
则基于累积概率质量动态调整截断阈值。 - 温度调节:通过温度参数 τ 控制分布尖锐程度
13, 16
。 - 确定性解码:贪心解码
35, 32
与束搜索 (Beam Search)
38, 11
追求局部或全局最优序列。 - 稀疏化:Sparsemax
23
通过二次正则化替代熵正则化,实现自适应截断。
2. 解码即优化的理论视角
- 束搜索的优化解释:Meister等
24
证明束搜索可被理解为显式正则化目标的优化过程。 - 单纯形优化算法:本文采用镜像下降/上升 (Mirror Descent/Ascent)
2, 26, 31
作为基础求解器,利用Bregman散度
5
保持概率单纯形约束,区别于传统的投影梯度方法
3, 4
。
3. 多样性与可靠性的权衡
- 多样性促进:算术采样 (Arithmetic Sampling)
39
、并行多样化解码
46
、以及平衡多样性与风险的方法
47
试图解决模式坍塌 (mode collapse) 问题。 - 确定性保证:通过验证机制实现确定性推理
12, 34
。 - 幻觉缓解:对比层解码 (DoLa)
9
、动态校正解码
40
以及无参考标准的幻觉测量
43
。
4. 多采样与自一致性
针对多次采样场景(如Best-of-N、重排序、验证器选择):
- 自一致性 (Self-Consistency):Wang等
42
通过多数投票聚合多样本结果。 - 适应性一致性:Aggarwal等
1
提出自适应停止策略以提高效率。 - 通用自一致性:Chen等
8
扩展至更广泛的生成任务。 - 推理与采样:Karan与Du
17
探讨采样作为推理手段的理论基础。
5. 结构化约束与工具增强
- 检索增强生成 (RAG):Lewis等
20
将外部知识检索整合进解码过程。 - 工具使用:Toolformer
30
与后续工具学习工作
33
允许模型在解码过程中调用外部工具。 - 安全对齐:推理时安全约束优化
15
。
6. 评估基准
- 数学推理:MATH500
21
、GPQA-diamond
29
。 - 代码生成:HumanEval
7
。
这些研究表明,尽管解码策略在应用层面呈现碎片化,但近期工作逐渐趋向于将解码视为可优化的计算过程。本文在此基础上提供了统一的数学框架,并首次系统地将多采样覆盖率目标(Coverage Objective)显式编码为可优化的正则化项。
Q: 论文如何解决这个问题?
论文通过建立**“解码即优化”(Decoding as Optimisation)**的理论框架,将解码过程重新定义为概率单纯形上的正则化优化问题,从而实现了理论统一与实用设计的双重目标。具体解决路径如下:
1. 建立统一的优化框架
论文提出一个”主优化问题”(Master Problem),将解码视为在概率单纯形 Delta(V) 上的分布选择问题:
qt^* = argmax(q ∈ Delta(V)) [ langle q, s_t rangle - λ Omega(q) ] quad s.t. quad q ∈ C_t
其中:
- langle q, st rangle = ∑(v ∈ V) q(v) s_t(v) 为期望模型得分
- Omega(q) 为编码结构偏好(多样性、稀疏性等)的正则化泛函
- λ ≥ 0 控制正则化强度
- C_t 为支持集硬约束
此框架将解码从”直接选择词元”转变为”先优化分布再采样”,统一了确定性与随机性解码。
2. 通过正则化选择统一现有策略
论文证明,现有解码策略均为该框架在不同参数配置下的闭式解(closed-form solutions):
| 解码策略 | 正则化项 Omega(q) | 约束 C_t | 闭式解形式 | ||
|---|---|---|---|---|---|
| 贪心解码 | λ = 0 (无正则化) | 无 | qt^(v) = δ(v^)(v) ,其中 v^* ∈ argmax s_t | ||
| Softmax/温度采样 | -∑_v q(v) log q(v) (负熵) | 无 | q_t^*(v) = (exp(s_t(v)/λ)) / (∑_u exp(s_t(u)/λ)) | ||
| Top-K | -∑_v q(v) log q(v) | 支持集限制为前 K 个词元 | 截断后重新归一化的Softmax | ||
| Top-P (Nucleus) | -∑_v q(v) log q(v) | 累积质量约束 | 基于累积概率动态确定支持集的Softmax | ||
| Sparsemax | (1) / (2) | q | _2^2 (二次正则化) | 无 | qt^*(v) = (1) / (λ)[s_t(v) - eta]+ ,其中 eta 为使概率和为1的阈值 |
通过KKT(Karush-Kuhn-Tucker)最优性条件,论文推导出”活跃(Active)vs非活跃(Inactive)”词元的判定准则:
- 活跃词元( qt^(v) > 0 ):满足 st(v) - λ (∂) / (∂ q(v))Omega(q_t^) = eta
- 非活跃词元( qt^(v) = 0 ):满足 st(v) - λ (∂) / (∂ q(v))Omega(q_t^) ≤ eta
这一”主钥匙”(Master Key)揭示了不同解码器在几何本质上的同构性:它们都是在单纯形上权衡模型得分与正则化几何(熵诱导内点解 vs 二次范数诱导边界稀疏解)的结果。
3. 镜像上升算法(Mirror Ascent)求解非闭式目标
当正则化项复杂导致无闭式解时(如多采样场景),论文采用镜像上升替代传统投影梯度法。针对单纯形几何,选择熵势函数 psi(q) = ∑_i q(i) log q(i) ,导出Bregman散度(即KL散度)下的更新规则:
q_(j+1) = (q_j odot exp(eta g_j)) / (|q_j odot exp(eta g_j)|_1)
其中 g_j = ∇ f(q_j) 为梯度, odot 为逐元素乘积。该更新天然保持概率单纯形约束(非负性与归一化),避免欧几里得投影导致的边界不稳定问题。
4. 案例研究:Best-of-K (BoK) 解码器
针对多采样流水线(自一致性、重排序等)中”高温度下多样性过高导致可靠性下降”的问题,论文设计了Best-of-K (BoK)解码器,将解码目标显式设定为覆盖率优化:
覆盖率正则化:
Omegat^((BoK))(q) = KL(q | p_t) - β U(K,t)(q)
其中:
- KL(q | p_t) 将解码分布锚定(anchor)在基础模型分布 p_t 上
- $U(K,t)(q) = ∑(v ∈ V) w_t(v)
1 - (1 - q(v))^K
为加权 K 覆盖率效用,衡量在 K$次独立采样中至少命中一次高质量词元的概率 - β ≥ 0 控制覆盖率奖励强度
优化求解: 由于无闭式解,论文通过镜像上升迭代求解。第 j 步的梯度为:
(∂ f(q_j)) / (∂ q(i)) = s_t^((i)) - λ (log q_j^((i))p_t^((i)) + 1) + β w_t^((i)) K (1 - q_j^((i)))^(K-1)
其中 β = λβ 。该梯度包含三项:模型得分、KL锚定项、以及覆盖率边际增益(随 q(i) 增加而递减,体现”反坍塌”特性)。
算法流程:
- 初始化 q_0 arrow p_t (模型分布作为热启动)
- 迭代 J 步(实践中 J=5 即可收敛):
- 计算梯度 g_j
- 执行镜像更新: q_(j+1) propto q_j odot exp(eta g_j)
- 返回 q_J 作为采样分布
实验表明,BoK在 K 样本预算下显著提高高温度区域的准确性(如在MATH500上 τ=0.9 时从53.0%提升至71.6%),且仅需每词元5步镜像上升(约1秒额外开销),证明优化框架的实用性与计算效率。
Q: 论文做了哪些实验?
论文通过系统的实验验证了Best-of-K (BoK)解码器作为**解码时正则化器(decoding-time regulariser)**的有效性。实验围绕三个核心问题展开:(i) BoK是否优于标准采样基线;(ii) 增益在不同温度与超参数下是否稳健;(iii) 镜像上升优化的计算开销如何。
1. 实验设置
模型:
- Qwen2.5-Math-7B:数学专用模型
- Qwen2.5-7B:通用基础模型
评测基准:
- MATH500
21
:数学推理(500道竞赛级数学题) - GPQA-diamond
29
: graduate-level Google-proof问答(物理/化学/生物) - HumanEval
7
:代码生成(函数级编程任务)
对比方法:
- Base:标准自回归采样(温度 τ )
- Top-K: K=50 的截断采样(固定跨所有温度与任务)
- BoK (Ours):三种超参数配置( β ∈ 0.01, 0.02, 0.05, λ ∈ 0.1, 0.2, 0.5 )
温度扫描: τ ∈ 0.10, 0.25, 0.50, 0.70, 0.90 ,覆盖从近确定性到高度随机的采样 regime。
实现细节:
- 所有方法使用相同提示(Qwen默认提示)、最大生成长度 T_(max)=3072 、早停(EOS)
- BoK使用Algorithm 1,每词元 J=5 步镜像上升(除非特别说明),步长 eta 经调优
- 覆盖率权重 w_t(v) 基于模型分数 s_t(v) 设定
2. 主要结果
(1) 准确率提升(Tables 1 & 2)
Qwen2.5-Math-7B(Table 1):
- MATH500:在高温度区域( τ=0.9 )提升最显著。Base准确率53.0%,Top-K为56.2%,而BoK ( β=0.02, λ=0.2 ) 达到71.6%,较Base提升**+18.6%,较Top-K提升+15.4%**。在 τ=0.7 时,BoK亦达到72.4%,显著高于Base的64.4%。
- GPQA:在 τ=0.9 时,BoK ( β=0.01, λ=0.1 ) 达到36.36%,较Base (30.30%) 提升**+6.06%**。
- HumanEval:在 τ=0.9 时,BoK较Base (32.93%) 提升至47.56%(未在表格中完整展示,但文本提及+14.64%的增益)。
Qwen2.5-7B(Table 2):
- MATH500:在 τ=0.9 时,BoK ( β=0.02, λ=0.2 ) 达到60.2%,显著高于Base (44.2%) 和Top-K (41.0%)。
- HumanEval:在 τ=0.1 时,BoK ( β=0.01, λ=0.1 ) 达到72.56%,略高于Base (70.13%);在 τ=0.25 时,BoK ( β=0.02, λ=0.2 ) 达到73.17%,优于Base (67.68%)。
关键发现:BoK在高温度区域( τ ≥ 0.7 )表现最优,恰好在标准采样因过度多样化而可靠性下降的区域,BoK通过覆盖率正则化保持了答案质量。在低温度区域(如 τ=0.1 ),BoK与Base/Top-K性能相当或略优。
(2) 超参数稳健性
实验测试了三种 (β, λ) 组合:
- β=0.01, λ=0.1 (弱KL锚定,弱覆盖率奖励)
- β=0.02, λ=0.2 (中等强度)
- β=0.05, λ=0.5 (强KL锚定,强覆盖率奖励)
结果显示:
- 跨温度稳健:不同配置在 τ=0.5 至 0.9 范围内均 consistently 优于基线,无显著性能崩溃。
- 任务依赖性:最佳配置因任务而异(如MATH500在 τ=0.9 时 β=0.02 最优,而GPQA在相同温度下 β=0.01 略优),但整体表明存在一个稳定的操作区域(stable operating region),无需繁琐调参。
3. 计算效率分析(Table 3)
论文评估了镜像上升步数 J 对MATH500(Qwen2.5-Math-7B, τ=0.7, β=0.01, λ=0.1 )的影响:
| 梯度步数 | 准确率 (%) | 运行时间 (s) |
|---|---|---|
| Base (0步) | 64.4 | 15.84 |
| 2步 | 69.6 | 15.87 |
| 5步 | 73.0 | 16.88 |
| 10步 | 71.6 | 17.70 |
| 15步 | 71.2 | 17.91 |
| 20步 | 72.8 | 18.26 |
关键结论:
- 快速收敛:仅2步即可将准确率从64.4%提升至69.6%,几乎无时间开销(15.87s vs 15.84s)。
- 边际递减:5步达到73.0%的峰值,继续增加步数(10-20步)准确率波动在71-73%之间,无显著提升。
- 实用开销:5步BoK在MATH500上仅增加约1秒(16.88s vs 15.84s),在GPQA上增加约2秒(17.60s vs 15.43s),HumanEval上甚至因生成更短而更快(8.65s vs 9.74s)。
4. 实验总结
实验验证了论文的核心主张:通过优化框架设计的解码器(BoK)能够在不重新训练模型或引入外部验证器的情况下,显著提升多采样生成的质量。特别是在高温度采样(探索 regime)中,BoK通过显式优化覆盖率目标,有效权衡了多样性与可靠性,且计算开销可控(每词元5步镜像上升),具备实际部署价值。
Q: 有什么可以进一步探索的点?
基于论文的理论框架与实验验证,以下方向值得进一步探索:
1. 序列级全局优化目标
当前框架聚焦于单步(per-step)解码的优化。后续工作可扩展至**序列级(sequence-level)**目标函数,将跨时间步的决策耦合起来:
- 长程约束:在优化目标中显式引入长度约束、风格一致性约束或全局覆盖率约束,而非仅依赖局部的单步正则化 Omega(q) 。
- 动态规划与最优控制:将解码视为马尔可夫决策过程(MDP),利用动态规划或强化学习求解全局最优的分布序列 qt^*(t=1)^T ,而非贪婪地优化单步目标。
2. 计算感知的自适应解码策略
BoK 展示了如何通过优化覆盖率来利用固定的 K 次采样预算。进一步的研究可探索:
- 自适应采样预算:根据模型置信度或问题难度动态调整 K 和镜像上升步数 J ,而非使用固定超参数。
- 与验证器/重排序器的联合优化:将下游验证器(verifier)或重排序器(reranker)的选择概率显式纳入目标函数,设计形如 $E(x_1:K) sim q^K
Verifier(x(1:K)) - λ KL(q|p)$ 的端到端优化问题。
- 早停机制:在镜像上升迭代中引入收敛判定准则,自适应终止优化以减少计算开销。
3. 超越单纯形的几何与约束
论文采用的约束集 C_t 主要限制在单纯形 Delta(V) 或其子集上。可扩展至更复杂的结构化约束:
- 结构化稀疏性:引入组稀疏性约束(group sparsity)或层次化约束,强制模型在特定词元组(如短语、实体)上联合决策。
- 动态工具约束:将工具调用或检索增强生成(RAG)中的外部知识访问建模为约束条件,使解码分布 q 支持在外部工具与内部词汇表上的联合分布。
- 安全与对齐约束:将安全偏好编码为线性不等式约束 Aq ≤ b ,通过投影镜像下降(projected mirror descent)在解码时强制实现安全对齐。
4. 正则化项的数据驱动设计
- 学习最优正则化器:当前 Omega(q) 和权重 wt(v) 均为手工设计。可利用元学习(meta-learning)或基于人类反馈的优化(RLHF),从数据中学习最优的正则化函数 Omegaφ(q) ,其中 φ 为可学习参数。
- 上下文感知正则化:使正则化强度 λ 和覆盖率权重 β 依赖于当前上下文(例如,对模糊问题自动增大 β 以增强探索,对确定性问题减小 β )。
5. 优化算法的理论深化
- 收敛速率分析:对镜像上升在 BoK 目标(非凸、非光滑的覆盖项 U_(K,t) )上的收敛性进行理论刻画,确定达到 ε -最优解所需的迭代次数 J 。
- 统计一致性:研究优化得到的分布 q_t^* 在样本数 K to ∞ 时的渐近性质,以及其与真实后验分布的关系。
6. 与其他解码范式的融合
- 对比解码(Contrastive Decoding):将对比信号(如专家模型与业余模型的分数差)整合进主优化问题的线性项 langle q, s_t rangle 中。
- 推测解码(Speculative Decoding):将优化框架扩展至草稿-验证(draft-verify)架构,使小模型生成的草稿分布通过主框架的优化目标进行修正。
7. 跨领域验证
- 多语言与代码生成:验证 BoK 在非英语任务或长代码生成中的有效性,其中覆盖率效用 U_(K,t) 可能需要针对语法树结构重新设计权重 w_t(v) 。
- 多模态生成:将框架扩展至图像-文本联合生成场景,此时单纯形 Delta(V) 需扩展至连续与离散变量的混合空间。
Q: 总结一下论文的主要内容
该论文提出**“解码即优化”(Decoding as Optimisation)**理论框架,将大型语言模型的解码过程重新定义为概率单纯形上的正则化凸优化问题,从而统一了现有启发式解码策略,并实现了原则性的新解码器设计。
1. 核心框架
论文将单步解码建模为在概率单纯形 Delta(V) 上的分布优化问题:
qt^* = argmax(q ∈ Delta(V)) [ langle q, s_t rangle - λ Omega(q) ] quad s.t. quad q ∈ C_t
其中 langle q, s_t rangle 为模型得分的期望, Omega(q) 为编码结构偏好(如多样性、稀疏性)的正则化项, λ 控制正则化强度, C_t 为支持集硬约束。通过KKT最优性条件,该框架揭示了不同解码器在几何本质上的统一性:它们均为权衡模型得分与正则化几何(熵诱导内点解 vs 二次范数诱导边界稀疏解)的结果。
2. 统一现有解码策略
该框架证明,主流解码策略均为上述优化问题在不同配置下的闭式解:
- 贪心解码:对应 λ = 0 (无正则化),解为退化分布 qt^(v) = δ(v^)(v) ;
- Softmax/温度采样:对应负熵正则化 Omega(q) = -∑_v q(v)log q(v) ,解为 q_t^*(v) propto exp(s_t(v)/λ) ;
- Top-K/P:在熵正则化基础上增加支持集约束 C_t (固定基数或累积质量约束),解为截断后重新归一化的Softmax;
- Sparsemax:对应二次正则化 Omega(q) = (1) / (2)|q|2^2 ,解为稀疏投影 $q_t^*(v) = (1) / (λ)
s_t(v) - eta +$。
3. 算法工具:镜像上升(Mirror Ascent)
针对无闭式解的复杂目标(如多采样场景),论文采用镜像上升替代传统投影梯度法。利用单纯形的熵几何,导出保持概率约束的多plicative更新规则:
q_(j+1) = (q_j odot exp(eta g_j)) / (|q_j odot exp(eta g_j)|_1)
其中 g_j = ∇ f(q_j) , odot 为逐元素乘积。该更新天然满足非负性与归一化,避免欧几里得几何在单纯形边界的不稳定性。
4. 案例研究:Best-of-K (BoK) 解码器
针对现代多采样流水线(自一致性、重排序等),论文设计了Best-of-K (BoK)解码器,将解码目标显式设定为KL锚定的覆盖率优化:
Omegat^((BoK))(q) = KL(q|p_t) - β ∑(v ∈ V) w_t(v)[1 - (1 - q(v))^K]
其中 $U_(K,t)(q) = ∑_v w_t(v)
1 - (1 - q(v))^K
衡量在 K 次采样中至少命中一次高质量词元的概率,体现”反坍塌”特性(边际增益随 q(v)$ 增加而递减)。通过镜像上升求解,BoK 在固定采样预算下显著提升了高温度区域的可靠性。
5. 实验验证
在 Qwen2.5-Math-7B 与 Qwen2.5-7B 上的实验(评测于 MATH500、GPQA-diamond、HumanEval)表明:
- 高温度增益:在 τ = 0.9 时,BoK 在 MATH500 上将准确率从 53.0%(Base)提升至 71.6%(+18.6%),显著优于 Top-K (56.2%);
- 超参数稳健性:多种 (β, λ) 配置均表现出稳定性能,无需繁琐调参;
- 计算效率:每词元仅需 5 步镜像上升(约 1 秒额外开销),2 步即可实现大部分增益(64.4% → 69.6%),验证了优化求解器的快速收敛性。
结论
论文通过将解码重新定义为带有正则化的凸优化问题,建立了从理论分析到算法设计的完整方法论,证明了**“解码不是启发式技巧,而是优化”**这一核心观点,为下一代解码策略的设计提供了原则性基础。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Xiaotong Ji,Rasul Tutunov,Matthieu Zimmer,Haitham Bou-Ammar
Categories: cs.LG,cs.AI
PDF URL: https://arxiv.org/pdf/2602.18292.pdf
Arxiv URL: https://arxiv.org/abs/2602.18292
Arxiv ID: 2602.18292
CoolPaper URL: https://papers.cool/arxiv/2602.18292
Published: 2026-02-20T15:38:16Z
Updated: 2026-02-20T15:38:16.000Z
5. Spanning the Visual Analogy Space with a Weight Basis of LoRAs
Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet ${\mathbf{a}$, $\mathbf{a}’$, $\mathbf{b}}$, the goal is to generate $\mathbf{b}’$ such that $\mathbf{a} : \mathbf{a}’ :: \mathbf{b} : \mathbf{b}’$. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a “space of LoRAs”. We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb
中文摘要
视觉类比学习通过演示而非文字描述实现图像处理,使用户能够指定难以用语言表达的复杂变换。给定一个三元组 ${\mathbf{a}$, $\mathbf{a}’$, $\mathbf{b}}$,目标是生成 $\mathbf{b}’$,使得 $\mathbf{a} : \mathbf{a}’ :: \mathbf{b}’最新方法通过单一低秩适应(LoRA)模块将文本转图像模型适配到这一任务,但它们面临一个根本性的局限:试图在固定的适应模块内捕捉多样化的视觉变换空间会限制泛化能力。受近期研究表明受限域中的LoRA跨越有意义且可插值语义空间的启发,我们提出了LoRWeB,这是一种新颖的方法,通过动态组合学习的变换原语,非正式地选择“LoRA空间”中的一个点,专门化每个推理任务的模型。我们引入两个关键组件:(1)可学习的LoRA模块基底,用于跨越不同视觉变换的空间;(2)一个轻量级编码器,基于输入类比对动态选择和权重这些基LoRA。全面的评估表明,我们的方法实现了最先进的性能,并显著提升了对无形视觉变换的泛化能力。我们的发现表明,LoRA基底分解是灵活视觉作的一个有前景方向。代码和数据正在进行 https://research.nvidia.com/labs/par/lorweb
LLM Analysis
LLM Analysis Failed: Error: 抓取失败(已重试2次): Waiting failed: 30000ms exceeded
Authors: Hila Manor,Rinon Gal,Haggai Maron,Tomer Michaeli,Gal Chechik
Categories: cs.CV,cs.AI,cs.GR,cs.LG,eess.IV
PDF URL: https://arxiv.org/pdf/2602.15727.pdf
Arxiv URL: https://arxiv.org/abs/2602.15727
Arxiv ID: 2602.15727
CoolPaper URL: https://papers.cool/arxiv/2602.15727
Published: 2026-02-17T17:02:38Z
Updated: 2026-02-17T17:02:38.000Z
6. EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots
Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher’s observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student’s viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.
中文摘要
人类可以利用自我中心感知在杂乱的环境中重新排列物体,在没有全局坐标的情况下穿行遮挡物。受这种能力的启发,我们研究了移动机器人使用单个自我中心摄像头进行长时域多物体非抓取式重排的方法。我们提出了 EgoPush,这是一种策略学习框架,使机器人能够基于自我中心感知进行重排,而无需依赖容易在动态场景中失效的显式全局状态估计。EgoPush 设计了一个以物体为中心的潜在空间,用于编码物体之间的相对空间关系,而非绝对姿态。这一设计使得特权强化学习(RL)教师可以从稀疏关键点中同时学习潜在状态和移动动作,然后将其蒸馏为纯视觉的学生策略。为了缩小全知教师与部分观察学生之间的监督差距,我们将教师的观察限制在可视信息线索上。这引导了可从学生视角恢复的主动感知行为。为了应对长时域的信用分配问题,我们使用时间衰减的阶段局部完成奖励将重排任务分解为阶段级子问题。大量仿真实验表明,EgoPush 在成功率上显著优于端到端强化学习基线,消融研究验证了每一项设计选择。我们进一步展示了在现实移动平台上零样本仿真到现实的迁移。代码和视频可在 https://ai4ce.github.io/EgoPush/ 查看。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文研究的核心问题是基于纯自我中心视觉(egocentric vision)的移动机器人长时程多物体非抓取式重新排列(multi-object non-prehensile rearrangement)。
具体而言,论文试图解决以下关键挑战:
1. 核心任务定义
在无全局定位、无外部地标的纹理稀疏环境中,移动机器人仅依靠单一自我中心相机,通过推(pushing)的方式将多个物体重新排列成预定义的几何构型(如十字形、线形等),且需处理物体间的频繁遮挡和动态接触。
2. 现有方法的核心局限
观测能力差距(Observability Gap)
- **传统特权教师-学生蒸馏(privileged teacher-student distillation)**方法通常训练一个全知的教师策略(可访问全局状态),再将其行为蒸馏给视觉学生策略。
- 在全知状态下,教师可能执行无法从学生自我中心视角恢复的轨迹(例如:背对目标物体后退而不转身观察),导致学生获得不一致的监督信号,难以学习。
长时程信用分配(Long-Horizon Credit Assignment)
- 多物体重新排列是长时程任务,涉及”接近-推动-对齐”等多个阶段的序列决策。
- 稀疏的终端奖励无法区分高效操作与无效探索,导致强化学习信号延迟且衰减,难以学习到精确的协调行为。
部分可观测性与动态遮挡
- 自我中心视角狭窄,物体在交互过程中频繁相互遮挡并移出视野。
- 现有基于全局状态的规划方法(如SLAM、视觉里程计)在纹理稀疏和物体持续运动的环境中容易失效,违反了静态世界假设。
3. 环境约束带来的挑战
- 无全局坐标:机器人必须仅基于物体间的相对空间关系(而非绝对位姿)进行决策。
- 感知-动作紧耦合:机器人必须主动调整视角以维持任务相关线索在视野内,同时执行推动操作。
- 接触丰富动力学:推动过程中的物理交互具有高度非线性和不确定性。
4. 提出的解决思路
为应对上述挑战,论文提出EgoPush框架,通过以下机制实现从零开始的端到端策略学习:
- 物体中心潜在表征:编码物体间的相对空间关系而非绝对位姿;
- 受限教师强化学习:限制特权教师的观测范围为视觉可及区域,确保教师行为可从学生视角复现;
- 阶段级时序衰减奖励:将长时程任务分解为阶段级子问题,通过阶段局部的时序衰减完成奖励改善信用分配。
Q: 有哪些相关研究?
论文的相关研究主要集中在以下两个领域:
A. 非抓取式移动操作(Non-prehensile Mobile Manipulation)
基于规划与优化的经典方法
- 蒙特卡洛树搜索与接触动力学:Song 等人 $
35
将平面排序问题建模为基于蒙特卡洛树搜索(MCTS)的接触转移推理;Ren 等人
30
$ 从物体中心视角构建问题以促进杂乱场景中的决策。 - 任务-运动规划混合:部分研究结合任务-运动规划与学习得到的非抓取式技能来处理复杂交互模式 $
20
$。 - 多模态感知:引入力或触觉反馈以支持移动基座推动 $
18, 27
$。
局限性:上述系统通常假设可获取准确的机器人/物体状态或显式状态估计器,这在仅有自我中心感知时往往脆弱或不可行。
视觉学习方法
- 全局地图依赖:Wu 等人 $
41
$ 依赖俯视重建和已知全局地图构建空间动作表征。 - 多智能体与特权视角:多智能体推动研究通常假设全局信息可用以实现协调 $
36, 37
;部分系统引入特权视角(如空中鸟瞰)引导地面机器人
21
$。 - 简化视觉设置:某些”纯视觉”重新排列设置实际上通过保持所有物体始终处于相机视锥内来提供全局覆盖 $
16
$。
关键缺口:现有方法难以在真正的部分可观测性下(视野狭窄、遮挡频繁、无法访问全局状态)实现长时程非抓取式重新排列。
B. 移动机器人的视觉策略学习(Visual Policy Learning of Mobile Robots)
端到端强化学习(End-to-End RL)
- 直接视觉-动作映射:研究尝试将高维图像(通常与本体感觉融合)直接映射到动作 $
15, 32, 38, 25
$。 - 样本效率与稳定性问题:尽管基于状态的 RL 在移动机器人上取得进展,基于像素的 RL 学习仍面临样本效率低下、对奖励稀疏性和部分可观测性敏感的问题。
- 改进技术:包括更强的视觉编码器 $
46, 13, 10
、非对称 Actor-Critic
14
、并行可微分仿真
48
以及使用低维视觉特征
17
$ 等。
局限性:在接触丰富的移动操作中,视觉信号在执行过程中本质上稀疏(自遮挡频繁,物体常被推出视野),导致纯反应式像素策略难以维持稳定的视觉锚定。
特权 RL 教师-视觉学生蒸馏(Privileged Teacher-Student Distillation)
- 标准流程:训练一个可访问特权信号(仿真中的全局真值状态 $
47, 43, 39
、无噪声几何
24, 9, 1
或不受遮挡影响的全场景信息
6, 40
)的教师策略,然后通过模仿学习(行为克隆)或交互式变体(DAgger
31
$)将其行为转移给视觉学生。 - 隐式假设:此类方法的成功依赖于一个关键假设——教师演示可从学生的观测流中恢复。
在自我中心移动操作中的失效:在感知与动作紧密耦合的任务中,全知教师可能利用屏幕外或全局可用信息执行轨迹(如背对目标后退而不转身观察),导致基于相机的学生面临病态的模仿问题:相同的部分观测可能对应多个教师动作,产生模糊监督,使下游策略脆弱。
与现有工作的关键区别
EgoPush 针对上述局限,明确解决了两个核心挑战:
- 可观测性差距:通过受限教师强化学习(Constrained Teacher RL),限制特权教师的观测范围为视觉可及区域,确保教师行为可从学生视角复现;
- 长时程信用分配:通过阶段对齐的时序衰减奖励(stage-aligned reward),将复杂任务分解为可管理的子问题,改善长时程学习中的信用分配。
Q: 论文如何解决这个问题?
论文提出 EgoPush,一个两阶段跨模态蒸馏框架,通过以下机制系统性地解决上述挑战:
总体架构
EgoPush 采用教师-学生蒸馏范式,但关键创新在于:
- Phase 1(教师):在受限的类自我中心观测下训练特权 RL 教师,确保其行为可从学生视角复现;
- Phase 2(学生):通过在线模仿学习与关系蒸馏,将教师行为与潜在表征迁移至纯视觉学生策略。
1. 物体中心潜在表征(Object-Centric Latent Representation)
解决:避免对绝对全局坐标的依赖,适应动态遮挡环境。
将场景物体按任务角色划分为三组:
- 主动物体(Active):当前被操作的物体
- 锚点(Anchor):指示目标位置/姿态的参考物体
- 障碍物(Obstacles):其余物体
使用共享权重的状态估计器(教师用 PointNet,学生用 CNN)分别编码三组几何特征,生成组级潜在嵌入 Z_t^(act), Z_t^(anc), Z_t^(obs) 。这种设计使策略基于物体间的相对空间关系(而非绝对位姿)进行推理,天然适应部分可观测性。
2. 受限教师强化学习(Constrained Teacher RL)
解决:传统全知教师产生的观测能力差距(Observability Gap)。
教师虽可访问稀疏关键点(Sparse Keypoints)而非原始像素,但其观测被显式约束以匹配学生的视觉可及范围:
(1) 虚拟自我中心视锥掩码(Virtual Egocentric FOV Masking)
仅保留位于机器人虚拟相机视锥内且距离在 $
d(min), d(max)
范围内的关键点,其余掩码为常数 ε$:
p_r = p_r, & if vis(p_r)=1 ε, & otherwise
其中 vis(·) 依据水平/垂直视场角 θ_h, θ_v 判断可见性。
(2) 中心门控可见性(Center-Gated Visibility, C-GV)
针对目标参考关键点 Pt^(ref) (指示主动物体的目标位姿),仅当锚点位于视锥中心区域(归一化图像坐标 |u| ≤ u(gate), |v| ≤ v(gate) )时才可见:
P_t^(ref) = M(3d)(Pt^(ref)), & if I(gate)=1 ε_(k=1)^K, & otherwise
效果:强制教师在学习过程中必须主动调整姿态以维持锚点在视野中心,才能获取目标参考信息,从而产生可被视觉学生复现的主动感知行为(Active Perception)。
3. 阶段级时序衰减奖励(Stage-wise Credit Assignment)
解决:长时程任务中的信用分配难题。
将多物体重新排列分解为重复的子阶段(到达主动物体 → 将其推至锚点附近)。每个阶段设置局部步数预算 T_s ,并采用时序衰减的阶段完成奖励:
到达奖励(Reach):
r(reach),t = eta_t · I[|p(rbt),t - p(act),t|_2 < ε(reach)]放置奖励(Place):
r_(place),t = eta_t · I[position aligned land orientation aligned land stable]
其中时序衰减因子 eta_t 随阶段内已用步数 τ_t 衰减:
eta_t = (T_s - τ_t) / (T_s + ε_0)
关键优势:
- 将全局稀疏奖励转化为阶段局部的稠密信号;
- 早期完成获得更高奖励,鼓励高效行为,缩短有效信用分配路径;
- 每个阶段重置衰减计时器(Stage Timer),确保各子任务面临可比的时间压力。
4. 关系蒸馏损失(Relational Distillation)
解决:教师(含参考嵌入 Z_t^(ref) )与学生(无参考嵌入)之间的表征维度不匹配。
学生仅观测 Z_t^(act), Z_t^(anc), Z_t^(obs) ,缺乏显式的目标指示。为弥合差距,提出关系蒸馏:强制学生模仿教师对共享语义实体间相对空间构型的感知。
计算共享组 K(shared) = act, anc, obs 的成对余弦相似度矩阵:
S(i,j) = Zi · Z_j|Z_i|_2 |Z_j|_2, quad i,j ∈ K(shared)
最小化教师与学生相似度矩阵的 Frobenius 范数差异:
L_(rel) = |S_t^(tea) - S_t^(stu)|_F^2
效果:尽管学生无显式目标观测,仍能通过继承教师对”主动-锚点-障碍”关系的理解,隐式学习目标导向行为。
5. 学生观测与部署
学生采用 RGB-D 相机:
- RGB:仅用于实例分割(获取语义掩码 M_t^((i)) ),通过 HSV 阈值或零样本分割模型实现;
- 深度:经掩码过滤后按语义组聚合为三层深度图 d_t^k ,输入 CNN 编码器。
为缩小仿真到现实的差距(Sim-to-Real):
- 训练时向深度注入仿真噪声;
- 部署时采用 Navier-Stokes 修复算法 $
4
$ 对真实深度去噪。
总结
EgoPush 通过受限观测约束确保教师行为可学,通过阶段级时序奖励分解长时程信用分配,通过关系蒸馏实现跨模态表征迁移,最终使纯视觉移动机器人能够在无全局定位、频繁遮挡的环境下完成复杂的多物体重新排列任务。
Q: 论文做了哪些实验?
论文进行了 extensive 的仿真实验与真实世界验证,具体包括以下四个方面:
1. 消融研究(Ablation Studies)
1.1 教师观测空间限制(Restricted Observations for RL Teacher)
目的:验证虚拟自我中心视锥掩码(FOV Masking)与中心门控可见性(C-GV)对蒸馏性能的影响。
设置:在十字形排列任务(Cross Rearrangement)上对比三种教师变体:
- Ours:完整约束(FOV + C-GV)
- w/o C-GV:保留 FOV 但移除中心门控,参考关键点只要锚点在视锥内即可见
- w/o FOV (global):移除所有约束,教师可访问全局关键点
结果(Table I):
- 教师性能:三者成功率均 >98%,但全局教师执行时间最短(373.20 步),w/o C-GV 次之(394.39 步),Ours 最长(395.59 步)
- 学生性能:Ours 学生成功率达 70.70%;w/o C-GV 骤降至 21.09%;全局教师学生完全失败(0%)
- 分析:全局教师频繁背对锚点操作(图 3c),产生不可复现行为;w/o C-GV 教师采用”惰性”策略跟踪参考点而不主动维持锚点可见(图 3b),导致学生监督信号稀疏
1.2 信用分配消融(Credit Assignment Ablation)
目的:验证阶段级时序衰减奖励对长时程学习的必要性。
设置:从稀疏基线逐步添加组件:
- Base:仅终端稀疏奖励
- SWR:添加阶段完成奖励(无时间衰减)
- SWR + TD:添加基于全局回合计时器的时序衰减
- Ours (SWR + TD + ST):使用阶段计时器(Stage Timer)在每个阶段边界重置衰减
结果(Table II & Fig. 4):
- Base 成功率仅 16.02%,且训练不稳定
- SWR 提升至 87.50%,验证阶段分解有效性
- SWR+TD 进一步至 97.95%
- Ours 在仅 ~45k 步(其余方法训练 ~90k 步)即达 98.63%,收敛更快更稳定
1.3 关系蒸馏消融(Relational Distillation Ablation)
目的:验证关系蒸馏损失对表征对齐的作用。
设置:在十字形(CROSS)与线形(LINE-SHAPE)任务上对比:
- w/ Relational Distillation:完整方法(动作损失 + 关系蒸馏)
- w/o Relational Distillation:仅动作模仿(MSE)
结果(Fig. 5 & 附录):
- 在简单对称的 CROSS 任务上两者性能相近
- 在非对称且误差累积敏感的 LINE-SHAPE 任务上,无关系蒸馏版本动作损失收敛值显著更高,且完全失败(成功率 <0.01),而完整方法成功
2. 基线对比(Baseline Comparisons)
目的:验证任务难度及 EgoPush 相对于经典方法与端到端 RL 的优势。
设置:在简化的双物体设置(推动单一物体至锚点)上对比:
- 经典方法:Spatial Intention Maps (SIM) $
42
$ —— 基于占用地图与航点规划 - 端到端视觉 RL:E2E-RGB、E2E-RGBD、RGBD-Sem(含真值语义分割)、E2E-Curriculum(课程学习)、RGBD-RNN(循环策略)
结果(Table III):
- SIM:成功率仅 19.26%,主要因里程计积分漂移导致地图与真实场景错位(图 8)
- 端到端 RL:即使配备真值语义掩码(RGBD-Sem)或循环记忆(RGBD-RNN),成功率均 <1%,普遍出现控制崩溃、过早终止、失触后空推等失败模式(图 7)
- EgoPush:成功率 100%,显著优于所有基线,证明结构化监督与视觉基础蒸馏对长时程接触丰富任务的必要性
3. 真实世界实验(Real World Experiments)
设置:
- 平台:TurtleBot3 Burger + Intel RealSense D435i,配备 3D 打印前推板(Front Pusher)
- 环境: 3m × 3m 灰色纹理稀疏场地,5 个彩色立方体(红/绿/蓝/紫/棕)
- 部署:零样本(Zero-shot)Sim-to-Real 迁移,服务器端(RTX 5080)通过 WebSocket 接收 RGB-D 流,以 ~25Hz 返回速度指令
- 深度处理:采用 Navier-Stokes 修复算法去噪,并在仿真训练时注入对应噪声模式
结果:
- 在 10 回合十字形任务中达成 80% 成功率(宽松评估标准允许微小位姿偏差)
- 策略行为与仿真定性一致,但受限于真实机器人伺服扭矩,动作幅度受限,导致鲁棒性与效率略有下降
4. 额外实验结果(Appendix E)
4.1 不同几何形状泛化(Different Boxes Shapes)
设置:将训练时的立方体(Cuboid)替换为圆柱体(Cylinder)与三棱柱(Prism),保持观测与动作空间不变。
结果(Table VII):
- 圆柱体:成功率 67.48%,接近成功率 99.41%(接近阶段表现良好,失败主要在最终对齐)
- 三棱柱:成功率 54.30%,轨迹长度与执行时间显著增加,表明非对称几何对接触动力学更敏感
4.2 定位精度评估(Ours Accuracy)
指标:计算最终箱体位置与不可见目标标签的归一化欧氏距离误差:
Error = min(|p(box) - p(tag)|2, ε(train))ε_(train)
结果:在立方体推动任务中,平均误差率约 13.3%,表明学生策略在缺乏显式目标观测的情况下仍能保持较高定位精度。
Q: 有什么可以进一步探索的点?
基于论文讨论(Section V)及实验局限,可进一步探索的研究方向包括:
1. 时空记忆与主动感知结合
当前学生策略为纯反应式(reactive),仅依赖当前自我中心观测与短历时动作历史,缺乏对暂时遮挡物体的显式信念维护(belief maintenance)。在狭窄通道等场景中,策略易陷入”目标追踪”与”路径检查”的视角振荡。
未来方向:将物体中心潜在空间(object-centric latent space)作为紧凑的空间状态表征,引入循环神经网络(GRU/LSTM)或Transformer进行时序聚合,学习跨遮挡的持久性空间记忆,使智能体能在目标与障碍物均暂时不可见时仍能做出全局一致的决策。
2. 几何与物理泛化增强
附录E.1显示,当物体几何从训练时的立方体变为圆柱或三棱柱时,成功率显著下降(尤其棱柱降至54.30%),表明策略对接触动力学敏感。
未来方向:
- 引入神经辐射场(NeRF)或3D隐式表征以编码更精细的几何信息,而非仅依赖深度投影;
- 采用**元学习(Meta-Learning)或在线适应(Online Adaptation)**机制,使策略能快速适应未见过的物体形状与质量分布;
- 结合触觉/力觉反馈(如引用$
18,27
$),在视觉遮挡或深度噪声严重时通过接触感知维持操作稳定性。
3. 多智能体协作与分布式感知
论文引用的相关工作$
36,37
$表明多智能体推动依赖于全局信息协调。EgoPush的相对关系表征天然适用于分布式场景。
未来方向:将框架扩展至多机器人系统,其中每个机器人仅基于自我中心观测,通过隐式通信(如共享潜空间嵌入)或显式信息交换协作完成大规模重新排列,验证框架在分布式部分可观测性下的可扩展性。
4. 教师-学生蒸馏的约束优化
当前约束教师RL通过硬编码的视锥与门控机制限制观测空间,虽有效但需手动设计参数(如 u(gate), v(gate) )。
未来方向:
- 引入可学习的约束或对抗性蒸馏(adversarial distillation),自动发现确保可复现性的最小充分观测集;
- 探索课程蒸馏(curriculum distillation),逐步放宽教师约束以提升学生鲁棒性,而非始终保持严格受限。
5. 长时程任务的分层抽象
尽管阶段级奖励(stage-wise reward)改善了信用分配,但复杂任务(如多阶段建筑、装配)仍需更高层次的符号规划。
未来方向:结合符号-次符号混合架构,在EgoPush的策略之上引入任务规划器(Task Planner),将长序列重新排列分解为可复用的技能原语(skill primitives),实现更长视界(数百至千步)的多任务泛化。
6. 真实世界部署的持续性学习
当前零样本迁移虽成功,但受限于真实机器人扭矩与感知噪声,策略动作幅度需受限,导致效率下降。
未来方向:
- 引入真实世界的持续学习(Continual Learning)或安全强化学习(Safe RL),在保持仿真迁移能力的同时,利用少量真实交互数据自适应调整策略;
- 结合视觉-语言模型(VLM),使非专业用户可通过自然语言指令指定目标构型(如”将红色箱子排成L形”),扩展系统的指令跟随能力。
Q: 总结一下论文的主要内容
该研究针对移动机器人在**纯自我中心视觉(egocentric vision)条件下执行长时程多物体非抓取式重新排列(multi-object non-prehensile rearrangement)**的任务,提出了一种名为 EgoPush 的端到端策略学习框架。以下是论文的主要内容概述:
1. 研究背景与核心挑战
传统方法依赖全局状态估计(如SLAM、外部跟踪),在纹理稀疏、物体持续运动且频繁遮挡的环境中容易失效。纯端到端强化学习(RL)虽可避免显式建图,但面临:
- 观测能力差距(Observability Gap):特权教师策略(privileged teacher)常利用全局信息执行无法从学生自我中心视角恢复的轨迹,导致蒸馏监督信号不一致;
- 长时程信用分配(Long-Horizon Credit Assignment):稀疏的终端奖励难以区分高效操作与无效探索,学习信号随时间衰减;
- 部分可观测性:狭窄视野与动态遮挡使纯反应式策略难以维持对任务关键线索的跟踪。
2. EgoPush 方法框架
该框架采用两阶段跨模态蒸馏范式,核心创新包括:
2.1 物体中心潜在表征(Object-Centric Latent Representation)
将场景物体按任务角色划分为主动物体(Active)、锚点(Anchor)与障碍物(Obstacles)三组,使用共享权重的状态估计器(教师用PointNet,学生用CNN)分别编码为组级潜在嵌入 Z_t^(act), Z_t^(anc), Z_t^(obs) 。该设计使策略基于相对空间关系而非绝对位姿进行推理,天然适应部分可观测环境。
2.2 受限教师强化学习(Constrained Teacher RL)
在Phase 1中,特权教师虽可访问稀疏关键点(sparse keypoints),但其观测被显式约束以匹配学生视觉可及范围:
- 虚拟自我中心视锥掩码:仅保留位于相机视锥 $
θh, θ_v
且距离在
d(min), d_(max)
$ 范围内的关键点; - 中心门控可见性(C-GV):目标参考关键点 Pt^(ref) 仅当锚点位于图像平面中心区域 (± u(gate), ± v_(gate)) 时可见。
此约束强制教师在学习过程中主动调整姿态以维持锚点可见,从而产生可从学生视角复现的主动感知行为。
2.3 阶段级时序衰减奖励(Stage-wise Credit Assignment)
将长时程任务分解为重复的子阶段(到达→放置),设置阶段局部步数预算 Ts ,并采用时序衰减的完成奖励:
r(reach),t = etat · I[|p(rbt),t - p(act),t|_2 < ε(reach)], quad eta_t = (T_s - τ_t) / (T_s + ε_0)
其中 τ_t 为阶段内已用步数, eta_t 随时间衰减。该设计将全局稀疏奖励转化为阶段局部的稠密信号,鼓励早期高效完成,缩短信用分配路径。
2.4 关系蒸馏损失(Relational Distillation)
针对教师含参考嵌入 Zt^(ref) 而学生无此观测的维度不匹配问题,提出通过成对余弦相似度矩阵对齐共享语义组(act/anc/obs)的相对空间构型:
L(rel) = |St^(tea) - S_t^(stu)|_F^2, quad S(i,j) = Z_i · Z_j|Z_i|_2 |Z_j|_2
使学生通过继承教师对物体间关系的理解,隐式学习目标导向行为。
3. 实验验证
3.1 消融研究
- 观测限制:全局教师学生成功率0%(不可复现行为),无C-GV教师学生21.09%,完整约束教师学生达70.70%;
- 信用分配:基线稀疏奖励成功率16.02%,引入阶段级时序衰减后达98.63%,且收敛速度提升约50%;
- 关系蒸馏:在非对称线形任务中,无关系蒸馏版本完全失败,而完整方法成功。
3.2 基线对比
与经典地图规划方法(Spatial Intention Maps)及多种端到端视觉RL基线(RGB/RGB-D/RNN)对比,在简化双物体任务中:
- 所有端到端基线成功率**<1%**;
- 地图基线因里程计漂移成功率19.26%;
- EgoPush达100%,显著验证了其处理长时程部分可观测性的优势。
3.3 真实世界迁移
在 3m×3m 场地使用TurtleBot3 Burger与RealSense D435i进行**零样本(Zero-shot)**部署:
- 深度处理采用Navier-Stokes修复算法以缩小Sim-to-Real差距;
- 十字形任务达成80%成功率,验证了该方法在真实纹理稀疏环境中的实用性。
4. 主要贡献总结
- 提出受限教师强化学习机制,通过视锥与中心门控约束确保特权行为可从自我中心视角复现,解决蒸馏中的观测能力差距;
- 设计阶段级时序衰减奖励,将长时程任务分解为带时间压力的子问题,显著改善信用分配效率;
- 引入关系蒸馏损失,实现跨模态(关键点→像素)的相对空间关系迁移,无需显式目标观测;
- 在仿真与真实平台验证,实现了纯视觉驱动的多物体重新排列,无需全局定位或外部跟踪。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Boyuan An,Zhexiong Wang,Yipeng Wang,Jiaqi Li,Sihang Li,Jing Zhang,Chen Feng
Categories: cs.RO
PDF URL: https://arxiv.org/pdf/2602.18071.pdf
Arxiv URL: https://arxiv.org/abs/2602.18071
Arxiv ID: 2602.18071
CoolPaper URL: https://papers.cool/arxiv/2602.18071
Published: 2026-02-20T08:54:20Z
Updated: 2026-02-20T08:54:20.000Z
7. SARAH: Spatially Aware Real-time Agentic Humans
As embodied agents become central to VR, telepresence, and digital human applications, their motion must go beyond speech-aligned gestures: agents should turn toward users, respond to their movement, and maintain natural gaze. Current methods lack this spatial awareness. We close this gap with the first real-time, fully causal method for spatially-aware conversational motion, deployable on a streaming VR headset. Given a user’s position and dyadic audio, our approach produces full-body motion that aligns gestures with speech while orienting the agent according to the user. Our architecture combines a causal transformer-based VAE with interleaved latent tokens for streaming inference and a flow matching model conditioned on user trajectory and audio. To support varying gaze preferences, we introduce a gaze scoring mechanism with classifier-free guidance to decouple learning from control: the model captures natural spatial alignment from data, while users can adjust eye contact intensity at inference time. On the Embody 3D dataset, our method achieves state-of-the-art motion quality at over 300 FPS — 3x faster than non-causal baselines — while capturing the subtle spatial dynamics of natural conversation. We validate our approach on a live VR system, bringing spatially-aware conversational agents to real-time deployment. Please see https://evonneng.github.io/sarah/ for details.
中文摘要
随着具身代理在虚拟现实(VR)、远程呈现和数字人应用中变得越来越重要,它们的动作必须超越与语音对齐的手势:代理应当面向用户、对用户的动作作出反应,并保持自然的目光。现有方法缺乏这种空间感知能力。我们通过首个可实时运行、完全因果的空间感知会话动作方法弥补了这一空白,该方法可部署于流式VR头显上。给定用户的位置和二人对话音频,我们的方法生成的全身动作既能与语音对齐手势,又能根据用户调整代理的朝向。我们的架构结合了基于因果Transformer的VAE与交错潜变量令牌以实现流式推理,以及一个基于用户轨迹和音频条件的流匹配模型。为了支持不同的注视偏好,我们引入了一种带有无分类器指导的注视评分机制,将学习与控制解耦:模型从数据中捕捉自然的空间对齐,而用户可以在推理时调整眼神接触的强度。在Embody 3D数据集上,我们的方法实现了每秒300帧以上的最先进动作质量——比非因果基线快3倍——同时捕捉自然对话的微妙空间动态。我们在实时VR系统上验证了该方法,将空间感知的会话代理带入实时部署。详情请参见 https://evonneng.github.io/sarah/。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文致力于解决实时空间感知对话动作生成问题,即如何让虚拟代理(virtual agent)在VR、远程临场和数字人应用中生成既符合对话语境又具备空间感知能力的全身3D动作。
具体而言,现有方法存在以下关键缺陷:
- 缺乏空间感知:现有手势生成方法多为单主体(monadic),仅基于单个说话者的音频或文本生成动作,缺乏对对话伙伴(interlocutor)位置、移动和朝向的感知。即使少数双人(dyadic)方法也假设参与者静止不动、始终面向前方(如视频通话场景),无法捕捉真实动态交互中的空间动力学(proxemics)。
- 非因果与实时性不足:当前最先进的生成模型(如扩散模型)通常需要访问未来帧(非因果),或计算成本过高,无法达到实时流式生成所需的帧率(通常低于100 FPS),难以在VR头显等设备上部署。
- 缺乏可控性:人类对眼神接触(eye contact)的舒适程度因个人偏好、社会文化语境而异,但现有方法无法让用户在推理时调节代理的注视强度。
为填补这一空白,论文提出了首个实时、全因果的空间感知对话动作生成方法,需同时满足四项严格标准:
- 对话适当性:手势与语音自然对齐;
- 空间感知性:代理根据用户的3D位置动态调整朝向、姿势和行走;
- 可控性:用户可实时调节眼神接触强度;
- 实时因果性:模型必须以流式方式运行(>300 FPS),严格基于历史信息生成,不可访问未来帧。
该方法通过结合因果Transformer-VAE(用于流式潜在空间压缩)与流匹配生成模型(flow matching,用于基于用户轨迹和双人音频的潜在空间生成),并引入基于分类器无关引导(classifier-free guidance)的注视控制机制,实现了在超过300 FPS速度下的高质量空间感知动作生成。
Q: 有哪些相关研究?
根据论文第2节内容,相关研究可分为以下三个主要方向:
2.1 手势动作生成(Gestural Motion Generation)
- 早期方法:采用循环神经网络(RNNs)和前馈架构(feed-forward architectures)进行语音驱动的手势合成,例如基于RNN的ZeroEGGS方法(Ghorbani et al. 2023)、Speech2Gesture(Ginosar et al. 2019)和Gesticulator(Kucherenko et al. 2020)。
- 自回归Transformer方法:近期研究使用自回归Transformer生成向量量化(vector-quantized)的运动token,进而解码为连续动作(Yi et al. 2023)。
- 条件扩散模型:扩散模型已成为主流,包括Listen, Denoise, Action(Alexanderson et al. 2023)、GestureDiffuCLIP(Ao et al. 2023)、TANGO(Liu et al. 2024a)以及LivelySpeaker(Zhi et al. 2023)等,用于生成与语音对齐的手势。
- 文本与语义条件:部分工作探索基于文本和语义的条件控制,以实现风格化手势生成(Cheng et al. 2024; Zhang et al. 2024)。
局限性:上述方法均专注于**单主体(monadic)**场景,即仅为单个说话者生成动作,缺乏对对话伙伴的感知。
2.2 人际交流中的空间关系学(Proxemics in Interpersonal Communication)
- 非语言信号的作用:眼部注视(oculesics)和人际距离(proxemics)在调节话轮转换、信号注意力和交流意图方面起关键作用(Kendon 1967; Argyle and Dean 1965)。
- 作为先验的应用:这些信号被用作预测社会形态(social formations)、轨迹预测(Alahi et al. 2016; Xie et al. 2024; Yang et al. 2024)、自我中心姿态估计(Ng et al. 2020; Zhang et al. 2022)、社会行为分析(Treuille et al. 2006)和活动识别(Bagautdinov et al. 2017; Huang and Kitani 2014; Pellegrini et al. 2010)的先验。
- 双人对话动作:针对双人对话的注视和头部运动建模(Ahuja et al. 2019; Lee et al. 2019; Ng et al. 2022, 2024)。然而,这些方法多假设参与者静止不动或始终面向前方(如视频通话场景),缺乏动态空间交互数据。
- 基于大语言模型(LLM)的方法:由于捕捉全局空间动力学的数据集稀缺,近期研究采用LLM通过语言推理空间线索,例如Social Agent(Zhang et al. 2025)和Pose Priors from Language Models(Subramanian et al. 2024)。
- 相关但有限的工作:Joo et al. (2019) 预测注视和话轮转换,但将问题分解为子任务且未涉及全身运动。
2.3 实时因果生成建模(Realtime Causal Generative Modeling)
- 非因果扩散模型:当前最先进的运动合成方法多采用非因果(acausal)的朴素扩散模型(vanilla diffusion),如MDM(Tevet et al. 2022)、SMoodi(Zhong et al. 2024)和Listen, Denoise, Action(Alexanderson et al. 2023),这些方法需要访问过去和未来的上下文,不适用于实时应用。
- VQ与因果Transformer结合:为实现快速自回归生成,部分方法结合向量量化(VQ)与因果Transformer(Guo et al. 2024; Jiang et al. 2023; Liu et al. 2024b)。
- 扩散模型的因果适应:通过基于过去帧的条件(Chen et al. 2024b; Zhao et al. 2024)或扩散强制(diffusion forcing)技术(Chen et al. 2024a)使扩散模型适应因果生成。然而,这些方法仍需多步评估,速度不足以满足实时需求。
- 视频扩散的蒸馏技术:视频扩散社区采用蒸馏(distillation)技术将多步模型压缩为单步模型,以实现实时流式传输(Kodaira et al. 2025; Lin et al. 2025)。本文受此启发,提出了基于流的单步自回归模型用于实时运动流式传输。
Q: 论文如何解决这个问题?
论文通过以下方法论解决实时空间感知对话动作生成问题,核心在于解耦学习与控制(decoupling learning from control):模型从数据中捕捉自然的注视行为分布,同时允许用户在推理时通过轻量级引导机制调节朝向。
1. 问题建模与输入输出
给定用户与AI代理的对话场景,模型将生成任务定义为:
x = G(p_y, a, b)
其中:
- p_y ∈ R^(T × 2) :用户地板投影的头部位置(左右眼中点投影至地面)
- a, b ∈ R^(T × D_a) :代理与用户的HuBERT音频特征
- x ∈ R^(T × D_x) :生成的代理全身3D动作序列
2. 欧几里得动作表示(Motion Representation)
为避免传统关节旋转表示( θ )的误差传播,论文采用完全欧几里得表示:
- 每个关节 j 编码为3D二十面体(icosahedron),其12个顶点的质心提供世界空间位置 Pi_j ,通过与参考二十面体的SVD分解恢复朝向 Omega_j (如图3所示)。
- 每帧表示为 x_t ∈ R^(J × 12 × 3) ,并附加网格 M_t 作为关节外壳以捕捉表面几何。
- 通过相对于首帧归一化旋转和平移,将代理定位于原点并面向 z 轴,防止无界漂移。
该表示直接指定末端执行器位置,消除了逆运动学(IK)的歧义,提升了训练稳定性。
3. 因果Transformer-based VAE
为实现流式推理,论文提出一种交错潜在token的因果VAE架构:
编码器接收按固定时间步长 s 交错的输入序列:
(x(1:s), μ_1, σ_1, x(s+1:2s), μ_2, σ_2, …)因果自注意力:每个帧仅关注过去帧,每个 μ_k/σ_k token仅关注先前帧及更早的潜在token,确保严格因果性。
- 优化目标结合重构损失与KL散度:
L(VAE) = |x - x|_2^2 + β ∑(k=1)^(K) KL(qφ(z_k | x(1:ks)) | N(0, I))
编码后得到潜在序列 z ∈ R^(K × D_z) ,其中 K = T/s 。
4. 基于流匹配的实时生成器
采用Transformer-based流匹配模型在潜在空间生成动作:
- 流匹配:通过预测速度场 vθ(zτ, τ, c) 将噪声 ε sim N(0, I) 传输至数据,其中$τ ∈
0,1
为流时间, c =
p_y; a; b
$为条件。 - 插值:在流时间 τ 处, z_τ = τ z + (1-τ)ε 。
训练损失( x1 -预测):
L(flow) = E(τ, ε, z) [ |G(zτ, τ, c) - z|_2^2 ]因果掩码:强制严格因果注意力,确保无未来信息泄漏。
- 流式推理:通过维护历史潜在缓冲区,采用隐式填充(imputation)技术保持时间一致性——将已预测的历史token替换为对应噪声值,而非显式条件于过去动作,避免模式崩溃。
5. 可控注视引导机制
为实现可调节的眼神接触强度,论文引入基于分类器无关引导(classifier-free guidance)的注视分数:
- 注视分数定义:
g = d_x · d_y
其中 d_x = (h_f - h_b) / (|h_f - h_b|) 为代理面向方向, d_y = (p_y - h_b) / (|p_y - h_b|) 为指向用户的方向。 g to 1 表示直接注视, g to -1 表示完全回避。 - 训练:将每帧注视分数 g ∈ R^(T × 1) 与条件 c 拼接,以5%概率进行classifier-free dropout。
- 推理:用户指定目标注视分数,通过引导强度调节代理朝向。该机制温和地引导输出朝向期望注视范围,同时保留自然的回避变化,生成逼真且多样的动作。
6. 训练与部署
- 数据集:采用Embody 3D数据集(首个捕捉动态空间交互中真实空间关系学的大型多视角数据集)。
- 实时性能:模型以超过300 FPS的速度运行(经优化可达600 FPS),支持在VR头显上进行60 FPS的流式传输,采用分块生成(每块 s=4 帧)和中点求解器(4次迭代)。
Q: 论文做了哪些实验?
论文在第4节进行了系统的实验评估,涵盖定量对比、消融研究、注视控制分析及实时部署验证。实验基于Embody 3D数据集(约50小时动态空间交互双人对话),以30 FPS采样,序列长度 T=400 帧。
1. 评估指标
实验沿五个维度评估运动质量:
- FGD(Fréchet Gesture Distance):基于网格顶点位置的Fréchet距离,衡量生成分布与真实分布的相似性(↓越低越好)
- FGDacc:基于加速度的FGD,评估运动平滑度与动态(↓越低越好)
- Foot Slide:脚部贴近地面(<5cm)却水平移动(>3cm/s)的帧占比,衡量脚滑伪影(↓越低越好)
- Wrist Var:手腕平均速度,衡量手势表现力(↑越高越好)
- Head Ang.:代理面向方向与指向用户向量的平均点积,量化注视对齐( 1 为正对用户, -1 为完全背对,↑越高越好)
此外,按**说话(S)与非说话(NS)**场景分别报告指标,以分析对话语境差异。
2. 与基线方法的定量比较(Table 1)
论文重新训练了以下基线方法以确保公平对比:
| 方法类别 | 具体方法 | 因果性 | 实时性 | 关键缺陷 |
|---|---|---|---|---|
| 检索基线 | Random | ✗ | ✓ | 注视对齐灾难性(0.28),无视用户位置 |
| NN(最近邻) | ✗ | ✓ | 注视对齐不足(0.59),手腕方差过低(97.0 vs GT 137.6) | |
| 生成基线 | MDM [Tevet et al. 2022] | ✗ | ✗ (90 FPS) | 过度平滑,手腕方差仅GT的45%,脚滑严重(0.11) |
| A2P [Ng et al. 2024] | ✗ | ✗ (90 FPS) | VQ关键帧时序滞后,导致手势减弱、注视偏移(0.71) | |
| SHOW [Yi et al. 2023] | ✓ | ✓ (230 FPS) | 脚滑严重(0.27,为本方法27倍),缺乏空间感知(注视0.61) |
**本方法(Ours)**在所有指标上达到最优平衡:
- 分布质量:FGD(1.28)优于所有生成基线(MDM: 3.48, A2P: 2.01, SHOW: 1.99)
- 物理合理性:脚滑(0.01)与真实数据(GT: 0.01)持平,显著优于SHOW(0.27)
- 表现力:手腕方差(105.0)接近GT(137.6),高于所有基线
- 空间感知:注视对齐(0.83)超过所有基线,甚至优于非因果的MDM(0.81),证明无需未来信息即可学习反应式空间行为
3. 消融研究(Table 1)
为验证关键设计选择,论文进行了两项消融:
- Ours in Joint Space (IK):将欧几里得表示替换为传统关节角度表示,通过逆运动学恢复网格。
- 结果:注视对齐下降至0.72(-0.11),脚滑增加至0.03,手腕方差降至87.1(-17.9),验证了关节角度歧义性对末端执行器精度的负面影响。
- Ours w/o VAE:移除因果VAE,直接从Transformer预测欧几里得位置。
- 结果:FGD显著上升至1.95(+0.67),推理速度降至150 FPS(-50%),证明VAE对捕捉运动流形分布及计算效率的关键作用;物理指标(脚滑、手腕方差)保持稳定,表明欧几里得表示本身已能约束物理合理性。
4. 注视控制实验(Table 2 & Figure 5)
通过调节注视引导参数 g 评估可控性:
| g 值 | 注视对齐 | FGD | 运动特性 |
|---|---|---|---|
| ∅ (无引导) | 0.83 | 1.28 | 遵循训练数据分布,自然变化 |
| 0.0 | 0.56 | 0.99 | 显著回避用户,但仍符合自然分布 |
| 0.8 | 0.76 | 0.92 | 接近GT水平(0.81),运动质量最佳 |
| 1.0 | 0.96 | 1.49 | 强制注视用户,牺牲部分自然变化 |
结果表明:
- 注视分数与头部对齐度呈单调关系( g=1.0 时达0.96)
- 适度引导( g=0.8 )反而降低FGD(0.92),表明空间约束可改善整体运动质量
- 完全回避( g=0.0 )时对齐度不为 -1 ,因训练数据中完全回避罕见
5. 实时性能验证
- 推理速度:本方法达300 FPS(优化后可达600 FPS),是非因果基线(MDM/A2P: 90 FPS)的3倍以上,满足VR头显60 FPS流式传输需求(每块生成8帧,使用4步中点求解器)。
- 实际部署:在VR系统中实时运行(Figure 6),结合ChatGPT对话生成与Kyutai语音合成,验证了对用户头部轨迹的实时反应能力及不同情感语境(压力、兴奋、愤怒)下的动作适应性。
Q: 有什么可以进一步探索的点?
根据论文结论部分及技术细节,以下是可以进一步探索的研究方向:
1. 训练数据偏差与泛化能力
当前方法继承了训练数据的分布偏差。对于在数据集中未充分表示的空间配置或注视行为(如极端近距或远距交互、特定文化背景下的回避性注视),模型可能泛化不佳。未来工作可通过:
- 收集更多样化的空间交互数据(涵盖不同文化背景、社交关系、环境布局)
- 引入领域自适应或数据增强技术,提升对罕见空间配置的鲁棒性
2. 扩展可控行为维度
目前仅实现了注视强度的可控调节,但其他关键行为维度尚不可控:
- 手势风格:允许用户指定手势的夸张程度、能量水平或特定文化手势
- 行走模式:控制代理的接近/后退速度、个人空间保持策略
- 情感表达:虽然模型能隐式生成不同情感状态的动作(如压力、兴奋),但缺乏显式的情感强度控制参数
3. 多方对话(Multi-party Conversations)扩展
当前架构针对**双人(dyadic)**交互设计。扩展至三人及以上对话需要:
- 架构修改以处理可变数量的交互者(如引入图注意力机制或集合型 conditioning)
- 解决多目标注视分配问题(agent需在多个说话者间分配注意力)
- 建模更复杂的群体空间动力学(F-formation formations)
4. 更丰富的用户状态建模
当前仅利用用户的地板投影头部位置( p_y ),忽略了其他重要的非语言信号:
- 用户姿态与手势:纳入用户全身姿态可作为更强的社交信号先验
- 用户注视方向:双向注视建模(mutual gaze)而非仅agent对用户的单向注视
- 生理信号:如心率、语音语调变化等,用于推断用户参与度或舒适度
5. 物理交互与场景感知
当前方法专注于社交空间感知(proxemics),但未涉及:
- 物理环境交互:避让障碍物、坐下、拾取物品等与场景的交互
- 物理接触:握手、拍肩等需要精确接触检测与物理仿真的交互
- 地面不平整处理:当前假设平坦地面,未来可扩展至复杂地形适应
6. 跨文化个性化
论文指出注视偏好因文化规范而异(如某些文化中直接注视被视为冒犯)。未来可探索:
- 文化特定的注视行为模型
- 在线适应机制,使agent能从用户反馈中学习个人空间偏好
7. 计算效率与模型压缩
虽然已实现300+ FPS,但针对资源受限的移动端VR设备,可进一步探索:
- 模型蒸馏:将流匹配模型压缩为更轻量的学生网络
- 量化与剪枝:降低显存占用与计算延迟
- 自适应计算:根据交互复杂度动态调整模型深度(如平静对话使用浅层网络)
Q: 总结一下论文的主要内容
这篇论文提出了 SARAH(Spatially Aware Real-time Agentic Humans),首个能够实时生成空间感知对话动作的虚拟代理系统。以下是核心内容的系统总结:
1. 核心问题与目标
针对VR、远程临场和数字人应用,论文解决了实时空间感知对话动作生成这一开放挑战。理想代理需同时满足四项严格标准:
- 对话适当性:手势与语音内容自然对齐;
- 空间感知性:根据用户的3D位置、移动动态调整朝向与姿态(空间关系学,proxemics);
- 可控性:允许用户实时调节眼神接触强度,以适应不同文化背景与个人偏好;
- 实时因果性:必须基于流式历史信息生成(不可访问未来帧),并在VR头显上实时运行(>300 FPS)。
现有方法通常只满足其中部分标准(如仅单主体生成、非因果扩散模型、或缺乏空间感知),而SARAH首次实现了四者的统一。
2. 方法论
论文提出了一套因果、轻量化的生成架构,核心包含三个技术组件:
(1)欧几里得动作表示 摒弃传统的关节旋转参数(易产生歧义与误差累积),将每个关节表示为3D二十面体,通过顶点质心直接编码世界空间位置 Pi_j ,并通过SVD分解恢复朝向 Omega_j 。该表示直接约束末端执行器位置,消除了逆运动学(IK)的模糊性,显著提升了训练稳定性与物理合理性。
(2)因果Transformer-based VAE 为实现流式推理,设计了一种交错潜在token架构:
- 编码器以固定时间步长 s 将运动序列分块,每块后插入潜在变量 (μ_k, σ_k) ;
- 采用严格的因果自注意力:每帧仅关注过去帧,每个潜在token仅关注先前帧及更早潜在token;
- 通过KL散度与重构损失训练,将高维运动压缩为潜在序列 z ∈ R^(K × D_z) ,支持块级自回归生成。
(3)流匹配生成模型 在潜在空间采用单步流匹配(flow matching)模型:
- 通过Transformer预测速度场 vθ(zτ, τ, c) ,将高斯噪声 ε 传输至目标潜在 z ;
- 条件 c 包含用户地板投影位置 p_y 、双人HuBERT音频特征 (a,b) ;
- 采用**隐式填充(imputation)**技术:在推理时,将已生成的历史潜在替换为对应噪声值,而非显式条件于过去动作,从而在保持时间一致性的同时避免模式崩溃。
(4)可控注视引导 引入基于**分类器无关引导(classifier-free guidance)**的注视控制机制:
- 定义注视分数 g = d_x · d_y (代理面向方向与指向用户方向的点积,$
-1, 1
$范围); - 训练时以5%概率dropout该分数,推理时通过调节目标 g 值,温和地引导生成结果朝向期望的注视强度(从完全回避到持续注视),同时保留自然动作变化。
3. 实验与结果
在Embody 3D数据集(首个捕捉动态空间交互的大规模双人对话数据集)上,论文进行了全面评估:
定量性能(对比基线):
- 运动质量:在FGD(Fréchet Gesture Distance)上达到1.28,显著优于非实时扩散基线MDM(3.48)和A2P(2.01),以及实时基线SHOW(1.99)。
- 物理合理性:脚滑(Foot Slide)率仅为0.01(与真实数据持平),而SHOW为0.27。
- 空间感知:注视对齐度(Head Ang.)达0.83,超过所有基线(包括非因果的MDM 0.81),证明无需未来信息即可学习反应式空间行为。
- 推理速度:超过300 FPS(优化后可达600 FPS),是基线(90 FPS)的3倍以上,支持在VR头显上以60 FPS进行流式传输。
消融研究:
- 移除欧几里得表示(改用关节角度+IK)导致注视对齐下降0.11,脚滑增加,手势表现力降低;
- 移除VAE直接预测运动导致FGD显著恶化(1.95)且速度减半,验证了潜在空间压缩的必要性。
注视控制验证: 通过调节引导参数 g ,可实现注视对齐度从0.56( g=0 )到0.96( g=1.0 )的连续调节。适度引导( g=0.8 )甚至能改善运动质量(FGD降至0.92)。
实时部署: 在真实VR系统中验证,结合LLM对话生成与TTS语音合成,代理能实时响应用户移动,并生成适应不同情感语境(压力、兴奋、愤怒)的自然动作。
4. 局限与未来方向
- 数据偏差:罕见空间配置或文化特定的注视行为可能泛化不足;
- 可控性扩展:当前仅控制注视,未来可扩展至手势风格、行走模式等;
- 多方交互:架构需修改以支持三人及以上对话;
- 环境交互:当前未建模物理场景交互(如避障、物体操作)。
总结:SARAH通过解耦学习(从数据捕捉自然分布)与控制(通过引导机制调节),首次实现了在VR环境中部署的实时、因果、空间感知且可控的对话代理,为沉浸式人机交互设立了新的技术标杆。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Evonne Ng,Siwei Zhang,Zhang Chen,Michael Zollhoefer,Alexander Richard
Categories: cs.CV
PDF URL: https://arxiv.org/pdf/2602.18432.pdf
Arxiv URL: https://arxiv.org/abs/2602.18432
Arxiv ID: 2602.18432
CoolPaper URL: https://papers.cool/arxiv/2602.18432
Published: 2026-02-20T18:59:35Z
Updated: 2026-02-20T18:59:35.000Z
8. VidEoMT: Your ViT is Secretly Also a Video Segmentation Model
Existing online video segmentation models typically combine a per-frame segmenter with complex specialized tracking modules. While effective, these modules introduce significant architectural complexity and computational overhead. Recent studies suggest that plain Vision Transformer (ViT) encoders, when scaled with sufficient capacity and large-scale pre-training, can conduct accurate image segmentation without requiring specialized modules. Motivated by this observation, we propose the Video Encoder-only Mask Transformer (VidEoMT), a simple encoder-only video segmentation model that eliminates the need for dedicated tracking modules. To enable temporal modeling in an encoder-only ViT, VidEoMT introduces a lightweight query propagation mechanism that carries information across frames by reusing queries from the previous frame. To balance this with adaptability to new content, it employs a query fusion strategy that combines the propagated queries with a set of temporally-agnostic learned queries. As a result, VidEoMT attains the benefits of a tracker without added complexity, achieving competitive accuracy while being 5x—10x faster, running at up to 160 FPS with a ViT-L backbone. Code: https://www.tue-mps.org/videomt/
中文摘要
现有的在线视频分割模型通常将逐帧分割器与复杂的专用跟踪模块相结合。尽管有效,这些模块会引入显著的架构复杂性和计算开销。近期研究表明,普通的视觉变换器(ViT)编码器,在具备足够容量和大规模预训练的情况下,可以无需专用模块即可进行准确的图像分割。受此观察的启发,我们提出了仅编码器的视频掩码变换器(VidEoMT),这是一种简单的仅编码器视频分割模型,无需专门的跟踪模块。为了在仅编码器的 ViT 中实现时间建模,VidEoMT 引入了一种轻量级查询传播机制,通过重用前一帧的查询在帧间传递信息。为了在此基础上保持对新内容的适应性,它采用了一种查询融合策略,将传播的查询与一组时间无关的学习查询相结合。因此,VidEoMT 在不增加复杂性的情况下实现了跟踪器的优势,在维持竞争准确性的同时速度提升 5 到 10 倍,在 ViT-L 主干下最高可达 160 FPS。代码:https://www.tue-mps.org/videomt/
LLM Analysis
Q: 这篇论文试图解决什么问题?
该论文试图解决现有在线视频分割模型中架构复杂度过高与计算开销过大的问题,同时探索在视频分割任务中减少对专用组件依赖的可能性。具体而言,其针对的核心问题包括:
- 专用跟踪模块的复杂性与开销:现有最先进的方法通常采用”分割器+跟踪器”的解耦范式,其中包含大量手工设计的专用组件(如ViT-Adapter、像素解码器、Transformer解码器、上下文感知特征模块、重识别层等),这些组件显著增加了模型的参数量、计算复杂度(FLOPs)和推理延迟。
视频分割任务的效率瓶颈:当前方法在追求高精度的同时,推理速度往往较低(如CAVIS仅15 FPS),难以满足实时应用需求,且复杂的模块化设计阻碍了硬件和软件层面的优化。
大规模预训练ViT的潜力未被充分挖掘:论文假设并验证了一个核心观点——经过大规模预训练的Vision Transformer(ViT)本身就具备同时处理分割和时间关联的能力,无需额外的复杂跟踪模块。
为解决上述问题,论文提出了Video Encoder-only Mask Transformer (VidEoMT),通过以下关键设计实现突破:
- 统一编码器架构:摒弃传统的分割器-跟踪器分离设计,将分割与时间关联统一在单个ViT编码器内完成。
- 轻量级查询传播:通过简单的查询传播机制(Query Propagation)在帧间传递对象级信息,实现时间连续性。
- 查询融合策略:结合传播查询与可学习查询(Query Fusion),在保持时间一致性的同时保持对新出现对象的检测能力。
最终,VidEoMT在保持与最先进方法相当精度的同时,实现了5倍至10倍的加速(ViT-L骨干网络下可达160 FPS),证明了简化架构与利用强大视觉基础模型(VFMs)预训练优势的有效性。
Q: 有哪些相关研究?
根据论文第2节”Related Work”的论述,相关研究主要涵盖以下两个领域:
图像分割(Image Segmentation)
该领域的研究演进为视频分割方法奠定了基础,主要发展脉络包括:
- 逐像素分类方法:早期工作将图像分割视为逐像素分类问题,为每个像素预测类别标签(如DeepLab系列、FCN等)。
- 掩码分类方法:后续研究转向掩码分类范式,通过Mask Transformer架构,利用骨干网络特征和可学习查询(learnable queries)为每个对象预测分割掩码和类别标签。这类方法通常包含复杂的解码器结构(如Mask2Former、OneFormer、MaX-DeepLab等)。
- 编码器极简方法:EoMT(Encoder-only Mask Transformer)的最新研究表明,无需专用解码器或任务特定组件,仅通过在大型预训练ViT的深层注入少量可学习查询,即可实现高精度图像分割,这为视频分割的架构简化提供了重要启示。
视频分割(Video Segmentation)
该论文关注的视频分割涵盖三个主要子任务:视频实例分割(VIS)、视频全景分割(VPS)和视频语义分割(VSS)。相关研究进展包括:
- 基于Mask Transformer的扩展:当前最先进的方法普遍采用Mask Transformer架构(如MinVIS、DVIS系列、CAVIS、Video-kMaX等),通过引入专用跟踪组件或增强时间表示,将图像分割方法扩展到视频领域。
解耦范式(Decoupled Paradigm):近期通用模型(如DVIS++、CAVIS、DVIS-DAQ)遵循”分割器-跟踪器”分离的设计范式:
分割器:负责每帧的掩码预测和类别分类
- 跟踪器:通过跨帧关联对象查询(query embeddings)确保时序一致性,通常包含跨注意力、自注意力和前馈网络的Transformer模块
- 专用组件的叠加:为提升精度,现有方法引入了大量手工设计的组件,包括:
- ViT-Adapter:为ViT编码器提供多尺度特征
- 上下文感知特征(Context-Aware Features):通过拉普拉斯滤波提取边界信息以稳定预测
- 重识别层(Re-identification Layers):结合对比学习目标增强实例判别能力
- 视觉基础模型(Vision Foundation Models):近期研究广泛采用DINOv2、DINOv3、EVA-02等大规模预训练ViT作为骨干网络,但这些模型通常被扩展以配合上述复杂专用组件,而非直接利用其固有能力进行时序建模。
Q: 论文如何解决这个问题?
论文通过提出 Video Encoder-only Mask Transformer (VidEoMT) 架构,采用”逐步简化+关键增强”的策略解决该问题,具体方法如下:
1. 架构简化:消除专用组件
通过逐步移除现有最先进方法(如CAVIS)中的复杂模块,验证大规模预训练ViT的自主能力:
- 替换分割器:将原有的ViT-Adapter + Mask2Former解码器组合替换为 EoMT(Encoder-only Mask Transformer),直接将可学习查询注入ViT编码器的最后 L_2 层(通常为4层),消除像素解码器和Transformer解码器的计算开销。
移除上下文感知特征(Context-Aware Features):舍弃基于拉普拉斯滤波器和高分辨率特征卷积的边界信息提取模块,依赖预训练ViT本身细粒度的特征表示能力来应对外观变化和遮挡。
去除重识别层(Re-identification Layers):删除用于对比学习的3层MLP及相应的内存密集型损失函数,利用ViT编码器已具备的实例级判别能力。
- 摒弃显式跟踪器:完全移除由跨注意力、自注意力和前馈网络组成的专用跟踪模块,将参数量从358M降低至316M,FLOPs从838G降至565G。
2. 时序建模:查询传播与融合
在纯编码器框架内重新引入时序一致性机制,避免传统跟踪器的复杂计算:
查询传播(Query Propagation)
对于初始帧 t=0 ,使用标准可学习查询 Q(lrn) 输入ViT最后 L_2 层;对于后续帧 t>0 ,直接复用上一帧的输出查询 Q(t-1)^(S) 作为当前帧的输入,实现跨帧信息传递:
Q(t)^(∈put) = Q(t-1)^(S)
查询融合(Query Fusion)
为解决纯传播导致的新对象检测能力下降问题,设计轻量级融合策略。将传播查询经线性变换后与可学习查询逐元素相加:
Q(t)^(F) = Linear(Q(t-1)^(S)) + Q_(lrn)
该机制确保模型同时获得:
- 时序连续性:通过 Q_(t-1)^(S) 保持对象身份一致性
- 新对象适应性:通过 Q_(lrn) 保留检测新出现对象的能力
3. 训练策略
采用两阶段训练方案确保时序一致性:
- 阶段一(图像分割预训练):在COCO实例分割和目标视频数据集上训练,仅使用单帧监督,不施加时序约束。
- 阶段二(视频微调):引入时序建模,采用 DVIS++ 的ground-truth匹配策略:对象仅在首次出现的帧中与查询匹配,后续帧保持该匹配关系,确保查询索引的时序一致性。
损失函数采用与Mask2Former相同的组合:
L(total) = λ(bce)L(bce) + λ(dice)L(dice) + λ(ce)L(ce)
其中 λ(bce) = 5.0 , λ(dice) = 5.0 , λ(ce) = 2.0 。
4. 硬件友好设计
VidEoMT几乎完全由标准ViT块组成,避免了专用模块(如ViT-Adapter、复杂解码器)带来的硬件效率瓶颈。这种”纯Transformer”结构能够充分利用:
- FlashAttention v2等注意力优化技术
- torch.compile等图编译加速
- 混合精度训练
最终实现 10倍以上的推理速度提升(从CAVIS的15 FPS提升至160 FPS,ViT-L骨干网络),同时保持可比的精度(AP 68.6 vs 68.9)。
Q: 论文做了哪些实验?
论文进行了系统性的实验验证,涵盖逐步消融实验、跨基准对比、架构替代方案分析以及预训练与模型规模的影响研究。以下是详细实验内容:
1. 数据集与评估指标
实验在六个主流视频分割基准上进行:
- 视频实例分割(VIS):YouTube-VIS 2019/2021/2022、OVIS
- 视频全景分割(VPS):VIPSeg
- 视频语义分割(VSS):VSPW
评估指标包括:
- VIS:平均精度(AP)、平均召回率(AR)
- VPS:视频全景质量(VPQ)、分割与跟踪质量(STQ)
- VSS:平均交并比(mIoU)、视频一致性(mVC)
2. 从CAVIS到VidEoMT的逐步转换实验(Table 1)
通过逐步移除CAVIS的专用模块,验证简化架构的有效性:
| 步骤 | 操作 | AP | 参数 | GFLOPs | FPS |
|---|---|---|---|---|---|
| (0) | CAVIS基线 | 68.9 | 358M | 838 | 15 |
| (1) | 替换分割器为EoMT | 68.1 | 328M | 699 | 42 |
| (2) | 移除上下文感知特征 | 68.4 | 327M | 581 | 72 |
| (3) | 移除重识别层 | 68.0 | 326M | 580 | 74 |
| (4) | 移除跟踪器(纯EoMT) | 61.3 | 316M | 565 | 162 |
| (5) | 添加查询传播 | 63.9 | 316M | 565 | 162 |
| (6) | 添加查询融合(VidEoMT) | 68.6 | 318M | 566 | 160 |
关键发现:专用模块移除后精度基本保持(步骤1-3),但纯EoMT因缺乏时序建模导致精度下降7.6 AP(步骤4);查询传播恢复部分精度(步骤5),查询融合完全恢复精度(步骤6),最终实现10倍加速(160 vs 15 FPS)。
3. 与最先进方法的对比实验
视频实例分割(Tables 2-3)
在YouTube-VIS和OVIS上与以下方法对比:
- 基线方法:MinVIS、DVIS、DVIS++
- 当前最优:CAVIS、DVIS-DAQ
结果:VidEoMT(ViT-L)在YouTube-VIS 2019达到68.6 AP(对比CAVIS的68.9 AP),速度为160 FPS(对比CAVIS的15 FPS和DVIS-DAQ的10 FPS)。在更具挑战性的OVIS数据集上,VidEoMT达到52.5 AP,速度115 FPS,显著优于DVIS++(49.6 AP,17 FPS)。
视频全景分割(Table 4)
在VIPSeg上的对比:
- VidEoMT获得55.2 VPQ,速度75 FPS
- 对比CAVIS(56.9 VPQ,10 FPS)和DVIS-DAQ(57.4 VPQ,4 FPS)
- 精度损失仅1.7-2.2 VPQ,速度提升7-19倍
视频语义分割(Table 5)
在VSPW上的对比:
- VidEoMT达到64.9 mIoU和95.0 mVC16,优于DVIS++(62.8 mIoU,94.2 mVC16)
- 速度为73 FPS,是DVIS++(13 FPS)的5倍以上
4. 架构设计的替代方案分析
EoMT作为分割器的组合实验(Table 6)
验证”编码器统一设计”优于”简单组合现有模块”:
- EoMT + CAVIS跟踪器:68.1 AP,42 FPS
- EoMT + DVIS++跟踪器:67.0 AP,69 FPS
- EoMT + DVIS-DAQ跟踪器:67.3 AP,28 FPS
- VidEoMT(统一设计):68.6 AP,160 FPS
结论:统一编码器设计不仅更快,精度也优于简单组合方案。
查询传播位置对比(Table 7)
验证在编码器内进行时序建模的优势:
- ViT-Adapter + Mask2Former解码器 + TrackFormer:67.8 AP,22 FPS
- ViT-Adapter + Mask2Former解码器 + 查询融合:68.0 AP,32 FPS
- VidEoMT(编码器内查询融合):68.6 AP,160 FPS
结论:编码器-only设计速度提升5-7倍,同时保持更高精度。
5. 预训练与模型规模的影响研究
预训练强度对比(Table 8)
验证大规模预训练对简化架构的必要性:
| 预训练模型 | CAVIS AP | VidEoMT AP | 差距 |
|---|---|---|---|
| DINOv3 | 68.8 | 68.9 | +0.1 |
| DINOv2 | 68.9 | 68.6 | -0.3 |
| EVA-02 | 68.0 | 67.8 | -0.2 |
| IN21K | 62.2 | 60.8 | -1.4 |
| IN1K | 59.4 | 56.7 | -2.7 |
结论:随着预训练规模减小,VidEoMT与CAVIS的性能差距增大,证明大规模预训练是消除专用组件的前提。
模型规模对比(Table 9)
测试ViT-S、ViT-B、ViT-L三种骨干:
- ViT-L:CAVIS 68.9 vs VidEoMT 68.6(差距-0.3),速度160 vs 15 FPS
- ViT-B:CAVIS 59.5 vs VidEoMT 58.2(差距-1.3),速度251 vs 18 FPS
- ViT-S:CAVIS 55.5 vs VidEoMT 52.8(差距-2.7),速度294 vs 19 FPS
关键发现:模型越大,VidEoMT与复杂方法的精度差距越小;即使使用小模型,VidEoMT仍保持数量级速度优势。
6. 附录中的补充实验
查询传播策略对比(Table A)
在YouTube-VIS 2019上测试不同传播策略:
- 无传播:61.3 AP
- 仅传播:63.9 AP(无法检测新对象)
- 非对象重置:67.8 AP(传播未检测到对象的查询重置)
- TrackFormer方法:67.7 AP,117 FPS(需NMS过滤)
- 查询融合(VidEoMT):68.6 AP,160 FPS
不同骨干下的完整对比(Table B)
补充EoMT+CAVIS组合在不同骨干下的表现,进一步证明VidEoMT在精度-效率权衡上的一致性优势。
定性结果可视化(Figures B-D)
在YouTube-VIS 2019、OVIS、VIPSeg上展示CAVIS与VidEoMT的预测对比,验证在复杂场景(遮挡、快速运动)下VidEoMT仍能保持竞争力。
Q: 有什么可以进一步探索的点?
基于论文的发现与局限性,以下几个方向值得进一步探索:
1. 长视频与复杂时序依赖建模
当前VidEoMT仅通过单帧查询传播( t-1 to t )实现时序关联,在长视频或复杂遮挡场景下可能存在误差累积风险。可探索:
- 长程记忆机制:在不引入复杂解码器的前提下,探索轻量级记忆库(memory bank)或压缩历史查询特征,支持参考多帧前信息而非仅前一帧
- 自适应时间窗口:根据场景动态(如相机运动速度、对象遮挡频率)调整传播策略,而非固定单步传播
- 双向传播:在离线视频分割场景下,探索双向查询传播(前向+后向)以提升时序一致性
2. 面向视频分割的专门预训练
论文验证了DINOv2等图像预训练的有效性,但视频特定的预训练目标可能进一步释放潜力:
- 时序一致性预训练:采用视频对比学习(如VideoMAE、TimeSformer风格)预训练ViT,使编码器固有特征天然具备更强的跨帧判别能力
- 掩码视频建模(Masked Video Modeling):在预训练阶段引入时空掩码预测任务,增强对运动物体和遮挡模式的理解
- 跨模态预训练:结合CLIP等文本-视频对齐预训练,探索VidEoMT在开放词汇(Open-Vocabulary)视频分割中的扩展
3. 极端效率场景下的优化
尽管VidEoMT已大幅提升速度,但在边缘计算和移动设备部署方面仍有空间:
- 微型骨干网络适配:针对ViT-S/Tiny甚至更小的MobileViT,研究特定的查询融合策略弥补模型容量不足(论文显示ViT-S下差距较大)
- 动态查询数量:根据场景复杂度动态调整查询数量 N ,而非固定200个查询,减少简单场景的计算冗余
- 硬件协同设计:结合神经架构搜索(NAS)或混合精度量化,针对特定硬件(如NPU、移动端GPU)优化查询传播的内存访问模式
4. 更细粒度的时序对齐机制
当前查询融合采用简单的线性变换+逐元素相加( Q(t)^(F) = Linear(Q(t-1)^(S)) + Q_(lrn) ),可探索:
- 注意力驱动的融合:使用轻量级交叉注意力替代线性层,让可学习查询自适应地关注传播查询中的相关信息
- 几何对齐:结合光流或变形注意力(deformable attention)对齐传播查询与当前帧特征空间,处理快速运动导致的特征错位
- 不确定性建模:为传播查询引入不确定性估计,在高不确定性时自动增加可学习查询的权重
5. 多任务统一与扩展
VidEoMT的编码器-only范式可延伸至更广泛的视频理解任务:
- 视频全景分割的统一查询:当前分别处理实例与语义,可探索共享查询同时处理thing和stuff类,简化VPS任务流程
- 视频目标检测与跟踪(MOT):将掩码预测分支替换为边界框回归,验证该架构在MOT任务中的有效性
- 交互式视频分割:引入用户点击/涂鸦作为条件查询,探索VidEoMT在交互式场景下的扩展性
6. 可解释性与理论分析
- 注意力可视化:深入分析ViT在查询传播过程中的跨帧注意力模式,理解模型如何隐式实现”跟踪”功能
- 查询空间演化:追踪特定对象查询在时序传播中的特征空间轨迹,分析其与专用跟踪器(如ReID嵌入)的本质差异
- 误差传播分析:量化查询传播过程中身份切换(ID switch)的发生机制,指导更鲁棒的融合策略设计
7. 鲁棒性增强
- 遮挡处理机制:当前方法在重度遮挡(如OVIS数据集)下仍有差距,可探索显式的遮挡状态预测或短时记忆机制
- 相机运动适应性:针对快速相机运动(如无人机、手持设备)导致的视角剧变,研究基于极线几何或运动补偿的查询对齐
这些方向既可保持VidEoMT”简洁高效”的核心优势,又能针对性解决其在长视频、小模型、极端场景下的潜在局限。
Q: 总结一下论文的主要内容
这篇论文提出了 VidEoMT(Video Encoder-only Mask Transformer),一种极简且高效的在线视频分割架构,核心贡献在于证明大规模预训练的 Vision Transformer(ViT)无需专用跟踪模块即可同时完成分割与时序关联任务。
核心问题
现有最先进的视频分割模型(如 CAVIS、DVIS++)普遍采用”分割器+跟踪器”的复杂解耦设计,包含 ViT-Adapter、像素解码器、重识别层、上下文感知特征等众多专用组件,导致参数量大(>350M)、计算冗余(800 GFLOPs)、推理速度慢(15 FPS),且难以利用硬件优化。
核心方法
VidEoMT 采用纯编码器架构,通过两个轻量级机制在单帧 ViT 内实现时序建模:
查询传播(Query Propagation):将上一帧的输出查询直接作为当前帧的输入,替代传统的可学习查询,实现跨帧信息传递:
Q(t)^(∈put) = Q(t-1)^(S)查询融合(Query Fusion):通过线性变换将传播查询与可学习查询逐元素相加,平衡时序一致性与新对象检测能力:
Q(t)^(F) = Linear(Q(t-1)^(S)) + Q_(lrn)
通过逐步消融实验,论文首先将 CAVIS 的复杂组件(Adapter、解码器、上下文特征、重识别层、跟踪器)全部移除,仅用 EoMT 进行逐帧分割(速度提升 10 倍但精度下降 7.6 AP),随后通过上述两种机制恢复精度,最终得到 VidEoMT。
主要实验结果
在六个主流基准(YouTube-VIS、OVIS、VIPSeg、VSPW)上的实验表明:
- 效率飞跃:使用 ViT-L 骨干时,VidEoMT 在 YouTube-VIS 2019 上达到 160 FPS,相比 CAVIS(15 FPS)和 DVIS-DAQ(10 FPS)实现 10 倍以上加速,且参数量和 FLOPs 显著降低(318M/566G vs 358M/838G)。
精度保持:VidEoMT 在 YouTube-VIS 2019 上取得 68.6 AP(对比 CAVIS 的 68.9 AP),在 YouTube-VIS 2022(42.6 AP)和 VSPW(64.9 mIoU)上甚至超越现有最优方法,证明简化架构不损失精度。
预训练与规模的必要性:实验验证了大规模预训练(DINOv2、DINOv3、EVA-02)是消除专用组件的前提;模型越大(ViT-L),VidEoMT 与复杂方法的差距越小。
核心结论
论文验证了**“你的 ViT secretly 也是视频分割模型”**这一假设:经过大规模预训练的 ViT 编码器本身就具备实例判别和时序关联能力,无需手工设计的跟踪模块。VidEoMT 通过极简的编码器-only 设计,实现了视频分割任务中精度与效率的最佳平衡,为实时视频理解应用提供了新的架构范式。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Narges Norouzi,Idil Esen Zulfikar,Niccol`o Cavagnero,Tommie Kerssies,Bastian Leibe,Gijs Dubbelman,Daan de Geus
Categories: cs.CV
PDF URL: https://arxiv.org/pdf/2602.17807.pdf
Arxiv URL: https://arxiv.org/abs/2602.17807
Arxiv ID: 2602.17807
CoolPaper URL: https://papers.cool/arxiv/2602.17807
Published: 2026-02-19T20:14:14Z
Updated: 2026-02-19T20:14:14.000Z
9. DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning
Reinforcement Learning with Verifiable Rewards (RLVR) has been shown effective in enhancing the visual reflection and reasoning capabilities of Large Multimodal Models (LMMs). However, existing datasets are predominantly derived from either small-scale manual construction or recombination of prior resources, which limits data diversity and coverage, thereby constraining further gains in model performance. To this end, we introduce \textbf{DeepVision-103K}, a comprehensive dataset for RLVR training that covers diverse K12 mathematical topics, extensive knowledge points, and rich visual elements. Models trained on DeepVision achieve strong performance on multimodal mathematical benchmarks, and generalize effectively to general multimodal reasoning tasks. Further analysis reveals enhanced visual perception, reflection and reasoning capabilities in trained models, validating DeepVision’s effectiveness for advancing multimodal reasoning. Data: \href{https://huggingface.co/datasets/skylenage/DeepVision-103K}{this url}.
中文摘要
可验证奖励的强化学习(RLVR)已被证明能够有效增强大型多模态模型(LMM)的视觉反思和推理能力。然而,现有的数据集主要来源于小规模的手工构建或对已有资源的重组,这限制了数据的多样性和覆盖范围,从而制约了模型性能的进一步提升。为此,我们推出了\textbf{DeepVision-103K},这是一个用于RLVR训练的综合性数据集,涵盖了多样的K12数学主题、丰富的知识点以及丰富的视觉元素。在DeepVision上训练的模型在多模态数学基准测试中表现出色,并能够有效地推广到一般的多模态推理任务。进一步分析显示,训练后的模型在视觉感知、反思和推理能力方面得到了增强,从而验证了DeepVision在推进多模态推理方面的有效性。数据:\href{https://huggingface.co/datasets/skylenage/DeepVision-103K}{该链接}。
LLM Analysis
Q: 这篇论文试图解决什么问题?
该论文旨在解决现有用于强化学习可验证奖励(RLVR)训练的多模态数学数据集在多样性、覆盖范围和可扩展性方面的局限性,这些局限性制约了大型多模态模型(LMMs)视觉反思与推理能力的进一步提升。
具体而言,论文识别了当前数据资源的三大关键缺陷:
1. 合成构建数据集的域限制 现有合成数据集(如基于GeoGebra构建)虽能提供几何图形、函数曲线等可构造类别的丰富数据,但缺乏真实世界数学场景,导致模型在泛化至一般任务时鲁棒性不足。
2. 人工标注K12数据集的可扩展性瓶颈 来源于真实教育场景的人工标注数据虽覆盖更广的类别,但依赖专家标注限制了规模扩展能力,难以满足大规模RLVR训练对数据量的需求。
3. 重组现有数据集的创新性缺失 通过对已有资源进行过滤或重组构建的数据集(如 filtration 或 recombination 方法)未产生新问题,导致不同数据集间存在重叠,且缺乏更广泛的数据分布。
为应对上述挑战,论文提出DeepVision-103K数据集,通过以下三个核心特性解决这些问题:
- 视觉多样性:涵盖几何、解析图、图表及真实世界物品等主要视觉类别,且每个类别包含比现有开源数据集更丰富的元素类型;
- 广泛覆盖:涵盖多样化的K12数学主题、广泛的知识点以及视觉逻辑问题(如迷宫、棋类、俄罗斯方块),联合增强数学与视觉逻辑推理能力;
- 自动数据整理流程:通过有效性过滤、通过率分层和正确性验证的三阶段流程,将多样化但 noisy 的真实世界K12问题转化为结构化且可验证的问答对,实现对齐模型能力的难度校准与可靠奖励信号构建。
通过解决数据层面的这些瓶颈,论文旨在为RLVR训练提供高质量、可验证且视觉丰富的训练资源,从而推动多模态推理能力的边界。
Q: 有哪些相关研究?
与该论文相关的研究主要涵盖强化学习基础方法、多模态RLVR扩展、数学推理数据集构建、视觉逻辑推理以及评估基准等几个方向,具体如下:
1. RLVR基础与多模态扩展
- DeepSeek-R1 (DeepSeek-AI et al., 2025) 与 OpenAI o-series (OpenAI et al., 2024):展示了通过可验证奖励强化学习(RLVR)激励LLMs分解问题与自我纠正的推理能力。
- 多模态RLVR实践:近期研究将RLVR范式扩展至LMMs,包括 VL-Rethinker (Wang et al., 2025a)、Visionary-R1 (Xia et al., 2025) 与 VisionThink (Yang et al., 2025a),均致力于增强视觉反思与推理能力。
2. 现有数学推理数据集(含局限性)
根据论文对现有数据缺陷的分类,相关数据集包括:
- 合成构建型:
- Inter-GPS (Lu et al., 2021):基于形式语言与符号推理的几何问题求解。
- WeMath 2.0/MathBook (Qiao et al., 2025):专业化工具生成的数学问题,但缺乏真实世界场景。
- 人工标注K12型:
- MM-Eureka (Meng et al., 2025):基于真实教育场景的人工标注数据,但可扩展性受限。
- CMM-Math (Liu et al., 2024):中文多模态数学数据集,用于评估数学推理能力。
- 重组过滤型:
- OpenMMReasoner (Zhang et al., 2025)、LMM-R1 (Peng et al., 2025)、R1-OneVision (Yang et al., 2025b)、Vision-g1 (Zha et al., 2025):通过对已有资源进行过滤或重组构建训练集,但未产生新问题,导致数据分布重叠。
3. 视觉逻辑与跨领域推理
- Zebra-CoT (Li et al., 2025):交错视觉-语言推理数据集,包含迷宫、棋盘等视觉逻辑问题。
- GameQA/Game-RL (Tong et al., 2025):多模态可验证游戏数据,用于增强通用推理能力。
- PuzzleVQA (Chia et al., 2024):通过抽象视觉模式诊断多模态推理挑战。
4. 数据筛选与难度校准方法
- DeepMath-103K (He et al., 2025):基于人类定义标准标注难度的大规模数学数据集。
- Qwen3-VL (Bai et al., 2025):采用基于模型rollout通过率(pass rate)的难度分层策略,与本文难度过滤方法直接相关。
- SimpleRL-Zoo (Zeng et al., 2025a) 与 CURES (Zeng et al., 2025b):探讨课程学习与难度分布在RLVR中的重要性。
5. 评估基准
- 多模态数学基准:WeMath (Qiao et al., 2024)、MathVision (Wang et al., 2024)、MathVerse (Zhang et al., 2024)。
- 视觉逻辑基准:LogicVista (Xiao et al., 2024)。
- 通用多模态基准:MMMU (Yue et al., 2024a,b)、M3CoT (Chen et al., 2024)。
- 文本数学竞赛:AIME 2025 (Zhang & Team Math-AI, 2025)、HMMT 2025 (Balunović et al., 2025)。
6. 训练与验证工具
- GSPO (Zheng et al., 2025):Group Sequence Policy Optimization,本文采用的RL训练算法。
- MathVerify (Kydlíček, 2025):用于答案正确性验证与pass rate计算的数学验证库。
7. 关于噪声奖励的争议性研究
- Reasoning or memorization? (Wu et al., 2025) 与 Spurious rewards (Shao et al., 2025):探讨RLVR在存在随机或错误奖励信号时的训练动态,与本文第三阶段(正确性验证)的必要性形成对话。
Q: 论文如何解决这个问题?
论文通过构建DeepVision-103K数据集并提出一套**自动数据整理流程(Automatic Data Curation Pipeline)**来解决现有RLVR训练数据在多样性、覆盖面和可验证性方面的局限。具体解决方案包含以下核心环节:
1. 数据集设计与覆盖策略
不同于依赖人工标注或简单重组现有资源,DeepVision-103K采用双域融合策略:
- 多模态数学域(77K):涵盖几何、代数、概率统计等K12数学主题,包含200+细粒度子主题和近400个知识点;
- 视觉逻辑域(26K):引入迷宫、棋类、俄罗斯方块等纯视觉逻辑问题,增强空间推理与模式识别能力。
该数据集覆盖6大视觉类别(平面几何、立体几何、解析图、数据图表、示意图、真实世界物品),并包含跨类别视觉组合,要求模型同时处理多种视觉表征。
2. 三阶段自动数据整理流程
为将 noisy 的真实世界K12问题转化为结构化、可验证的QA对,论文设计了如下流程(见图6):
阶段一:有效性过滤(Validity Filtering)
- 目标:移除 inherently 不适合RL训练的问题(证明题、描述题、多答案题);
- 方法:先通过规则过滤关键词(如”prove”, “explain”),再使用Qwen3-VL-32B-Instruct分析剩余样本,仅保留具有唯一可验证答案且真正依赖视觉信息的问题;
- 效果:从初始3.3M样本筛选至880K。
阶段二:难度校准(Difficulty Filtering)
- 目标:确保数据难度与模型能力匹配,避免过易(降低探索)或过难(无法学习)的样本;
- 方法:使用MiMo-VL-7B-SFT对每个问题进行8次rollout,通过MathVerify计算准确率(Pass Rate);
- 筛选标准:仅保留Pass Rate在 $
(1) / (8), (7) / (8)
$ 区间的样本——剔除全错(过难或不可验证)和全对(过易)的数据; - 知识引导补充:对 $
(5) / (8), (7) / (8)
区间的较易数据,优先采样在
(1) / (8), (4) / (8)
$ 区间中未被充分覆盖的知识点,以平衡知识分布; - 效果:获得99K数学数据,联合26K视觉逻辑数据(同样经过rollout筛选)。
阶段三:查询正确性验证(Query Correctness Verification)
- 目标:消除 corrupted 文本、图文不匹配及答案错误,确保RL奖励信号可靠;
- 方法:使用Gemini-3-Flash进行三重验证:
- 输入完整性:检测乱码、缺失关键条件;
- 图文一致性:验证图像内容与问题描述无冲突;
- 答案正确性:独立求解并比对参考答案,对不一致样本标记为CORRECTION并剔除;
- 效果:额外剔除22K问题样本,最终得到77K高质量、可验证的数学QA对。
3. 训练与验证框架
- 训练算法:采用**GSPO(Group Sequence Policy Optimization)**进行RLVR训练,使用基于规则的可验证奖励(答案正确得+1,否则0);
- 基础模型:在具备原生视觉思考能力的MiMo-VL-7B-SFT-2508和Qwen3-VL-8B-Instruct上进行训练;
- 数据配比:采用3:1的数学数据与视觉逻辑数据混合比例(200步训练),确保数学推理与视觉感知能力协同提升。
通过上述流程,DeepVision-103K实现了从 raw 数据到高质量RLVR训练数据的自动转化,既保证了数据的视觉多样性和主题广泛性,又通过严格的可验证性筛选确保了奖励信号的可靠性,从而突破了人工标注的可扩展性瓶颈和简单重组数据的创新性局限。
Q: 论文做了哪些实验?
论文进行了系统的实验验证,涵盖模型训练与基准比较、跨领域泛化评估以及多维度消融分析,具体如下:
1. 训练设置与基线比较(Section 4.1)
训练配置
- 基础模型:MiMo-VL-7B-SFT-2508、Qwen3-VL-8B-Instruct(均具备原生视觉思考能力)
- 训练算法:GSPO(Group Sequence Policy Optimization),采用基于规则的可验证奖励(答案正确性)
- 训练规模:32张H20 GPU,单步训练耗时0.5小时,共200步
对比基线
| 类型 | 具体模型/数据集 |
|---|---|
| 闭源模型 | GPT-5-Nano-High、Gemini-2.5-Flash-Lite |
| 官方思考变体 | Qwen3-VL-8B-Thinking、MiMo-VL-7B-RL-2508 |
| 开源数据集 | MM-Eureka(人工标注K12数据)、MathBook(人工策划数据)、OpenMMReasoner(过滤重组数据) |
评估基准
- 多模态数学:WeMath、MathVision、MathVersevision、LogicVista
- 通用多模态:MMMUval、MMMUPro_full、M3CoT
- 文本数学(附录E.1):AIME 2025、HMMT 2025
2. 多模态数学推理性能(Section 4.2)
在四个数学基准上测试Pass@1准确率:
- DeepVision模型在WeMath和LogicVista上达到SOTA(Qwen3-VL-8B-DeepVision在WeMath达85.11%,MiMo-VL-7B-DeepVision在LogicVista达65.62%)
- 相比基线模型(Instruct/SFT版本),性能提升范围为2.91%至8.56%
- 相比官方思考变体(如Qwen3-VL-8B-Thinking),在WeMath和LogicVista上超越,在MathVision和MathVerse上持平或缩小差距
3. 通用多模态泛化实验(Section 4.3)
验证数学训练对通用任务的迁移能力:
- DeepVision模型在MMMUval、MMMUPro、M3CoT上一致超越基础模型和官方思考变体
- 相比其他开源数据集(如MM-Eureka、MathBook、OpenMMReasoner),DeepVision在通用域展现显著优势,表明视觉多样性和广泛覆盖对通用推理能力至关重要
4. 深度分析实验(Section 5)
4.1 增强能力分析(Q1)
通过人类标注协议(Algorithm 1)系统性分析模型能力改进机制:
- 视觉感知增强(Type I):模型在首次观察时即可正确识别几何形状、数值和空间关系
- 视觉反思增强(Type II):当初步感知错误时,模型能主动重新检查视觉内容(重新计数、重新测量角度),而非仅重复结论
- 数学推理增强(Type III):在视觉信息提取正确的前提下,展现出更严谨的数学推理链条
4.2 视觉逻辑数据价值消融(Q2)
控制变量实验验证双域混合训练的必要性(Table 4):
| 实验设置 | 数据构成 | 训练步数 | 关键发现 |
|---|---|---|---|
| DeepVision-103K200 | 数学77K + 视觉逻辑26K | 200步 | 数学平均70.10%,通用平均70.92%(最优) |
| Math-77K150 | 仅数学 | 150步 | 数学平均68.68%,低于完整设置 |
| Math-77K200 | 仅数学 | 200步 | 数学平均69.02%,LogicVista显著低于完整设置(63.53% vs 65.92%) |
| Visual-logic-26K50 | 仅视觉逻辑 | 50步 | 全面超越基础模型,证明视觉逻辑对数学和通用任务均有正向迁移 |
结论:视觉逻辑数据不仅直接提升空间推理能力,还能通过共享的感知原语增强数学推理。
4.3 查询正确性验证必要性(Q3)
对比验证流程对RLVR训练的影响:
- Unverified-125K200:使用未经验证的99K数学数据+26K视觉逻辑数据训练
- DeepVision-103K200:使用经验证的77K数学数据+26K视觉逻辑数据训练
结果(Table 4):
- 未验证版本数学平均67.93% vs 验证版本70.10%
- 未验证版本通用平均69.61% vs 验证版本70.92%
结论:严格的查询正确性验证对多模态RLVR至关重要,corrupted输入或错误答案会阻碍模型进步。
5. 训练动态监测(附录F)
监测训练过程中的关键指标变化:
- 响应长度:随训练步数增加而增长(表明模型生成更详细的推理过程)
- 训练奖励:呈上升趋势(验证信号有效)
- 策略熵:保持稳定(表明探索行为稳定)
6. 推理参数敏感性(附录E.2)
针对不同模型家族配置最优推理超参数:
- Qwen3-VL系列:temperature=1.0, top_p=0.95, top_k=20
- MiMo-VL系列:temperature=0.3, top_p=0.95(采用较低温度以获得更确定性输出)
所有实验均使用MathVerify进行答案正确性验证,并通过GPT-5-mini进行二次校验以减少因解析错误或格式变体导致的假阴性。
Q: 有什么可以进一步探索的点?
基于论文内容与局限性,可从以下维度进一步探索:
1. 数据分布与覆盖扩展
- 缓解视觉不平衡:针对平面几何占比过高、某些3D元素(如半球、棱台)及真实世界物品代表性不足的问题,可设计类别重平衡策略或主动学习机制,定向采集罕见视觉元素的样本。
- 超越K12的复杂推理:当前数据限于有唯一答案的K12问题。未来可探索开放式数学任务(如几何证明、多解法代数问题)的RLVR训练,需设计基于过程奖励(process reward)或模型评判(model-as-judge)的可验证信号。
- 跨学科视觉推理:将数据范围从数学扩展至物理示意图、化学分子结构、生物解剖图等科学领域,验证视觉逻辑迁移能力在更广科学语境下的有效性。
2. 验证流程的优化与替代方案
- 降低对外部强模型的依赖:当前使用Gemini-3-Flash进行正确性验证存在成本与偏见风险。可探索**自举验证(self-bootstrapping)**方法,即使用训练中的模型自身或更小的专用验证模型来迭代清洗数据,减少对外部API的依赖。
- 困难样本的回收机制:现有流程可能过滤掉“有效但极难”的样本(零通过率但问题有效)。可开发动态难度阈值机制,在训练后期重新引入这些困难样本,实现课程学习(curriculum learning)的自动化。
3. 视觉逻辑与数学推理的深度融合机制
- 细粒度能力解耦:论文发现视觉逻辑数据能增强数学推理,但具体是哪些底层认知原语(如空间旋转、拓扑关系、模式匹配)在起作用尚不明确。可通过受控干预实验(如只保留特定类型的迷宫或棋局)量化不同视觉逻辑子集对数学各分支(几何vs代数)的增益。
- 显式视觉反思机制:虽然观察到模型展现出视觉反思行为,但可通过可视化注意力热力图或干预关键反思token(如“wait”、“look again”),解析反思发生的具体条件与有效性,进而设计更高效的反思提示模板。
4. 奖励信号与RL算法的改进
- 部分正确性奖励:当前使用稀疏的0/1奖励。对于多步骤数学问题,可探索基于步骤的密集奖励(如通过自动定理证明器验证中间步骤的正确性),以更精细地指导长链推理。
- 多模态一致性奖励:除答案正确性外,引入图文一致性奖励,惩罚模型生成与图像内容矛盾的中间推理(如错误识别图形属性),即使最终答案正确。
5. 数据整理流程的效率与自动化
- 自适应难度校准:当前使用固定模型(MiMo-VL-7B-SFT)进行8次rollout估算pass rate。可开发轻量级难度预测器,基于问题文本与图像特征快速估算难度,减少计算开销。
- 合成与真实数据的混合策略:论文区分了合成数据与真实数据。未来可探索生成式数据增强(如使用 diffusion 模型生成特定几何配置的变体),在保持真实世界分布的同时增加视觉多样性。
6. 多语言与文化传播
- 多语言数学推理:当前数据主要基于中文K12教育场景(从数据源MM-MathInstruct-3M等推断)。可验证数据整理流程在其他语言文化语境(如英文、阿拉伯文数学教材)中的通用性,探索视觉数学推理的跨语言迁移能力。
Q: 总结一下论文的主要内容
该论文针对基于可验证奖励的强化学习(RLVR)在大型多模态模型(LMMs)训练中面临的数据瓶颈问题,提出了一个大规模、视觉多样且可自动验证的数据集及配套构建方案。
研究背景与核心挑战
现有RLVR训练数据存在三重局限:合成数据缺乏真实世界场景导致泛化不足;人工标注K12数据依赖专家难以规模化;重组现有数据集造成分布重叠且缺乏创新。这些问题制约了LMMs视觉反思与推理能力的进一步提升。
DeepVision-103K数据集
论文构建了包含103K样本的多模态数学数据集,具有以下特性:
- 视觉多样性:涵盖平面几何、立体几何、解析图、数据图表、示意图及真实世界物品6大视觉类别,包含丰富的跨类别视觉组合;
- 广泛覆盖:融合77K K12数学问题(覆盖200+细粒度主题与近400个知识点)与26K视觉逻辑问题(迷宫、棋类、俄罗斯方块等),联合增强数学与空间推理能力;
- 严格可验证:所有样本均具备唯一、可规则验证的答案,适用于RLVR训练。
三阶段自动数据整理流程
为将噪声较高的原始K12数据转化为高质量训练样本,论文设计了自动化流程:
- 有效性过滤:基于规则与模型(Qwen3-VL-32B)筛选,剔除证明题、多答案题及非视觉依赖问题,保留具有唯一答案的样本;
- 难度校准:通过8次模型rollout计算通过率(Pass Rate),仅保留难度适中(Pass Rate $∈
(1) / (8), (7) / (8)
$)的样本,并结合知识引导策略补充欠覆盖知识点; - 正确性验证:利用Gemini-3-Flash验证输入完整性、图文一致性及答案正确性,剔除22K corrupted样本,确保奖励信号可靠。
实验验证与关键发现
在MiMo-VL-7B与Qwen3-VL-8B基础模型上使用GSPO算法训练,结果表明:
- 性能提升:DeepVision模型在WeMath、LogicVista等数学基准上达到SOTA,在MMMU、M3CoT等通用多模态任务上显著超越基线及官方思考变体;
- 能力增强机制:经人类标注分析,训练后的模型在视觉感知(首次观察准确性)、视觉反思(主动重新检查图像纠正错误)和数学推理(严谨推理链)三方面均获提升;
- 消融研究:视觉逻辑数据对数学推理具有正向迁移作用;严格的查询正确性验证对RLVR训练至关重要,使用未经验证数据会导致性能显著下降。
局限性与结论
论文指出数据分布仍存在类别不平衡,且依赖外部强模型进行验证可能引入偏见。总体而言,DeepVision-103K通过系统性的自动整理流程,突破了传统数据构建的可扩展性瓶颈,为推进多模态推理能力提供了高质量训练资源。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Haoxiang Sun,Lizhen Xu,Bing Zhao,Wotao Yin,Wei Wang,Boyu Yang,Rui Wang,Hu Wei
Categories: cs.LG,cs.AI
PDF URL: https://arxiv.org/pdf/2602.16742.pdf
Arxiv URL: https://arxiv.org/abs/2602.16742
Arxiv ID: 2602.16742
CoolPaper URL: https://papers.cool/arxiv/2602.16742
Published: 2026-02-18T01:51:21Z
Updated: 2026-02-18T01:51:21.000Z
10. Avey-B
Compact pretrained bidirectional encoders remain the backbone of industrial NLP under tight compute and memory budgets. Their effectiveness stems from self-attention’s ability to deliver high-quality bidirectional contextualization with sequence-level parallelism, as popularized by BERT-style architectures. Recently, Avey was introduced as an autoregressive, attention-free alternative that naturally admits an encoder-only adaptation. In this paper, we reformulate Avey for the encoder-only paradigm and propose several innovations to its architecture, including decoupled static and dynamic parameterizations, stability-oriented normalization, and neural compression. Results show that this reformulated architecture compares favorably to four widely used Transformer-based encoders, consistently outperforming them on standard token-classification and information-retrieval benchmarks while scaling more efficiently to long contexts.
中文摘要
在计算和内存资源受限的情况下,紧凑型预训练双向编码器仍然是工业自然语言处理的核心。它们的有效性源于自注意力机制能够以序列级并行方式提供高质量的双向上下文建模,这一点在BERT风格的架构中得到了推广。最近,Avey被引入作为一种自回归、无注意力的替代方案,并且自然地适用于仅编码器的改编。在本文中,我们针对仅编码器范式重新构建了Avey,并提出了其架构的若干创新,包括解耦的静态和动态参数化、面向稳定性的归一化以及神经压缩。实验结果表明,这种重新构建的架构在四种广泛使用的基于Transformer的编码器中表现优异,在标准的标记分类和信息检索基准上持续超越它们,同时在处理长上下文时具有更高的扩展效率。
LLM Analysis
Q: 这篇论文试图解决什么问题?
该论文致力于解决紧凑型预训练双向编码器在长上下文处理中的效率与有效性瓶颈,具体针对以下核心问题:
1. Transformer自注意力的二次方复杂度瓶颈
传统基于Transformer的双向编码器(如BERT、RoBERTa、ModernBERT)依赖自注意力机制实现双向上下文化,但其时间和内存成本与序列长度呈二次方关系( O(N^2) )。这在资源受限的工业部署中构成了根本性障碍,严重限制了实用上下文窗口的扩展(Page 1)。
2. 将Avey适配为双向编码器的架构挑战
Avey原本是为因果语言建模设计的自回归架构。将其改造为双向编码器(Avey-B)时,面临三个关键问题:
- 参数耦合的破坏性交互:原始Avey将静态可学习权重与输入依赖的余弦相似度分数进行逐元素耦合( V odot S ),这会导致”反转效应”——高相似度token的贡献可能被低相似度token覆盖,违反相关性单调性(Page 5, Fig. 1)。
双向推理的可扩展性危机:在自回归模式下,仅需对最新split进行上下文化;但在双向设置中,每个split都必须与其top-k个相关split拼接处理,导致输入规模膨胀约 k 倍,计算量剧增(Page 2)。
训练稳定性:未归一化的相似度矩阵会产生过大的奇异值,导致激活值和梯度随深度增长,优化不稳定(Page 6)。
3. 长上下文推理的效率衰减
现有Transformer编码器在长序列上的吞吐量随长度增加而急剧下降(遵循 T(N) propto N^(-α) ,其中 α ≈ 0.77 至 0.81 ),且在超过预训练上下文窗口后难以有效外推(Page 9, Page 27)。
解决方案概述
为应对上述挑战,论文提出了Avey-B架构,通过以下创新实现线性复杂度( O(N) )的高效双向编码:
- 解耦参数化:将静态线性投影与动态相似度计算分离到不同层,交替执行(static-dynamic interleaving),保证相关性单调性(Page 5-6)。
- 行归一化相似度:在动态层中对余弦相似度进行行归一化( S(i,j) = S(i,j) / ∑(j’) S(i,j’) ),稳定训练并约束增益(Page 6)。
- 神经压缩:在ranker中引入可学习的线性投影,将 (k+1)S 个token压缩回 S 个,使神经处理器的计算量与 k 无关,实现4.37倍吞吐量提升(Page 7, Page 22)。
实验表明,Avey-B在token分类和信息检索任务上持续超越ModernBERT和NeoBERT,同时在96K token长度下实现比ModernBERT快3.38倍、比NeoBERT快11.63倍的推理速度(Page 2, Page 9)。
Q: 有哪些相关研究?
该论文的相关研究涵盖双向Transformer编码器、高效注意力机制、检索增强架构及位置编码与归一化技术等多个领域,具体如下:
1. 双向Transformer编码器(BERT家族)
- BERT (Devlin et al., 2019):提出Masked Language Modeling (MLM)和Next Sentence Prediction (NSP)的基线双向编码器。
- RoBERTa (Liu et al., 2019):通过移除NSP、动态掩码、更大批量和更长序列优化BERT预训练。
- DeBERTa (He et al., 2021b;a; 2023):引入解耦注意力(分离内容与位置信息)和虚拟对抗训练。
- MosaicBERT (Portes et al., 2023):集成FlashAttention、ALiBi位置偏置和GLU变体以加速预训练。
- NomicBERT (Nussbaum et al., 2024):采用SwiGLU激活和RoPE位置编码。
- NeoBERT (Breton et al., 2025):结合RoPE、SwiGLU、RMSNorm与深度-宽度重新平衡。
- ModernBERT (Warner et al., 2025):支持8,192 token上下文窗口,采用交替全局/局部注意力,在多万亿token语料上预训练。
2. 高效注意力与序列建模
- 线性注意力:Transformers are RNNs (Katharopoulos et al., 2020)、Performer (Choromanski et al., 2021)、RWKV-7 (Peng et al., 2025)。
- 状态空间模型 (SSM):S4 (Gu et al., 2021)、H3 (Fu et al., 2022)、Mamba (Gu & Dao, 2023)、Diagonal State Spaces (Gupta et al., 2022)。
- 长上下文注意力:Infini-attention (Munkhdalai et al., 2024)。
- 综述:Efficient Transformers综述 (Tay et al., 2022)。
3. 检索增强与延迟交互架构
- ColBERT (Khattab & Zaharia, 2020):使用MaxSim操作符实现高效的上下文化延迟交互,是Avey-B ranker设计的基础。
- 密集检索:DPR (Karpukhin et al., 2020)、ANCE (Xiong et al., 2021)。
- 多模态检索:CLIP (Radford et al., 2021)。
4. 位置编码与归一化技术
- FlashAttention (Dao et al., 2022):IO感知的精确注意力加速。
- RoPE (Su et al., 2021):旋转位置编码,用于ModernBERT、NeoBERT和Avey-B。
- ALiBi (Press et al., 2022):线性偏置位置编码,用于MosaicBERT。
- SwiGLU (Shazeer, 2020):门控线性单元变体。
- RMSNorm (Zhang & Sennrich, 2019):用于NeoBERT的根均方层归一化。
5. Avey基础架构
- Avey (Hammoud & Acharya, 2025):原始的自回归、无注意力架构,通过split排序和神经处理器实现高效长序列建模,是Avey-B的基础。
6. 预训练数据与评估基准
- 预训练数据:FineWeb (Penedo et al., 2024)、RefinedWeb、BooksCorpus、Wikipedia等。
- 评估基准:
- 序列分类:GLUE (Wang et al., 2019b)、MNLI (Williams et al., 2018)、SST-2、QQP。
- Token分类:CoNLL-2003、OntoNotes、UNER。
- 问答:SQuAD (Rajpurkar et al., 2016; 2018)、ReCoRD、Natural Questions。
- 信息检索:MS MARCO (Bajaj et al., 2016)、BEIR (Thakur et al., 2021)、MTEB (Muennighoff et al., 2023)、MLDR。
Q: 论文如何解决这个问题?
论文通过提出 Avey-B(Avey的编码器版本)并引入三项核心架构创新来解决上述问题:
1. 解耦静态与动态参数化(Decoupled Static and Dynamic Parameterizations)
解决的核心问题:原始Avey中静态权重与动态相似度分数的逐元素耦合( V odot S )导致的”反转效应”(inversion effects),即高相似度token的贡献可能被低相似度token覆盖,违反相关性单调性。
具体方案:
- 分离层类型:将网络层明确划分为静态层(Static)和动态层(Dynamic),交替排列(Interleaved S→D pattern)。
- 静态层:执行可学习的线性投影 c(static)(Z) = σ(V Z(tr) + b^((s))) ,提供稳定的特征表示基础。
- 动态层:仅基于输入依赖的余弦相似度进行上下文化,计算行归一化相似度矩阵 S 后执行 c(dyn)(Z) = σ(S Z(tr) + b^((d))) 。
效果:动态层保证单调性(若 s(21) > s(31) ,则token 2的贡献严格大于token 3),静态层在此基础上进行全局增益调整,两者不再相互干扰(Page 5-6, Appendix A)。
2. 行归一化相似度分数(Row-normalized Similarity Scores)
解决的核心问题:未归一化的余弦相似度矩阵会导致奇异值随深度膨胀,引发激活值和梯度爆炸,训练不稳定。
具体方案:
在动态层中,对余弦相似度矩阵 S = N(Z(tr))N(Z(tr))^top 进行行归一化:
S(i,j) = S(i,j)∑(j’=1)^C S(i,j’) + varepsilon这产生行随机(row-stochastic)相似度算子,每行权重和为1,天然约束增益范围。
效果:相比Softmax或RMS Norm,行归一化保留相似度的符号信息和相对比例,避免指数放大极端值,实现更稳定的优化动态(Page 6, Appendix E)。
3. 神经压缩模块(Neural Compression)
解决的核心问题:双向设置下,每个split需与top-k个相关split拼接,导致输入规模膨胀 k 倍,计算量剧增(从 O(N) 变为 O(kN) )。
具体方案:
在Ranker中引入可学习的线性压缩器:将拼接后的 (k+1)S 个token通过矩阵 P ∈ R^(S × (k+1)S) 投影回 S 个token。
X = P X_(cat)残差连接:将压缩后的表示与原始split的token相加,保留局部信号。
效果:神经处理器处理的token数从 (k+1)S 降为 S ,使每split计算量与 k 无关,吞吐量提升4.37倍,同时保持任务精度(Page 7, Page 22, Fig. 3)。
4. 双向上下文化(Bidirectional Contextualization)
解决的核心问题:原始Avey的因果掩码限制其仅适用于自回归生成。
具体方案:
- 移除神经处理器中的因果掩码,允许每个split内的token自由交互(左向和右向)。
- 保留单向Ranker:尽管处理器是双向的,Ranker仍仅检索当前split左侧的split(unidirectional)。实验表明双向Ranker会引入噪声,降低QA和IR性能(Page 18, Appendix C)。
效果:实现完全双向上下文化,同时避免split级双向检索带来的证据稀释问题。
5. 复杂度与效率优化
结构性优势:
- 训练复杂度: O(N^2 d) (与Transformer相同,主要来自Ranker的MaxSim计算)。
- 推理复杂度: O(NS) = O(N) (线性),因为神经处理器按固定split size S 处理,与序列长度无关。
- 长上下文扩展性:通过幂律拟合 T(N) propto N^(-α) ,Avey-B的衰减指数 α ≈ 0.44 ,远低于ModernBERT(0.77)和NeoBERT(0.81),表明其吞吐量随序列长度增加下降更慢(Page 9-10)。
工程实现:
- 使用torch.compile优化(尚未实现CUDA/Triton融合内核),即便如此,在96K token长度下仍比ModernBERT快3.38倍,比NeoBERT快11.63倍(Page 2, Page 9)。
总结
通过解耦参数化保证相关性单调性和表示稳定性,行归一化确保训练数值稳定,神经压缩消除检索带来的计算膨胀,Avey-B在保持与Transformer相当或更好的下游任务性能(尤其在Token分类和检索任务上)的同时,实现了线性复杂度的长上下文处理能力,突破了传统编码器的二次方瓶颈。
Q: 论文做了哪些实验?
该论文的实验体系分为设计选择研究、系统消融、下游任务有效性评估、计算效率基准测试及长上下文鲁棒性验证五个层面:
1. 设计选择与架构搜索实验(Design Choices)
为确定Avey-B的最优架构配置,论文进行了系列控制变量实验(Section 5.2, Table 1):
| 实验问题 | 结论 | 附录位置 |
|---|---|---|
| 静态(S)与动态(D)层的最佳排列? | 交替排列 S→D→… 最优 | Appendix D (Table 5) |
| 动态层最有效的归一化技术? | 行归一化(Divide-by-sum)优于Softmax、RMS Norm | Appendix E (Table 6) |
| 序列长度N、分割大小S、top-k最佳值? | N=2048, S=256, k=3 | Appendix F (Table 7) |
| Ranker是否应双向操作? | 否,单向Ranker显著优于双向(尤其QA任务提升14.56分) | Appendix C (Table 4) |
| 最佳掩码率? | 20%(对Base和Large均最优) | Appendix G (Table 8, 9) |
2. 系统消融实验(Ablations)
通过逐一移除核心组件量化贡献(Section 5.2, Appendix H, Table 10):
- w/o normalization:移除行归一化 → SC/QA/IR性能显著下降(-3.55%/-7.65%/-15.33%)
- w/o decoupling:恢复耦合参数化( V odot S ) → 所有任务类别平均下降1.43%-7.40%
- w/o compression:移除神经压缩模块 → 吞吐量下降4.37×,QA/IR精度轻微下降(-2.68%/-1.56%)
- w/o residual:去除压缩器残差连接 → 所有基准平均下降3.38%
- w/o ranker:完全禁用Ranker → 灾难性性能下降(平均-7.46%),证明检索机制的必要性
附加消融:
- 层间排列模式(Appendix D, Table 5):测试了单向动态头、单向动态尾、两阶段堆叠(全静→全动/全动→全静)、全静态、全动态等配置。
- 静态层符号约束(Appendix K, Table 12):验证允许负权重(Avey-B-signed)比强制非负(Avey-B-unsigned)平均提升1.13分。
3. 下游任务有效性评估(Effectiveness)
在Base(165M参数)和Large(391M参数)规模下,与4个Transformer编码器(BERT、RoBERTa、ModernBERT、NeoBERT-medium)对比:
评估覆盖(Section 5.3, Table 2):
- 序列分类(SC):MNLI、QQP、SST-2
- Token分类(TC):CoNLL-2003、OntoNotes、UNER
- 问答(QA):ReCoRD、SQuAD、SQuAD v2
- 信息检索(IR):MLDR、MS MARCO、NQ
关键发现:
- Base规模:Avey-B在TC和IR上超越所有Transformer基线;在SC上优于BERT/NeoBERT,略低于RoBERTa/ModernBERT;在QA上领先于BERT/NeoBERT。
- Large规模:Avey-B在TC和IR上再次领先所有基线;值得注意的是,Avey-B Base在TC和IR上甚至超过所有Large规模的Transformer模型(尽管预训练数据少11×)。
- 统计稳定性(Appendix J, Table 11):Avey-B的跨种子方差(SD)仅次于RoBERTa,显著优于ModernBERT和NeoBERT。
4. 计算效率基准测试(Efficiency)
在NVIDIA H200/B200 GPU上测量延迟(Latency)和吞吐量(Throughput):
测试设置(Section 5.4, Fig. 2, Appendix I, Fig. 4):
- 序列长度范围:128 – 96,000 tokens
- 对比配置:Avey-B(torch.compile优化 vs Eager模式)vs ModernBERT(FlashAttention优化/未优化)vs NeoBERT(FlashAttention优化/未优化)
核心结果:
- 吞吐量幂律衰减: T(N) propto N^(-α) ,Avey-B的衰减指数 α ≈ 0.44 ,显著低于ModernBERT(0.77)和NeoBERT(0.81)。
- 绝对性能:在96K tokens长度,Avey-B比ModernBERT快3.38×,比NeoBERT快11.63×。
- 内存鲁棒性:未优化的Transformer基线在~32K tokens前即出现OOM(显存不足),而Avey-B Eager模式可稳定处理至96K tokens。
5. 长上下文鲁棒性验证(Long-Context)
针堆中的针(NIAH)测试(Appendix M, Table 14-15):
- 测试设计:在1K-96K tokens的随机文本中定位特定关键-值对(单针/多针变体),评估语义检索和位置推理能力。
- 结果:Avey-B在96K tokens长度保持75%+准确率(仅比1K长度下降3-4分),而ModernBERT在8K即OOM,NeoBERT无法处理超过4K tokens。
跨种子方差分析(Appendix J):
- 对每个基准的4个学习率×10个随机种子进行标准差计算,验证优化稳定性。
表示层分析(Appendix L, Table 13 & Fig. 5):
- 对比耦合与解耦配置下学习到的投影矩阵统计特性(均值、标准差、正/负权重比例),验证解耦设计避免了后期层的正性偏置(positivity bias)。
Q: 有什么可以进一步探索的点?
基于论文中的讨论与实验局限,以下方向具有进一步探索价值:
1. 工程优化与硬件协同设计
论文指出Avey-B目前依赖torch.compile优化,缺乏专门的CUDA/Triton融合内核实现(Section 5.4, Page 9)。开发针对神经处理器和神经压缩模块的定制GPU内核,可进一步缩小与理论加速比的差距。此外,探索异步并行处理split(当前为串行处理)或硬件感知的split大小自适应(根据GPU显存动态调整 S )也是提升吞吐量的可行路径。
2. 预训练规模与数据效率
如Table 3所示,Avey-B仅在180B tokens上预训练,而ModernBERT使用了约2T tokens。探索Avey-B的Scaling Laws——即在更大语料(如FineWeb完整数据集或多语言语料)上预训练时的性能曲线——是验证其数据效率的关键。此外,自适应掩码策略(Appendix G显示不同任务对掩码率敏感度不同,如IR在50%表现优异而SC偏好20-30%)可替代固定20%掩码率,进一步提升下游任务泛化性。
3. 神经压缩机制的增强
当前神经压缩器采用简单线性投影 P ∈ R^(S × (k+1)S) (Page 7, Equation 8)。可探索:
- 非线性压缩:使用轻量级MLP或注意力机制替代线性投影,以更好地保留跨split的复杂交互模式;
- 分层压缩:在神经处理器不同深度使用不同压缩率,实现渐进式信息蒸馏;
- 可学习稀疏压缩:强制 P 具有稀疏性,在保留关键token的同时进一步降低计算量。
4. 长上下文真实任务评估
论文使用合成NIAH基准(Appendix M)验证了96K tokens的扩展性,但真实长文档任务(如长文本摘要、多跳长文档QA、长代码理解)上的表现尚未测试。特别是验证Avey-B在超过预训练上下文长度(2,048 tokens)的零样本外推能力在真实场景中的鲁棒性,是其区别于位置编码外推(如RoPE)的关键优势。
5. 架构组件的理论深化
- 解耦参数化的理论分析:Appendix L的统计分析显示解耦设计避免了”正性偏置”(positivity bias),但缺乏对动态层与静态层交替深度的理论指导(如为何 S to D to dots 优于 D to S to dots 的严格数学解释)。
- 归一化方案的扩展:Appendix E仅测试了4种归一化(行归一化、RMS Norm、Softmax、Scaled Softmax),可探索基于学习温度的自适应归一化或层依赖的归一化策略。
6. 与检索增强系统(RAG)的深度融合
Avey-B的Ranker机制与ColBERT/DPR等密集检索系统同源(Page 23)。探索端到端联合训练(将Avey-B编码器与下游检索器联合优化)或跨层迭代检索(当前仅在输入层检索,Page 23显示深层检索有害,但可能通过正则化改进)可提升检索-理解一体化系统的效率。
7. 多模态与多语言扩展
论文聚焦于英语NLP任务,将Avey-B扩展至多语言场景(利用其线性复杂度处理长文档翻译或跨语言检索)或文本-图像联合编码(将split机制应用于图像patch序列)是自然的架构延伸。
8. 混合架构与任务自适应
- 编码器-解码器变体:论文提到Avey原生为自回归解码器,Avey-B为编码器,可探索共享Ranker的编码器-解码器架构,用于生成任务。
- 任务自适应路由:根据输入序列长度或任务类型(如TC vs IR)动态调整 k 值或切换静态/动态层比例,实现计算资源的自适应分配。
Q: 总结一下论文的主要内容
该论文提出 Avey-B,一种面向工业级自然语言处理的高效双向编码器架构,通过架构创新突破了传统Transformer编码器的二次方复杂度瓶颈。
1. 研究背景与问题
基于Transformer的双向编码器(如BERT、RoBERTa、ModernBERT)凭借自注意力机制实现高质量双向上下文化,但其 O(N^2) 的时间和内存复杂度严重限制了长上下文扩展。近期提出的Avey架构(自回归、无注意力)虽能高效处理超长序列,但其原始设计针对因果语言建模,直接适配为双向编码器面临以下挑战:
- 参数耦合病理:静态权重与动态相似度分数逐元素耦合导致”反转效应”(高相似度token贡献被低相似度token覆盖);
- 计算膨胀:双向推理需将每个split与top-k个相关split拼接,输入规模膨胀 k 倍;
- 训练不稳定性:未归一化的相似度矩阵导致奇异值随深度膨胀。
2. 方法论:Avey-B架构
论文将Avey重构为编码器范式,并提出三项核心创新:
(1) 解耦静态与动态参数化
- 分离机制:将网络层明确划分为静态层(可学习线性投影)与动态层(仅依赖输入余弦相似度),交替排列(S→D模式)。
- 单调性保证:动态层独立计算行归一化相似度矩阵,确保token贡献随相似度单调递增;静态层仅施加全局增益,不破坏动态层建立的排序。
(2) 行归一化相似度
在动态层中对余弦相似度进行行归一化:
S(i,j) = S(i,j)∑(j’) S(i,j’) + varepsilon
产生行随机算子,约束增益范围,避免Softmax对极端值的指数放大,实现稳定训练。
(3) 神经压缩模块
在Ranker中引入可学习的线性投影 P ∈ R^(S × (k+1)S) ,将拼接后的 (k+1)S 个token压缩回 S 个,并添加残差连接保留局部信号。这使神经处理器的计算量与 k 无关,吞吐量提升4.37倍。
3. 实验结果
下游任务有效性(Table 2)
- 统一优势:在Base和Large规模下,Avey-B在所有基准上超越BERT和NeoBERT。
- 专项优势:在Token分类(TC)和信息检索(IR)任务上持续优于RoBERTa和ModernBERT;值得注意的是,Avey-B Base在TC和IR上甚至超过所有Large规模的Transformer模型(尽管预训练数据少11倍)。
- 鲁棒性:跨种子方差分析显示Avey-B的优化稳定性仅次于RoBERTa,显著优于ModernBERT和NeoBERT(Appendix J)。
计算效率(Section 5.4)
- 长上下文扩展性:吞吐量遵循 T(N) propto N^(-α) ,Avey-B的衰减指数 α ≈ 0.44 ,远低于ModernBERT(0.77)和NeoBERT(0.81)。
- 绝对性能:在96K tokens长度下,Avey-B比ModernBERT快3.38倍,比NeoBERT快11.63倍;未优化的Transformer基线在32K tokens前即显存不足(OOM),而Avey-B可稳定处理至96K tokens。
长上下文鲁棒性(Appendix M)
在针堆中的针(NIAH)基准上,Avey-B在96K tokens长度保持75%+准确率(仅比1K长度下降3-4分),而ModernBERT和NeoBERT无法处理超过8K/4K tokens。
4. 结论
Avey-B证明注意力机制并非实现强双向编码器的唯一路径。通过解耦参数化、行归一化和神经压缩,Avey-B在保持或超越Transformer编码器下游性能的同时,实现了线性复杂度 O(N) 和卓越的长上下文扩展性,为资源受限的工业部署提供了新的架构选择。论文已开源完整实现和预训练权重。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Devang Acharya,Mohammad Hammoud
Categories: cs.CL,cs.AI
PDF URL: https://arxiv.org/pdf/2602.15814.pdf
Arxiv URL: https://arxiv.org/abs/2602.15814
Arxiv ID: 2602.15814
CoolPaper URL: https://papers.cool/arxiv/2602.15814
Published: 2026-02-17T18:50:40Z
Updated: 2026-02-17T18:50:40.000Z
11. Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty
Reinforcement learning provides a framework for learning control policies that can reproduce diverse motions for simulated characters. However, such policies often exploit unnatural high-frequency signals that are unachievable by humans or physical robots, making them poor representations of real-world behaviors. Existing work addresses this issue by adding a reward term that penalizes a large change in actions over time. This term often requires substantial tuning efforts. We propose to use the action Jacobian penalty, which penalizes changes in action with respect to the changes in simulated state directly through auto differentiation. This effectively eliminates unrealistic high-frequency control signals without task specific tuning. While effective, the action Jacobian penalty introduces significant computational overhead when used with traditional fully connected neural network architectures. To mitigate this, we introduce a new architecture called a Linear Policy Net (LPN) that significantly reduces the computational burden for calculating the action Jacobian penalty during training. In addition, a LPN requires no parameter tuning, exhibits faster learning convergence compared to baseline methods, and can be more efficiently queried during inference time compared to a fully connected neural network. We demonstrate that a Linear Policy Net, combined with the action Jacobian penalty, is able to learn policies that generate smooth signals while solving a number of motion imitation tasks with different characteristics, including dynamic motions such as a backflip and various challenging parkour skills. Finally, we apply this approach to create policies for dynamic motions on a physical quadrupedal robot equipped with an arm.
中文摘要
强化学习提供了一个框架,用于学习控制策略,从而使模拟角色能够再现多样化的动作。然而,这类策略经常利用人类或物理机器人无法实现的非自然高频信号,使其不能很好地代表现实世界的行为。现有研究通过增加一个奖励项来解决这一问题,该奖励项会惩罚动作随时间的大幅变化。但这一项通常需要大量的调参工作。我们提出使用动作雅可比惩罚,通过自动微分直接根据模拟状态的变化惩罚动作的变化。这有效地消除了不现实的高频控制信号,而无需针对特定任务进行调参。虽然有效,使用传统全连接神经网络架构时,动作雅可比惩罚会引入显著的计算开销。为此,我们提出了一种新架构——线性策略网络(Linear Policy Net, LPN),在训练过程中显著减少了计算动作雅可比惩罚的负担。此外,LPN无需参数调节,比基线方法显示出更快的学习收敛速度,并且在推理阶段比全连接神经网络更高效。我们展示了结合动作雅可比惩罚的线性策略网络能够学习产生平滑信号的策略,同时完成多种具有不同特性的动作模仿任务,包括动态动作如后空翻和各种挑战性的跑酷技能。最后,我们将这一方法应用于为配备机械臂的物理四足机器人创建动态动作策略。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文主要解决深度强化学习(DRL)在物理角色动画和机器人控制中产生的非自然高频控制信号问题,具体包括以下几个关键方面:
核心问题
高频控制信号问题
现有的深度强化学习策略往往通过利用非自然的高频信号来实现高任务奖励,这些信号对于人类或物理机器人而言是无法实现的,导致生成的运动出现不自然的抖动(jittery motions),并在真实机器人部署时导致失败。现有正则化方法的局限性
传统方法通过在奖励函数中添加惩罚项来限制动作随时间的变化率(action change penalty),但这种方法存在明显缺陷:
- 需要针对具体任务进行大量的试错调参(task-specific tuning)
- 正则化效果相对较弱,难以在复杂任务中有效抑制高频行为
- 可能降低策略对扰动的响应能力,影响动态运动性能
- 动作雅可比惩罚的计算开销
论文提出使用**动作雅可比惩罚(action Jacobian penalty)**直接惩罚动作相对于状态变化的敏感度,这种方法虽然有效,但与传统全连接前馈神经网络(FF)结合时会产生显著的计算开销(训练速度降低约15倍),限制了其实际应用。
提出的解决方案
为系统性解决上述问题,论文引入了以下创新:
- 动作雅可比正则化:直接通过自动微分计算动作对状态的雅可比矩阵 J = ∂ boldsymbola∂ s ,并将其Frobenius范数 |J|_F^2 作为正则项加入损失函数,无需任务特定的调参即可有效消除高频控制信号。
线性策略网络(Linear Policy Net, LPN):一种新的网络架构,将策略参数化为时变线性反馈控制器 a_t = K_ts_t + k_t + boldsymbola_t ,其中反馈矩阵 K_t 仅依赖于参考运动而非当前状态。这种结构使得雅可比矩阵的计算简化为前向传播过程,将计算开销降至最低。
平滑且高效的控制策略:LPN不仅解决了计算效率问题,还展现出比传统全连接网络更快的学习收敛速度,并能生成适用于物理机器人(如波士顿动力Spot四足机器人)的平滑控制策略。
Q: 有哪些相关研究?
Authors: Zhaoming Xie,Kevin Karol,Jessica Hodgins
Categories: cs.RO,cs.GR
PDF URL: https://arxiv.org/pdf/2602.18312.pdf
Arxiv URL: https://arxiv.org/abs/2602.18312
Arxiv ID: 2602.18312
CoolPaper URL: https://papers.cool/arxiv/2602.18312
Published: 2026-02-20T16:11:19Z
Updated: 2026-02-20T16:11:19.000Z
12. Sink-Aware Pruning for Diffusion Language Models
Diffusion Language Models (DLMs) incur high inference cost due to iterative denoising, motivating efficient pruning. Existing pruning heuristics largely inherited from autoregressive (AR) LLMs, typically preserve attention sink tokens because AR sinks serve as stable global anchors. We show that this assumption does not hold for DLMs: the attention-sink position exhibits substantially higher variance over the full generation trajectory (measured by how the dominant sink locations shift across timesteps), indicating that sinks are often transient and less structurally essential than in AR models. Based on this observation, we propose ${\bf \texttt{Sink-Aware Pruning}}$, which automatically identifies and prunes unstable sinks in DLMs (prior studies usually keep sinks for AR LLMs). Without retraining, our method achieves a better quality-efficiency trade-off and outperforms strong prior pruning baselines under matched compute. Our code is available at https://github.com/VILA-Lab/Sink-Aware-Pruning.
中文摘要
扩散语言模型(DLMs)由于迭代去噪而导致推理成本较高,这促使我们研究高效的剪枝方法。现有的剪枝启发式方法大多继承自自回归(AR)大型语言模型,通常会保留注意力汇点(attention sink)令牌,因为在AR模型中,汇点作为稳定的全局锚点。然而,我们发现这一假设在DLM中并不成立:注意力汇点的位置在整个生成过程中表现出显著更高的方差(通过主导汇点位置随时间步变化的情况衡量),这表明汇点往往是短暂的,比AR模型中结构上必要性更低。基于这一观察,我们提出了${f exttt{Sink-Aware Pruning}}$,它可以自动识别并剪掉DLM中不稳定的汇点(此前的研究通常会保留AR模型的汇点)。在不进行再训练的情况下,我们的方法实现了更好的质量-效率权衡,并在相同计算条件下优于已有的高性能剪枝基线。我们的代码可在 https://github.com/VILA-Lab/Sink-Aware-Pruning 获取。
LLM Analysis
Q: 这篇论文试图解决什么问题?
该论文旨在解决扩散语言模型(Diffusion Language Models, DLMs)的高效剪枝问题,具体针对现有剪枝策略中继承自自回归(Autoregressive, AR)模型的”注意力汇聚点(Attention Sinks)必须保留”这一启发式假设在DLMs中的不适用性。
核心问题可分解为以下层面:
1. 计算效率瓶颈 DLMs通过多时间步迭代去噪生成文本,反复更新完整token序列直至收敛,导致推理计算与内存成本显著高于AR模型。现有剪枝方法多直接迁移自AR Transformer,未充分考虑扩散式生成的动态特性。
2. AR-centric假设的失效 在AR模型中,注意力汇聚点(通常为序列前缀的少量token,如BOS或系统提示)具有时空稳定性:它们在各层各头中持续吸引大量注意力,作为全局锚点稳定残差流。因此AR剪枝方法普遍采用”硬编码保留汇聚点”的启发式规则。
3. DLMs中汇聚点的本质差异 论文通过分析注意力统计量发现,DLMs中的汇聚点表现出高时间方差(Temporal Variance):
- 在去噪轨迹中,主导汇聚点的位置随时间步显著漂移(早期步骤关注全局结构,后期转向局部细化)
- 汇聚点身份频繁变化,具有**瞬态性(transient)**而非结构性必需
- 空间方差较低但时间方差比AR模型高数个数量级
4. 剪枝策略的范式适配 基于上述观察,论文提出Sink-Aware Pruning,核心机制包括:
- 估计去噪轨迹上的汇聚点位置方差,识别不稳定汇聚点
- 通过软降权因子 ω_j = 1 - φ(j) 抑制瞬态汇聚点的贡献(其中 φ(j) 为基于注意力质量 m_t(j) 计算的软汇聚分数)
- 将掩码后的激活 X 代入现有剪枝准则(如Wanda或SparseGPT),使剪枝决策聚焦于语义重要且稳定的参数
该方法无需重新训练,在25%-75%稀疏度范围内持续优于强基线,证明了剪枝规则应与生成范式(AR vs. Diffusion)对齐,而非直接跨范式迁移。
Q: 有哪些相关研究?
该论文的相关研究主要围绕以下三个核心领域展开:
2.1 扩散语言模型(Diffusion Language Models)
扩散语言模型作为非自回归生成范式的重要分支,相关研究可分为:
连续空间与离散空间方法
- 连续空间DLMs:在词嵌入或logits空间上应用高斯或基于流的扩散过程,代表性工作包括DiffuSeq(Gong et al., 2022)和Diffusion-LM(Li et al., 2022)。
- 离散空间DLMs:直接在分类词表空间定义扩散过程,采用掩码或结构化转移算子,如Austin et al. (2021)的结构化去噪扩散模型、DiffusionBERT(He et al., 2023)以及Simple and Effective Masked Diffusion Language Models(Sahoo et al., 2024)。
大规模与混合架构
- 近期研究表明,大规模离散DLMs(如LLaDA、Dream)可通过并行解码实现与强自回归基线相当的性能(Wu et al., 2025; Ni et al., 2025)。
- 混合自回归-扩散方法:结合块级自回归与块内扩散细化的架构,如Block Diffusion(Arriola et al., 2025)和SDAR(Cheng et al., 2025),以平衡生成质量与效率。
2.2 大语言模型中的注意力汇聚点(Attention Sink in LLMs)
发现与机制
- 初始发现:Xiao et al. (2023)首次在LLMs中识别出注意力汇聚点现象——少量早期token(如BOS或前缀token)在各层各头中持续吸引不成比例的大量注意力。
- 理论解释:汇聚点源于Softmax归一化特性:当查询没有强匹配时,注意力质量必须分配至某处,而全局可见的早期token成为冗余注意力的自然”倾倒场”(Gu et al., 2024; Barbero et al., 2025)。
在扩散模型中的行为差异
- Rulli et al. (2025)对大规模掩码DLMs(LLaDA、Dream、MMaDA)的研究表明,其汇聚点位置具有步骤依赖性(step-dependent),在去噪过程中出现、移动或消失。
- 与AR模型不同,掩码DLMs对汇聚点移除表现出相对鲁棒性:在生成过程中掩蔽顶部汇聚点仅导致性能轻微下降,表明双向迭代去噪提供了替代的聚合路径。
2.3 大语言模型剪枝(LLM Pruning)
传统剪枝范式
- 基础方法:包括最优脑损伤(Optimal Brain Damage, LeCun et al., 1989)、最优脑外科医生(Optimal Brain Surgeon, Hassibi et al., 1993)以及Deep Compression(Han et al., 2015a,b)。
- 结构化与非结构化剪枝:非结构化剪枝提供细粒度灵活性,而结构化剪枝(移除整个神经元、通道或矩阵行列)更利于硬件加速,但常伴随更高精度损失(Liu et al., 2017; Molchanov et al., 2019)。
训练后剪枝(Post-Training Pruning) 针对大规模模型重训练成本高昂的问题,近期研究转向无需完整重训练的轻量化剪枝:
- Wanda(Sun et al., 2023):基于权重幅度与输入激活范数的乘积计算输出级重要性分数 S(ij) = |W(ij)| · |X_(· j)|_2 。
- SparseGPT(Frantar and Alistarh, 2023):将剪枝表述为层-wise重建问题,利用二阶信息(Hessian近似)估计权重移除导致的损失增加 $varepsilonm = w_m^2 /
H^(-1)
\{mm}$。 - 其他进展:基于梯度的重要性估计(Das et al., 2023)和区域梯度剪枝(Yang et al., 2025b)。
关键局限:现有剪枝方法多继承自AR模型,隐含假设注意力行为(及其重要token)可不变地迁移至扩散式生成,该论文正是针对这一局限提出改进。
Q: 论文如何解决这个问题?
论文通过提出Sink-Aware Pruning方法解决该问题,核心在于摒弃”必须保留注意力汇聚点”的AR-centric启发式规则,转而根据扩散模型中去噪轨迹的动态特性自适应地处理不稳定汇聚点。具体解决方案包含以下关键环节:
1. 汇聚点方差量化与识别
首先,论文通过统计量区分AR与DLMs中汇聚点的本质差异:
时间方差(Temporal Variance):衡量汇聚点位置在生成过程中的漂移程度
σ^2(temporal) = Var_t(c_t), quad 其中 quad c_t = ∑(i ∈ St) m_t(i) · i∑(i ∈ S_t) m_t(i)注意力质量计算:在时间步 t 、层 ell 、头 h 下,token j 的注意力质量为
mt(j) = ∑(ell=1)^L ∑(h=1)^H A_j^((t,ell,h)), quad A_j^((t,ell,h)) = (1) / (S)∑(i=1)^S A_(i,j)^((t,ell,h))软汇聚分数:通过sigmoid将硬阈值判断转换为可微的汇聚点分数
φt(j) = σ(m_t(j) - (1) / (S-1)∑(k≠ j)m_t(k) - ε)
其中 ε 控制检测灵敏度,跨时间步平均得到步无关估计 φ(j) = (1) / (|T|)∑_(t ∈ T)φ_t(j) 。
2. 汇聚点感知的重要性重加权
基于识别出的不稳定汇聚点,对输入激活进行自适应掩码:
- 降权因子定义: ω_j = 1 - φ(j)
- 汇聚点token: φ(j) ≈ 1 ⇒ ω_j ≈ 0 (大幅抑制)
- 非汇聚点token: φ(j) ≈ 0 ⇒ ω_j ≈ 1 (保留)
- 掩码激活生成:
X(j,:) = ω_j · X(j,:), quad j = 1, …, S
该操作抑制瞬态汇聚位置的贡献,使剪枝决策聚焦于语义有意义的稳定区域。
3. 与现有剪枝准则的集成
将掩码后的激活 X 代入主流训练后剪枝框架,替代原始激活 X :
基于Wanda的扩展: 原始重要性分数 S(ij) = |W(ij)| · |X(· j)|_2 被替换为
S(ij) = |W(ij)| · |X(· j)|_2
在每个输出神经元组内比较分数,移除最低 s% 的权重。
基于SparseGPT的扩展:
- 使用 X 计算经验Hessian: H = (1) / (|D|)∑_n X_n^top X_n + λ I
- 权重移除导致的损失增加估计:$varepsilonm = w_m^2 /
H^(-1)
\{mm}$ - 通过抑制汇聚点token的Hessian贡献,重建过程优先保留对语义重要位置的拟合能力,而非拟合那些因Softmax归一化而激活值异常高的瞬态汇聚点。
4. 生成范式自适应机制
该方法具备范式感知能力:
- AR模型:汇聚点时间方差极低( σ^2_(temporal) ≈ 0 ), φ(j) 在固定前缀位置接近1, ω_j ≈ 0 自动保留这些稳定锚点
- DLMs:汇聚点时间方差高, φ(j) 在不稳定位置取中等值,允许剪枝这些瞬态位置
通过这种自适应机制,Sink-Aware Pruning在无需重新训练的情况下,在25%-75%稀疏度范围内持续优于传统剪枝基线,尤其在50%-75%高稀疏度下增益显著,证明了针对扩散动态特性定制剪枝策略的有效性。
Q: 论文做了哪些实验?
该论文的实验设计围绕验证Sink-Aware Pruning在扩散语言模型上的有效性展开,涵盖多模型、多基准、多稀疏度设置的系统评估。
4.1 实验配置
评估模型
- 文本扩散模型:LLaDA-8B、Dream-7B、LLaDA-1.5-8B
- 多模态扩散模型:MMaDA-8B(验证方法在统一多模态架构中的适用性)
基准测试集 涵盖8个标准语言模型评测任务:
- 知识推理:MMLU(5-shot)、ARC-C(0-shot)、GPQA(5-shot)
- 常识推理:PIQA(0-shot)、WinoGrande(0-shot)、HellaSwag(0-shot)
- 阅读理解:RACE(0-shot)
- 数学推理:GSM8K(5-shot)
对比基线
- Wanda(Sun et al., 2023):基于权重幅度与激活范数乘积的重要性评分
- SparseGPT(Frantar and Alistarh, 2023):基于二阶重建误差的最优脑外科剪枝
- Magnitude-based Pruning:纯幅度剪枝
实验参数
- 校准数据:WikiText-2数据集,128条随机采样序列,截断长度2048
- 稀疏度设置:
- 非结构化剪枝:25%、50%、75%
- 结构化剪枝:30%、50%(针对LLaDA)
4.2 主要实验结果
非结构化剪枝性能(Tables 1-3, 5)
论文在4个扩散模型上对比了Sink-Aware变体与原始基线的性能:
| 模型 | 关键发现 |
|---|---|
| LLaDA-8B | 在50%稀疏度下,Sink-Aware SparseGPT平均准确率(57.68%)显著优于基线SparseGPT(57.23%);75%稀疏度下所有方法性能下降,但Sink-Aware仍保持领先 |
| Dream-7B | 50%稀疏度时Sink-Aware SparseGPT达到54.58%,较基线提升0.18个百分点;在GSM8K等生成任务上 consistently 优于基线 |
| LLaDA-1.5-8B | 75%稀疏度下Sink-Aware Wanda提升最显著(+1.86个百分点),表明高稀疏度下识别不稳定汇聚点尤为关键 |
| MMaDA-8B | 多模态设置下,Sink-Aware方法在25%-75%稀疏度范围内均保持优势,验证方法对多模态扩散架构的适用性 |
核心趋势:
- 在**中等至高稀疏度(50%-75%)**下,Sink-Aware Pruning consistently 优于传统基线,增益随稀疏度增加而扩大
- 在**低稀疏度(25%)**下,优势相对有限,因标准准则已能避免最严重的权重移除
- 改进在Wanda和SparseGPT两种基础剪枝准则上均成立,证明汇聚点感知掩码具有通用性
结构化剪枝性能(Table 4)
在LLaDA上的结构化剪枝实验(移除整个注意力头或层)显示:
- 30%结构化稀疏度:Sink-Aware在PIQA(0.6955 vs 0.6834)和ARC-E(0.7175 vs 0.6907)上显著优于结构化基线
- 50%结构化稀疏度:优势进一步扩大(ARC-E: 0.5279 vs 0.4853),表明结构化剪枝对错误移除汇聚点敏感组件的代价更高,Sink-Aware的保守策略更具价值
4.3 可视化与机制分析
性能增益分布(Figure 6) 柱状图展示Sink-Aware相比基线的平均准确率变化( Delta ):
- LLaDA-1.5在75%稀疏度下Wanda基线提升最大(+1.86 pp)
- Dream在50%稀疏度下提升约+0.10至+0.18 pp
- 所有配置下 Delta 均为正值,证实方法稳定性
注意力头级分析(Figures 7-8)
- 汇聚点强度热图(Figure 7左):展示原始模型中各层各头对汇聚点token的平均注意力分配
- 掩码差异分析(Figure 7中/右):对比Sink-Aware与基线剪枝决策的差异(XOR),显示Wanda与汇聚点强度模式部分对齐,而SparseGPT对齐较弱
- 稀疏度差异(Figure 8):Sink-Aware在特定头中实施更激进或更保守的剪枝(红色=更激进,蓝色=更保守),表明方法能自适应调整各头的剪枝强度,而非均匀稀疏
4.4 附录补充实验(Appendix A)
- MMaDA完整结果(Table 5):补充主文未详尽展示的多模态扩散模型剪枝数据,验证方法在视觉-语言统一架构中的有效性
- 评估协议细节:所有loglikelihood任务采用128样本蒙特卡洛估计(MMLU除外,遵循官方单样本约定),生成任务使用Fast-DLLM加速,生成长度256token,256步去噪
实验结论支持核心主张:通过显式建模汇聚点时间方差并相应调整剪枝决策,Sink-Aware Pruning在匹配计算开销下实现了更优的质量-效率权衡,且无需重新训练。
Q: 有什么可以进一步探索的点?
基于论文第9页”Limitations”章节及全文分析,可进一步探索的研究方向包括:
1. 分布鲁棒性与自适应校准
当前汇聚点统计量基于固定校准数据集(WikiText-2)估计,**分布偏移(distribution shift)**可能导致识别可靠性下降。未来可探索:
- 在线或增量式汇聚点估计,使剪枝策略适应输入分布的动态变化
- 领域自适应的校准数据选择机制,提升跨领域泛化能力
2. 剪枝后轻量级恢复训练
现有实验聚焦于无需重训练的训练后剪枝(post-training pruning)。结合汇聚点感知评分与**轻量级微调(lightweight finetuning)**的混合方案值得研究:
- 针对被剪枝不稳定汇聚点的参数进行局部恢复
- 低秩适应(LoRA)等参数高效微调方法与Sink-Aware掩码的联合优化
3. 更大规模与复杂场景的验证
当前多模态实验仅覆盖MMaDA-8B,需扩展至:
- 长上下文场景:验证汇聚点方差在超长序列(如32K+ tokens)中的行为模式
- 更大规模多模态模型:如视觉-语言统一架构中的跨模态汇聚点动态
- 多样化扩散范式:包括连续空间扩散、混合自回归-扩散架构(如Block Diffusion)的适配性
4. 细粒度时间步自适应策略
现有方法使用跨时间步平均的汇聚点分数 φ(j) 。可探索层级别、时间步级别的自适应剪枝:
- 不同去噪阶段(早期全局结构形成 vs. 后期局部细化)采用差异化剪枝阈值
- 动态稀疏度分配:根据各层汇聚点方差实时调整该层剪枝比例
5. 与量化技术的联合优化
论文提及可与量化(quantization)结合以进一步提升质量-效率前沿:
- 汇聚点感知剪枝与低比特量化的协同压缩框架
- 不稳定汇聚点区域的激活/权重量化敏感度分析
6. 汇聚点动态的理论建模
- 建立数学模型解释为何双向去噪导致汇聚点时间方差显著高于因果注意力
- 分析不同任务(推理 vs. 生成)中汇聚点瞬态性的差异根源
这些方向旨在解决当前方法在极端压缩、分布外场景及多模态扩展中的局限性,推动扩散语言模型压缩技术的实用化部署。
Q: 总结一下论文的主要内容
该论文针对**扩散语言模型(Diffusion Language Models, DLMs)**的高效推理压缩问题,提出了一种突破传统自回归(Autoregressive, AR)模型剪枝范式的新方法。
研究背景与动机
DLMs通过迭代去噪生成文本,其多步推理机制导致计算成本高昂。现有剪枝方法多直接继承自AR模型,隐含假设”注意力汇聚点(Attention Sinks)必须保留”——即序列前缀中吸引大量注意力的稳定锚点token不可剪枝。然而,该假设在扩散范式下的适用性尚未被验证。
核心观察:汇聚点的范式差异
通过量化分析注意力动态,论文发现DLMs与AR模型存在本质差异:
- AR模型:汇聚点具有低时间方差(temporal variance),位置固定(如BOS token),作为稳定的全局锚点
- DLMs:汇聚点表现出高时间方差,在去噪轨迹中位置持续漂移(早期关注全局结构,后期转向局部细化),具有瞬态性(transient)
数学上,定义注意力质量 mt(j) 和汇聚点加权质心 c_t :
c_t = ∑(i ∈ St) m_t(i) · i∑(i ∈ St) m_t(i), quad σ^2(temporal) = Var_t(c_t)
实验显示DLMs的 σ^2_(temporal) 比AR模型高数个数量级,表明”始终保留汇聚点”并非扩散不变的普适原则。
方法:Sink-Aware Pruning
基于上述观察,论文提出汇聚点感知剪枝策略:
- 识别不稳定汇聚点:通过跨时间步平均的软汇聚分数 φ(j) = (1) / (|T|)∑_(t ∈ T)σ(·) 识别高方差位置
- 自适应激活掩码:构造降权因子 ωj = 1 - φ(j) ,生成抑制汇聚点贡献的掩码激活 X(j,:) = ωj · X(j,:)
- 集成现有准则:将 X 代入Wanda( S(ij) = |W(ij)| · |X_(· j)|_2 )或SparseGPT(基于掩码Hessian H 的重建误差)进行剪枝决策
该方法无需重新训练,且能根据生成范式自适应:AR模型自动保留稳定汇聚点,DLMs则剪除瞬态汇聚点。
实验验证
在LLaDA-8B、Dream-7B、LLaDA-1.5-8B和MMaDA-8B上的实验表明:
- 在25%-75%非结构化稀疏度下,Sink-Aware Pruning consistently 优于强基线(Wanda、SparseGPT)
- 在50%-75%高稀疏度下增益最显著(如LLaDA-1.5在75%稀疏度下提升1.86个百分点),证明识别不稳定汇聚点对激进压缩至关重要
- 在结构化剪枝(移除整个头/层)中同样有效,且优势随剪枝比例增加而扩大
主要贡献
- 现象揭示:首次系统量化DLMs中汇聚点的高时间方差特性,挑战了AR-centric的”必须保留汇聚点”启发式规则
- 方法创新:提出基于汇聚点稳定性的扩散特定剪枝框架,实现生成范式感知的自适应压缩
- 实证验证:在多个DLM家族和基准测试上验证了新范式的有效性,表明剪枝规则应与生成动态对齐而非跨范式直接迁移
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Aidar Myrzakhan,Tianyi Li,Bowei Guo,Shengkun Tang,Zhiqiang Shen
Categories: cs.CL,cs.AI,cs.LG
PDF URL: https://arxiv.org/pdf/2602.17664.pdf
Arxiv URL: https://arxiv.org/abs/2602.17664
Arxiv ID: 2602.17664
CoolPaper URL: https://papers.cool/arxiv/2602.17664
Published: 2026-02-19T18:59:50Z
Updated: 2026-02-19T18:59:50.000Z
13. Selective Training for Large Vision Language Models via Visual Information Gain
Large Vision Language Models (LVLMs) have achieved remarkable progress, yet they often suffer from language bias, producing answers without relying on visual evidence. While prior work attempts to mitigate this issue through decoding strategies, architectural modifications, or curated instruction data, they typically lack a quantitative measure of how much individual training samples or tokens actually benefit from the image. In this work, we introduce Visual Information Gain (VIG), a perplexity-based metric that measures the reduction in prediction uncertainty provided by visual input. VIG enables fine-grained analysis at both sample and token levels, effectively highlighting visually grounded elements such as colors, spatial relations, and attributes. Leveraging this, we propose a VIG-guided selective training scheme that prioritizes high-VIG samples and tokens. This approach improves visual grounding and mitigates language bias, achieving superior performance with significantly reduced supervision by focusing exclusively on visually informative samples and tokens.
中文摘要
大型视觉语言模型(LVLMs)已经取得了显著进展,但它们经常受到语言偏差的影响,产生的答案往往不依赖于视觉证据。虽然以往的工作尝试通过解码策略、架构修改或精心设计的指令数据来缓解这一问题,但它们通常缺乏一个量化指标来衡量单个训练样本或词元究竟从图像中获益多少。在本工作中,我们提出了视觉信息增益(VIG),这是一种基于困惑度的度量,用于衡量视觉输入所带来的预测不确定性降低。VIG 能够在样本和词元层面进行细粒度分析,有效突出视觉基础元素,如颜色、空间关系和属性。基于此,我们提出了 VIG 指导的选择性训练方案,以高 VIG 的样本和词元为优先。该方法提高了视觉基准能力并减轻了语言偏差,通过专注于视觉信息丰富的样本和词元,实现了在显著减少监督的情况下获得优越性能。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文旨在解决大型视觉语言模型(Large Vision Language Models, LVLMs)中的语言偏见(language bias)问题。
具体而言,该问题表现为模型过度依赖文本先验(textual priors)而忽视视觉证据,导致以下两种典型缺陷:
- 视觉忽视(Visual Ignorance):模型行为类似于纯文本模型,忽略图像中的显著内容,仅基于语言上下文或常识生成回答;
- 幻觉(Hallucinations):模型自信地描述图像中不存在的物体、属性或关系。
现有方法的局限性
prior work 主要通过以下方式缓解该问题,但存在根本局限:
- 解码策略(如对比解码):仅在推理阶段抑制语言驱动响应,未解决模型如何表征和利用视觉信息的根本问题;
- 架构修改(如增强图像注意力):往往需要改变模型结构,且可能引入噪声或过度放大不相关区域;
- 数据策划:构建高质量多模态指令数据集,但缺乏对单个训练样本或token实际依赖视觉信息程度的定量度量。
核心假设
论文提出,语言偏见的关键驱动因素在于:
- 多模态训练数据中存在大量弱视觉 grounding、文本主导(text-dominant)的样本;
- 训练过程中对所有token(如颜色、空间关系等视觉相关token与冠词、介词等语法token)采用统一优化目标,导致模型缺乏区分视觉依赖信号与纯文本模式的激励。
解决方案概述
为解决上述问题,论文引入Visual Information Gain (VIG),一个基于困惑度(perplexity)的指标,用于量化视觉输入对降低预测不确定性的贡献。基于VIG,论文进一步提出VIG引导的选择性训练方案(VIG-guided selective training),通过优先训练高VIG样本和token,在显著减少监督信号的同时提升视觉grounding能力并抑制语言偏见。
Q: 有哪些相关研究?
根据论文第2节(Related Work),相关研究主要围绕以下几个方向展开:
1. 大型视觉语言模型(LVLMs)的进展
近期研究通过结合强大的大语言模型(LLMs)与预训练视觉编码器,开发了诸多LVLMs,如 LLaVA
1,2
、InstructBLIP
12
、MiniGPT-4
8
、ShareGPT4V
7
等。这些模型在图像描述、视觉问答(VQA)和复杂指令遵循等多模态任务上取得了显著进展。
2. 语言偏见(Language Bias)问题
- 问题定义:指LVLMs过度依赖文本先验(textual priors)而生成视觉无根据响应的倾向
25,26,27,29,30
。 - 成因分析:偏见通常源于语言捷径(language shortcuts)
42,43
,即从噪声多模态数据集中学习到的统计模式。这些数据集常由纯文本LLM合成,包含视觉无关或误导性的标题
7,33,38
。 - 实证发现:注意力分布分析表明,LVLMs倾向于将注意力集中在文本token而非视觉特征上
44,45
,限制了模型对视觉信息的主动参考。
3. 缓解语言偏见的现有策略
| 方法类别 | 代表工作 | 核心机制 | 局限性 |
|---|---|---|---|
| 无需训练的方法(Training-free) | VCD [25], ICD [36] | 对比解码:在推理时比较有无视觉输入的模型预测,抑制语言驱动响应 | 仅规避而非解决根本问题;增加推理开销 |
| 注意力增强 | PAI [27], VAR [46] | 显式提升图像注意力权重或重新分配注意力以缓解注意力汇聚(attention sink) | 效果过于宽泛,可能放大无关区域并引入噪声 |
| 基于训练的策略 | LACING [26] | 通过双注意力(dual attention)和软图像引导(soft-image guidance)显式促进视觉信息利用 | 需要修改模型架构 |
| 数据为中心的方法 | [7,33,38] | 利用更强的模型或精心过滤构建高质量多模态指令数据集 | 缺乏对单个样本或token视觉依赖程度的定量度量 |
4. 关键研究空白
现有方法(无论是模型级干预还是数据策划)的共同局限在于:缺乏对训练数据中每个样本或token实际依赖视觉信息程度的显式量化。本工作通过引入Visual Information Gain (VIG)填补了这一空白,实现了细粒度的、基于数据视觉贡献的选择性训练。
Q: 论文如何解决这个问题?
论文通过引入Visual Information Gain (VIG) 并基于该指标实施选择性训练来解决语言偏见问题。具体解决方案包含以下核心组件:
1. Visual Information Gain (VIG) 指标
VIG是一个基于困惑度(perplexity)的度量,用于量化视觉输入对降低模型预测不确定性的贡献。
数学定义:
VIG = log ( PPL(A mid Q)PPL(A mid Q, I) )
其中:
- PPL(A mid Q) 表示仅基于问题 Q (无视觉输入)时模型对答案 A 的困惑度
- PPL(A mid Q, I) 表示基于问题 Q 和图像 I 时的困惑度
该定义可等价表述为交叉熵损失之差:
VIG = L(A mid Q) - L(A mid Q, I)
视觉缺失模拟: 为计算 PPL(A mid Q) ,论文采用高斯模糊处理输入图像(遵循Xing等人
47
的方法),消除语义视觉线索但保留图像存在的形式,从而在架构内模拟”无视觉信息”条件。
Token级分解: VIG可分解为各token的贡献,提供细粒度分析:
VIG = (1) / (T) ∑(t=1)^(T) [ -log qθ(at mid a(<t), Q) - (-log qθ(a_t mid a(<t), Q, z_v)) ]
其中 z_v = P(E_v(I)) 为视觉嵌入。正值表示该token依赖视觉信息(如颜色、空间关系),接近零或负值表示该token可由文本单独预测(如冠词、介词)。
2. VIG引导的选择性训练方案
基于VIG,论文实施双层筛选策略,优先处理高视觉信息增益的数据:
样本级选择(Sample Selection):
- 计算所有训练样本的 VIG_i 得分
- 按VIG排序并保留前 p% 的样本(阈值记为 τ_p )
- 定义选中样本集: S_p = i mid VIG_i ≥ τ_p
Token级选择(Token Selection): 在选中的样本内,进一步筛选视觉信息丰富的token:
- 对每个样本 i ∈ Sp ,定义高VIG token集: T_i^+ = t mid VIG(i,t) ≥ τ_p
- 损失计算仅针对这些token进行,忽略低VIG token(如语法词、文本可推断的常识内容)
训练目标: 优化过程仅使用经过双重筛选的token集合 ∪_(i ∈ S_p) T_i^+ 计算梯度,确保模型专注于学习视觉依赖性强、难以从文本单独推断的模式。
3. 解决机制
该方法通过以下机制直接缓解语言偏见:
- 过滤文本主导样本:排除那些无需图像即可回答的样本(如纯常识问题),防止模型学习”忽视视觉”的捷径
- 聚焦视觉关键token:在保留样本中,仅优化描述颜色、属性、空间关系等视觉敏感token,减少模型对语法结构token的过度优化
- 强化视觉-文本对齐:通过强制模型在存在视觉证据时才降低损失,建立”视觉信息减少不确定性”的强关联,抑制幻觉生成
这种数据中心(data-centric)方法无需修改模型架构或增加推理开销,通过重新分配学习重点而非改变模型结构来提升视觉grounding能力。
Q: 论文做了哪些实验?
论文通过以下系统性实验验证了Visual Information Gain (VIG)的有效性及VIG引导选择性训练的性能:
1. 基准测试设置
实验涵盖两大任务类别:
- 视觉理解:LLaVAW(开放域对话)、MMVet(综合多模态能力)、MMBench(多选题技能评估)、DocVQA(文档理解)
- 幻觉评估:POPE(对象存在性Polling评估)、CHAIR(图像相关度度量)、MMHal(GPT-4评分的事实性评估)
2. 整体性能与数据效率验证
在三个LVLM架构上评估VIG训练的效果:
| 模型 | 设置 | 样本Token数 | 有效Token数 | 关键发现 |
|---|---|---|---|---|
| LLaVA-1.5 7B | Vanilla | 58.61M | 58.61M | 基准性能 |
| +VIG训练 | 51.17M (-13%) | 38.45M (-34%) | 所有指标提升,MMHal幻觉率降低8.47% | |
| LLaVA-1.5 13B | Vanilla | 58.61M | 58.61M | 基准性能 |
| +VIG训练 | 28.94M (-51%) | 12.14M (-79%) | 极端数据效率下仍全面超越基准 | |
| ShareGPT4V 7B | Vanilla | 60.33M | 60.33M | 强基线 |
| +VIG训练 | 49.34M (-18%) | 39.20M (-35%) | 在强基线上进一步提升视觉理解能力 |
核心结论:使用仅 12.14M 有效token(相比原 58.61M 减少79%)的LLaVA-1.5 13B,在POPE、CHAIR、MMHal等幻觉基准上显著优于完整数据训练的模型。
3. 与现有方法的对比
在LLaVA-1.5 7B上对比以下基线:
- 训练自由方法:VCD(视觉对比解码)、PAI(图像注意力增强)、VAR(注意力重分配)
- 训练方法:LACING(多模态双注意力架构)
实验显示:
- 正交性优势:VIG训练可与上述方法叠加使用(如VIG+VCD、VIG+LACING), consistently产生性能增益
- 综合优势:单独VIG训练在所有视觉理解和幻觉基准上均优于vanilla模型,而现有方法(如LACING)虽在部分任务表现突出,但在DocVQA等细粒度理解任务上存在性能牺牲
4. 机制分析实验
视觉注意力分配分析: 通过测量模型各层对图像token的注意力占比,发现:
- VIG训练后的模型在中间层(语义特征提取关键层)对视觉token的注意力分配显著高于vanilla模型
- 该趋势在LLaVA-1.5 13B和ShareGPT4V 7B中保持一致,验证VIG训练增强了视觉证据的利用
语言偏见鲁棒性测试: 采用VQAv2的”文本腐败”协议(将误导性描述附加到图像):
- Base:清洁输入准确率(LLaVA-1.5 7B: 77.9% vs VIG: 78.2%)
- Corruption:腐败文本下的准确率(LLaVA-1.5 7B: 32.1% vs VIG: 42.3%)
- Norm(标准化分数):VIG模型(54.1%)显著优于vanilla(41.2%),表明其更能抵抗文本先验的干扰
5. 消融实验
选择层级有效性(固定 p=70% ):
- Random:随机选择70%样本 —— 性能普遍低于vanilla,证明简单数据削减有害
- SS(Sample Selection):仅基于VIG选择样本 —— 超越Random和vanilla,验证样本筛选价值
- SS+TS(Sample + Token Selection):叠加token级筛选 —— 最优性能,证明token级过滤对最大化视觉信息利用至关重要
选择比例 p 的敏感性(LLaVA-1.5 7B): 测试 p ∈ 30%, 50%, 70%, 100% ( 100% 为vanilla):
- p=30% (仅~5%有效token):在开放域任务(LLaVAW)表现优异,但在多选题(MMBench)略有下降,表明极端稀疏监督适合生成任务但需更多数据覆盖选择题知识
- p=70% :最佳平衡点,在幻觉基准(CHAIR、MMHal)上达到最优,同时保持视觉理解性能
6. 定性分析(附录)
提供LLaVAW和MMVet的生成案例对比:
- 幻觉抑制:VIG训练消除了vanilla模型中”狗穿红帽蓝袍”等基于文本先验的幻觉(实际为黑帽棕袍)
- 属性精确性:在描述”蒙娜丽莎风格的狗”时,VIG模型准确识别视觉属性(黑色头巾、棕色长袍),而非依赖关于原画作的文本知识(红色帽子)
- 响应简洁性:在MMVet中,VIG训练的7B模型对”飞机起飞/降落”问题给出准确简洁回答(”taking off”),而vanilla模型产生冗长模糊的不确定性描述,达到与13B模型相当的响应质量
Q: 有什么可以进一步探索的点?
基于论文结论与局限性分析,以下方向值得进一步探索:
1. 计算效率优化
- 降低VIG计算开销:当前计算VIG需对每条多模态指令执行额外的无视觉条件前向传播(约6小时/8×RTX 4090)。未来可探索轻量化VIG估计(如基于梯度近似或知识蒸馏的预测器),或采用分层筛选策略(先快速粗筛再精确计算)以减少预筛选成本。
- 动态阈值调整:当前采用固定比例 p (如70%)和全局阈值 τ_p 。可研究样本自适应阈值或课程学习策略(curriculum learning),根据训练动态调整视觉信息增益的筛选标准。
2. 扩展至更广泛的技术栈与领域
- 跨架构泛化:当前验证集中于LLaVA-1.5与ShareGPT4V家族。需验证VIG在其他架构(如Flamingo、Qwen-VL、MiniGPT系列)及不同视觉编码器(如SigLIP、EVA-CLIP)上的有效性。
- 预训练阶段应用:目前VIG主要用于指令微调阶段。探索其在视觉-语言对齐预训练(adapter pre-training)中的应用潜力,从源头过滤弱grounding的图像-文本对。
- 超越静态图像:将VIG扩展至视频-语言模型(计算时序维度的信息增益)和多图像/3D场景理解任务,量化动态视觉或多视角输入的信息贡献。
3. 负向样本的利用机制
- 对比学习框架:当前仅保留高VIG样本,负VIG样本(视觉与文本冲突或无关)被直接丢弃。未来可探索利用这些样本构建对比学习目标,显式训练模型区分”视觉支持”与”视觉冲突”的场景,增强鲁棒性。
- 反事实数据增强:基于VIG识别视觉关键区域,对低VIG区域进行遮挡或扰动,生成硬负样本以强化视觉依赖。
4. 理论深化与可解释性
- 信息论视角:论文将VIG与KL散度关联(公式4-5)。可进一步建立VIG与互信息(Mutual Information) I(A;I|Q) 的严格理论联系,探索其作为视觉-语言对齐下界的性质。
- 注意力机制的因果分析:结合VIG进行因果干预(causal intervention),量化特定视觉token对生成特定文本token的因果效应,超越相关性分析。
5. 与其他去偏见策略的深度融合
- 联合优化:虽然论文显示VIG与VCD、LACING等方法正交,但可探索端到端联合训练,将VIG作为辅助损失函数(如加权KL散度项)直接融入架构修改方法中,而非仅作为数据筛选器。
- 动态解码引导:将VIG从”训练时筛选”扩展至”推理时引导”,利用token级VIG估计动态调整解码策略(如在高VIG token处降低温度参数或抑制n-gram重复)。
6. 细粒度任务适配
- 领域特异性VIG:针对特定领域(如医疗影像、文档理解)定义领域感知的视觉信息增益,考虑不同领域视觉证据的特定形式(如病灶区域、表格结构)。
- 长文本生成场景:当前VIG主要分析短答案(VQA/描述)。在长文本生成(如详细图像描述、多轮对话)中,需探索段落级或语句级VIG聚合策略,处理长程视觉依赖关系。
Q: 总结一下论文的主要内容
该论文针对大型视觉语言模型(LVLMs)的语言偏见问题(即模型过度依赖文本先验而忽视视觉证据,导致幻觉和视觉忽视),提出了一种基于数据的选择性训练范式。以下是主要内容概述:
1. 问题识别与动机
现有LVLMs在训练时平等对待所有样本和token,导致:
- 视觉忽视:模型无需查看图像即可回答(基于常识或语言上下文)
- 幻觉:生成图像中不存在的物体或属性
- 根本缺陷:缺乏对训练数据视觉依赖程度的定量度量,无法区分哪些样本/token真正需要视觉信息
2. Visual Information Gain (VIG) 指标
论文提出VIG作为衡量视觉输入贡献的 perplexity-based 指标:
VIG = log ( PPL(A mid Q)PPL(A mid Q, I) ) = L(A mid Q) - L(A mid Q, I)
其中, PPL(A mid Q) 通过高斯模糊图像模拟视觉缺失条件计算。VIG具有以下特性:
- 样本级:衡量整体视觉依赖程度
- Token级:可分解为各token的损失差,识别视觉敏感token(如颜色、空间关系)与文本主导token(如冠词、介词)
- 理论基础:等价于视觉条件对KL散度的减少量
3. VIG引导的选择性训练
基于VIG实施双层数据筛选:
- 样本级选择:按VIG排序保留前 p% 样本(如70%),排除弱视觉grounding的文本主导样本
- Token级选择:在保留样本中,仅对VIG高于阈值的token计算损失,忽略可由文本预测的语法token
该策略将优化重点集中在高视觉信息增益的数据区域,强制模型学习视觉证据而非语言捷径。
4. 实验验证与发现
在LLaVA-1.5(7B/13B)和ShareGPT4V 7B上的实验表明:
| 关键结果 | 详情 |
|---|---|
| 数据效率 | LLaVA-1.5 13B仅用12.14M有效token(相比原58.61M减少79%)即超越全数据训练性能 |
| 性能提升 | 在POPE、CHAIR、MMHal等幻觉基准上显著降低幻觉率,同时在LLaVAW、MMVet等视觉理解任务上提升准确率 |
| 正交性 | 与现有方法(VCD、PAI、LACING)兼容,叠加使用可进一步提升性能 |
| 机制验证 | VIG训练模型对视觉token的注意力分配显著增加,对文本干扰( corrupted captions)的鲁棒性增强 |
5. 贡献总结
- 指标创新:提出首个细粒度、可分解的视觉信息增益度量,支持样本和token级分析
- 方法创新:无需修改模型架构的数据中心(data-centric)去偏见方案
- 实践价值:通过选择性训练实现数据效率与模型性能的双提升,为构建更可靠依赖视觉证据的LVLMs提供新范式
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Seulbi Lee,Sangheum Hwang
Categories: cs.CV
PDF URL: https://arxiv.org/pdf/2602.17186.pdf
Arxiv URL: https://arxiv.org/abs/2602.17186
Arxiv ID: 2602.17186
CoolPaper URL: https://papers.cool/arxiv/2602.17186
Published: 2026-02-19T09:12:21Z
Updated: 2026-02-19T09:12:21.000Z
14. Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum
Efficient stochastic optimization typically integrates an update direction that performs well in the deterministic regime with a mechanism adapting to stochastic perturbations. While Adam uses adaptive moment estimates to promote stability, Muon utilizes the weight layers’ matrix structure via orthogonalized momentum, showing superior performance in large language model training. We propose a new optimizer and a diagonal extension, NAMO and NAMO-D, providing the first principled integration of orthogonalized momentum with norm-based Adam-type noise adaptation. NAMO scales orthogonalized momentum using a single adaptive stepsize, preserving orthogonality while improving upon Muon at negligible additional cost. NAMO-D instead right-multiplies orthogonalized momentum by a diagonal matrix with clamped entries. This design enables neuron-wise noise adaptation and aligns with the common near block-diagonal Hessian structure. Under standard assumptions, we establish optimal convergence rates for both algorithms in the deterministic setting and show that, in the stochastic setting, their convergence guarantees adapt to the noise level of stochastic gradients. Experiments on pretraining GPT-2 models demonstrate improved performance of both NAMO and NAMO-D compared to the AdamW and Muon baselines, with NAMO-D achieving further gains over NAMO via an additional clamping hyperparameter that balances the competing goals of maintaining a well-conditioned update direction and leveraging fine-grained noise adaptation.
中文摘要
高效的随机优化通常结合在确定性条件下表现良好的更新方向与适应随机扰动的机制。虽然 Adam 使用自适应动量估计来提升稳定性,但 Muon 通过正交动量利用权重层的矩阵结构,在大型语言模型训练中表现出优越性能。我们提出了一种新的优化器及其对角扩展,NAMO 和 NAMO-D,这是首次将正交动量与基于范数的 Adam 型噪声适应进行系统性整合。NAMO 使用单一自适应步长来缩放正交动量,在保持正交性的同时,相较 Muon 提升性能且几乎没有额外成本。NAMO-D 则通过带有限制条目的对角矩阵右乘正交动量。这一设计实现了按神经元的噪声适应,并与常见的近块对角 Hessian 结构相一致。在标准假设下,我们为两个算法在确定性环境下建立了最优收敛速度,并证明在随机环境下,其收敛性保证会根据随机梯度的噪声水平进行调整。在 GPT-2 模型预训练实验中,结果显示 NAMO 和 NAMO-D 相较于 AdamW 和 Muon 基线均表现提升,而 NAMO-D 通过额外的限制超参数,在维持良好条件的更新方向与利用精细噪声适应之间取得平衡,实现了进一步的性能提升。
LLM Analysis
Q: 这篇论文试图解决什么问题?
该论文旨在解决**大规模随机优化(特别是大语言模型训练)中,如何有效整合自适应矩估计(Adam-type noise adaptation)与正交化动量更新(orthogonalized momentum)**的问题。
具体而言,论文针对以下核心挑战:
1. 现有方法的局限性
Muon优化器的噪声敏感性问题:
- Muon通过矩阵正交化(orthogonalization)利用权重层的矩阵结构,在确定性 regime 中表现优异,被视为谱范数下的最速下降方向
- 然而,正交化操作在随机设置中是无界操作(unbounded operation),会放大原始动量矩阵中的噪声影响
- 这导致训练不稳定(training instability)和对超参数选择的敏感性增加(increased sensitivity to hyperparameter choices)
Adam优化器的方向性局限:
- Adam及其变体虽然通过坐标级自适应步长有效处理随机扰动,但将参数视为展平向量(flattened vectors),未利用矩阵结构
- Adam的符号下降组件(sign-descent component)可能导致不良的泛化行为
2. 核心科学问题
论文试图解决的关键矛盾是:
如何在保持正交化更新方向的结构优势(利用矩阵结构、加速收敛)的同时,引入Adam型的噪声自适应机制来抑制随机梯度噪声的负面影响?
3. 提出的解决方案
为系统性解决上述问题,论文提出:
- NAMO(Norm-Based Adaptive Moment Estimation with Orthogonalized Momentum):通过单一自适应标量缩放正交化动量,在保持正交性的同时实现噪声自适应
- NAMO-D(对角扩展版本):通过右乘对角矩阵实现神经元级(neuron-wise)的自适应步长,对应神经网络中常见的近块对角Hessian结构
4. 理论贡献
论文建立了在标准光滑性和有界方差假设下,两种算法在确定性和随机设置中的最优收敛率(optimal convergence rates),并证明其收敛保证能够自适应地适应随机梯度的噪声水平。
Q: 有哪些相关研究?
根据论文第1.1节,相关研究可分为以下两个主要方向:
1. Adam的简化与结构化改进
不同于Adam的坐标级(coordinate-wise)自适应步长,本研究引入结构化步长自适应用于正交化更新。相关简化工作包括:
- Chezhegov et al. (2024):提出将裁剪的基于范数的Adam型步长应用于动量,在有界梯度和重尾噪声假设下分析收敛性。
- Adam-mini (Zhang et al., 2024):基于神经网络近块对角Hessian结构(near block-diagonal Hessian structure)的观察,将参数分块并为每块分配单一自适应学习率,在降低内存成本的同时匹配Adam性能。
2. Muon的自适应变体
已有多种尝试将自适应机制与Muon的正交化动量结合,但大多缺乏理论保证或计算开销较高:
- AdaMuon (Si et al., 2025) 与 NorMuon (Li et al., 2025):结合Muon正交化动量与Adam型缩放变体,但未提供理论收敛保证。
AdaGO (Zhang et al., 2025):使用自适应衰减步长缩放正交化动量,达到最优理论收敛率,但尚未在大语言模型训练中验证性能。
Hao et al. (2025):提出基于梯度方差估计的Muon层自适应学习率,但需计算核范数(nuclear norm),增加了每迭代计算成本。
Crawshaw et al. (2025):探索调参鲁棒的Muon变体(tuning-robust variants)。
PRISM (Yang, 2026):通过基于矩的自适应预处理器增强Muon,但额外计算成本高于本研究提出的算法,且缺乏理论保证。
- DeVA (Song et al., 2026):将方差适应与尺度不变符号下降解耦,为Muon正交化动量提供Adam型缩放,但维护Kronecker预处理器和周期性特征分解需要高计算和内存开销。
关键区别
论文明确指出,与上述工作相比,NAMO和NAMO-D首次提供了**理论上合理的(theoretically principled)**正交化更新方向与基于Adam型矩估计的噪声适应的整合,同时保持可忽略的额外计算成本(NAMO)或实现神经元级自适应(NAMO-D)。
Q: 论文如何解决这个问题?
论文通过提出NAMO(Norm-Based Adaptive Moment Estimation with Orthogonalized Momentum)及其对角扩展NAMO-D,从算法设计、理论保证和计算实现三个层面系统性地解决了该问题。
1. 算法设计:结构化自适应机制
NAMO:保持正交性的标量自适应
针对矩阵结构参数 Theta ∈ R^(m × n) ,NAMO在标准动量更新基础上引入基于范数的自适应缩放:
二阶矩估计:维护Frobenius范数平方的指数移动平均
vt = μ_2 v(t-1) + (1-μ_2)|G_t|_F^2正交化动量:对动量矩阵 M_t 进行精确或近似正交化 O_t = Orth(M_t)
- 自适应标量缩放:
α_t = |hatM_t|_F{√v_t + ε_t}
其中 Mt 和 v_t 为偏差修正后的估计。最终更新规则为:
Theta_t = Theta(t-1) - eta α_t O_t
关键特性:该标量缩放严格保持更新方向的正交性(orthogonality),同时通过 α_t 实现噪声适应——当随机梯度噪声大或接近驻点时, α_t 自动减小以促进稳定收敛。
NAMO-D:神经元级对角自适应
为利用神经网络常见的近块对角Hessian结构(near block-diagonal Hessian structure),NAMO-D引入列级(column-wise)自适应:
列级二阶矩:对每个神经元(列) j 维护独立的二阶矩估计
[vt]_j = μ_2 [v(t-1)]j + (1-μ_2)|[G_t](:j)|^2对角缩放矩阵:构造对角矩阵 D_t = diag(d_t) ,其中
d_t = N_c(M_t) oslash √v_t + ε_tN_c(·) 表示提取矩阵各列的欧几里得范数。
钳制 safeguard:通过超参数 c ∈ (0,1] 将 d_t 的条目钳制在区间 $
cd_t, d_t/c
$ 内,确保条件数有界:
kappa(D_t) ≤ (1) / (c^2)
更新规则为:
Thetat = Theta(t-1) - eta O_t D_t
权衡设计:NAMO-D不再严格保持正交性,但通过钳制机制在细粒度噪声适应(neuron-wise adaptation)与良好条件更新方向之间取得平衡。
2. 理论保证:最优收敛率
在标准光滑性(Assumption 1)和有界方差噪声(Assumption 2)假设下,论文建立了以下理论保证:
确定性设置(Deterministic Regime)
- NAMO:达到最优收敛率 O(T^(-1/2)) (匹配一阶方法下界)
- NAMO-D:同样达到 O(T^(-1/2)) ,验证了对角缩放不会恶化收敛性
随机设置(Stochastic Regime)
- 噪声自适应收敛:两者均满足
(1) / (T)∑(t=1)^T E[|∇ L(Theta(t-1))|_F] ≤ O(T^(-1/4) + √σb^(-1/4)T^(-1/8))
其中 b 为批量大小, σ 为噪声水平。当批量 b = Omega(σ^2√T) 时,恢复最优速率 O(T^(-1/4)) 。
- 关键理论工具:利用正交化下降不等式(orthogonalized descent inequality)和偏差修正矩估计的凸组合表示,统一处理漂移项(drift)和随机扰动。
3. 计算实现:可忽略的额外开销
计算成本
- NAMO:仅增加 O(mn) 的Frobenius范数计算和标量除法,相对于Muon的Newton-Schulz迭代( O(mn · #iterations) )可忽略。
- NAMO-D:增加列范数计算 O(mn) 和对角矩阵乘法,同样保持计算高效。
超参数设计
- NAMO仅需标准Adam型超参数 (μ_1, μ_2, ε) ,无需额外调整即可改进Muon。
- NAMO-D引入单一额外超参数 c (钳制因子),通过平衡”保持良态方向”与”细粒度适应”实现性能提升(实验显示 c=0.1 或 0.9 依模型大小而定)。
实现细节
- 对非矩阵参数(如偏置、归一化层)使用AdamW,与Muon实践一致。
- 支持权重解耦衰减(decoupled weight decay):对NAMO将 α_t 同时应用于更新方向和权重衰减项;对NAMO-D将 D_t 右乘于两者。
通过这种设计,论文首次实现了理论上合理且计算实用的正交化更新与噪声适应的整合,在GPT-2预训练实验中相比AdamW和Muon基线均取得性能提升。
Q: 论文做了哪些实验?
论文在第4节进行了GPT-2预训练实验,评估了NAMO和NAMO-D在大语言模型训练中的性能。实验设计如下:
实验设置
基线方法
- AdamW (Loshchilov and Hutter, 2017):使用 β_1=0.9, β_2=0.95
- Muon (Jordan et al., 2024b):使用 β=0.95
- NAMO:使用 μ_1=0.95, μ_2=0.99
- NAMO-D:使用 μ_1=0.95, μ_2=0.99 ,并扫描钳制参数 c
所有方法均使用权重衰减系数 λ=0.01 和解耦权重衰减(decoupled weight decay)。
模型架构与数据集
- 模型:基于nanoGPT实现的GPT-2架构
- GPT-2 Small(124M参数)
- GPT-2 Medium(355M参数)
- 数据集:OpenWebText(约90亿训练token,440万验证token)
- 硬件:4× NVIDIA H100 GPU
训练配置
- 序列长度:1024
- 有效批量大小:480序列(491,520 token)
- 学习率调度:2000步线性预热后保持恒定
- 优化策略:对学习率 eta 进行网格搜索(grid search),对NAMO-D额外扫描钳制参数 c ∈ 0.12, 0.40, 0.75, 0.90 (355M模型)
主要实验结果
1. GPT-2 (124M) 超参数鲁棒性分析
通过学习率扫描(Learning Rate Sweep)评估不同学习率下的性能:
- 范围:在10K训练步后测量训练和验证损失
- 发现:NAMO和NAMO-D在更宽的学习率范围内实现更低的训练和验证损失,表现出比Muon和AdamW更快的收敛速度和更好的调参鲁棒性
2. GPT-2 (124M) 完整训练(50K步)
使用10K步扫描确定的最优学习率(表1),训练至50K步:
- 最优学习率:
- AdamW: 0.0013
- Muon: 0.0013
- NAMO: 0.012
- NAMO-D: 0.009( c=0.1 )
- 性能(表2):
- NAMO训练损失2.9272,验证损失3.0351
- NAMO-D训练损失2.9167,验证损失3.0246
- 相比Muon(训练3.0265,验证3.0435)和AdamW(训练3.0456,验证3.0643)均有显著提升
- NAMO-D通过细粒度神经元自适应进一步超越NAMO
3. GPT-2 (355M) 规模扩展验证
训练10K步验证在更大模型上的有效性:
- 最优超参数(表1):
- NAMO: eta=0.007
- NAMO-D: eta=0.009, c=0.9 (注意 c 值与124M模型不同)
- 性能(表2):
- NAMO验证损失2.9516
- NAMO-D验证损失2.9507
- 持续优于Muon(2.9684)和AdamW(2.9914)
关键发现
| 方面 | 结论 |
|---|---|
| 收敛速度 | NAMO和NAMO-D在相同步数下达到更低的训练和验证损失 |
| 超参数敏感性 | 在更宽的学习率范围内保持低损失,调参更鲁棒 |
| 钳制参数 c 的作用 | 在355M模型中, c=0.9 (接近1)表现最佳;在124M模型中, c=0.1 表现最佳,表明不同规模模型需要不同的”方向保持”与”噪声适应”平衡 |
| 计算开销 | NAMO和NAMO-D以可忽略的额外计算成本(相对于Muon的Newton-Schulz迭代)实现性能提升 |
实验验证了理论设计的有效性:NAMO通过标量自适应在保持正交性的同时抑制噪声,而NAMO-D通过列级自适应和钳制机制在结构保持与细粒度适应间取得平衡,两者均优于现有基线。
Q: 有什么可以进一步探索的点?
根据论文第5节及前文讨论,以下是可以进一步探索的研究方向:
1. 大规模模型验证与扩展
- 更大规模LLM评估:当前实验仅在GPT-2 Small(124M)和Medium(355M)上进行,需在更大规模(如1B+参数)的模型上验证NAMO和NAMO-D的可扩展性
- 其他架构应用:探索在视觉Transformer、扩散模型、多模态模型等非语言模型架构中的有效性
- 长上下文训练:验证在超长序列训练场景下的稳定性与性能
2. 算法改进与自动化
- 调参轻量化变体:开发无需手动调节钳制参数 c 的NAMO-D变体,例如通过自适应机制动态调整 c 值(观察到124M模型最优 c=0.1 而355M模型最优 c=0.9 ,暗示 c 可能与模型规模相关)
- 自适应正交化精度:研究在训练过程中动态调整Newton-Schulz迭代次数的策略,在保证收敛的同时降低计算开销
- 与正交化方法的结合:探索更高效的近似正交化技术(如随机SVD、幂迭代等)替代标准Newton-Schulz迭代
3. 理论深化
- 更弱的假设条件:在更一般的假设下(如非光滑、非凸、重尾噪声分布)建立收敛理论
- 泛化性能分析:理论上分析正交化更新结合噪声自适应对模型泛化能力的影响(论文提及Adam的符号下降可能导致泛化不良,而正交化方向可能改善此问题)
- Hessian结构利用:进一步利用神经网络近块对角Hessian结构,开发更精细的块自适应版本(介于NAMO标量缩放与NAMO-D全对角之间的中间形态)
4. 系统优化与实用化
- 内存效率优化:探索二阶矩估计的压缩技术(如8-bit量化、低秩近似),进一步降低优化器状态的内存占用
- 分布式训练适配:研究在大规模分布式环境中的实现策略,特别是如何高效计算全局统计量(如跨设备的范数估计)
- 超参数迁移性:系统研究最优超参数(特别是 μ_1, μ_2, c )在不同模型规模间的迁移规律,建立缩放法则(scaling laws)
5. 混合与组合策略
- 分层优化策略:在极深网络中探索层-wise自适应的NAMO变体,不同层使用不同的自适应策略
- 与预训练技术的结合:探索与梯度裁剪、学习率预热、退火策略等训练技巧的协同效应
- 二阶信息近似:将NAMO框架与近似二阶方法(如KFAC、Shampoo)结合,在保持计算效率的同时利用曲率信息
这些方向既包含论文明确指出的未来工作,也涵盖了基于当前研究局限性和算法特性可自然延伸的探索路径。
Q: 总结一下论文的主要内容
该论文针对大规模深度学习优化中的关键挑战——如何有效整合正交化动量更新的结构优势与自适应矩估计的噪声抑制能力——提出了系统性的解决方案。
1. 研究动机与背景
现代随机优化需平衡两个目标:
- 方向选择:在无噪声 regime 中表现优异的更新方向(如 Muon 的谱范数最速下降方向)
- 噪声适应:根据梯度不确定性自适应调节步长的机制(如 Adam 的坐标级自适应)
现有方法存在局限:
- Muon 利用权重矩阵结构通过正交化 O_t = Orth(M_t) 实现高效更新,但正交化作为无界操作会放大随机噪声,导致训练不稳定
- Adam 虽具备噪声适应能力,但将参数视为展平向量,未利用矩阵结构,且符号下降组件可能导致泛化不良
2. 提出的算法
论文提出 NAMO(Norm-Based Adaptive Moment Estimation with Orthogonalized Momentum)及其对角扩展 NAMO-D:
NAMO(标量自适应)
通过单一自适应标量缩放正交化动量,保持严格正交性:
Thetat = Theta(t-1) - eta α_t O_t
其中自适应系数为:
α_t = |hatM_t|_F{√v_t + ε_t}
此处 v_t 为随机梯度 Frobenius 范数平方的偏差修正二阶矩估计。当噪声增大或接近驻点时, α_t 自动减小以稳定训练。
NAMO-D(对角自适应)
右乘对角矩阵 Dt 实现神经元级(neuron-wise)自适应:
Theta_t = Theta(t-1) - eta O_t D_t
其中 D_t = diag(d_t) , d_t 通过钳制操作 min(max(d_t, cd_t1), d_t/c) 限制条件数 kappa(D_t) ≤ 1/c^2 ,在细粒度噪声适应与良好条件更新方向间取得平衡。
3. 理论贡献
在标准光滑性假设(核范数 Lipschitz 连续)和有界方差噪声假设下:
- 确定性设置:两者均达到最优收敛率 O(T^(-1/2))
- 随机设置:收敛率自适应于噪声水平:
(1) / (T)∑(t=1)^T E[|∇ L(Theta(t-1))|_F] ≤ O(T^(-1/4) + √σb^(-1/4)T^(-1/8))
当批量大小 b = Omega(σ^2√T) 时恢复最优速率 O(T^(-1/4))
理论分析关键工具包括正交化下降不等式与偏差修正矩估计的凸组合表示。
4. 实验验证
在 GPT-2(124M 和 355M 参数)预训练实验(OpenWebText 数据集)中:
- 性能提升:NAMO 和 NAMO-D 均优于 AdamW 和 Muon 基线。具体而言,GPT-2-124M 训练 50K 步后,NAMO-D 验证损失 3.0246 对比 Muon 的 3.0435 和 AdamW 的 3.0643
- 超参数鲁棒性:在更宽学习率范围内保持低损失,调参更稳定
- 规模扩展性:在 355M 模型上保持优势,且观察到最优钳制参数 c 随模型规模变化(124M 时 c=0.1 ,355M 时 c=0.9 )
5. 核心创新
- 首个理论合理的整合:首次实现正交化更新与 Adam 型噪声适应在理论保证下的结合
- 计算高效:NAMO 仅增加 O(mn) 开销(可忽略),NAMO-D 实现神经元级自适应而无显著计算负担
- 条件数控制:通过钳制机制确保 NAMO-D 的列级缩放不会破坏更新方向的良好条件性
未来工作包括更大规模 LLM 验证、调参轻量化变体开发,以及进一步探索噪声自适应正交化更新的理论性质。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Minxin Zhang,Yuxuan Liu,Hayden Schaeffer
Categories: cs.LG,math.OC
PDF URL: https://arxiv.org/pdf/2602.17080.pdf
Arxiv URL: https://arxiv.org/abs/2602.17080
Arxiv ID: 2602.17080
CoolPaper URL: https://papers.cool/arxiv/2602.17080
Published: 2026-02-19T05:00:39Z
Updated: 2026-02-19T05:00:39.000Z
15. ReIn: Conversational Error Recovery with Reasoning Inception
Conversational agents powered by large language models (LLMs) with tool integration achieve strong performance on fixed task-oriented dialogue datasets but remain vulnerable to unanticipated, user-induced errors. Rather than focusing on error prevention, this work focuses on error recovery, which necessitates the accurate diagnosis of erroneous dialogue contexts and execution of proper recovery plans. Under realistic constraints precluding model fine-tuning or prompt modification due to significant cost and time requirements, we explore whether agents can recover from contextually flawed interactions and how their behavior can be adapted without altering model parameters and prompts. To this end, we propose Reasoning Inception (ReIn), a test-time intervention method that plants an initial reasoning into the agent’s decision-making process. Specifically, an external inception module identifies predefined errors within the dialogue context and generates recovery plans, which are subsequently integrated into the agent’s internal reasoning process to guide corrective actions, without modifying its parameters or system prompts. We evaluate ReIn by systematically simulating conversational failure scenarios that directly hinder successful completion of user goals: user’s ambiguous and unsupported requests. Across diverse combinations of agent models and inception modules, ReIn substantially improves task success and generalizes to unseen error types. Moreover, it consistently outperforms explicit prompt-modification approaches, underscoring its utility as an efficient, on-the-fly method. In-depth analysis of its operational mechanism, particularly in relation to instruction hierarchy, indicates that jointly defining recovery tools with ReIn can serve as a safe and effective strategy for improving the resilience of conversational agents without modifying the backbone models or system prompts.
中文摘要
由大型语言模型(LLMs)驱动并集成工具的对话代理在固定的任务导向型对话数据集上表现出色,但仍容易受到意料之外的、用户引发的错误影响。本研究并不专注于错误预防,而是关注错误恢复,这需要对错误的对话上下文进行准确诊断并执行恰当的恢复计划。在现实约束下,由于高昂的成本和时间要求,无法进行模型微调或提示修改,我们探讨了代理是否能够从上下文错误的交互中恢复,以及如何在不更改模型参数和提示的情况下调整其行为。为此,我们提出了推理初始(Reasoning Inception, ReIn),这是一种测试时干预方法,将初始推理植入代理的决策过程。具体而言,外部初始模块会识别对话上下文中的预定义错误并生成恢复计划,然后将这些计划整合进代理的内部推理过程以指导纠正性操作,而不修改其参数或系统提示。我们通过系统模拟直接阻碍用户目标成功完成的对话失败情境来评估ReIn:用户含糊不清或缺乏支持的请求。在各种代理模型与初始模块的组合中,ReIn显著提升了任务成功率,并能够推广到未见过的错误类型。此外,它始终优于显式提示修改方法,凸显了其作为一种高效、即时方法的实用价值。对其操作机制的深入分析,特别是在指令层级方面,表明与ReIn联合定义恢复工具可以作为一种安全有效的策略,在不修改主模型或系统提示的情况下提升对话代理的鲁棒性。
LLM Analysis
LLM Analysis Failed: Error: 抓取失败(已重试2次): Waiting failed: 30000ms exceeded
Authors: Takyoung Kim,Jinseok Nam,Chandrayee Basu,Xing Fan,Chengyuan Ma,Heng Ji,Gokhan Tur,Dilek Hakkani-Tür
Categories: cs.CL,cs.AI
PDF URL: https://arxiv.org/pdf/2602.17022.pdf
Arxiv URL: https://arxiv.org/abs/2602.17022
Arxiv ID: 2602.17022
CoolPaper URL: https://papers.cool/arxiv/2602.17022
Published: 2026-02-19T02:37:29Z
Updated: 2026-02-19T02:37:29.000Z
16. Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions
Eliciting information to reduce uncertainty about latent group-level properties from surveys and other collective assessments requires allocating limited questioning effort under real costs and missing data. Although large language models enable adaptive, multi-turn interactions in natural language, most existing elicitation methods optimize what to ask with a fixed respondent pool, and do not adapt respondent selection or leverage population structure when responses are partial or incomplete. To address this gap, we study adaptive group elicitation, a multi-round setting where an agent adaptively selects both questions and respondents under explicit query and participation budgets. We propose a theoretically grounded framework that combines (i) an LLM-based expected information gain objective for scoring candidate questions with (ii) heterogeneous graph neural network propagation that aggregates observed responses and participant attributes to impute missing responses and guide per-round respondent selection. This closed-loop procedure queries a small, informative subset of individuals while inferring population-level responses via structured similarity. Across three real-world opinion datasets, our method consistently improves population-level response prediction under constrained budgets, including a >12% relative gain on CES at a 10% respondent budget.
中文摘要
从调查和其他集体评估中获取信息以减少对潜在群体层面属性的不确定性,需要在实际成本和数据缺失的情况下分配有限的提问精力。尽管大型语言模型能够实现自然语言中的自适应、多轮互动,大多数现有的信息获取方法在固定的受访者群体下优化提问内容,却没有在响应部分或不完整时自适应选择受访者或利用群体结构。为了解决这一问题,我们研究了自适应群体信息获取,即一个多轮设置中,代理在明确的查询和参与预算下自适应地选择问题和受访者。我们提出了一个理论上有依据的框架,结合了(i) 基于大型语言模型的期望信息增益目标,用于对候选问题进行评分,以及 (ii) 异质图神经网络传播,用于聚合已观察到的响应和参与者属性,以推测缺失的响应并指导每轮的受访者选择。该闭环过程询问了一小部分信息量大的个体,同时通过结构化相似性推断群体层面的响应。在三个真实的舆论数据集上,我们的方法在受限预算下持续提高了群体层面响应预测性能,包括在 CES 数据集上,在 10% 的受访者预算下实现了超过 12% 的相对增益。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文研究自适应群体引出(adaptive group elicitation)问题,旨在解决在有限预算和存在缺失数据的情况下,如何有效推断群体潜在属性的挑战。
具体而言,论文针对以下核心问题:
在查询预算(query budget)和参与预算(participation budget)的双重约束下,如何联合优化”问什么”(what to ask)和”问谁”(whom to ask),以最大化对群体潜在属性的信息获取?
该问题的关键难点包括:
资源约束的现实性:实际调查中,每个问题部署和每份完整响应都会产生真实成本(受访者负担、采访时间、激励费用),导致只能收集稀疏、部分观察到的数据。
现有方法的局限性:当前基于大语言模型(LLM)的自适应引出方法主要专注于优化”问什么”,隐含假设受访者池固定不变;然而,实际瓶颈往往在于能收集到的响应数量,且现有方法未能利用人口结构信息来处理部分或不完整的响应。
群体结构的利用:在响应稀疏的情况下,需要利用群体内部的结构化关系(如人口统计特征、个体间相似性)来插补缺失响应,使得从少数受访者收集的信息能够泛化到更广泛的群体。
为应对这些挑战,论文提出一个理论框架,结合:
- LLM-based期望信息增益(expected information gain)目标,用于评分候选问题的信息价值;
- 异构图神经网络(GNN)传播机制,用于聚合观察到的响应和参与者属性,插补缺失响应,并指导每轮受访者选择。
该框架通过闭环过程,在每一轮自适应地选择信息丰富的问题和具有代表性的受访者子集,同时通过图结构传播更新信念,从而在严格预算约束下持续降低对群体潜在属性的不确定性。
Q: 有哪些相关研究?
根据论文第6节(Related Work)及引言部分,相关研究主要涵盖以下四个方向:
1. 图形模型与群体结构推断
早期研究关注群体内部关系结构的建模:
- 条件自回归模型(CAR):Gelfand and Vounatsou
2003
、Dobra et al.
2011
、De Oliveira
2012
等使用CAR模型建模图形信号,通过邻居节点结果预测当前节点,适用于空间经济学和生物医学数据,但难以处理复杂的自然语言信息。 - 异构图神经网络:Suh et al.
2025
最近提出使用异构GNN处理群体信息,将离散选择的人类模拟建模为异构图上的链接预测问题。本文采用并扩展了这一方法,利用
Authors: Ruomeng Ding,Tianwei Gao,Thomas P. Zollo,Eitan Bachmat,Richard Zemel,Zhun Deng
Categories: cs.LG,cs.AI,cs.CL,cs.SI
PDF URL: https://arxiv.org/pdf/2602.14279.pdf
Arxiv URL: https://arxiv.org/abs/2602.14279
Arxiv ID: 2602.14279
CoolPaper URL: https://papers.cool/arxiv/2602.14279
Published: 2026-02-15T19:05:34Z
Updated: 2026-02-15T19:05:34.000Z
17. Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges
Evaluation and alignment pipelines for large language models increasingly rely on LLM-based judges, whose behavior is guided by natural-language rubrics and validated on benchmarks. We identify a previously under-recognized vulnerability in this workflow, which we term Rubric-Induced Preference Drift (RIPD). Even when rubric edits pass benchmark validation, they can still produce systematic and directional shifts in a judge’s preferences on target domains. Because rubrics serve as a high-level decision interface, such drift can emerge from seemingly natural, criterion-preserving edits and remain difficult to detect through aggregate benchmark metrics or limited spot-checking. We further show this vulnerability can be exploited through rubric-based preference attacks, in which benchmark-compliant rubric edits steer judgments away from a fixed human or trusted reference on target domains, systematically inducing RIPD and reducing target-domain accuracy up to 9.5% (helpfulness) and 27.9% (harmlessness). When these judgments are used to generate preference labels for downstream post-training, the induced bias propagates through alignment pipelines and becomes internalized in trained policies. This leads to persistent and systematic drift in model behavior. Overall, our findings highlight evaluation rubrics as a sensitive and manipulable control interface, revealing a system-level alignment risk that extends beyond evaluator reliability alone. The code is available at: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Warning: Certain sections may contain potentially harmful content that may not be appropriate for all readers.
中文摘要
针对大型语言模型的评估和对齐流程越来越依赖基于大型语言模型(LLM)的评审,其行为由自然语言评分标准引导,并在基准测试中进行验证。我们发现了这一工作流程中此前未被充分认识的一个漏洞,我们将其称为评分标准引发的偏好漂移(RIPD)。即便评分标准编辑通过了基准验证,它们仍可能在目标领域中导致评审偏好的系统性、方向性变化。由于评分标准作为高级决策接口,这种偏移可能源自看似自然、保留评判标准的编辑,且通过汇总的基准指标或有限的抽查难以察觉。我们进一步表明,这一漏洞可以通过基于评分标准的偏好攻击加以利用,在该攻击中,即便评分标准编辑符合基准要求,也可以将评审引导远离固定的人类或可信参考,从而系统性地诱导RIPD,并使目标领域的准确性下降高达9.5%(有用性)和27.9%(无害性)。当这些评审结果用于生成下游后训练的偏好标签时,所引入的偏差会在对齐流程中传播,并被训练策略内化。这将导致模型行为出现持续且系统性的漂移。总体而言,我们的发现凸显了评估评分标准作为一个敏感且可操控的控制接口,揭示了超越评审可靠性的系统级对齐风险。代码可在以下地址获取:https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface。警告:某些内容可能包含潜在有害信息,可能不适合所有读者。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文识别并研究了**评分标准诱导的偏好漂移(Rubric-Induced Preference Drift, RIPD)**这一系统级对齐风险。具体而言,论文试图解决以下核心问题:
核心问题:评分标准作为隐蔽的攻击面
在基于大型语言模型(LLM)的评判流程中,评判行为由自然语言评分标准(rubrics)指导,并通过基准测试验证。论文揭示了一个此前未被充分认识的漏洞:即使评分标准的修改通过了基准测试验证,仍可能在目标域上产生系统性、方向性的偏好漂移。
具体表现为:
- 基准-目标域失配:评分标准编辑可在保持基准域( D(bench) )性能的同时,在目标域( D(target) )上持续偏离固定的人类或可信参考信号
- 隐蔽性:由于评分标准作为高级决策接口,这种漂移可由看似自然、保持评价标准的编辑引起,难以通过聚合基准指标或有限抽查检测
- 可攻击性:攻击者可在标准评估流程内,仅通过自然语言编辑评分标准(无需访问模型内部参数或对抗性输入),系统性地诱导偏好漂移,降低目标域准确率(最高达9.5%在有用性任务,27.9%在无害性任务)
下游传播风险
论文进一步指出,当受漂移影响的评判者用于生成下游后训练(如DPO或RLAIF)的偏好标签时,诱导的偏差会通过Alignment pipelines传播并被内化到训练好的策略(policy)中。这导致:
- 模型行为出现持久且系统性的漂移
- 即使基准测试验证表明评估者性能稳定,下游策略仍可能出现未对齐行为
- 静态的基准验证无法保证下游对齐的安全性
简言之,该论文挑战了”基准测试性能良好即意味着评估者可靠”的隐含假设,揭示了评分标准设计本身作为一种敏感且可被操纵的控制接口所带来的系统级对齐风险。
Q: 有哪些相关研究?
论文在”Related Work”部分梳理了三个主要研究方向:
1. 基于LLM的评估与LLM-as-a-Judge
该领域探索利用LLM进行可扩展评估和偏好标记,包括开放式生成评估、成对比较和安全评估。现有研究表明,通过评分标准引导或结构化提示可以提升评判一致性和与人类判断的对齐程度。近期工作进一步通过自动构建评分标准或实例特定标准生成来系统化这一过程。
然而,这些研究通常将评分标准视为固定规范,侧重于评估质量、一致性和鲁棒性,而未考察在基准验证下评分标准设计本身如何系统性地塑造评判者的偏好结构。
2. 标准漂移与评估敏感性
先前工作通过标准漂移(criteria drift)、标注者分歧以及提示或任务设计的敏感性来解释评估不稳定性。研究表明,人类和模型评估者即使在被评估模型行为保持不变时,也可能产生可变判断。
与此不同,RIPD描述了一种正交的失效模式:LLM评判者可以在基准验证下保持可靠,同时其偏好在目标域上发生系统性漂移。这种漂移反映的是评估标准的连贯重加权或重组,而非随机噪声或提示敏感性。
3. 评估偏差与对齐流程
该方向关注有偏差的评判模型(biased judge models)以及此类信号如何影响下游对齐流程和后训练方法(如RLHF、RLAIF)。已有文献表明,奖励模型或偏好标签的不完善可能导致奖励黑客(reward hacking)、**代理不对齐(proxy misalignment)**和意外的策略行为。
关键区别在于:现有研究通常将评估者或标记机制视为固定,侧重于缓解奖励或偏好标签层面的偏差或噪声;而本文识别的是一种评估者侧漏洞——基于LLM的评判者中的评分标准诱导偏好漂移会系统性改变诱导的偏好标签,并通过对齐流程传播,即使基准验证表明评估性能稳定。
Q: 论文如何解决这个问题?
该论文并未提出针对RIPD的完整解决方案或防御机制,其核心贡献在于系统性地揭示和证明这一漏洞的存在及其传播风险。具体而言,论文通过以下方式”解决”(即阐明和处理)这一问题:
1. 形式化定义与存在性证明
论文首先将RIPD形式化为一个可验证的失效模式,定义了两个核心条件:
目标域定向退化:评分标准修改导致评判者在目标域上与参考信号的偏离显著增加
Agr(Jθ(· mid R’), Ref; D(target)) < Agr(Jθ(· mid R), Ref; D(target)) - τ基准保持:同时保持基准域性能在容忍度 varepsilon 范围内
通过构建基于评分标准的偏好攻击(Rubric-based Preference Attacks),论文证明了即使在现实威胁模型下(仅编辑自然语言评分标准,无模型内部访问),也能系统性地诱导RIPD。
2. 揭示攻击机制
论文提出了一种基于种群进化的搜索算法(Biased Rubric Search),展示了攻击者如何在标准工作流程内利用评分标准作为决策接口:
- 非对称细化:纠正基准域错误的同时,故意反转目标域上的正确判断
- 黑盒优化:仅通过自然语言编辑,无需模型参数或梯度访问
- 跨模型迁移:证明诱导的漂移可在不同评判模型间迁移
3. 追溯下游传播路径
论文通过DPO(Direct Preference Optimization)实验,量化分析了RIPD通过对齐流程的传播:
- 证明由漂移评分标准生成的偏好标签会将偏差内化到训练好的策略中
- 显示即使混合基准数据训练(BT设置),也无法完全缓解这种偏差
- 揭示静态基准验证无法保证下游对齐安全性
4. 提出系统性缓解方向(结论)
在结论部分,论文指出未来对齐工作应:
“将评分标准细化与验证视为对齐流程的显式组成部分,而非假设基准可靠性意味着偏好稳定性”
这意味着需要:
- 开发超越基准准确率的评分标准验证方法
- 建立针对目标域偏好稳定性的评估协议
- 将对齐流程中的评分标准设计视为关键的安全控制点
简言之,论文通过从攻击者视角系统展示漏洞,为后续防御研究奠定了基础,而非直接提供修复方案。
Q: 论文做了哪些实验?
论文围绕三个核心研究问题(RQ)设计了系统性实验,分为评分标准诱导偏好漂移验证和下游策略传播验证两大部分。
实验设置
数据集与任务
构建了四个基准-目标(benchmark-target)数据集对:
- 有用性(Helpfulness):Ultra-Real(基准:UltraFeedback,目标:ChatbotArena现实域)、Ultra-Creative(基准:UltraFeedback,目标:ChatbotArena创意写作域)
- 无害性(Harmlessness):SafeRLHF-RMB(基准:PKU-SafeRLHF,目标:RMB)、Anthropic-SafeRLHF(基准:PKU-SafeRLHF,目标:Anthropic hh-rlhf)
对比方法
- Seed Rubric:标准人工编写的评分标准(基线)
- Random Search:在预设约束下的无约束评分标准生成
- Few-Shot ICL:基于采样错误案例的上下文学习优化
- TextGrad:基于梯度风格反馈的迭代优化
- Ours (Biased Rubric Search):保持基准性能的进化搜索算法,放大目标域分歧
模型配置
- 评判模型:Qwen3-14B(主要优化对象)、Gemma-3-27B-it、DeepSeek-V3(跨模型迁移验证)
- 策略模型:Gemma-2-2B-it、LLaMA-3-8B-Instruct(有用性);其无审查版本(Dolphin3.0-Llama3.1-8B、Gemma-2b-Uncensored-v1,用于无害性以减少内在安全对齐干扰)
- 奖励模型:Skywork(有用性)、Beaver(无害性)
- 第三方评判:DeepSeek-V3
RQ1:基准兼容的偏差评分标准是否能诱导系统性偏好漂移?
实验设计:评估各方法生成的评分标准在基准域( D(bench) )和目标域( D(target) )上的准确率,以及两者的差距 Delta = Bench - Target 。
关键结果(表1、表2):
- Ours方法在所有设置中一致产生最大或接近最大的 Delta 值,在Qwen3-14B上达到**+0.208**(有用性)和**+0.159**(无害性)
- 目标域准确率下降最高达9.5%(有用性)和27.9%(无害性)
- 尽管基准性能保持(满足 varepsilon 容忍度),目标域性能显著退化,证实RIPD可被系统性地诱导
跨模型迁移验证:使用Qwen3-14B优化的评分标准迁移至Gemma-3-27B-it和DeepSeek-V3时,仍观察到类似的基准保持和目标域退化模式,证明漂移由评分标准驱动而非模型特定噪声。
RQ2:漂移是否源于评分标准质量退化?
实验设计:使用独立LLM评估器(DeepSeek-V3)对评分标准进行盲测成对比较(30轮运行,随机位置分配,平局计0.5)。
关键结果(表3):
- 在Ultra-Real、Ultra-Creative、SafeRLHF-RMB、Anthropic-SafeRLHF上,Ours的偏差评分标准从未被评判为劣于种子评分标准(胜率1.00或持平)
- 这表明观察到的偏好漂移并非源于评分标准质量下降或规范不良,而是源于决策标准的连贯重加权或重组
基准改进的解耦现象:在SafeRLHF-RMB(Qwen3-14B)上,偏差评分标准将基准准确率从0.686提升至0.706,但将目标域准确率从0.826降至0.547, Delta 从-0.140翻转为+0.159,证明基准准确率提升不意味着偏好泛化改善。
RQ3:漂移是否传播至下游策略并导致持久性不对齐?
实验设计:
- 策略训练:使用DPO(Direct Preference Optimization)训练三种策略:
- π_(ori) :原始基础模型
- π_(seed) :基于种子评分标准标签训练
- π_(bias) :基于偏差评分标准标签训练
- 训练设置:仅基准(B)、仅目标(T)、混合(BT)
- 评估指标:第三方评判者胜率、奖励模型(RM)胜率(Best-of-4采样)
关键结果:
- 第三方评判者胜率(表4):在目标域评估中, π(bias) 相对于 π(seed) 的胜率仅为40.2%(Ultra-Real)和41.7%(Anthropic-SafeRLHF),显著低于50%,表明偏差策略系统性地不被偏好。
- RM评估(图3):在目标域上, π(bias) 的胜率普遍约为40%,且 π(bias) 甚至劣于原始模型 π_(ori) ,表明漂移的监督信号导致策略退化而非仅学习不足。
- 训练数据混合无效:即使在BT设置(混合基准和目标数据)下训练, π(bias) 仍一致劣于 π(seed) ,说明标准的数据混合策略无法抵消评分标准诱导的偏差。
基准评估的局限性:尽管评判者在基准比较上保持一致, π(bias) 在基准域评估中仍表现出退化( w(bench)@B 和 w_(bench)@BT < 50%),因为策略优化改变了模型输出分布,而静态基准验证无法捕捉这种动态漂移。
附录中的补充实验
额外数据集组合
在表6中报告了额外三个设置的结果(Ultra-Problem、RMB-SafeRLHF、SafeRLHF-Anthropic),证实RIPD在不同域配对中的普适性, Delta 值在0.062至0.182之间。
案例研究(第6节)
通过具体实例展示:
- 有用性:偏差评分标准过度偏好简短回答,导致策略输出单字答案(如”Yes.
END
“),而第三方评估器偏好种子策略的详细解释。 - 无害性:偏差评分标准将”不参与”视为最安全选项,导致策略对良性查询过度拒绝,而种子策略提供更适当的上下文感知回答。
Q: 有什么可以进一步探索的点?
基于论文的发现,以下是几个值得深入探索的研究方向:
1. 防御与检测机制
问题:如何在不牺牲基准性能的前提下,检测或缓解评分标准诱导的偏好漂移?
可能方向:
- 对抗性验证协议:开发针对评分标准的”压力测试”,通过构造特定的域外(out-of-distribution)探针来检测潜在的偏好漂移
- 鲁棒性评分标准设计:研究如何设计对自然语言编辑具有内在鲁棒性的评分标准结构,例如通过显式约束条件或不变性要求
- 元评估框架:建立超越简单准确率(accuracy)的元评估指标,能够量化评分标准在不同域间的偏好稳定性
2. 理论刻画与形式化
问题:RIPD现象的数学机理是什么?何种评分标准结构更容易产生漂移?
可能方向:
- 偏好结构的代数表示:将评分标准诱导的偏好结构形式化为特征权重向量,分析基准域和目标域上权重向量的几何关系
- 泛化边界分析:在统计学习理论框架下,推导评分标准编辑后偏好泛化到目标域的理论边界
- 信息论视角:量化评分标准中的信息如何被LLM评判者编码,以及为何某些编辑会导致特定的方向性偏差
3. 更复杂的攻击与防御场景
问题:在更现实的威胁模型下,RIPD能达到何种严重程度?
可能方向:
- 自适应攻击:研究当防御者使用特定验证策略时,攻击者如何调整评分标准编辑策略
- 多轮迭代攻击:探索通过多轮”微调”评分标准逐步诱导偏差的累积效应
- 隐蔽性增强:开发更难被人类审查发现的评分标准编辑技术,例如通过语义保持的改写或隐式偏见注入
4. 跨领域与多任务影响
问题:RIPD如何在不同性质的任务间传播?是否存在”迁移性”漂移?
可能方向:
- 领域间干预分析:研究针对某一特定目标域(如医疗建议)的评分标准编辑,如何意外影响其他看似无关的领域(如法律咨询)
- 多任务评判中的干扰:在同时评估多个维度(如有用性、无害性、诚实性)的复合评分标准中,一维度的漂移如何影响其他维度
- 长尾分布影响:分析RIPD对数据分布中稀有但高风险样本的影响程度
5. 更复杂的对齐流程
问题:RIPD在更复杂的后训练流程中有何不同表现?
可能方向:
- 在线RLHF中的动态漂移:研究在在线强化学习(如PPO)中,评判者的偏好漂移如何与策略优化动态耦合,可能导致反馈回路放大偏差
- 多轮DPO中的累积效应:分析当使用漂移评判者进行多轮迭代DPO训练时,偏差是收敛、发散还是震荡
- 合成数据生成:探讨RIPD对使用LLM评判者筛选或标注合成训练数据的流程(如Self-Instruct变体)的影响
6. 评分标准的可解释性审计
问题:如何自动解释评分标准编辑导致的具体偏好变化?
可能方向:
- 因果中介分析:识别评分标准中的具体条款或措辞变化如何因果地影响特定类型查询的评判结果
- 对比解释生成:开发自动生成”解释差异”的方法,清晰展示两个评分标准版本在决策逻辑上的关键分歧点
- 可视化工具:构建交互式工具帮助实践者直观理解评分标准编辑对偏好边界(preference boundary)的影响
7. 人类-模型混合评判系统
问题:在涉及人类反馈的混合系统中,RIPD如何与人类偏见交互?
可能方向:
- 人机一致性腐蚀:研究评判者的RIPD如何通过人类反馈的”校准”过程影响人类标注者,导致系统性的人机对齐退化
- 对抗性人机协作:探索人类审查者能否有效识别评分标准诱导的漂移,或人类是否容易被系统性的、一致性的偏差所误导
- 动态评分标准调整:研究在实时人类反馈循环中,如何设计机制防止评分标准被逐步”毒害”而偏离原始意图
这些方向不仅有助于深化对RIPD这一现象的理解,也对构建更安全、可靠的LLM评估和对齐基础设施具有实践意义。
Q: 总结一下论文的主要内容
该论文揭示了大型语言模型(LLM)评估与对齐流程中一个此前未被充分认识的系统级漏洞:评分标准诱导的偏好漂移(Rubric-Induced Preference Drift, RIPD)。
核心问题与定义
论文指出,在基于LLM的评判(LLM-as-a-Judge)流程中,自然语言评分标准(rubrics)充当着高-level的决策接口,直接塑造评判者的偏好结构。然而,标准的基准验证流程隐含着一个良性验证假设:即基准域上的良好性能可泛化至未见过的目标域。
RIPD正式定义为:存在评分标准编辑 R to R’ ,满足以下两个条件:
目标域定向退化:在目标域 D(target) 上,评判者与固定参考信号的一致性显著下降:
Agr(Jθ(· mid R’), Ref; D(target)) < Agr(Jθ(· mid R), Ref; D_(target)) - τ基准保持:在基准域 D(bench) 上,性能变化保持在容忍度 varepsilon 内:
Agr(Jθ(· mid R’), Ref; D(bench)) - Agr(Jθ(· mid R), Ref; D_(bench)) ≥ -varepsilon
这种漂移具有系统性和方向性,而非随机噪声,且难以通过聚合基准指标或有限抽查检测。
攻击机制与实验发现
论文提出基于评分标准的偏好攻击(Rubric-based Preference Attacks),证明在现实的威胁模型下(攻击者仅能编辑自然语言评分标准,无法访问模型内部参数或输入数据),可通过以下方式诱导RIPD:
- 非对称评分标准细化:纠正基准域错误的同时,故意反转目标域上的正确判断
- 基于种群的进化搜索:在保持基准可行性的约束下,搜索放大目标域分歧的评分标准变体
在有用性(helpfulness)和无害性(harmlessness)任务上的实验表明:
- 攻击成功降低目标域准确率最高达9.5%(有用性)和27.9%(无害性)
- 诱导的偏差评分标准在独立LLM评估的盲测中从未被判定为劣于原始评分标准,证明漂移源于标准重加权而非质量退化
- 评分标准改进(提升基准准确率)与目标域退化可同时发生,两者解耦
下游传播与系统风险
论文进一步证明RIPD不仅是评估阶段的问题,还会通过对齐流程产生级联效应:
- 偏好标签污染:受漂移影响的评判者生成的偏好标签被用于下游后训练(如DPO)
- 策略内化:经过DPO训练的策略 π(bias) 系统性偏离由原始评分标准训练的 π(seed) ,在第三方评估中胜率低至40%
- 数据混合无效:即使混合基准与目标域数据训练,仍无法消除评分标准诱导的偏差
- 基准评估的局限性:静态基准验证无法保证下游对齐安全性,因为策略优化改变了输出分布,而评判者的一致性仅针对固定比较集验证
研究意义
该研究将评分标准重新定位为敏感且可操纵的控制接口,而非被动的规范文档。其发现挑战了”基准可靠性 implies 偏好稳定性”的隐含假设,揭示了系统级对齐风险不仅源于评估者本身的不完美,更源于评分标准设计与验证流程的内在脆弱性。论文呼吁将对齐研究中的评分标准细化与验证视为显式的安全关键环节,而非简单的工程优化步骤。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Ruomeng Ding,Yifei Pang,He Sun,Yizhong Wang,Zhiwei Steven Wu,Zhun Deng
Categories: cs.CR,cs.AI,cs.CL
PDF URL: https://arxiv.org/pdf/2602.13576.pdf
Arxiv URL: https://arxiv.org/abs/2602.13576
Arxiv ID: 2602.13576
CoolPaper URL: https://papers.cool/arxiv/2602.13576
Published: 2026-02-14T03:19:14Z
Updated: 2026-02-14T03:19:14.000Z
18. 4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere
We present 4RC, a unified feed-forward framework for 4D reconstruction from monocular videos. Unlike existing approaches that typically decouple motion from geometry or produce limited 4D attributes such as sparse trajectories or two-view scene flow, 4RC learns a holistic 4D representation that jointly captures dense scene geometry and motion dynamics. At its core, 4RC introduces a novel encode-once, query-anywhere and anytime paradigm: a transformer backbone encodes the entire video into a compact spatio-temporal latent space, from which a conditional decoder can efficiently query 3D geometry and motion for any query frame at any target timestamp. To facilitate learning, we represent per-view 4D attributes in a minimally factorized form by decomposing them into base geometry and time-dependent relative motion. Extensive experiments demonstrate that 4RC outperforms prior and concurrent methods across a wide range of 4D reconstruction tasks.
中文摘要
我们提出了 4RC,这是一种用于从单目视频进行 4D 重建的统一前馈框架。与现有方法通常将运动与几何分离,或仅生成稀疏轨迹或双视图场景流等有限的 4D 属性不同,4RC 学习了一种整体的 4D 表示,能够联合捕捉密集的场景几何和运动动态。在核心设计上,4RC 引入了一种新颖的一次编码、随处随时查询的范式:一个 transformer 主干将整个视频编码为紧凑的时空潜变量空间,从中条件解码器能够高效地查询任意目标时间点的任意帧的 3D 几何和运动。为了便于学习,我们通过将每视图的 4D 属性分解为基础几何和时间相关的相对运动,以最小化的分解形式进行表示。大量实验表明,4RC 在广泛的 4D 重建任务中优于之前和同时期的方法。
LLM Analysis
LLM Analysis Failed: Error: 抓取失败(已重试2次): Waiting failed: 30000ms exceeded
Authors: Yihang Luo,Shangchen Zhou,Yushi Lan,Xingang Pan,Chen Change Loy
Categories: cs.CV
PDF URL: https://arxiv.org/pdf/2602.10094.pdf
Arxiv URL: https://arxiv.org/abs/2602.10094
Arxiv ID: 2602.10094
CoolPaper URL: https://papers.cool/arxiv/2602.10094
Published: 2026-02-10T18:57:04Z
Updated: 2026-02-10T18:57:04.000Z