HuggingFace Papers 2026-06-15
数据来源:HuggingFace Papers
Latest Papers
1. When is Your LLM Steerable?
Abstract:Activation steering offers a lightweight approach to control language models’ behavior at inference time, but whether it succeeds or fails heavily depends on the prompt, concept, model, and steering configuration. Finding the regime and boundaries of successful steering typically requires expensive grid searches and post-hoc evaluation of full autoregressive rollouts. In this work, we investigate whether steerability can be predicted from the model’s internal states at the beginning of the generation process, e.g., after generating the first few tokens, and how to leverage such a predictor to improve steering success rate. To this end, we first introduce ASTEER, a testbed including 1.4M steered generations, spanning 150 concepts with each steering success/failure labeled. Leveraging this testbed, we analyze the model’s early decoding dynamics by extracting features that compare hidden states before and after steering across layers and initial decoding steps. These features help us understand how steering’s effects propagate along layers and token positions, which provide key information for steerability prediction. We then train a Gradient Boosting Decision Trees (GBDT) classifier on these features to predict whether an intervention will under-steer, succeed, or over-steer without requiring full rollout. Our predictor achieves around 0.7 macro-F1 score on unseen concepts, demonstrating that early hidden states encode substantial, structured information about eventual steering efficacy. We further leverage this steerability predictor as guidance for steering strength searching, achieving near-optimal performance with a small fraction of decoding cost.
中文摘要
摘要:激活引导提供了一种轻量级的方法来在推理时控制语言模型的行为,但其成功与否在很大程度上取决于提示、概念、模型和引导配置。找到成功引导的范围和边界通常需要昂贵的网格搜索和对完整自回归展开的事后评估。在本文中,我们研究是否可以从生成过程开始时模型的内部状态预测可引导性,例如,在生成前几个标记后,以及如何利用这样的预测器提高引导成功率。为此,我们首先引入了ASTEER,这是一个包含140万次引导生成的测试平台,涵盖150个概念,并对每次引导的成功/失败进行了标注。利用该测试平台,我们通过提取跨层和初始解码步骤在引导前后比较隐藏状态的特征,分析了模型的早期解码动态。这些特征帮助我们理解引导的效果如何沿层和标记位置传播,从而提供了预测可引导性的关键信息。然后,我们在这些特征上训练了梯度提升决策树(GBDT)分类器,以预测干预是否会欠引导、成功或过度引导,而无需完整展开。我们的预测器在未见过的概念上实现了约0.7的宏F1分数,表明早期隐藏状态编码了关于最终引导效果的大量结构化信息。我们进一步利用这个可引导性预测器作为引导强度搜索的指导,在极小的解码成本下实现了接近最优的性能。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文试图解决激活转向(Activation Steering)可控性预测与优化的问题,具体包括以下核心挑战:
1. 转向效果的不可预测性与高昂评估成本
当前激活转向技术虽然能通过在隐藏状态注入方向向量来轻量级地控制语言模型行为,但其成功与否高度依赖于提示(prompt)、目标概念(concept)、模型架构及转向强度(steering strength)的复杂组合。现有实践通常需要:
- 昂贵的网格搜索(grid search)遍历大量转向系数 α ∈ A
- 完整的自回归输出(full autoregressive rollouts)和LLM评判(judge)来验证转向效果
这带来了巨大的计算开销,且缺乏对”何时转向会成功或失败”的系统性理解。
2. 早期可控性预测问题
论文核心假设是:转向的有效性可能编码在模型生成初始阶段的内部状态中。因此需要解决:
- 预测问题:给定提示 p 、概念 c 和转向配置(强度 α 、转向向量 vc ),能否在仅解码前 k 个token的隐藏状态后,预测转向结果( Lambda = UNDERSTEER, SUCCSTEER, OVERSTEER ),而无需生成完整响应 y(p,c,α) ?
数学上,即构建预测器 f 使得:
f(ht^((l))(t ∈ [k], l ∈ L)) to Lambda
其中 h_t^((l)) 表示第 t 个token在第 l 层的转向后隐藏状态。
3. 高效转向强度搜索
基于上述预测能力,进一步解决如何利用早期隐藏状态特征来:
- 替代完整的网格搜索,快速识别有效的转向强度 α
- 在保证高成功率的前提下,将解码成本降低至传统方法的一小部分(实验显示仅需约11%的解码token即可达到接近最优的性能)
关键难点
- 异质性:不同概念、提示和模型对转向强度 α 的敏感窗口差异巨大(如图3所示的”倒U型”曲线位置各异)
- 分布外泛化:预测器需要在未见过的新概念(OOD concepts)上保持有效性(macro-F1约0.7)
- 特征提取:需从多层、多token位置的隐藏状态差异中提取可解释的几何与动态特征(如 cos(h_t^((l)) - h_t^((l)), v_c) 等)来表征转向信号的传播模式
Q: 有哪些相关研究?
Authors: Chenrui Fan,Yize Cheng,Ming Li,Soheil Feizi,Tianyi Zhou
PDF URL: https://arxiv.org/pdf/2606.11599.pdf
Arxiv URL: https://arxiv.org/abs/2606.11599
Arxiv ID: 2606.11599
CoolPaper URL: https://papers.cool/arxiv/2606.11599
Published: 2026-06-15T02:03:50.276Z
Updated: 2026-06-15T02:03:50.276Z
2. VISTA: View-Consistent Self-Verified Training for GUI Grounding
Abstract:When applying Group Relative Policy Optimization (GRPO) for GUI Grounding, rollouts are sampled from a single screenshot view; groups often become either all failures on difficult instances or all successes on easy ones, yielding no useful relative advantage. We propose VISTA (View-Consistent Self-Verified Training), a GRPO-based training framework that constructs each comparison group from multiple target-preserving views of the same GUI this http URL view is generated by a crop that keeps the target element visible and remaps its box exactly, so model rollouts are compared across semantically equivalent but geometrically different inputs. To stabilize short coordinate generation without turning reinforcement learning into unconditional imitation, VISTA further adds a self-verified cross-view anchor: an oracle answer optimized with an advantage-weighted loss, excluded from the group baseline and activated only when the model has produced a maximum-reward rollout. Across five GUI-grounding benchmarks and multiple Qwen backbones, VISTA consistently improves grounding this http URL ScreenSpot-Pro, it raises Qwen3-VL 4B/8B/30B-A3B from 55.5/52.7/53.7 to 63.4/65.8/67.0. Robustness analyses further show higher worst-view accuracy and lower prediction flip rates.
中文摘要
摘要:在将群组相对策略优化(GRPO)应用于 GUI 定位时,rollouts 是从单一截图视图中采样的;在困难实例上,组通常全部失败,而在简单实例上,组通常全部成功,从而无法产生有用的相对优势。我们提出了 VISTA(视图一致自验证训练),一种基于 GRPO 的训练框架,它通过同一 GUI 的多个保持目标元素的视图构建每个比较组。该视图由一个裁剪生成,该裁剪保持目标元素可见并精确重新映射其框,因此模型 rollouts 是在语义等价但几何不同的输入之间进行比较的。为了稳定短坐标生成而不将强化学习变成无条件模仿,VISTA 进一步增加了一个自验证的跨视图锚点:一个使用优势加权损失优化的 oracle 答案,被排除在组基线之外,并仅在模型产生最大奖励 rollout 时激活。在五个 GUI 定位基准测试和多个 Qwen 骨干网络上,VISTA 一直提高了定位性能。在 ScreenSpot-Pro 基准上,它将 Qwen3-VL 4B/8B/30B-A3B 从 55.5/52.7/53.7 提升至 63.4/65.8/67.0。鲁棒性分析进一步显示了更高的最差视图准确率和更低的预测翻转率。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文针对将 Group Relative Policy Optimization (GRPO) 应用于 GUI Grounding 任务时出现的奖励退化(Reward Degeneracy)与视图鲁棒性不足问题,提出了相应的训练框架。
具体而言,论文试图解决以下两个核心问题:
1. GRPO 中的组内奖励同质化(Group Homogeneity)
在标准 GRPO 训练流程中,模型从单一固定视图(fixed screenshot)采样多个 rollout 构成对比组。这导致两种退化情形:
- 全失败(All-fail):在困难样本上,所有 rollout 均无法命中目标元素,奖励全为 0,相对优势 A_i = 0 ;
- 全成功(All-one):在简单样本上,所有 rollout 均正确命中,奖励全为 1,相对优势同样为 0。
这两种情况均导致组内方差 σ_G = 0 ,使得策略梯度更新失去学习信号。论文指出,在 GUI Grounding 中,由于坐标输出与图像几何紧密耦合,这种退化尤为严重, informative groups(既非全 0 也非全 1 的组)占比不足 5%。
2. 视图变化下的坐标预测不稳定
GUI Grounding 要求模型将自然语言指令映射到屏幕坐标。然而,即使对同一目标元素进行目标保留裁剪(target-preserving crop)(即保持目标可见但改变视口几何),模型在不同视图下的预测可能出现显著偏移。标准 GRPO 仅在固定视图上训练,无法强制模型学习跨视图的几何一致性,导致模型对输入截图的微小变化过于敏感,泛化能力差。
解决方案概述
为应对上述问题,论文提出 VISTA (View-Consistent Self-Verified Training),其核心机制包括:
- 视图一致组构建(View-Consistent Group Rollout):将 GRPO 组从同一 GUI 实例的多个目标保留视图中采样,确保组内样本语义等价但几何不同,从而恢复有效的相对优势信号;
- 自验证跨视图锚点(Self-Verified Cross-View Anchoring):仅在当前策略已产生最大奖励 rollout(自验证条件)时,才引入 oracle 坐标作为锚点,防止无条件模仿学习,同时稳定短坐标序列的生成。
Q: 有哪些相关研究?
根据论文第2节及引言部分,相关研究主要围绕以下两个方向展开:
1. GUI Grounding
该领域的研究可分为**监督微调(SFT)与强化学习(RL)**两条技术路线:
基于SFT的早期工作
通过在大规模GUI数据集上进行监督微调,建立将自然语言指令映射到屏幕坐标的基线能力。代表性工作包括针对移动设备、网页和桌面界面的专门化训练,如 SeeClick (Cheng et al., 2024)、ShowUI-web (Lin et al., 2024)、OmniAct (Kapoor et al., 2024) 等,这些方法证明了在特定领域数据上微调的有效性。
基于RL的近期进展
近年来,研究者开始采用基于可验证奖励的强化学习(如点击正确性判断)来超越SFT基线。这类方法利用规则化的点在框内(point-in-box)奖励进行训练,代表工作包括:
- 使用GRPO进行GUI定位的框架 (Yang et al., 2025; Luo et al., 2025; Tang et al., 2025a)
- 针对GUI代理的R1风格训练 (Zhou et al., 2025b; Gu et al., 2025a)
- 高分辨率专业软件界面的定位优化 (Li et al., 2025)
然而,现有RL方法在训练后期常面临效果递减的问题,即随着优化进行,学习信号逐渐减弱。
2. GRPO中的Oracle Guidance
GRPO(Group Relative Policy Optimization)虽被广泛用于大语言模型的后训练,但存在奖励退化问题:当组内rollout全部正确或全部错误时,相对优势(relative advantage) collapse to zero,导致学习信号消失。针对此问题,近期在数学与推理领域的研究尝试引入Oracle指导:
LUFFY (Yan et al., 2026)
通过将来自更强教师的off-policy轨迹混合到组中,利用正则化重要性采样(regularized importance sampling)平衡模仿学习与on-policy探索。
BREAD (Zhang et al., 2026)
采用自适应策略,在on-policy rollout失败时插入部分专家前缀(expert prefixes),确保每次更新至少包含一条成功轨迹。
与上述方法不同,本文提出的VISTA通过视图一致的组构建而非直接注入Oracle轨迹来解决退化问题,并通过自验证门控机制避免无条件模仿学习。
Q: 论文如何解决这个问题?
论文提出 VISTA (View-Consistent Self-Verified Training) 框架,通过以下两个核心机制解决 GRPO 在 GUI Grounding 中的奖励退化与视图敏感性问题:
1. 视图一致组构建(View-Consistent Group Rollout)
该方法将 GRPO 的对比组从单一固定视图的重复采样,转变为同一 GUI 实例的多个目标保留视图的交叉采样。
目标保留视图生成
对于原始截图 I 及其目标框 B=(x1,y_1,x_2,y_2) ,通过随机裁剪生成 K 个视图 V_k(k=1)^K ,满足:
- 目标可见性约束:裁剪窗口 Ck=(l_k,t_k,w_k,h_k) 必须完全包含目标框 B(px) (像素坐标)
- 几何多样性:每个视图的左上角坐标 (l_k,t_k) 从可行区间均匀采样:
l_k sim U(max(0,x_2-w_k), min(x_1,W-w_k))
t_k sim U(max(0,y_2-h_k), min(y_1,H-h_k))
精确坐标重映射
每个裁剪视图 V_k 对应重映射后的目标框 B_k :
B_k = ( (1000(x_1-l_k)) / (w_k), (1000(y_1-t_k)) / (h_k), (1000(x_2-l_k)) / (w_k), (1000(y_2-t_k)) / (h_k) )
确保同一语义目标在不同视图下具有几何一致但数值不同的监督坐标。
模型独占的组统计
从 K 个视图中各采样 n=G/K 个 rollout,构成总大小为 G 的组。组统计量仅基于模型生成的样本计算:
μm = (1) / (G)∑(k=1)^K∑(j=1)^n r(k,j), quad σm = √(1) / (G)∑(k=1)^K∑(j=1)^n (r(k,j)-μm)^2
对应优势值为:
A(k,j) = r_(k,j) - μ_mσ_m + ε
此设计确保:
- 困难样本中,不同视图的几何差异增加组内方差 σ_m ,避免全零退化;
- 简单样本中,跨视图坐标变化防止全一同质化,暴露预测不稳定性。
2. 自验证跨视图锚点(Self-Verified Cross-View Anchor)
为避免多视图训练导致的短坐标序列生成不稳定,VISTA 引入条件化的 Oracle 监督,但严格控制其激活条件。
自验证门控机制
定义最大奖励集合 P = (k,j): r(k,j)=R(max) ,其中 R(max)=1 为点在框内的最大奖励。锚点的激活由指示函数控制:
g = I[max(k,j) r(k,j) = R(max)]
仅当模型在当前组中已自主产生至少一个满分 rollout(即组被”自验证”)时, g=1 ,Oracle 锚点才会被激活。
锚点构造与优势计算
从模型未成功的视图中优先选择锚点视图 V_(k^+) ,构造 Oracle 坐标(目标框中心):
y^+ = [ lfloor(x_1+x_2) / (2)rfloor, lfloor(y_1+y_2) / (2)rfloor ]
该锚点的优势值计算为:
A^+ = g · R_(max) - μ_mσ_m + ε
关键设计:Oracle 序列被排除在组统计量 (μ_m, σ_m) 之外。这确保:
- 若模型全部失败( g=0 ),锚点优势为 0,避免无条件模仿学习;
- 若模型部分成功,锚点提供基于模型基线的正则化信号,而非改变比较基准。
3. 训练目标
最终优化目标结合 GRPO 的 clipped 损失与条件化的锚点监督:
L(VISTA) = -(1) / (G+1)( ∑(k=1)^K∑(j=1)^n ell(clip)(y(k,j), A(k,j)) + λa ell(anchor)(y^+, A^+) ) + βL_(KL)
其中:
ell(clip) 为标准 GRPO 的裁剪策略梯度损失:
ell(clip)(y(k,j), A(k,j)) = ∑t min( rho(k,j,t)A(k,j), rho(k,j,t)A(k,j) )
rho(k,j,t) 为新旧策略的比率, rho 为裁剪后的比率。ell(anchor) 为优势加权的监督损失(仅激活时有效):
ell(anchor)(y^+, A^+) = sg(A^+) ∑t log πθ(y^+t | V(k^+), q, y^+_(<t))
sg(·) 表示停止梯度,确保锚点不反向传播影响优势估计。λ_a 控制锚点强度(默认设为 1), β 为 KL 散度系数。
通过上述机制,VISTA 在不改变 GRPO 相对优势比较本质的前提下,通过视图多样性恢复学习信号,通过自验证锚点稳定坐标生成,最终提升 GUI Grounding 的精度与跨视图鲁棒性。
Q: 论文做了哪些实验?
论文在第4节及附录中开展了系统性实验验证,涵盖主实验对比、跨架构泛化、组件消融及鲁棒性诊断四个维度:
1. 主实验对比(Main Results)
基准测试:在五个GUI Grounding基准上评估,包括 ScreenSpot-Pro(高分辨率专业软件界面)、ScreenSpot-V2、MMBench-GUI L2、OSWorld-G-R 和 OSWorld-G。
核心结果(表1):
- 基于 Qwen3-VL 4B/8B/30B-A3B 训练 VISTA,平均准确率分别从 71.1/69.0/73.6 提升至 75.5/76.3/77.6。
- 在最具挑战性的 ScreenSpot-Pro 上提升最为显著:4B 模型从 55.5 提升至 63.4(+7.9),8B 从 52.7 提升至 65.8(+13.1),30B-A3B 从 53.7 提升至 67.0(+13.3)。
- 与推理时多视图聚合(MVP)正交互补,结合后 30B-A3B 模型在 ScreenSpot-Pro 上达到 74.1。
训练动态分析(图3):
- 监测了训练过程中的内容奖励、格式奖励、全零/全一退化组比例及信息组比例。
- 证实标准 GRPO 的信息组比例不足 5%,而 VISTA 提升至约 20%;同时多视图 rollout 单独使用时格式奖励不稳定,结合自验证锚点后趋于稳定。
2. 跨架构泛化(Cross-Backbone Generalization)
验证 VISTA 是否依赖特定初始化(表2):
- 在 Qwen3.5-4B/9B/35B-A3B 上,VISTA 相比标准 GRPO 在 ScreenSpot-Pro 上分别提升 +2.0、+0.9、+1.2 个百分点。
- 在 OSWorld-G-R 等基准上亦保持优势,证明方法可迁移至不同模型家族。
3. 组件消融研究(Ablation Studies)
核心组件分离(表3):
- 固定视图 GRPO 在 ScreenSpot-Pro 上为 63.4;
- 仅增加动态裁剪(无锚点)提升至 64.3;
- 仅增加自适应锚点(无动态裁剪)提升至 64.8;
- 两者结合(完整 VISTA)达到 65.8,证实视图构建与自验证锚点解决互补的失败模式。
锚点监督策略(表4):
- 无门控的归一化锚点(始终激活)导致性能暴跌至 57.8(优势爆炸问题);
- 恒定 SFT 混合(无条件模仿)仅提升至 63.9;
- 自验证门控机制(仅当组内存在满分 rollout 时激活)达到最优 65.8。
超参数敏感性(附录 A.3):
- 锚点数量(表7):单锚点(65.8)优于双锚点(65.0)和四锚点(64.0),过多锚点削弱探索信号。
- 锚点位置(表8):目标框中心点(65.8)略优于框内随机点(64.8),确定性中心点减少噪声。
- 视图数量(表9): K=8 时 ScreenSpot-Pro 达到 65.8,优于 K=1 (64.8)和 K=4 (64.4)。
- 裁剪概率(表11): p_(crop)=0.8 时最优(65.8),全裁剪(1.0)降至 64.6,保留 20% 全屏视图有助于稳定训练。
- 裁剪策略(表10):动态目标保留裁剪(65.8)优于固定偏移裁剪(65.0)和无裁剪(64.8)。
4. 视图鲁棒性诊断(Crop Perturbation Diagnostic)
跨视图稳定性(表5):
- 在 250 个训练样本上评估原始视图与 8 个随机裁剪视图的一致性。
- 相比标准 GRPO,VISTA 将:
- 裁剪视图平均准确率从 93.00% 提升至 96.25%;
- 最坏视图准确率(worst-view)从 87.63% 提升至 92.42%;
- 视图一致率(VCR,所有视图预测一致的比例)从 88.38% 提升至 90.40%;
- 预测翻转率(prediction flip rate,跨视图预测结果变化的比例)从 8.31% 降至 5.80%。
调整大小 vs. 裁剪(附录图4 及分析):
- 对比实验显示,仅对全图进行多尺度调整大小(不改变目标相对坐标)会导致训练崩溃(ScreenSpot-Pro 从 60.34 降至 51.99),而目标保留裁剪通过强制坐标变换学习,避免此问题。
5. 细粒度分析(Detailed Breakdown)
ScreenSpot-Pro 分类别结果(表12):
- 在 CAD、Dev、Creative、Scientific、Office、OS 六类任务中,VISTA 在 Icon 类任务上提升尤为显著(如 8B 模型在 Creative Icon 上从 39.3 提升至 45.9)。
- 结合 MVP 后,在 OS Icon(71.7)和 Creative Icon(58.2)等困难类别上达到 SOTA。
综上,实验验证了 VISTA 在准确率、跨架构泛化、训练稳定性及视图鲁棒性上的全面提升,并证实各设计组件的必要性与最优配置。
Q: 有什么可以进一步探索的点?
基于论文的 Limitations 章节及实验发现,以下方向值得进一步探索:
1. 混合动作/拒绝样本的精细路由机制
论文指出,VISTA 的锚点机制假设所有样本均为可验证的坐标定位任务。对于包含拒绝回答(如”无法完成”)或非动作指令的混合数据集,当前的门控机制可能失效。
- 探索点:设计任务类型感知的门控函数,使模型能自动区分需要坐标锚点的动作样本与需要文本风格损失的拒绝样本,避免错误地将坐标监督注入到拒绝类样本中。
2. 自适应视图采样与裁剪调度策略
当前实现使用固定的裁剪概率 p(crop)=0.8 和固定的视图数量 K=8 。论文观察到过度裁剪( p(crop)=1.0 )会降低性能。
- 探索点:
- 动态裁剪概率:根据训练阶段(早期保留更多全屏视图,后期增加裁剪比例)或样本难度(对困难样本增加视图多样性)自适应调整 p_(crop) 。
- 智能视图选择:不仅随机裁剪,而是基于注意力图或不确定性估计选择最具信息量的视图(如故意遮挡部分上下文以测试鲁棒性)。
3. 细粒度奖励塑形(Reward Shaping)
当前使用稀疏的二元奖励 $R(y,B) = I
p ∈ B
$,仅判断点击是否在框内。
- 探索点:引入连续奖励函数,如基于预测点与目标框中心的归一化距离、与最近边界的距离,或考虑 UI 元素的可点击区域先验(如按钮中心比边缘更优)。这可能进一步加速困难样本的学习。
4. 跨领域泛化:从 GUI 到通用视觉定位
VISTA 的核心思想(视图一致比较 + 自验证锚点)可能适用于其他需要精确坐标输出的视觉任务。
- 探索点:
- 机器人操作:将”目标保留裁剪”扩展为”目标保留视角变换”,处理机械臂视角变化下的抓取点定位。
- 医学图像分析:在病灶定位中应用跨切片(cross-slice)或跨尺度视图一致训练,解决不同扫描视角下的定位漂移问题。
- 自动驾驶:在 BEV(鸟瞰图)与透视图之间构建视图一致组,提升关键目标定位的鲁棒性。
5. 推理时策略的深度融合
论文显示 VISTA 与 MVP(测试时多视图聚合)正交互补。
- 探索点:探索更复杂的推理时优化,如:
- 视图一致性投票:不仅聚合坐标,还检查跨视图预测的几何一致性(如通过单应性变换验证)。
- 自举式细化(Bootstrapped Refinement):利用 VISTA 训练的模型生成伪标签,迭代优化困难视图。
6. 理论分析:视图多样性的最优界限
实验显示 K=8 优于 K=4 ,但过多的锚点(如 4 个)反而有害。
- 探索点:
- 建立视图多样性与策略梯度方差之间的理论关系,推导给定任务复杂度下的最优视图数量 K^* 。
- 分析几何变换(裁剪、缩放、旋转)对坐标预测误差上界的影响,为数据增强策略提供理论指导。
7. 计算效率优化
多视图 rollout 增加了约 25% 的训练时间。
- 探索点:
- 共享视觉编码:探索在不同视图间共享视觉特征(若裁剪区域有重叠),减少重复计算。
- 蒸馏与压缩:将 VISTA 训练的大模型知识蒸馏到单视图推理的小模型,在保持鲁棒性的同时降低推理成本。
8. 失败模式与长尾分析
论文在 ScreenSpot-Pro 的分类别结果(表12)中显示,Icon 类任务的提升空间大,但仍有提升空间。
- 探索点:
- 深入分析小目标(<20px)、密集排列元素、透明/重叠 UI 组件等极端情况下的失败案例。
- 引入难例挖掘(Hard Negative Mining),在视图构建时故意生成使模型容易混淆的裁剪(如包含相似干扰元素的视图)。
9. 格式奖励与内容奖励的解耦优化
图3显示多视图训练可能导致格式奖励(有效坐标格式)的暂时不稳定。
- 探索点:设计双阶段训练或辅助损失,先稳定坐标格式生成(如通过 SFT 预热),再优化定位精度,或引入格式感知的优势权重。
Q: 总结一下论文的主要内容
该论文针对 Group Relative Policy Optimization (GRPO) 在 GUI Grounding 任务中的应用缺陷,提出 VISTA (View-Consistent Self-Verified Training) 训练框架,显著提升了模型在多样化视觉界面下的定位精度与鲁棒性。
1. 核心问题
将标准 GRPO 直接应用于 GUI Grounding 时,存在奖励退化(Reward Degeneracy)与视图敏感两大瓶颈:
- 组内奖励同质化:传统 GRPO 从单一固定截图采样 G 个 rollouts 构成对比组。在困难样本上,所有 rollout 可能均失败(奖励全为 0);在简单样本上,可能全部成功(奖励全为 1)。这两种情况均导致组内方差 σ_G = 0 ,相对优势 A_i = 0 ,策略梯度失去学习信号。实验表明,固定视图下 informative groups(既非全 0 也非全 1)占比不足 5%。
- 几何敏感性:GUI Grounding 要求将指令映射到屏幕坐标 (x, y) 。即使对同一目标进行目标保留裁剪(保持目标可见但改变视口),模型预测也可能发生偏移,而固定视图训练无法强制学习跨视图的几何一致性。
2. 方法:VISTA 框架
VISTA 通过两个互补机制解决上述问题:
2.1 视图一致组构建(View-Consistent Group Rollout)
将 GRPO 组从同一 GUI 实例的多个目标保留视图中采样,而非重复采样单一截图。
- 视图生成:对原始截图 I 和目标框 B=(x_1,y_1,x_2,y_2) ,生成 K 个裁剪视图 V_k ,确保裁剪窗口 C_k 完全包含 B ,且左上角坐标 (l_k,t_k) 从可行区间均匀采样:
l_k sim U(max(0,x_2-w_k), min(x_1,W-w_k))
t_k sim U(max(0,y_2-h_k), min(y_1,H-h_k))
精确坐标重映射:每个视图 V_k 对应归一化坐标系下的新目标框:
B_k = ( (1000(x_1-l_k)) / (w_k), (1000(y_1-t_k)) / (h_k), (1000(x_2-l_k)) / (w_k), (1000(y_2-t_k)) / (h_k) )模型独占统计:组统计量 (μm, σ_m) 仅基于模型生成的 rollouts 计算,不包含 oracle 答案:
μ_m = (1) / (G)∑(k,j) r(k,j), quad σ_m = √(1) / (G)∑(k,j) (r(k,j)-μ_m)^2
优势值为 A(k,j) = (r_(k,j) - μ_m)/(σ_m + ε) 。
该设计确保组内样本语义等价但几何不同,从而恢复有效的相对优势信号。
2.2 自验证跨视图锚点(Self-Verified Cross-View Anchor)
为避免多视图训练导致的短坐标序列生成不稳定,引入条件化 oracle 监督:
自验证门控:仅当模型在当前组中已自主产生至少一个满分 rollout( R(max)=1 )时,才激活锚点:
g = I[max(k,j) r(k,j) = R(max)]锚点构造:从模型未成功的视图中优先选择锚点视图,构造目标框中心坐标 y^+ 作为 oracle 序列。
- 优势计算:锚点优势 A^+ = g · (R_(max) - μ_m)/(σ_m + ε) ,且 oracle 序列被排除在组统计量之外。
此机制防止在模型尚未成功时进行无条件模仿学习(避免退化为 SFT),同时为已验证的组提供稳定化信号。
3. 实验结果
在五个 GUI Grounding 基准(ScreenSpot-Pro、ScreenSpot-V2、MMBench-GUI L2、OSWorld-G-R、OSWorld-G)上的验证表明:
- 主实验:基于 Qwen3-VL 的 VISTA-4B/8B/30B-A3B 在 ScreenSpot-Pro 上分别取得 63.4/65.8/67.0 的准确率,相比基线提升 +7.9/+13.1/+13.3 个百分点。结合推理时多视图聚合(MVP)后,30B-A3B 模型可达 74.1。
跨架构泛化:在 Qwen3.5-4B/9B/35B-A3B 上,VISTA 相比标准 GRPO 在 ScreenSpot-Pro 上分别提升 +2.0/+0.9/+1.2 个百分点,证明方法不依赖特定初始化。
消融研究:
- 动态裁剪单独使用提升至 64.3,自适应锚点单独使用提升至 64.8,两者结合达 65.8(Qwen3-VL-8B),证实组件互补。
- 无门控的锚点(始终激活)导致性能暴跌至 57.8,验证自验证机制的必要性。
- 鲁棒性诊断:VISTA 将视图一致率(VCR)从 88.38% 提升至 90.40%,预测翻转率从 8.31% 降至 5.80%,最坏视图准确率从 87.63% 提升至 92.42%。
4. 关键贡献
- 提出视图一致组构建,通过目标保留裁剪与精确坐标重映射,将 GRPO 的固定视图采样转变为跨几何视图的比较学习,有效缓解奖励退化。
- 引入自验证跨视图锚点,以门控机制条件化地注入 oracle 监督,在避免无条件模仿的同时稳定坐标生成。
- 在 GUI Grounding 的困难基准(尤其是高分辨率专业软件界面 ScreenSpot-Pro)上实现显著提升,并展现出跨模型架构与尺度的泛化能力。
Q: 想要进一步了解论文
以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。
Authors: Xinyu Qiu,Yunzhu Zhang,Heng Jia,Shuheng Shen,Changhua Meng,Linchao Zhu
PDF URL: https://arxiv.org/pdf/2606.14579.pdf
Arxiv URL: https://arxiv.org/abs/2606.14579
Arxiv ID: 2606.14579
CoolPaper URL: https://papers.cool/arxiv/2606.14579
Published: 2026-06-15T02:04:32.341Z
Updated: 2026-06-15T02:04:32.341Z