HuggingFace Papers 2025-12-30

数据来源：HuggingFace Papers

Latest Papers

1. InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

Recent advances in diffusion-based video generation have opened new possibilities for controllable video editing, yet realistic video object insertion (VOI) remains challenging due to limited 4D scene understanding and inadequate handling of occlusion and lighting effects. We present InsertAnywhere, a new VOI framework that achieves geometrically consistent object placement and appearance-faithful video synthesis. Our method begins with a 4D aware mask generation module that reconstructs the scene geometry and propagates user specified object placement across frames while maintaining temporal coherence and occlusion consistency. Building upon this spatial foundation, we extend a diffusion based video generation model to jointly synthesize the inserted object and its surrounding local variations such as illumination and shading. To enable supervised training, we introduce ROSE++, an illumination aware synthetic dataset constructed by transforming the ROSE object removal dataset into triplets of object removed video, object present video, and a VLM generated reference image. Through extensive experiments, we demonstrate that our framework produces geometrically plausible and visually coherent object insertions across diverse real world scenarios, significantly outperforming existing research and commercial models.

中文摘要

基于扩散的视频生成的最新进展为可控视频编辑开辟了新可能，但由于对四维场景理解的有限性以及对遮挡和光照效果处理不足，现实的视频对象插入（VOI）仍然具有挑战性。我们提出了 InsertAnywhere，一种新的 VOI 框架，实现了几何一致的对象放置和外观忠实的视频合成。我们的方法从一个四维感知的掩码生成模块开始，该模块重建场景几何并在保持时间连贯性和遮挡一致性的同时，将用户指定的对象放置跨帧传播。在这个空间基础上，我们扩展了基于扩散的视频生成模型，以联合合成插入对象及其周围的局部变化，如光照和阴影。为了实现监督训练，我们引入了 ROSE++，这是一个光照感知的合成数据集，通过将 ROSE 对象移除数据集转换为三元组——对象移除视频、对象存在视频和 VLM 生成的参考图像——构建而成。通过大量实验，我们证明了我们的框架能够在各种真实世界场景中产生几何合理且视觉一致的对象插入，显著超越现有的研究成果和商业模型。

LLM Analysis

Q: 这篇论文试图解决什么问题？

该论文针对“视频物体插入（Video Object Insertion, VOI）”任务，旨在解决以下核心难题：

4D 场景几何与遮挡一致性
现有扩散视频生成模型缺乏对动态三维场景的显式理解，难以在复杂相机运动与遮挡关系中保持插入物体的几何一致性与可见性。
光照/阴影等局部效应的逼真合成
传统视频 inpainting 仅在被遮罩区域内进行补全，无法同步生成物体所引发的外部光照变化、投射阴影及反射，导致结果脱离真实物理。
用户可控的精确定位与尺度
单张参考图不包含目标场景的深度与比例信息，需要让用户在首帧指定位置与大小，并自动将这一配置沿时序与视角变化准确传播。
训练数据缺失
缺少成对的“无物体–有物体–参考图”视频三元组，导致难以用监督方式学习插入任务。

为此，作者提出 InsertAnywhere 框架，通过“4D 感知遮罩生成 + 首帧引导的视频扩散模型 + 光照感知合成数据集 ROSE++”协同解决上述问题，实现可用于商业级后期制作的逼真视频物体插入。

Q: 有哪些相关研究？

论文在第 2 节“Related Work”及后续实验对比中，系统梳理了与视频物体插入（VOI）密切相关的三条研究主线，并给出了代表性文献。按主题归纳如下：

1. 视频 Inpainting / 编辑基础模型

HunyuanCustom
7

多模态条件视频生成架构，支持掩码、姿态、深度等控制信号。

VACE
9

统一视频创作与编辑框架，提供掩码+文本驱动生成能力，InsertAnywhere 的视频扩散骨干即基于此。

AnyV2V
12

免调参视频到视频编辑框架，支持掩码+文本提示，但对复杂遮挡与几何一致性处理有限。

2. 静态或单帧物体插入

AnyDoor
3

零样本图像级物体定制，通过 ID 特征+位置先验实现单帧插入，未考虑时序一致性。

Add-it
24

利用预训练扩散模型实现训练无关的图像物体插入，缺乏视频级扩展。

ObjectStitch
22
/ ObjectDrop
27
/ ObjectMate
28

分别探索拼接、反事实移除/插入、递归先验等策略，但局限于单帧。

3. 视频级物体插入与传播

Anything in Any Scene
2

早期视频 VOI 尝试，基于 2D 融合，无显式 4D 几何，遮挡鲁棒性不足。

INVI
21

直接调用静态扩散模型逐帧插入，再通过后处理追求一致，遮挡与光照问题显著。

VideoAnyDoor
25

引入运动控制信号，但仍属 2D 框架，对遮挡及几何一致性处理有限。

GenProp
14

通过首帧编辑+区域感知损失传播外观，未显式建模可见性变化，在物体被遮挡/重现时容易失效。

DreamInsert
32

单图到视频零样本插入，依赖文本驱动，难以保证几何准确与遮挡一致。

4. 商业闭源工具（实验对比基线）

Pika Pro
18
Kling
23

这些工具支持文本提示的物体插入，但缺乏显式 4D 几何推理，常出现尺度错误、遮挡关系混乱或“物体替换”现象。

5. 数据集与训练策略相关

ROSE
15

原用于“物体移除+副作用消除”的合成数据集，本文扩展为 ROSE++，通过 VLM 生成参考图，反向支持插入任务监督训练。

LoRA
6

低秩适配策略，用于在保留预训练视频扩散能力的同时高效微调插入域。

综上，现有研究或停留在 2D/单帧层面，或虽进入视频域但缺少显式 4D 几何与遮挡-光照联合建模；InsertAnywhere 通过引入 4D 场景重建与光照感知数据集，填补了该空白。

Q: 论文如何解决这个问题？

论文将“商业级视频物体插入”解耦为几何一致与外观逼真两大子问题，提出两阶段框架 InsertAnywhere，并在数据层面配套构建 ROSE++ 训练集。核心思路与对应模块如下：

1. 4D-aware Mask Generation —— 解决“放哪里、怎么随时间移动”

4D 场景重建
基于 Uni4D 范式，融合单目深度、光流、相机位姿与分割，得到时序一致的 3D 点云+相机轨迹。
用户交互放置
将参考物体通过单目重建网络升维为 3D 点云 Y=y_j∈mathbb R^3 ，允许用户在首帧 3D 场景中刚性变换

yj’=s(obj)R(obj)y_j+t(obj)

以确定初始位姿与尺度。

场景流驱动传播
利用 SEA-RAFT 估计稠密光流，将物体邻域 K 近邻点的 2D 运动提升为 3D，得到局部场景流 V_(tto t+1) ，按

y(j,t+1)’=y(j,t)’+V(tto t+1)(y(j,t)’)

更新物体 centroid，实现随物体/背景一起运动的物理一致轨迹。

相机对齐重投影
按估计的内外参

u(j,t)v(j,t)1sim K[Rt|t_t]y(j,t)’

将 3D 物体点逐帧投影并光栅化，得到初始合成帧 hat I_t ；再用 SAM2 提取二值 mask 序列 M_t ，保证遮挡、视差、几何一致。

2. Video Object Insertion —— 解决“长什么样、光照阴影如何生成”

首帧锚定
利用高保真图像级插入模型对首帧执行 inpainting，获得颜色、纹理、光照都可信的初始帧，作为视频扩散的“视觉锚点”。
扩散视频生成
以 Wan2.1-VACE-14B 为骨干，用 LoRA（rank=128）在 ROSE++ 上微调 5k 步，学习联合重建物体+外部局部变化（阴影、反射、亮度）。
输入：原视频 + 参考物体图 + 4D 一致 mask；输出：完整插入视频。
训练数据 ROSE++

来源：将 ROSE 物体移除数据集“反转”成三元组（无物体视频，有物体视频，参考物体图）。
参考图生成：用 VLM 按文本提示生成多视角白底图，再以 DINO-v2 相似度

sk=frac1N∑(j=1)^NDINO(hat o_k,f_j)

挑选最优，避免训练-测试域差异导致的 copy-paste 伪影。

3. 推理流程小结

用户仅需在 GUI 中首帧拖拽/缩放物体 → 系统自动输出 4D 一致 mask → 首帧 inpainting → 视频扩散模型生成几何准确、遮挡正确、光照一致的完整视频。

通过“4D 几何先验 + 首帧锚定 + 光照感知数据”三箭齐发，InsertAnywhere 在复杂遮挡、大幅相机运动、开关门等光照变化场景下，同时实现

物体尺度/姿态随视角正确变化
被动态物体遮挡时可见性合理
自动生成阴影、亮度匹配

从而将视频物体插入推向可商业落地的质量水准。

Q: 论文做了哪些实验？

论文从定量指标、定性可视化、用户主观评价、模块消融、数据集消融五个维度进行了系统实验，全部在自建的 VOIBench 基准与公开场景上完成。主要实验内容如下：

1. 基准与设置

VOIBench
50 段真实视频 × 每段 2 类物体 → 100 条测试样本
涵盖室内、室外、自然场景，含复杂相机运动与遮挡
基线
闭源商业工具：Pika-Pro、Kling（当前公开可用 SOTA）
指标
Subject Consistency：CLIP-I、DINO-I（仅物体区域）
Video Quality：VBench 套件（成像质量、背景一致性、主体一致性、运动平滑度）
Multi-View Consistency：VBench 子项，评估遮挡切换时物体是否保持一致

2. 主实验结果（表 1 & 图 4）

Method	CLIP-I↑	DINO-I↑	Imaging Q↑	Multi-View↑
Pika-Pro	0.4940	0.3856	0.6546	0.5123
Kling	0.6349	0.5028	0.7069	0.5439
Ours	0.8122	0.5678	0.7101	0.5857

在 6 项 VBench 子指标中 5 项第一
定性图 4 显示：基线出现颜色漂移、尺度错误、遮挡逻辑混乱（pepper shaker 穿手）；InsertAnywhere 保持几何与外观一致

3. 用户主观评测（表 4）

20 名受试者 × 10% 测试视频，双盲随机排序
六项准则投票（真实感、光照、遮挡、语义一致、背景保真、整体自然度）

Method	Object Realism	Lighting	Occlusion	Overall Naturalness
Pika-Pro	1.82 %	3.64 %	0.00 %	4.55 %
Kling	19.09 %	25.45 %	13.33 %	24.55 %
Ours	79.09 %	71.82 %	86.67 %	70.00 %

4. 模块消融（图 5 + 表 3）

四种配置逐层叠加：

(a) 仅相机轨迹 → 无 4D 几何，遮挡处手臂/围巾被抹除
(b) +4D-aware mask → 遮挡关系正确，但物体纹理漂移
(c) +首帧 inpainting → 物体 fidelity 提升，仍缺阴影
+ROSE++ LoRA → 自动产生阴影、开关门光照变化，VBench 全指标最高

定量对比（节选）：

Config	CLIP-I	DINO-I	Imaging Q	Multi-View
(a)	0.7585	0.4190	0.6175	0.5238
(b)	0.7532	0.3861	0.6298	0.5308
(c)	0.7880	0.5135	0.6318	0.5436
Ours	0.8122	0.5678	0.7101	0.5857

5. 数据集/训练策略消融

VLM vs 随机帧裁剪（表 2）
用视频内随机帧作物体图的“Ours-random” Multi-View Consistency 降至 0.5295，VLM 版 0.5857，验证 VLM 生成可抑制 copy-paste 伪影
光照与阴影可视化（图 6）
开关门序列：未微调时纸袋亮度不变；ROSE++ LoRA 后随门开/关明显变亮/暗
阴影：未微调无投影；微调后物体外侧地板出现与光源方向一致的软阴影

6. 场景流传播对比（图 7）

静态物体 mask → 放在移动餐车上的苹果错位
加入 3.2.3 场景流传播后，苹果始终随餐车同步运动，mask 时序对齐

7. 额外定性样例（图 9-13）

展示抽屉、胡椒罐、床、厨房桌、大厅立柱等场景：

基线常出现“物体替换”或“悬浮/尺度失真”
InsertAnywhere 在严重遮挡、反射地面、多抽屉语义约束下仍保持几何与光照一致

综上，实验从数值指标、人类感知、模块贡献、数据策略多维度验证：

4D-aware mask 解决遮挡与几何一致
首帧锚定提升物体 fidelity
ROSE++ LoRA 让模型自动学会阴影与光照变化

InsertAnywhere 在全部对比中均显著优于现有商业工具与消融配置，达到可生产部署水准。

Q: 有什么可以进一步探索的点？

以下方向可在此基础上继续深入，分为几何/运动、外观/光照、交互/控制、数据与评测、系统与落地五大类，供后续研究参考：

1. 几何与运动一致性

非刚性/可变形物体插入
当前仅处理刚性点云，可引入可变形体或铰接模板，结合物理弹性/碰撞模拟，使布料、人体配饰等随场景自然形变。
多物体联合布局
扩展用户界面以支持一次插入多个物体，并自动推理相互遮挡、支撑关系（书叠在桌上、杯子在盘子旁）。
动态场景在线更新
对实时视频流进行增量式 4D 重建，随新帧到达持续优化相机与几何，避免长序列漂移导致的 mask 错位。
真实物理动力学
将物理引擎（Bullet/PhysX）与 4D 表示耦合，实现掉落、碰撞、滚动等真实运动，而非仅依赖场景流近似。

2. 外观与光照建模

全局照明与互反射
目前阴影为局部生成，可引入 NeRF-style 全局光照或球谐渲染，在插入后迭代优化场景辐射场，使高反光物体在镜面/金属表面产生正确倒影。
材质与 BRDF 估计
从参考图推断材质参数（粗糙度、金属度），结合场景光源位置，实现随视角变化的 Fresnel 效应与微表面高光。
时变光照与阴影软硬度
当光源移动（如手持灯），阴影应随时间变软或硬；可估计光源区域/环境图，动态调节阴影核大小。
自动光源一致性检测
开发自监督损失，利用插入前后外观残差反向优化虚拟光源位置，减少人工检查。

3. 交互与控制

语言-手势混合控制
在 GUI 拖拽之外，支持“把花瓶放到餐桌左上角，略向窗户倾斜”这类自然语言+3D 手势多模态指令。
风格/时代一致性控制
给定电影年代或调色 LUT，强制插入物体色调、噪点、颗粒度与胶片一致，避免视觉跳变。
交互式光照重定向
用户可实时调节虚拟光源方向/色温，系统即时更新阴影与互反射，辅助广告拍摄预览。
VR/AR 实时预览
将 4D 重建与扩散模型蒸馏为轻量网络，在头显内以 6DoF 交互放置虚拟商品，实现片场级虚实融合。

4. 数据与评测

真实标签捕获
使用机械臂+多光谱灯箱拍摄真实物体 360° 序列，结合光度立体获取法线图，构建高质量真实域测试集，弥补 ROSE++ 纯合成缺口。
细粒度语义一致性评测
当前指标仅衡量整体相似度，可引入基于部件的检测器（Part-DINO）评估把手、按键等细节是否一致。
光照与阴影专用指标
提出 Shadow-F1、Illumination-Error 等可量化阴影轮廓、亮度直方图匹配度，减少主观评价成本。
长视频一致性基准
构建 5-10 分钟长镜头数据集，考察 mask 漂移、外观褪色、累积伪影，推动长序列算法研究。

5. 系统与落地

端侧轻量化
将 4D 重建网络与扩散模型进行知识蒸馏+量化，部署到移动 SoC 或云端 GPU 实例，实现 30 fps 实时预览。
版权与合规检测
插入内容需确保不侵犯品牌/IP；可集成对抗水印或指纹，自动检测并拒绝未授权 logo/角色插入。
A/B 商用效果量化
与广告平台合作，在真实短视频流量中对比插入前后点击率、转化率，建立“视觉真实-商业收益”直接关联。
失败案例自诊断
构建异常检测分支，对明显几何错位、光照冲突、遮挡逻辑错误自动报警并回退到安全帧，提升生产流程鲁棒性。

6. 理论前沿

4D 生成式反演
探索扩散模型直接在 4D 隐空间（3D+时间）进行去噪，而非逐帧 2D 生成，理论上可一次性输出几何+外观，减少投影误差。
物理可微渲染与扩散联合优化
把可微路径追踪嵌入扩散训练循环，让阴影、反射梯度回传至物体姿态/材质，实现“自监督物理”。

综上，InsertAnywhere 已建立几何-外观协同的 VOI 新范式，后续可在非刚性、全局光照、物理动力学、实时交互、真实数据与评测、系统落地等方向持续深化，推动虚拟制片、沉浸式广告、AR 购物等场景真正规模化应用。

Q: 总结一下论文的主要内容

InsertAnywhere 论文核心内容速览

任务定位
解决“视频物体插入（VOI）”的商业级难题：既要几何一致（尺度、遮挡、运动），又要外观逼真（光照、阴影、时序稳定）。
技术路线 = 两阶段框架

4D-aware Mask Generation
– 用 Uni4D 从单目视频重建时序一致的 3D 场景+相机轨迹
– 用户首帧拖拽/缩放即可将参考物体点云 yj 刚性变换到 3D 场景
– 通过 SEA-RAFT 场景流 V(t→t+1) 把物体 centroid 随邻近物体一起移动
– 按相机内外参重投影并 SAM2 分割，得到遮挡正确、时序连贯的 mask 序列 M_t
Video Object Insertion
– 先用高保真图像模型在首帧 inpainting，确定物体外观与初始光照
– 以 Wan2.1-VACE-14B 为骨干，用 LoRA 在自建 ROSE++ 数据集上微调，学习联合重建物体+外部阴影/亮度变化
– 输出完整视频，保持颜色、纹理、光照时序一致

训练数据 ROSE++
– 将原“物体移除”数据集反转为“插入”三元组：无物体视频｜有物体视频｜参考物体图
– 用 VLM 生成白底参考图，再用 DINO 相似度挑选，避免 copy-paste 伪影
实验结果
– 自建 VOIBench（100 段真实视频）+ 商业基线 Pika-Pro & Kling
– CLIP-I / DINO-I / Imaging Quality / Multi-View Consistency 全面第一
– 用户研究 20 人双盲投票，79% 认为物体真实、86% 认为遮挡正确、70% 整体最自然
– 消融验证：4D mask 解决遮挡，首帧 inpainting 保 fidelity，ROSE++ LoRA 生成逼真阴影与光照
结论
InsertAnywhere 首次把 4D 场景几何与扩散视频生成紧耦合，实现几何准确、光照一致、可用户精控的视频物体插入，达到广告与影视后期可用的量产质量。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Hoiyeong Jin,Hyojin Jang,Jeongho Kim,Junha Hyung,Kinam Kim,Dongjin Kim,Huijin Choi,Hyeonji Kim,Jaegul Choo

Categories: cs.CV,cs.AI

PDF URL: https://arxiv.org/pdf/2512.17504.pdf

Arxiv URL: https://arxiv.org/abs/2512.17504

Arxiv ID: 2512.17504

CoolPaper URL: https://papers.cool/arxiv/2512.17504

Published: 2025-12-19T12:14:36Z

Updated: 2025-12-19T12:14:36.000Z

2. Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

Humans understand long and complex texts by relying on a holistic semantic representation of the content. This global view helps organize prior knowledge, interpret new information, and integrate evidence dispersed across a document, as revealed by the Mindscape-Aware Capability of humans in psychology. Current Retrieval-Augmented Generation (RAG) systems lack such guidance and therefore struggle with long-context tasks. In this paper, we propose Mindscape-Aware RAG (MiA-RAG), the first approach that equips LLM-based RAG systems with explicit global context awareness. MiA-RAG builds a mindscape through hierarchical summarization and conditions both retrieval and generation on this global semantic representation. This enables the retriever to form enriched query embeddings and the generator to reason over retrieved evidence within a coherent global context. We evaluate MiA-RAG across diverse long-context and bilingual benchmarks for evidence-based understanding and global sense-making. It consistently surpasses baselines, and further analysis shows that it aligns local details with a coherent global representation, enabling more human-like long-context retrieval and reasoning.

中文摘要

人类通过依赖内容的整体语义表示来理解冗长且复杂的文本。这种全局视角有助于组织已有知识、解读新信息，并整合散布在文档各处的证据，这在心理学中被称为人类的“心智景观感知能力”。当前的增强检索生成（RAG）系统缺乏这种指导，因此在处理长上下文任务时表现不佳。本文提出了心智景观感知 RAG（MiA-RAG），这是首个为基于大语言模型的 RAG 系统提供明确全局上下文意识的方法。MiA-RAG 通过分层摘要构建心智景观，并以此全局语义表示为条件，同时指导检索和生成。这使得检索器能够形成更丰富的查询嵌入，生成器能够在一致的全局上下文中推理检索到的证据。我们在多种长上下文及双语基准测试中评估 MiA-RAG 的基于证据理解和全局感知能力。实验结果显示其持续超越基线模型，进一步分析表明，它能够将局部细节与一致的全局表示对齐，从而实现更接近人类的长上下文检索与推理能力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

该论文针对当前检索增强生成（RAG）系统在长文本理解任务中缺乏“全局语义框架”这一核心缺陷，提出并验证了 Mindscape-Aware RAG（MiA-RAG） 框架，旨在让大模型像人类一样，在检索与生成过程中始终受一份**全局语义摘要（mindscape）**的引导，从而提升对长文档的整合性理解、选择性检索与连贯推理能力。

Q: 有哪些相关研究？

论文在第 2 节“Related Work”中将与 MiA-RAG 相关的研究划分为两条主线，并指出它们与本文工作的区别。可归纳如下：

Context-Aware Embeddings（上下文感知检索/嵌入）

长窗口编码：利用支持长上下文的 LLM 直接对片段进行编码，如 Chen et al. 2024、Sturua et al. 2024、Nussbaum et al. 2024、Wang et al. 2024a、Lee et al. 2024、Li et al. 2023、Voyage-AI 2025。
图结构增强：Xu et al. 2024 构建篇章关系图，用邻居信息增强片段表示。
局部语境训练：Wu et al. 2025（Sit-Emb）提出监督信号，让嵌入模型学会把片段置于其局部邻居语境中，取得 SOTA 检索效果。
与 MiA-RAG 的区别：上述方法仅增强“片段”表示的局部上下文，而 MiA-RAG 首次把“全局语义摘要”注入到“查询”表示，实现选择性检索，无需改动原始片段嵌入。

Long Context Compression（长文本压缩/全局记忆）

早期方法：基于 KV-cache 裁剪或 token 丢弃（Yang et al. 2024、Li et al. 2024、Xiao et al. 2023、Zhang et al. 2023）。
抽象压缩：MemoRAG（Qian et al. 2025）用压缩记忆生成中间线索，再引导检索；Titans（Behrouz et al. 2024）在测试时学习把历史上下文存入长期记忆模块。
与 MiA-RAG 的区别：MemoRAG 依赖多步生成式代理推理，开销大；Titans 侧重记忆更新机制。MiA-RAG 仅一次性构建层次摘要作为持久 mindscape，不引入额外推理步骤，直接条件化检索与生成。

Q: 论文如何解决这个问题？

论文将“人类在阅读长文本时先激活全局语义框架（mindscape）再局部检索与推理”的心理学/神经科学机制，转化为可计算的 Mindscape-Aware RAG（MiA-RAG） 框架。核心思路是：先用层次摘要构建一份全局语义摘要 S，然后把 S 同时注入检索器与生成器，使二者始终在统一的全局语境下工作。具体实现分三步：

构建 Mindscape
对长文档做两层次摘要：

片段级：用 GPT-4o 将每个 chunk ci 压缩成 si
文档级：将所有 si 拼接后再压缩，得到全局摘要 S
该 S 作为后续检索与生成的“外部全局记忆”。

Mindscape-Aware 检索（MiA-Emb）

输入格式：把查询 q 与 S 拼接成统一序列

Q = [INST]_(emb); q; d_q; S; d_n|d_c

其中 d_q、d_n、d_c 为任务分隔符。

残差融合：取“查询结束”与“任务结束”两位置的隐藏状态，按

qt = δ·h(q) + (1−δ)·h_(t)

得到既保留原始查询意图、又注入全局语义的 enriched query embedding。

对比训练：在自动构造的“银标准”证据（chunk & 知识图谱节点）上用 InfoNCE 多任务损失微调嵌入模型，使查询表示被拉向与 S 语义一致的证据子空间。

Mindscape-Aware 生成（MiA-Gen）

训练数据：把 S 与检索到的混合证据 Ĉret 一并作为上下文，构造

x^(gen)i = [INST](gen); S; Ĉret; q_i

用 NarrativeQA+CLIPPER 的 QA/Claim 样本进行监督微调。

目标函数：标准自回归交叉熵损失，让模型学会在全局摘要的“语义脚手架”下解释局部证据、抑制噪声并完成答案生成。

通过“同一全局摘要同时条件化检索与生成”，MiA-RAG 实现了：

Selective Retrieval：查询嵌入被导向与 S 一致的语义子空间，减少跨主题歧义；
Enriched Understanding：摘要补充了查询中缺失的背景，缓解指代或省略带来的语义欠明；
Integrative Reasoning：生成器在全局语境下整合分散证据，输出更连贯、忠实的长文本答案。

Q: 论文做了哪些实验？

论文围绕“长文本、跨领域、双语、多任务”四个维度展开系统实验，共包含 五项研究（Study I–V） 及配套消融与几何分析，具体设置与结论如下：

研究	目的	关键数据集	主要指标	核心结论
I 检索能力	验证 MiA-Emb 是否因全局摘要而提升召回	NarrativeQA、DetectiveQA-ZH/EN	Recall@3/5/10	MiA-Emb-8B 平均召回比最强基线 Sit-Emb 提高 ≈+4–6%，消融“w/o Summary”显著下降
II 端到端 QA	评估完整 MiA-RAG 在长文本问答与推理上的综合表现	NarrativeQA、∞Bench-EN.MC、DetectiveQA、NoCha	F1/Acc/Pair-Acc	MiA-RAG-14B 五基准平均得分 68.11，超越 72B vanilla RAG（59.48），绝对增益 +8.6%
III GraphRAG 全局问答	检验 mindscape 对“全局感”问答的增益	自建 300 条 QMSum/GOV/VCSum 全局问题	GPT-4o pairwise 胜率	MiA-Emb 在 Comprehensiveness、Diversity、Empowerment 三维度胜率均 >70%，显著优于无 mindscape 基线
IV 模型规模影响	验证 mindscape 是否比单纯放大模型更有效	0.6B→8B（Emb）、1.5B→72B（Gen）	同上	MiA-Emb-0.6B 已超 Vanilla-8B；MiA-Gen-14B 追平或超越 Vanilla-72B，说明“全局语义”收益高于“堆参数”
V 摘要质量鲁棒性	测试若摘要质量下降，性能是否崩溃	NarrativeQA	F1	用 7B→32B 模型替代 GPT-4o 生成摘要，F1 仅波动 ±1–2 分，表明框架对摘要误差具有鲁棒性

配套分析

消融实验：去掉 Summary、去掉 QA/Claim 任一监督信号，性能均显著下降，确认 mindscape 与多任务监督缺一不可。
几何分析：t-SNE 显示 MiA-Emb 的查询嵌入与对应文档语义子空间夹角平均缩小 6.4°（≈14.5% 相对提升），直观验证 Selective Retrieval。
注意力分析：
– MiA-Emb 在中层同时出现“摘要注意力↑+召回↑”，表明模型把全局线索注入查询表示。
– MiA-Gen 的 MCEA 分数在 middle/late 层显著高于 vanilla，且替换摘要即跌落，证明其利用 mindscape 进行 Integrative Reasoning 而非位置/长度启发。

综上，实验覆盖检索、端到端问答、全局感问答、规模缩放与摘要质量五大方面，结果一致表明：引入统一的全局语义摘要比单纯扩大模型或上下文长度更能系统性提升长文本理解与推理能力。

Q: 有什么可以进一步探索的点？

以下方向可视为 MiA-RAG 的“直接外延”或“深层机理”探索，均未被原文系统讨论，且具备实验可行性：

动态/在线 mindscape

流式场景：文档随时间持续追加（会议纪要、聊天记录）。需设计增量式摘要更新策略，避免每轮重新压缩全量文本。
触发机制：基于信息熵或事件检测，仅在“语义漂移”显著时才触发摘要刷新，平衡延迟与开销。

多模态 mindscape

文本-图像-音频混合长文档（教科书、播客、幻灯片）。探索跨模态层次摘要（文本→视觉→音频）的统一语义锚定，及跨模态检索-生成联合训练。

个性化 mindscape

用户历史交互作为“私有摘要”，与文档全局摘要融合，实现个性化检索与回答。可引入用户-文档双塔结构，学习加权融合比例。

可解释/可编辑 mindscape

将摘要显式拆分为“实体-事件-关系”三元组，支持用户手动增删改，实时反馈到检索分布，实现“人在回路”的长文本知识库维护。

更细粒度摘要架构

树状或图谱式多层摘要（章节-段落-句子），检索时按需展开不同层级，兼顾全局语境与局部细节，进一步减少 token 开销。

低资源语言与领域迁移

检验 mindscape 在低资源语言、专业领域（法律、医疗）是否仍有效；若摘要模型性能骤降，能否通过“摘要蒸馏+领域继续预训练”弥补。

评估体系升级

现有指标侧重答案正确性，可引入“全局一致性分数”（Global-Coherence Score）与“证据分散度”（Evidence Spread），衡量模型整合多远距离片段的能力。

与长上下文 LLM 的“内-外”比较

当基座模型支持 1M+ token 时，mindscape 是否仍能提供额外增益？可设计“同等推理预算”对比：全输入 vs 摘要+检索的准确率-延迟-成本 Pareto 前沿。

摘要-检索-生成的三端联合训练

目前摘要由 GPT-4o 离线生成，若将层次摘要模块可微地接入检索与生成损失，实现端到端联合优化，可能进一步提升摘要质量与任务性能。

安全性与鲁棒性

摘要模型引入的幻觉会向下游传递。可研究“对抗摘要扰动”训练（Adv-Mindscape），或利用不确定性估计动态决定是否信任摘要信号。

这些方向既涵盖“实时性-多模态-个性化”应用需求，也涉及“可解释-联合优化-安全”研究深度，可作为 MiA-RAG 之后长文本理解领域的持续探索路线。

Q: 总结一下论文的主要内容

论文提出 Mindscape-Aware RAG (MiA-RAG)，首次把“全局语义框架”显式注入检索与生成，系统解决长文本理解难题。核心内容可概括为四句话：

受心理学“schema–gist”理论启发，用两层次摘要离线构建全局语义锚点 S 。
训练 MiA-Emb：把 S 与查询 q 联合编码，经残差融合得到既保留原始意图、又对齐全局语义的查询嵌入，实现选择性检索。
训练 MiA-Gen：把 S 与检索证据同时喂给生成器，让答案在全局语境下整合分散证据，实现整合性推理。
在 5 个英/汉长文本基准、3/5/10-chunk 设置下，MiA-RAG-14B 平均得分 68.11，超越 72B vanilla RAG 8.6%；几何与注意力分析证实 S 将查询拉向正确语义子空间，并引导生成器关注与摘要一致的证据。

综上，MiA-RAG 用一份轻量级全局摘要统一检索与生成，以 14B 参数实现 72B 级长文本理解性能，为长上下文任务提供了“人类式先见全局、再究细节”的新范式。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yuqing Li,Jiangnan Li,Zheng Lin,Ziyan Zhou,Junjie Wu,Weiping Wang,Jie Zhou,Mo Yu

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2512.17220.pdf

Arxiv URL: https://arxiv.org/abs/2512.17220

Arxiv ID: 2512.17220

CoolPaper URL: https://papers.cool/arxiv/2512.17220

Published: 2025-12-19T04:08:29Z

Updated: 2025-12-19T04:08:29.000Z

3. MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

The development of GUI agents could revolutionize the next generation of human-computer interaction. Motivated by this vision, we present MAI-UI, a family of foundation GUI agents spanning the full spectrum of sizes, including 2B, 8B, 32B, and 235B-A22B variants. We identify four key challenges to realistic deployment: the lack of native agent-user interaction, the limits of UI-only operation, the absence of a practical deployment architecture, and brittleness in dynamic environments. MAI-UI addresses these issues with a unified methodology: a self-evolving data pipeline that expands the navigation data to include user interaction and MCP tool calls, a native device-cloud collaboration system routes execution by task state, and an online RL framework with advanced optimizations to scale parallel environments and context length. MAI-UI establishes new state-of-the-art across GUI grounding and mobile navigation. On grounding benchmarks, it reaches 73.5% on ScreenSpot-Pro, 91.3% on MMBench GUI L2, 70.9% on OSWorld-G, and 49.2% on UI-Vision, surpassing Gemini-3-Pro and Seed1.8 on ScreenSpot-Pro. On mobile GUI navigation, it sets a new SOTA of 76.7% on AndroidWorld, surpassing UI-Tars-2, Gemini-2.5-Pro and Seed1.8. On MobileWorld, MAI-UI obtains 41.7% success rate, significantly outperforming end-to-end GUI models and competitive with Gemini-3-Pro based agentic frameworks. Our online RL experiments show significant gains from scaling parallel environments from 32 to 512 (+5.2 points) and increasing environment step budget from 15 to 50 (+4.3 points). Finally, the native device-cloud collaboration system improves on-device performance by 33%, reduces cloud model calls by over 40%, and preserves user privacy.

中文摘要

GUI代理的发展可能会彻底改变下一代人机交互。受这一愿景的激励，我们提出了MAI-UI，这是一系列基础GUI代理，涵盖从2B、8B、32B到235B-A22B的全尺寸范围。我们确定了实现实际部署的四个关键挑战：缺乏原生的代理-用户交互、仅限UI操作的局限性、缺乏可行的部署架构，以及在动态环境中的脆弱性。MAI-UI通过统一的方法论应对这些问题：一个自我进化的数据管道，将导航数据扩展为包含用户交互和MCP工具调用；一个原生的设备-云协作系统，通过任务状态路由执行；以及一个具有高级优化的在线强化学习框架，用于扩展并行环境和上下文长度。MAI-UI在GUI定位和移动导航领域建立了新的最先进水平。在定位基准测试中，它在ScreenSpot-Pro上达到73.5%，在MMBench GUI L2上达到91.3%，在OSWorld-G上达到70.9%，在UI-Vision上达到49.2%，超过了Gemini-3-Pro和Seed1.8在ScreenSpot-Pro上的表现。在移动GUI导航中，它在AndroidWorld上创下76.7%的新SOTA，超过了UI-Tars-2、Gemini-2.5-Pro和Seed1.8。在MobileWorld上，MAI-UI取得了41.7%的成功率，显著优于端到端GUI模型，并与基于Gemini-3-Pro的代理框架具有竞争力。我们的在线强化学习实验显示，通过将并行环境规模从32扩展到512，可以显著提升性能（+5.2点），并且通过将环境步数预算从15增加到50，可再提升4.3点。最后，原生设备-云协作系统提升了设备端性能33%，减少了40%以上的云模型调用，并保护了用户隐私。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在弥合当前 GUI 代理（GUI agent）在实验室表现与真实场景可靠部署之间的四大鸿沟：

缺乏原生“代理–用户”交互能力
现有系统多为端到端执行，忽略用户指令常含糊、不完整的情况；代理需主动澄清、追问、征得同意才能对齐真实意图。
纯 UI 操作的局限
长链条 UI 动作易累积误差，且大量任务在移动端根本不可达。论文引入 Model Context Protocol（MCP）工具调用，把冗长 UI 序列压缩为少量 API 调用，并解锁传统只能在桌面完成的工作流。
缺少可落地的设备–云协同架构
纯云方案带来隐私、成本、网络依赖；纯端方案受算力限制。论文提出原生设备–云协同系统，按任务状态与数据敏感度动态路由，兼顾性能、隐私与成本。
对动态环境的鲁棒性不足
静态离线轨迹训练导致过拟合，代理在真实多变的界面（弹窗、权限框、版本差异）中极易失效。论文通过在线强化学习让代理在 500+ 并行容器化环境中持续交互，提升对未知扰动的泛化能力。

综上，MAI-UI 以“自演化数据管线 + 设备云协同 + 在线 RL”三位一体，系统性地解决上述四大痛点，实现可规模部署的“真实世界为中心”的基础 GUI 代理。

Q: 有哪些相关研究？

论文在第 4 节系统回顾了两大相关方向，并指出 MAI-UI 与它们的差异。以下按“GUI Grounding”与“GUI Navigation”两条主线归纳代表性研究，并补充 MAI-UI 的相对位置。

GUI Grounding（单步定位）

方法/模型	技术路线	关键特点	与 MAI-UI 的差异
JEDI、OS-Atlas、Aguvis、UGround、Aria-UI	纯监督微调（SFT）	大规模截图–文本对，直接回归坐标	缺乏推理路径与 RL 微调，泛化性弱
GUI-R1、GUI-Actor、GTA1	纯强化学习（RL）	用 GRPO 直接优化“点是否在框”奖励	无 SFT 预热，样本效率低，易崩溃
InfiGUI-R1、Phi-Ground	SFT+RL 两段式	先做 SFT，再用 RL 细化	未解决“策略崩塌”，推理视角单一
MAI-UI（本文）	Instruction-as-Reasoning SFT → RL	先让模型生成“外观/功能/位置/意图”四视角推理链，再用 RL 动态选择最佳视角	引入结构化推理，稳定 RL 优化，缓解崩塌

GUI Navigation（多步决策）

方法/模型	技术路线	关键特点	与 MAI-UI 的差异
早期框架（Mobile-Agent、Ponder&Press 等）	模块化 pipeline：规划器 + 定位器	用大模型做高层规划，小模型做 grounding	非端到端，误差累积，延迟高
端到端大模型（UI-TARS、UI-Venus、Step-GUI、OpenCUA）	VLA 统一架构，SFT 为主	单模型输出动作序列，支持跨 App	无在线 RL，训练环境静态；无用户交互与 MCP
端侧小模型（Ferret-UI Lite、LightAgent）	3B-7B 参数，蒸馏/量化	低延迟、可离线	能力有限，复杂任务成功率低
MAI-UI（本文）	端到端 + 在线 RL + 设备–云协同	1. 自演化数据持续扩增2. 并行 512 容器环境在线 rollout3. 本地 2B 与云端 32/235B 动态切换	首次把“在线 RL”“用户交互”“MCP 工具”“端云协同”同时纳入端到端训练与推理框架

工具使用与用户交互

方法/基准	技术路线	关键特点	与 MAI-UI 的差异
Anthropic MCP 官方示例	协议层标准	定义工具描述、调用、返回格式	仅协议，无训练数据与端到端模型
MobileWorld 基准（同期工作）	评估协议	引入“用户澄清”与“MCP 工具”两类任务	MAI-UI 作为首个端到端模型在该基准取得 SOTA

强化学习系统优化

系统/工作	技术路线	关键特点	与 MAI-UI 的差异
verl、DAPO、DeepSpeed-RLHF	分布式 RL 框架	支持数学/代码等 Stateless 环境	无法处理 GUI 的状态化、长序列、高并发
MAI-UI 在线 RL	异步 rollout + 混合并行（TP+PP+CP）	容器化 Android 快照，512 并行环境，百万 token 级轨迹端到端训练	首次把“有状态 GUI 环境”规模化接入 RL 训练，解决长视界与 GPU 显存瓶颈

小结

Grounding 方向：MAI-UI 通过“Instruction-as-Reasoning”先注入多视角推理链，再用 RL 动态选择，解决纯 RL 不稳定、纯 SFT 无推理的问题。
Navigation 方向：MAI-UI 首次将“在线 RL + 用户交互 + MCP 工具 + 端云协同”统一在端到端框架内，并在 AndroidWorld、MobileWorld 同时取得 SOTA，显著拉开与既有端到端模型或模块化框架的差距。

Q: 论文如何解决这个问题？

论文提出 MAI-UI 框架，用“三条主线 + 一套模型族”系统性地回应四大痛点，具体做法如下：

1. 自演化数据管线——解决“交互缺失 & 纯 UI 局限”

三源混合：人工标注轨迹 + 拒绝采样轨迹 + 自动 rollout 轨迹，持续注入新任务。
动作空间扩展：在常规 UI 动作外新增
ask_user：当指令缺失关键信息时主动提问；
mcp_call：一键调用外部 API（地图、GitHub、股票等），把长 UI 序列压缩为 1-2 次工具调用。
迭代拒绝采样：用当前模型 rollout → 细粒度正确性判断 → 只保留高质量或“最长正确前缀”→ 再训练，实现模型与数据分布共同演化。

2. 原生设备–云协同系统——解决“部署架构空白”

统一轨迹内存：本地维护“指令-截图-动作-思维”全量历史，云端可无缝续跑。
本地监控器（与 2B 代理同模型）：
实时判断轨迹是否偏离；
生成错误摘要（error summary），云端续跑时直接读取，减少重复探索。
隐私门控：若当前状态含敏感字段（密码、Token），即使偏离也强制留端，用户隐私零上云。
效果：AndroidWorld 上 2B 模型单独仅 49.1%，协同后→ 65.5%，相对提升 33%；云调用次数降低 42.7%，40%+ 任务完全端侧完成。

3. 在线强化学习——解决“动态环境脆弱”

可扩展有状态环境：
Docker 容器化 Android 镜像（AVD + 自托管后端 + REST API），单物理机可起 50+ 实例；
集中式 Environment Manager 跨机调度，512 环境并行 rollout。
长视界训练优化：
异步 Agent Loop：推理与环境交互解耦，GPU 零等待；
混合并行（TP+PP+CP）把百万 token 轨迹切片到多卡，显存占用恒定。
课程与奖励：
按当前 pass@K 把任务分四级（frontier / exploration / near-mastery / exploitation），自动调整采样比例；
轨迹级二元奖励 + 动作级重复惩罚，配合经验回放池，保证持续学习信号。
结果：8B 模型 SFT→RL 提升 6.0 pp；环境数从 32→512 再涨 5.2 pp；步数预算 15→50 再涨 4.3 pp。

4. Instruction-as-Reasoning grounding——解决“定位精度 & RL 策略崩塌”

SFT 阶段：对同一元素生成“外观/功能/位置/意图”四视角指令，让模型先学会“为什么点这里”。
RL 阶段：用 GRPO 优化“点是否在框”奖励，模型可动态选择或组合视角，形成上下文自适应推理链。
Zoom-In 推理：先粗定位→裁剪半屏大图→再精定位，高分辨率专业界面（ScreenSpot-Pro）绝对提升 5.6 pp。

5. 全尺寸模型族——解决“部署约束多样”

2B / 8B / 32B / 235B-A22B 四档，统一训练配方；
2B 专精端侧，8-32B 平衡延迟与能力，235B 放云端；
同参数级别均取得 SOTA：
Grounding：ScreenSpot-Pro 73.5%、MMBench-GUI 91.3%、OSWorld-G 70.9%、UI-Vision 49.2%；
Navigation：AndroidWorld 76.7%、MobileWorld 41.7%，显著高于 UI-Tars-2、Gemini-2.5-Pro 等。

总结

通过“数据-训练-部署”全链路设计，MAI-UI 把用户交互、MCP 工具、端云协同、在线 RL 首次整合进同一端到端框架，并给出可落地的多尺寸模型，系统性地解决了 GUI 代理走向真实世界的四大核心障碍。

Q: 论文做了哪些实验？

论文从“GUI 定位–静态导航–在线导航–真实场景–系统消融”五个层次展开实验，覆盖 15+ 公开基准与自建 MobileWorld，并辅以多组消融与案例可视化。核心结果如下：

1. GUI Grounding（单步定位）

基准	数据特点	MAI-UI 代表成绩 (SOTA↑)
ScreenSpot-Pro	高分辨率专业软件，6 领域 12 类细粒度 UI	32B+zoom-in 73.5% (+4.3 vs GTA1-32B)
UI-Vision	多视角指令（基本/功能/空间）	32B+zoom-in 49.2% (+12.4 vs UI-Venus-72B)
MMBench-GUI L2	跨平台分层指令，含高级目标描述	32B 91.3% (+7.9 vs 前最佳)
OSWorld-G / -Refine	桌面复杂布局+细粒度操作	32B+zoom-in 70.9% / 75.0%
ScreenSpot-V2	移动/桌面/网页+文本/图标	32B 96.5% 平均，全面领先

结论：2B-32B 全尺度均超同规模模型；zoom-in 策略平均再提 2-6 pp。

2. 离线导航（静态数据集）

基准	任务特点	成绩
Android Control-high	单 App 高层指令	32B 75.5%
GUI Odyssey	跨 App 导航 83 场景	32B 83.4%（新 SOTA）

3. 在线导航（真实模拟器）

基准	动态/并发	成绩
AndroidWorld (116 任务 20 App)	实时弹窗、权限、后台刷新	235B-A22B 76.7% (+3.4 vs UI-Tars-2)
8B 70.7% (+9.3 vs GUI-Owl-7B)
2B 49.1% (+21.1 vs Ferret-UI-Lite-3B)

4. 真实场景能力（MobileWorld）

子集	任务数	235B-A22B 成绩	领先幅度
GUI-only	116	39.7%	+13.4 vs 最强端到端
User-Interaction	45	51.1%	+18.7 vs 前最佳
MCP-tool	40	37.5%	+32.1 vs 前最佳
Overall	201	41.7%	+20.8 vs Doubao-1.5-UI-TARS

与“GPT-5/Gemini-3-Pro + 外部规划器”等框架对比仍具竞争力（43.8%-51.7% 区间）。

5. 系统消融与深度分析

5.1 设备–云协同 (DCC)

2B 纯本地 49.1% → DCC 65.5% （+33.4% 相对）
随机切换基线 57.8%；去除错误摘要 −6.9 pp
云调用步数占比从 100% 降到 57.3%，42.7% 步长在端完成；40.5% 任务完全本地闭环
隐私门控案例：密码输入场景强制留端，零敏感数据上云

5.2 在线 RL 关键因子

因子	8B 模型增益
SFT→RL (50 步)	+6.0 pp
仅标准 GRPO	+1.8 pp；课程+重复惩罚+经验回放额外 +4.2 pp
交互预算 15→30→50 步	+1.7→+3.8→+6.0 pp
并行环境 32→512	65.5→70.7%（+5.2 pp）
图像分辨率 540→720→1080p	720p 与 1080p 等效，训练提速 50%

5.3 鲁棒性案例

意外权限框、弹窗：RL 模型可自动 dismiss 并续任务（图 13）
走错 App：自动回退并修正轨迹完成报销去重（图 14）

5.4 Grounding 视角分析

可视化显示模型能随上下文切换“外观/功能/位置/意图”视角，甚至组合/自创新角度（图 15）
引入推理链后 RL 阶段探索更稳定，策略崩塌现象显著减轻

6. 补充实验

ScreenSpot-V2 与 OSWorld-G-Refine 全类目细分结果见附录表 10-11，MAI-UI 在各平台（移动-桌面-Web）文本/图标任务均列第一或第二。
训练曲线：图 12 给出奖励 EMA 与并行环境 Scaling 曲线，显示 512 环境收敛最快且终点最高。

结论

实验覆盖“定位-离线-在线-真实-系统”五层，共 15+ 基准、200+ 定量指标与多组消融，验证：

同尺度模型全面 SOTA，235B 取得 AndroidWorld 76.7%、MobileWorld 41.7% 新纪录；
设备–云协同让 2B 端侧模型绝对提升 16 pp，云调用减少 40% 以上；
在线 RL 与课程设计带来持续增益，且对弹窗、走错 App 等真实扰动显著鲁棒。

Q: 有什么可以进一步探索的点？

以下问题在论文末尾虽未展开，却是把 GUI 代理真正推向“日常可用”的关键跳板，可作为后续研究路线图：

1. 统一动作空间与跨平台内核

现有 UI 动作仍依赖 Android Accessibility / PC UIAutomation 等私有 API，不同 OS 指令集差异大。
探索：基于 OS-agnostic 的“最小公共动作集”+ 可学习适配层，实现同一套权重在 Windows/macOS/Android/Web 上零样本泛化。

2. 多模态统一观测

目前以“截图 + a11y-tree”为主，丢失音频、震动、手势、系统日志等高维信号。
探索：把音频提示、传感器事件、屏幕时序帧统一 token 化，训练真正的多模态时空 Transformer，提升对动态通知、语音助手的感知。

3. 持续/增量学习

在线 RL 阶段一旦收敛即冻结，后续新 App、新布局需重新训练。
探索：
参数高效微调（LoRA/AdaLoRA）+ 经验回放，实现“热更新”不遗忘；
引入 Episodic Memory 或参数隔离方法，支持终身学习。

4. 可解释性与用户对齐

代理“先斩后奏”易引发信任危机。
探索：
轨迹级因果归因，可视化“哪一步推理导致该动作”；
人在回路强化学习（IHRL），让用户实时纠正并反馈奖励，对齐个人偏好。

5. 安全与对抗鲁棒

恶意网页或 App 可注入对抗像素诱导错误点击。
探索：引入视觉对抗训练 + 安全约束策略（Control Barrier），保证动作落在安全区域；结合形式化验证工具做可达性分析。

6. 低资源与绿色 AI

512 容器 × 50 步在线 RL 消耗万卡级 GPU 时。
探索：
状态抽象 / 层次动作空间，缩短步数；
世界模型或 Dreamer-style 隐空间 rollout，减少真实环境调用；
用小型“学生环境模型”蒸馏大模型策略。

7. 个性化与隐私计算

端云协同仍把“轨迹”视为明文。
探索：
联邦 RL（Fed-GRPO）：本地梯度/优势上传，参数聚合；
差分隐私 + 安全多方计算，确保云侧无法反推密码、聊天记录。

8. 工具生态自动扩展

MCP 工具目前手工编写 schema。
探索：
自动化 Swagger/OpenAPI→MCP 转换器，让代理“即插即用”新 API；
自监督工具学习：阅读官方文档 HTML，自动生成调用示例并自我验证。

9. 长时程任务规划与记忆

超过 50 步的跨天任务（如“本周每天把发票截图发财务”）需外部记忆支持。
探索：引入 episodic memory 或日历知识图谱，实现多会话一致性与定时触发。

10. 社会技术交叉研究

代理可自动操作支付、隐私页面，存在伦理风险。
探索：建立“GUI 代理安全红队”与合规评测协议，研究自动化审计、责任归属与用户授权最小权限模型。

可立即落地的短程课题

在 MAI-UI 2B 上接入 LoRA 热更新插件，验证“新 App 发布 1 小时内自动适配”的增量学习流程。
把容器镜像换成轻量 Android Cuttlefish，测试 1024 并行环境是否继续线性提速。
将 MCP 工具集扩展到 100+ 常用企业 SaaS（Slack、Notion、Confluence），统计平均步长压缩比与失败率。

总结

从“跨平台内核→终身学习→隐私计算→工具自生→社会合规”逐层深入，可形成下一代“可信赖、可持续、可扩展”的通用 GUI 代理研究主线。

Q: 总结一下论文的主要内容

MAI-UI 是一篇面向“真实世界可部署”的基础 GUI 代理论文，核心贡献可概括为 “一个模型族 + 三大系统 + 五项 SOTA”：

1. 研究动机（四大痛点）

缺用户交互：指令含糊，代理不会追问
纯 UI 局限：长链条易错，移动无法完成桌面工作流
无原生部署架构：纯云贵且隐私风险，纯端能力弱
静态训练不鲁棒：弹窗、版本变化就失效

2. 方法框架（三大系统）

系统	关键机制	解决痛点
自演化数据管线	拒绝采样 + 人工 + 自动 rollout 三线并行；动作空间扩展 ask_user 与 mcp_call	交互缺失 & UI-only 局限
在线强化学习	512 容器化 Android 并行；异步 rollout + 混合并行支持百万 token 轨迹；课程 + 重复惩罚 + 经验回放	动态环境脆弱
原生设备–云协同	本地 2B 代理兼监控器，偏离且非敏感则切云端；统一轨迹内存 + 错误摘要	部署架构空白

3. 模型族（同配方四尺寸）

2B → 端侧实时；8B/32B → 均衡；235B-A22B → 云端高能力
统一训练四阶段：SFT 感知→SFT 导航→RL 定位→在线 RL 导航

4. 实验结果（五项新 SOTA）

GUI 定位
ScreenSpot-Pro 73.5% │ UI-Vision 49.2% │ MMBench-GUI 91.3% │ OSWorld-G 70.9% │ ScreenSpot-V2 96.5%
离线导航 GUI Odyssey 83.4%
在线导航 AndroidWorld 76.7%（235B）、73.3%（32B）、49.1%（2B）
真实场景 MobileWorld 41.7% 整体，用户交互子集 51.1%，MCP 工具子集 37.5%
系统消融

端云协同让 2B 模型 +33% 相对性能，云调用 −42.7%
在线 RL 8B 模型 +6.0 pp；环境 32→512 再 +5.2 pp

5. 结论

MAI-UI 首次把“用户交互、MCP 工具、端云协同、在线 RL”整合进同一端到端框架，全尺度模型均取得新最佳，显著缩小实验室与真实部署的差距，为“基础 GUI 代理”提供了一条可复制、可落地的技术路径。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Hanzhang Zhou,Xu Zhang,Panrong Tong,Jianan Zhang,Liangyu Chen,Quyu Kong,Chenglin Cai,Chen Liu,Yue Wang,Jingren Zhou,Steven Hoi

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.22047.pdf

Arxiv URL: https://arxiv.org/abs/2512.22047

Arxiv ID: 2512.22047

CoolPaper URL: https://papers.cool/arxiv/2512.22047

Published: 2025-12-26T14:51:52Z

Updated: 2025-12-26T14:51:52.000Z

4. UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture

Multimodal large language models (MLLMs) have achieved remarkable progress in visual understanding tasks such as visual grounding, segmentation, and captioning. However, their ability to perceive perceptual-level image features remains limited. In this work, we present UniPercept-Bench, a unified framework for perceptual-level image understanding across three key domains: Aesthetics, Quality, Structure and Texture. We establish a hierarchical definition system and construct large-scale datasets to evaluate perceptual-level image understanding. Based on this foundation, we develop a strong baseline UniPercept trained via Domain-Adaptive Pre-Training and Task-Aligned RL, enabling robust generalization across both Visual Rating (VR) and Visual Question Answering (VQA) tasks. UniPercept outperforms existing MLLMs on perceptual-level image understanding and can serve as a plug-and-play reward model for text-to-image generation. This work defines Perceptual-Level Image Understanding in the era of MLLMs and, through the introduction of a comprehensive benchmark together with a strong baseline, provides a solid foundation for advancing perceptual-level multimodal image understanding.

中文摘要

多模态大语言模型（MLLMs）在视觉理解任务（如视觉定位、分割和图像描述）方面取得了显著进展。然而，它们在感知级图像特征的能力仍然有限。在本工作中，我们提出了 UniPercept-Bench，这是一个统一的感知级图像理解框架，涵盖三个关键领域：美学、质量、结构与纹理。我们建立了分层定义体系并构建了大规模数据集以评估感知级图像理解。在此基础上，我们开发了强基线 UniPercept，通过领域自适应预训练（Domain-Adaptive Pre-Training）和任务对齐强化学习（Task-Aligned RL）进行训练，使其能够在视觉评分（VR）和视觉问答（VQA）任务中实现稳健的泛化。UniPercept 在感知级图像理解上优于现有的 MLLMs，并可作为文本生成图像的即插即用奖励模型。本工作在 MLLMs 时代定义了感知级图像理解，并通过引入综合基准和强基线，为推进感知级多模态图像理解提供了坚实基础。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在解决多模态大模型（MLLM）在感知级图像理解（perceptual-level image understanding）上的系统性缺失：

现有 MLLM 主要聚焦语义级任务（物体识别、视觉推理等），对美学、质量、结构与纹理等感知属性的评估与推理能力薄弱，预测不稳定、与人类感知偏差大。
该缺失导致内容创作、图像增强、生成模型对齐等下游应用难以获得可靠、可解释的感知信号。

为此，论文提出：

UniPercept-Bench：首个覆盖美学评估（IAA）、质量评估（IQA）、结构与纹理评估（ISTA）的统一感知级基准，以Domain–Category–Criterion三级层级定义感知属性，并同时支持**视觉打分（VR）与视觉问答（VQA）**两种任务形式。
UniPercept 基线模型：通过领域自适应预训练与任务对齐强化学习，在无需额外人工反馈的情况下，实现对三大感知域的稳健评分与问答，显著优于现有通用与专用模型，并可作为文本到图像生成模型的即插即用奖励模型，带来可控的感知质量提升。

Q: 有哪些相关研究？

论文在第 2 节“Related Works”中系统梳理了与感知级图像理解相关的两条主线研究，并指出它们与 UniPercept 的区别。可归纳为以下两类：

多模态大模型（MLLM）评测基准

语义-推理导向：
MMMU / MMMUPro：大学跨学科考试题，强调知识推理。
MEGA-Bench、MMStar、MMBench：日常图像的综合理解与推理。
MathVista：视觉场景中的数学/几何推理。
OCRBench：图像内文字识别与理解。
共同局限：先将视觉内容转为文本表征再做语言推理，不直接评估低层感知属性（美学、失真、纹理等）。

图像感知评估任务

美学评估（IAA）
Q-Align、UNIAA、ArtiMuse：提供打分或文本解释，但仅聚焦“好不好看”，无结构-纹理维度。
质量评估（IQA）
MUSIQ、DepictQA、DeQA、Q-Insight：预测失真严重程度或文本描述失真，未系统化覆盖结构/纹理。
结构-纹理评估（ISTA）
DTD、FMD 等早期纹理数据集：仅做纹理分类或分割，缺乏统一度量、层级定义及大规模 VQA/VR 评测。

UniPercept-Bench 首次将 IAA、IQA、ISTA 整合到同一层级化框架，并提供并行的大规模 VR+VQA 任务，填补了“感知级”评测空白；UniPercept 模型则通过领域自适应预训练+任务对齐 RL，首次在统一模型中同时实现三大感知域的稳健评分与问答，显著超越既有通用 MLLM 与专用感知模型。

Q: 论文如何解决这个问题？

论文从“定义-数据-模型-应用”四个层面系统性地解决感知级图像理解缺失的问题：

统一任务定义

提出三域层级框架
Domain：IAA（美学）、IQA（质量）、ISTA（结构&纹理）
Category：每域细分 3–4 个感知大类（如 Composition & Design、Distortion Location、Material Representation 等）
Criterion：再细化为 44 项可操作的感知准则（Visual Balance、Severity Level、Base Morphology 等）
同时支持两种任务形式
Visual Rating（VR）：0–100 连续打分
Visual Question Answering（VQA）：多选/Yes-No/Why 等模板，覆盖同一套准则

大规模高质量数据构建（UniPercept-Bench）

三阶段 pipeline
① 初始 QA 生成：用 GPT-4o 结合专业注释与问题模板库生成候选 QA 与理由
② 拒绝采样：用 Qwen2.5-VL-78B 从“问题有效性、答案有效性、推理有效性、准则相关性”四维度打分，淘汰 ≈40% 低质样本
③ 人工精修：训练后的志愿者修正边界案例，保证与人类感知一致
最终获得 ≈6k 张图、覆盖 44 准则、同时提供 VR 与 VQA 标签的统一基准

统一基线模型（UniPercept）

两阶段训练策略
① Domain-Adaptive Pre-Training：在 800k 图文对（含公开 IAA/IQA 数据与自建的 ISTA 结构化注释）上进行多任务预训练，使模型具备初步感知对齐能力
② Task-Aligned RL：采用 GRPO 算法，联合优化 VR 与 VQA
– VQA 奖励：二值正确性 r(vqa)=1(answer)=gt
– VR 奖励：Adaptive Gaussian Soft Reward

r(vr)=exp(-(|p_i-g_i|^2) / (2σ(textdyn))^2), quad σ_(dyn)=σ_0(1+α(|p_i-g_i|) / (100))

避免阈值截断带来的梯度消失，实现连续数值回归的稳定更新

输出策略：Token-as-Score，将离散 token 分布映射为 0–100 分值，避免额外回归头

下游验证与工具化

即插即用奖励模型：把 UniPercept 的 IAA、IQA、ISTA 三路评分作为 Flow-GRPO 的奖励信号，对 FLUX.1-dev 进行后训练；实验显示可定向且可控地提升生成图像的美学、清晰度或结构丰富度
统一度量：UniPercept 评分可直接用于评测任意图像（真实图或生成图），在 DPG、GenEval 等基准上揭示现有 T2I 模型在美学与纹理维度仍有显著差距
数据集诊断：对 ImageNet、Unsplash、LAION-5B、Blip3o-60K 等大规模数据做感知分布分析，发现 Unsplash 与 Blip3o-60K 在三大维度均领先，为后续数据筛选提供量化依据

通过“统一定义-高质量数据-多任务对齐训练-工具化应用”的闭环，论文首次让 MLLM 在感知级图像理解上达到与人类高度一致、且可解释、可扩展、可直接服务生成模型优化的水平。

Q: 论文做了哪些实验？

论文围绕 UniPercept-Bench 与 UniPercept 模型 开展了三大组实验，覆盖 benchmark 评测、模型消融、下游应用验证 三个层面。

1 主基准评测（UniPercept-Bench）

任务	数据规模	评价指标	参评模型	主要结论
Visual RatingIAA / IQA / ISTA	5 个公开数据集（ArtiMuse-10K 等）	SRCC / PLCC	18 个模型（5 专有 + 9 开源 + 4 专用）	UniPercept 在三域平均 SRCC/PLCC 达 0.824/0.827，显著超越最强专用模型 Q-Insight*（0.726/0.733）与 GPT-4o（0.643/0.655）。
VQAIAA（8 类）	≈6 k 题	准确率	同上	UniPercept 76.55 % 平均准确率，领先次优 InternVL3-78B（68.28 %）与 GPT-4o（60.04 %）。
VQAIQA（3 类）	≈6 k 题	准确率	同上	UniPercept 81.07 %，领先次优 LLaVA-OneVision-8B（72.15 %）。
VQAISTA（5 类）	≈6 k 题	准确率	同上	UniPercept 84.23 %，领先次优 LLaVA-OneVision-8B（81.13 %）。

2 消融与策略分析

变量	实验设置	指标	结果
Domain-Adaptive Pre-Training	去掉 800 k 预训练数据	VR & VQA 平均	性能下降 ≈10 %（VR）/ ≈6 %（VQA），验证预训练必要性。
Reward 设计	对比 Threshold vs Adaptive Gaussian	VR SRCC/PLCC	Adaptive Gaussian 在三域均 >0.77，阈值法仅 0.60–0.88 且波动大。
任务联合训练	VQA-only / VR-only / 联合	各自域平均	联合训练在两项任务上均优于单任务，最大增益 +5.9 %。
域联合训练	IAA-only / IQA-only / ISTA-only / 三域混合	三域平均	三域混合版全面领先单域模型，ISTA 单域虽局部最高，但跨域泛化差。

3 下游应用验证

3.1 作为奖励模型（FLUX.1-dev 后训练）

奖励信号	PickScore ↑	HPSv3 ↑	DeQA ↑	LAION-Aes ↑	ArtiMuse ↑	结论
Baseline	22.46	10.71	4.32	5.77	59.02	—
+ IAA Reward	22.47	10.09	4.09	6.19	67.02	美学指标 ↑8.0
+ IQA Reward	22.63	11.21	4.37	6.02	63.64	质量指标 ↑0.5–0.7
+ ISTA Reward	22.72	11.09	4.37	6.16	63.75	结构丰富度 ↑3.4
All Rewards	22.67	10.93	4.33	6.19	65.52	综合感知最优

3.2 作为统一度量（T2I 模型评测）

基准	测试模型数	主要发现
DPG	8 个主流 T2I（FLUX、GPT-Image-1、Qwen-Image 等）	GPT-Image-1 / Qwen-Image 取得最高 UniPercept-Avg 65.7 / 60.8，但 ISTA 仍 <50，揭示纹理-结构薄弱。
GenEval	同上	指令跟随能力（GenEval ↑）与感知质量（UniPercept ↑）正相关，但高 GenEval ≠ 高 IAA/ISTA。

3.3 数据集感知诊断

数据集	UniPercept-IAA	UniPercept-IQA	UniPercept-ISTA	用途
Unsplash	62.49	69.19	43.32	真实高清图综合第一
Blip3o-60K	63.81	73.88	49.38	AIGC 图综合第一
ImageNet	53.88	61.90	36.79	提供低感知分对照

4 可视化与案例

图 8、12–14 给出 FLUX 生成对比 与 UniPercept-Image-Profile 样例，展示模型如何同时输出
IAA/IQA/ISTA 分数 + 逐段细粒度文字诊断，验证可解释性与实用价值。

综上，实验从 benchmark 难度、模型消融、奖励驱动生成、第三方基准复测、数据分布诊断 多维度证明：
UniPercept 在感知级图像理解任务上 全面领先现有 MLLM，并可作为 通用奖励/度量/诊断工具 直接服务生成模型优化与数据筛选。

Q: 有什么可以进一步探索的点？

以下方向可被视为 UniPercept 框架的自然延伸，亦是目前实验结果已暴露出的短板，具有明确的探索价值：

1 规模与多样性扩展

十百万级数据：当前 6 k 图文对已能拉开模型差距，但较语义级 benchmark 仍小一个量级。
→ 自动化+人机协同迭代，构建 >100 k 感知级 VQA，覆盖 视频、HDR、360°、红外、显微 等成像模态。
跨文化美学：现有标注员以东亚+北美为主，可引入 南美、非洲、南亚 标注群体，研究 文化审美偏差 及 个性化校准 方法。
动态感知：将 IAA/IQA/ISTA 扩展至 视频时序维度（帧间一致性、节奏感、运动模糊累积效应），形成 UniPercept-Video-Bench。

2 任务与评价范式升级

相对感知：人类更擅长“A 比 B 美/清晰”而非绝对打分。
→ 构建 成对/三元组 偏好数据集，训练 对比式奖励模型，与绝对值模型做 ensemble 或 ranking-distillation。
可编辑感知：引入 局部感知 mask，支持“仅对天空提升美学”“只去噪人物皮肤”的 细粒度奖励信号，驱动 区域感知生成。
不确定性量化：输出 感知分数的分布（Gaussian/Log-Normal）而非点估计，为 人机协同创作 提供 置信度阈值。

3 模型架构与训练策略

视觉 tokenizer 感知专用化：现有 ViT 侧重语义，可设计 多尺度高频 tokenizer（小 patch + 高频滤波）显式增强纹理/失真感知。
多模态混合专家（MoE）：为 IAA/IQA/ISTA 分别维护 感知专家子网络，利用 路由机制 动态分配计算，降低冲突梯度。
自监督预文本对齐：利用 失真-无失真图像对、美学增强前后对 构建 对比损失，在 无标注阶段 即对齐感知空间，减少后续 RL 采样成本。

4 人类-模型一致性深挖

眼动 & 脑电同步：采集 眼动扫描路径 + EEG 审美评分，建立 生物信号-模型注意力 映射，验证 模型是否关注人类真正在乎的区域。
可解释可视化：将 ISTA 结构化输出 与 Grad-CAM 结合，生成 感知热图，让用户 交互式查询“为何纹理得分低”，提升 诊断透明度。

5 下游应用再推进

文生图 RL-on-policy 循环：当前仅用 离线奖励，可探索 在线 RL（模型生成→UniPercept 实时奖励→策略更新），形成 自我提升闭环。
图像修复/超分感知优化：将 UniPercept 作为 损失函数 替代传统 LPIPS，驱动 感知优先 的复原算法，验证 是否比 PSNR/LPIPS 更受人类偏爱。
多模态 RLHF 平台：把 UniPercept 奖励与 文本一致性奖励 融合，构建 统一 RLHF 服务，供 Stable Diffusion、Midjourney、DALL·E 等即插即用。

6 伦理与鲁棒性

感知欺骗攻击：研究 对抗扰动 是否可让 UniPercept 输出 极高/极低分数 而人类无感，提出 感知鲁棒性基准。
偏见审计：检查 肤色、性别、文化符号 是否导致 系统性感知偏差，并引入 公平性约束 到奖励函数。

7 开源与工具链

在线 Demo + API：提供 实时感知评分 与 JSON 结构化诊断，方便 设计师、摄影师、生成平台 直接调用。
插件生态：开发 Photoshop / Blender / Figma 插件，把 UniPercept 作为 “感知图层”，实现 边编辑边反馈 的工作流。

简言之，UniPercept 已迈出“统一感知级理解”第一步，未来可在 数据规模、文化多样性、时序扩展、局部编辑、生物信号对齐、在线 RL、伦理鲁棒 等方向持续深耕，最终形成 人类级、可解释、可交互 的通用感知引擎。

Q: 总结一下论文的主要内容

UniPercept 论文核心内容一览

维度	关键信息
问题	多模态大模型（MLLM）在语义级任务表现强劲，却普遍缺乏美学、质量、结构/纹理等感知级理解，导致内容创作、生成模型对齐等应用缺少可靠、可解释的感知信号。
目标	建立统一、可评测、可训练的感知级图像理解框架，让模型像人类一样对“好不好看、清不清晰、结构是否丰富”进行定量打分+定性解释。
贡献 1：基准	UniPercept-Bench• 三域层级定义：IAA（美学）+ IQA（质量）+ ISTA（结构&纹理）→ 44 项细粒度准则• 双任务：Visual Rating（0–100）+ Visual Question Answering（多选/Yes-No/Why）• 6 k 高质量图文对，经 GPT-4o 生成→多模型拒采→人工精修，首个同时覆盖三域+双任务的感知级 benchmark
贡献 2：模型	UniPercept 基线• 两阶段训练：① 800 k 样本领域自适应预训练；② 任务对齐 RL（GRPO+Adaptive Gaussian Soft Reward）联合优化打分与问答• 18 个主流模型对比：三域 VR 平均 SRCC/PLCC 0.824/0.827，VQA 平均准确率 80.6 %，全面领先专有/开源/专用模型
贡献 3：应用	即插即用感知奖励• 对 FLUX.1-dev 进行 Flow-GRPO 后训练：IAA/IQA/ISTA 三路信号可定向提升美学、清晰度或结构丰富度；联合奖励实现最佳整体感知质量• 统一度量：在 DPG、GenEval 上评测 8 个 T2I 模型，揭示 ISTA<50 等短板；对 ImageNet/Unsplash/LAION 等做分布诊断，量化数据集感知优劣
结论	UniPercept 首次定义并实现了感知级图像理解的统一框架，提供benchmark+强基线+奖励/度量工具，为生成模型优化、数据筛选、人机协同创作奠定可直接使用的基础。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Shuo Cao,Jiayang Li,Xiaohui Li,Yuandong Pu,Kaiwen Zhu,Yuanting Gao,Siqi Luo,Yi Xin,Qi Qin,Yu Zhou,Xiangyu Chen,Wenlong Zhang,Bin Fu,Yu Qiao,Yihao Liu

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.21675.pdf

Arxiv URL: https://arxiv.org/abs/2512.21675

Arxiv ID: 2512.21675

CoolPaper URL: https://papers.cool/arxiv/2512.21675

Published: 2025-12-25T13:35:52Z

Updated: 2025-12-25T13:35:52.000Z

5. ProEdit: Inversion-based Editing From Prompts Done Right

Inversion-based visual editing provides an effective and training-free way to edit an image or a video based on user instructions. Existing methods typically inject source image information during the sampling process to maintain editing consistency. However, this sampling strategy overly relies on source information, which negatively affects the edits in the target image (e.g., failing to change the subject’s atributes like pose, number, or color as instructed). In this work, we propose ProEdit to address this issue both in the attention and the latent aspects. In the attention aspect, we introduce KV-mix, which mixes KV features of the source and the target in the edited region, mitigating the influence of the source image on the editing region while maintaining background consistency. In the latent aspect, we propose Latents-Shift, which perturbs the edited region of the source latent, eliminating the influence of the inverted latent on the sampling. Extensive experiments on several image and video editing benchmarks demonstrate that our method achieves SOTA performance. In addition, our design is plug-and-play, which can be seamlessly integrated into existing inversion and editing methods, such as RF-Solver, FireFlow and UniEdit.

中文摘要

基于反演的视觉编辑提供了一种有效且无需训练的方式，根据用户指令编辑图像或视频。现有方法通常在采样过程中注入源图像信息以保持编辑的一致性。然而，这种采样策略过度依赖源信息，从而对目标图像的编辑产生负面影响（例如，无法按照指令更改主体的属性，如姿势、数量或颜色）。在本研究中，我们提出了 ProEdit，以在注意力和潜在空间两方面解决这一问题。在注意力方面，我们引入了 KV-mix，它在编辑区域混合源图像和目标图像的 KV 特征，从而在保持背景一致性的同时减轻源图像对编辑区域的影响。在潜在空间方面，我们提出了 Latents-Shift，通过扰动源潜在空间的编辑区域，消除反演潜在对采样的影响。在多个图像和视频编辑基准上的大量实验证明，我们的方法实现了最先进的性能。此外，我们的设计即插即用，可以无缝集成到现有的反演和编辑方法中，例如 RF-Solver、FireFlow 和 UniEdit。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文针对“基于反演的视觉编辑”中普遍存在的源图像信息过度注入问题，提出系统性的解决方案。具体而言：

现有 flow-based 反演方法在采样阶段为保持背景一致性，会全局注入源图的 attention 特征，并以反演 latent 作为初始噪声。
这种策略使模型过度依赖源分布，导致目标区域（姿态、数量、颜色等属性）无法按文本指令被正确修改，出现“编辑失败”现象。

因此，作者提出 ProEdit，从 attention 与 latent 两条路径同时削弱源图影响，实现高精度、即插即用的无训练编辑。

Q: 有哪些相关研究？

论文在“2. Related Work”中系统梳理了与 ProEdit 密切相关的三大研究脉络，可归纳如下：

文本到视觉生成（Text-to-Visual Generation）

扩散/流匹配基础模型
U-Net 架构：LDM、Stable Diffusion 系列
DiT/Flow 架构：FLUX、HunyuanVideo、MM-DiT
概率流 ODE 求解器：RF-Solver、FireFlow、UniEdit 等

文本驱动编辑（Text-driven Editing）

训练式方法
InstructPix2Pix、CycleGAN、StyleGAN 系列、BrushNet、EditThinker 等
无训练反演方法
DDIM Inversion、PnP、PnP-Inversion、Edit-Friendly、MasaCtrl、InfEdit、Null-text、Negative-prompt、EDICT 等
注意力操控方法
Prompt-to-Prompt、Imagic、FateZero、TokenFlow、DitCtrl、HeadRouter 等
流模型反演与求解
RF-Inversion、BELM、Exact-Diffusion-Inversion、Unveil-Inversion 等

视频编辑扩展

Flatten、TokenFlow、FateZero 等基于扩散或光流的时序一致性方案

上述工作共同构成了 ProEdit 的对比与插件基线，也是其“即插即用”改进的对象。

Q: 论文如何解决这个问题？

论文从 attention 注入 与 latent 初始化 两条路径同步削弱源图影响，提出两项即插即用模块：

KV-mix

用 attention map 自动分割“编辑区域”掩码 M
在编辑区域对 K、V 特征 做线性混合

K(tg) = Modot[δ K(tg)+(1-δ)K(s)] + (1-M)odot K(s)

V(tg) = Modot[δ V(tg)+(1-δ)V(s)] + (1-M)odot V(s)

非编辑区域完全注入源特征，保证背景一致；混合强度 δ=0.9 兼顾保真与可编辑性

Latents-Shift

借鉴 AdaIN，将反演 latent z_T 的分布向随机噪声 z_r 做“风格迁移”

z_T = σ(z_r)(z_T-μ(z_T)) / (σ(z_T)) + μ(z_r)

仅在掩码区域按比率 β=0.25 融合，得到

z_T = Modot[βz_T+(1-β)z_T] + (1-M)odot z_T

削弱源分布先验，同时保留结构信息

两项模块均无需重训练，可在任意 flow-based 反演框架（RF-Solver、FireFlow、UniEdit 等）的采样阶段直接插入，实现“高精度属性编辑 + 背景一致性”兼得。

Q: 论文做了哪些实验？

论文在图像与视频两大任务上分别进行了系统实验，覆盖定量、定性、消融与专项测试，具体包括：

文本驱动图像编辑

基准：PIE-Bench（700 张，10 类编辑）
指标：
背景保真：Structure Distance ↓、PSNR ↑、SSIM ↑
编辑质量：CLIP-Sim（整图 & 编辑区域）↑
采样效率：NFE ↓
对比方法：
扩散系：P2P、PnP、PnP-Inversion、EditFriendly、MasaCtrl、InfEdit
流匹配系：RF-Inversion、RF-Solver、FireFlow、UniEdit
专项测试：颜色编辑子集（验证 Latents-Shift 对分布注入的缓解）

文本驱动视频编辑

自建 55 段 480×480/540×960 视频（40–120 帧）
指标（VBench）：Subject Consistency ↑、Motion Smoothness ↑、Aesthetic Quality ↑、Imaging Quality ↑
对比方法：FateZero、Flatten、TokenFlow、RF-Solver

消融实验

模块有效性：KV-mix / Latents-Shift 单独与联合作用
注意力特征组合：Q&V、Q&K&V、V、K&V 四种注入方式对比，验证 KV 组合最优

额外定性

图 9、图 10：更多图/视频样例，展示复杂场景与人脸特征保持
图 11：引入 Qwen3-8B 做“指令式”编辑，验证易用性

实验结果一致表明：ProEdit 在保持背景一致的同时显著提升编辑精度，且可零成本嵌入现有流匹配反演框架。

Q: 有什么可以进一步探索的点？

以下方向值得进一步探索，分主题列出：

掩码细化与泛化
研究无需显式名词或外部遮罩的语义分割策略，实现开放词汇编辑
探索跨帧一致的视频掩码追踪，以提升长时序稳定性
混合强度自适应
根据源-目标 prompt 差异度或图像局部不确定性，动态调整 δ、β，实现“保真-可编辑”自动平衡
多层、多步注入策略
仅在后半程采样步执行 KV-mix/Latents-Shift，或按 block 重要性加权，进一步降低背景扰动风险
结合扩散时间步语义演化规律，设计时间感知注入调度
扩展到其他模态与任务
将 KV-mix 思想迁移至音频-视觉联合编辑、3D NeRF/GS 编辑或风格化生成
与 ControlNet、LoRA 等条件模块正交结合，实现结构/风格解耦控制
理论分析与优化
从流匹配 ODE 角度量化“源分布先验”对轨迹偏移的影响，推导最优扰动强度 β 的上界
引入可微掩码预测网络，以编辑成功率或 CLIP 分数为奖励进行端到端强化学习微调
计算效率与部署
开发无需保存全部源 KV 特征的在线缓存策略，降低显存占用
研究 INT8/4 量化或 TensorRT 级联，推动移动端实时编辑
人机交互与评估
构建面向“属性-结构-时序”细粒度标注的更大规模基准，补充现有 PIE-Bench/VBench
引入人类主观打分与眼动实验，验证“不可察觉编辑”阈值，指导保真-可编辑权衡

Q: 总结一下论文的主要内容

ProEdit 核心内容速览

问题
流匹配反演编辑在采样阶段全局注入源图 attention 与 latent，导致源分布先验过强，目标属性（颜色/姿态/数量）无法按文本指令修改。
方法

KV-mix：用 attention map 生成编辑掩码 M ，在编辑区对 K、V 特征做源-目标线性混合，非编辑区完整保留源特征。
Latents-Shift：借鉴 AdaIN，将反演 latent 的分布向随机噪声偏移，仅作用于掩码区域，削弱源分布先验。
两模块均为即插即用，无需重训练，可嵌入任意 flow-based 反演框架。

实验

图像：PIE-Bench 上对比 10 余种 SOTA，ProEdit 在 CLIP-Sim、PSNR、SSIM 等指标全面领先；颜色编辑子集验证 Latents-Shift 有效性。
视频：自建 55 段数据，VBench 四项指标均优于 FateZero、TokenFlow、RF-Solver。
消融：KV-mix 与 Latents-Shift 协同增益显著；KV 组合为最优注意力注入方式。

结论
ProEdit 首次从 attention 与 latent 双路径同时抑制源图信息过度注入，实现高精度、高保真的无训练文本驱动图像/视频编辑，并可零成本集成至现有流匹配 pipeline。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Zhi Ouyang,Dian Zheng,Xiao-Ming Wu,Jian-Jian Jiang,Kun-Yu Lin,Jingke Meng,Wei-Shi Zheng

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.22118.pdf

Arxiv URL: https://arxiv.org/abs/2512.22118

Arxiv ID: 2512.22118

CoolPaper URL: https://papers.cool/arxiv/2512.22118

Published: 2025-12-26T18:59:14Z

Updated: 2025-12-26T18:59:14.000Z

6. TimeBill: Time-Budgeted Inference for Large Language Models

Large Language Models (LLMs) are increasingly deployed in time-critical systems, such as robotics, autonomous driving, embodied intelligence, and industrial automation, where generating accurate responses within a given time budget is crucial for decision-making, control, or safety-critical tasks. However, the auto-regressive generation process of LLMs makes it challenging to model and estimate the end-to-end execution time. Furthermore, existing efficient inference methods based on a fixed key-value (KV) cache eviction ratio struggle to adapt to varying tasks with diverse time budgets, where an improper eviction ratio may lead to incomplete inference or a drop in response performance. In this paper, we propose TimeBill, a novel time-budgeted inference framework for LLMs that balances the inference efficiency and response performance. To be more specific, we propose a fine-grained response length predictor (RLP) and an execution time estimator (ETE) to accurately predict the end-to-end execution time of LLMs. Following this, we develop a time-budgeted efficient inference approach that adaptively adjusts the KV cache eviction ratio based on execution time prediction and the given time budget. Finally, through extensive experiments, we demonstrate the advantages of TimeBill in improving task completion rate and maintaining response performance under various overrun strategies.

中文摘要

大型语言模型（LLM）正越来越多地应用于对时间敏感的系统，例如机器人技术、自动驾驶、具身智能和工业自动化，在这些系统中，在给定时间预算内生成准确响应对于决策、控制或安全关键任务至关重要。然而，LLM 的自回归生成过程使得建模和估计端到端执行时间变得具有挑战性。此外，现有基于固定键值（KV）缓存驱逐比例的高效推理方法难以适应具有多样化时间预算的不同任务，使用不当的驱逐比例可能导致推理不完整或响应性能下降。在本文中，我们提出了 TimeBill，一种针对 LLM 的新型时间预算推理框架，在推理效率和响应性能之间实现平衡。具体而言，我们提出了精细化的响应长度预测器（RLP）和执行时间估计器（ETE），以准确预测 LLM 的端到端执行时间。在此基础上，我们开发了一种时间预算高效推理方法，根据执行时间预测和给定时间预算自适应调整 KV 缓存驱逐比例。最后，通过大量实验，我们展示了 TimeBill 在提高任务完成率和在各种超时策略下保持响应性能方面的优势。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在解决大语言模型（LLM）在硬实时系统中难以满足给定时间预算的问题。由于 LLM 的自回归生成特性，其端到端执行时间高度依赖于输出长度，而输出长度在推理完成前无法精确获知，导致：

执行时间不可预测：传统 CNN 的确定性执行时间分析不再适用。
固定 KV 缓存淘汰策略失效：离线压缩方法无法在运行时根据动态时间预算调整；现有在线方法采用固定淘汰比例，要么造成超时，要么过度牺牲生成质量。

为此，作者提出 TimeBill 框架，核心目标是在严格时间约束下最大化响应性能，即：

max(θ) M(hat y(θ), y) s.t. t(e2e)(x,θ) le T, N le N_(max)

通过以下手段实现：

细粒度**响应长度预测器（RLP）**提前估计输出长度；
基于 FLOPs 分析与剖析的**执行时间估计器（ETE）**准确预测端到端耗时；
运行时自适应 KV 缓存淘汰比例 α^ ，在保证 hat t(WCET) le T 的前提下最小化淘汰比例，从而兼顾任务完成率与*响应质量_。

Q: 有哪些相关研究？

相关研究可归纳为两条主线：执行时间估计与高效推理。按时间顺序与代表性工作梳理如下。

1. 执行时间估计

类别	代表文献	核心思路	与本文差异
确定性 DNN 实时分析	Kang et al. RTSS’21；Chen et al. RTSS’24	对层数固定的 CNN/FCN 做 WCET 分析，量化或层迁移降耗时	无法处理自回归带来的动态输出长度
输出长度预测（粗粒度）	ProxyModel Qiu et al. arXiv’24；S3 Jin et al. NeurIPS’23	用 BERT/DistilBERT 做 5/10 类分类，预测长度区间	桶粒度过粗，且对长输入截断；本文用 SLM 细粒度分类
输出长度预测（自回归）	PiA Zheng et al. NeurIPS’23	微调目标 LLM，让其先输出“本回答共 N 字”	需修改生成流程，且仍回归精确值，误差大
机器学习型 LLM 延迟预测	RLM-ML Imai et al. NeurIPS’24；LLMStation He et al. USENIX ATC’25；BestServe Hu et al. arXiv’25	采集 roofline+硬件计数器，用 ML 回归推理延迟	黑盒模型，可解释性与在线预测友好性差；本文采用白盒 FLOPs+剖析

2. 高效 LLM 推理

类别	代表文献	核心思路	与本文差异
离线压缩	SmoothQuant Xiao et al. ICML’23；AWQ Lin et al. MLSys’24；GPTQ Frantar et al. ICLR’23；SparseGPT Frantar & Alistarh ICML’23；LLM-Pruner Ma et al. NeurIPS’23	权重量化、结构化剪枝，一次性降计算与内存	部署后恒定，无法在运行时按时间预算调整
在线 KV 缓存裁剪	StreamingLLM Xiao et al. ICLR’24；SnapKV Li et al. NeurIPS’24a；DuoAttention Xiao et al. ICLR’25	固定比例或启发式淘汰旧 KV，保持窗口长度	比例固定，与任务/预算无关，易超时或过度掉点
在线 KV 缓存量化	KVQuant Hooper et al. NeurIPS’24；KIVI Liu et al. ICML’24	运行时把 KV 压缩到 4 bit 或 2 bit	仅降内存，不直接控制执行时间；未考虑时间预算

综上，现有文献要么忽略动态时间预算，要么无法细粒度预测输出长度，导致在硬实时场景下出现超时或性能骤降。TimeBill 首次将“细粒度长度预测 + 白盒时间估计 + 运行时自适应 KV 淘汰”三者耦合，填补了这一空白。

Q: 论文如何解决这个问题？

论文将“硬实时场景下 LLM 必须在给定时间预算 T 内完成推理且保证响应质量”这一核心难题形式化为

max(θ) M(hat y(θ), y) quad s.t. t(e2e)(x,θ)le T, Nle N_(max)

并指出两大挑战：

运行前无法知晓输出长度 N，导致 te2e 不可预测；
运行前无法知晓响应质量 M(·)，因而无法直接优化。

为此提出 TimeBill 框架，分三步闭环解决。

1. 细粒度响应长度预测（RLP）

问题1→“运行前不知 N”。
解法：
– 用轻量 SLM（Qwen2.5-0.5B）把长度预测建模为分类任务：将 0–Nmodel 均匀划分为 B 令牌宽的桶，共 ⌈Nmodel/B⌉ 类；
– 用知识蒸馏对齐目标 LLM：采集同一 prompt 在目标 LLM 上的真实长度 Nj，构造训练对 (xj, ⌈Nj/B⌉)；
– 推理时输出桶索引 ˆn，再截断到运行时上限：

hat N=min!l(N_(max),,hat n Br).

结果：512 桶时 MAE 42.7 token，显著优于 BERT 基线的 105+ token。

2. 工作量驱动的执行时间估计（ETE）

问题1 延伸→“已知 ˆN 后如何得 te2e”。
解法：
– 白盒 FLOPs 建模：
prefill 阶段计算量 propto N_x^2 ；
每步 decoding 计算量 propto N_(kv)^i=(1-α)N_x+i-1 。
– 剖析拟合：在目标硬件上实测 (Nx, tprefill) 与 (Nkv, tstep) 多元点，用最小二乘求系数，得到

hat t(prefill)(x)&=aN_x^2+bN_x+c,[2pt] hat t(step)^i(x,α)&=pl((1-α)N_x+i-1r)+q.

– 端到端预测（含悲观因子 k 保证 WCET）：

hat t(WCET)(x,α)=hat t(prefill)+∑(i=1)^(hat N_W-1)hat t(step)^i,quad hat NW=min(khat N,N(max)).

结果：MAPE 1.22 %（prefill）/ 1.69 %（单步），且 hat t_(WCET) 严格包络真实 te2e。

3. 时间预算驱动的 KV 缓存淘汰

问题2→“M(·) 未知，无法直接最大化”。
关键观察：响应质量随淘汰比例 α 单调不增。
等价转化：把原问题变为“在满足时间约束下取最小 α”：

min α quad s.t. t(Predict)+hat t(WCET)(x,α)le T, 0leαleα_(max).

代入式 (6)(7)(9) 后封闭解：

α^*=min!gl(α(max),,1-T{-t(Predict)-hat t_(prefill)-q(hat N_W-1)}{pN_x(hat N_W-1)}-(hat N_W-2) / (2N_x)gr).

系统部署：
– prefill 阶段与 RLP+ETE 预测并行跑在 CPU/GPU；
– prefill 结束后立即算出 α*，按此比例淘汰 KV 缓存，再进入 decoding；
– 若 tPredict≤tprefill，则 tPredict 视为 0，进一步降低保守性；
– 支持每轮推理预算 T 动态变化，无需重新训练。

效果

在 5–10 s 六级预算下，TimeBill 相比固定淘汰 α=95 % 方案，平均响应性能提升 6–12 %，同时任务完成率保持 98 % 以上；
对比 Vanilla、AWQ、固定 α 等基线，取得最高平均分数与可比完成率，验证了“预测-估计-自适应淘汰”闭环的有效性。

Q: 论文做了哪些实验？

实验围绕三条主线展开：预测准确性、时间估计精度、端到端实时性能。所有实验均在 NVIDIA A40 + Intel Xeon 8350C 服务器完成，目标模型为 Qwen2.5-7B-Instruct，数据集采用 LongBench。具体配置与测试项如下。

1. 实验设置

组件	配置
目标 LLM	Qwen2.5-7B-Instruct，上下文 32 k，最大生成长度 8 k
预测器 SLM	Qwen2.5-0.5B-Instruct
训练数据	Arena-Human-Preference-100k（与测试集无重叠）
KV 裁剪后端	SnapKV
桶粒度 B	16/32/64/512（默认 512）
悲观因子 k	1–8（默认 5）
最大淘汰比例 αmax	95 %
预算 T	5–10 s，步长 1 s
超限策略	Kill、Skip-Next

2. 响应长度预测器（RLP）评估

对比基线：ProxyModel（5 类）、S3（10 类）、直接回归。
指标：MAE、RMSE、R²。
结果（512 桶）：
MAE = 42.71，RMSE = 78.13，R² = 0.723，均显著优于 BERT 基线（MAE > 105）。
桶数从 128 增至 512，误差单调下降，验证细粒度必要性；回归方式误差最大，说明精确数值预测不可行。

3. 执行时间估计器（ETE）评估

单阶段误差

采集 0–32 k 长度实测延迟，用最小二乘拟合式 (4a)(4b)。
MAPE：prefill 1.22 %，单步 decoding 1.69 %。

端到端误差

固定 α=0、Nmax=64，随机抽 200 条样本。
ˆt_e2e 与真实 te2e 几乎重合；ˆt_WCET 给出严格上界，满足硬实时需求。

4. 与基线对比（实时性能）

基线：Vanilla、固定淘汰 α=25 %/50 %/75 %/95 %、AWQ-4 bit。
指标：平均响应性能（F1/ROUGE-L/Levenshtein 综合分数）与任务完成率。

结果（Kill 策略，T=5 s 为例）：

方法	完成率	平均分数
Vanilla	18 %	0.12
α=25 %	42 %	0.31
α=75 %	88 %	0.47
α=95 %	98 %	0.44
AWQ	25 %	0.19
TimeBill	98 %	0.53

在所有六级预算下，TimeBill 平均分数保持最高，完成率与 α=95 % 持平；Skip-Next 策略结论一致。
AWQ 与 TimeBill 正交，联合使用后分数再升 3 %，验证可叠加性。

5. 悲观因子 k 敏感度

T=5 s，k∈
1,8
。
k 由 1 增至 5：完成率与分数同步提升（α 更激进）。
k>5：α 过大，质量下降，分数回落；k=5 为最佳折中，与硬实时领域常用保守系数一致。

6. 消融与扩展

桶数消融：512 桶达到误差-计算开销 sweet spot。
Prompt 压缩：当输入过长导致 tPredict>tprefill 时，用摘要压缩保证并行度，额外损失 <1 % 分数。
硬件一致性：在 A100 复现，MAPE 变化 <0.3 %，说明模型-硬件解耦良好。

综上，实验系统验证了：

RLP 输出长度预测显著优于现有粗粒度方法；
ETE 给出足够精确且保守的延迟估计；
TimeBill 在多种预算与超限策略下均取得最高平均响应质量，同时维持接近 100 % 的任务完成率。

Q: 有什么可以进一步探索的点？

以下方向可在此基础上继续深入，分为“模型-算法”“系统-硬件”“应用-生态”三个层面。

1. 模型-算法层面

多模态扩展
当前 RLP 与 ETE 仅针对文本 token；视觉/音频语境下输出长度还与图像分辨率、帧率相关，可引入跨模态特征统一建模。
不确定性量化
长度预测与延迟估计均给出点估计，可改用贝叶斯深度网络或Conformal Prediction，输出置信区间，实现概率化时间保证（pWCET）。
在线自适应桶粒度
预算紧张时自动调粗桶宽降低 tPredict；预算宽松时细化桶宽提升精度，形成元控制回路。
多目标优化
除长度与延迟外，同时考虑能耗、内存峰值，建立帕累托前沿，实现绿色实时推理。
与投机解码协同
投机解码可缩短延迟但改变输出长度分布；需联合优化草稿长度、验证阈值与KV 淘汰比例。

2. 系统-硬件层面

异构并行预测
将 RLP/ETE 部署到 NPU/DSP 等侧载芯片，实现零开销预测；研究预测与预fill 的细粒度流水线对齐。
KV 缓存压缩组合
同时调节淘汰比例α、量化位宽β、存储格式（稀疏/块稀疏），构建多维配置空间，用强化学习在线搜索最优(α,β)。
硬件级计时器+提前中断
在 GPU 指令层插入周期计时器，若动态累计时钟接近预算即触发提前停止并输出当前最佳 token，实现硬中断级超时。
多租户隔离
在 LLM 服务集群中，为每个实时流保留时间份额，结合 TimeBill 的 α* 实现租户级预算隔离与共享缓存复用。

3. 应用-生态层面

任务感知长度引导
引入下游任务反馈（如机械臂控制误差、车辆横向偏移），用强化学习微调 RLP，使长度预测偏向高回报区间。
动态预算生成
上层控制器（自动驾驶规划器、机器人 SLAM）根据环境 hazard level 实时调整 T，形成端到端自适应闭环。
安全关键认证
将 TimeBill 纳入 ISO 26262、DO-178C 等认证流程，研究可追踪的证据链（数据→模型→配置→硬件），推动LLM 在功能安全场景落地。
开源基准与竞赛
建立带时间标签的多模态长上下文数据集，举办「Real-Time LLM Challenge」，推动社区共同优化延迟-质量帕累托前沿。

4. 理论层面

渐进最优性证明
在输出长度服从重尾分布的假设下，证明给定预算 T 与内存 M，TimeBill 的 α* 调度在渐进意义下达到竞争比下限。
与信息论关联
把 KV 淘汰视为遗忘率，建立记忆-遗忘权衡的信息论模型，给出最小互信息损失与延迟的闭式关系。

综上，从概率化保证到硬件中断，再到安全认证，均可作为 TimeBill 的后续探索点，形成覆盖算法-系统-应用的完整实时 LLM 生态。

Q: 总结一下论文的主要内容

论文提出 TimeBill——首个面向硬实时场景的大语言模型（LLM）时间预算推理框架，解决“必须在给定时限 T 内完成生成且保持响应质量”这一核心难题。主要贡献与流程概括为以下四点。

问题形式化
将 LLM 推理视为带约束优化：

max(θ) M(hat y(θ), y) quad s.t. t(e2e)(x,θ)le T, Nle N_(max)

其中 θ 为运行时配置（如 KV 缓存淘汰比例 α），目标在时限内最大化响应质量。

细粒度响应长度预测（RLP）

用轻量 SLM 把长度预测建模为分类任务（桶宽 B=512）；
知识蒸馏对齐目标 LLM，实现长输入友好且误差低（MAE 42.7 token，优于 BERT 基线 50 % 以上）。

工作量驱动的执行时间估计（ETE）

白盒 FLOPs 分析：prefill 复杂度 ∝ Nx^2 ，decoding 每步 ∝ N(kv) ；
剖析拟合得封闭公式，误差 <1.7 %；
引入悲观因子 k 给出严格上界 hat t_(WCET) ，满足硬实时需求。

时间预算高效推理

将原问题转化为“最小淘汰比例 α”：

α^*=min!l(α(max),,1-T{-t(Predict)-hat t_(prefill)-q(hat N_W-1)}{pN_x(hat N_W-1)}-(hat N_W-2) / (2N_x)r)

运行时与 prefill 并行计算 α*，零额外关键路径延迟；
在 5–10 s 六级预算下，任务完成率 ≥98 %，平均响应性能比最佳固定淘汰策略高 6–12 %，且可与量化正交叠加。

综上，TimeBill 通过“预测-估计-自适应淘汰”闭环，首次在硬实时约束下实现 LLM 高完成率与高质量的双重保证。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Qi Fan,An Zou,Yehan Ma

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2512.21859.pdf

Arxiv URL: https://arxiv.org/abs/2512.21859

Arxiv ID: 2512.21859

CoolPaper URL: https://papers.cool/arxiv/2512.21859

Published: 2025-12-26T04:49:35Z

Updated: 2025-12-26T04:49:35.000Z

7. See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

Large vision-language models (VLMs) often benefit from intermediate visual cues, either injected via external tools or generated as latent visual tokens during reasoning, but these mechanisms still overlook fine-grained visual evidence (e.g., polylines in charts), generalize poorly across domains, and incur high inference-time cost. In this paper, we propose Bi-directional Perceptual Shaping (BiPS), which transforms question-conditioned masked views into bidirectional where-to-look signals that shape perception during training. BiPS first applies a KL-consistency constraint between the original image and an evidence-preserving view that keeps only question-relevant regions, encouraging coarse but complete coverage of supporting pixels. It then applies a KL-separation constraint between the original and an evidence-ablated view where critical pixels are masked so the image no longer supports the original answer, discouraging text-only shortcuts (i.e., answering from text alone) and enforcing fine-grained visual reliance. Across eight benchmarks, BiPS boosts Qwen2.5-VL-7B by 8.2% on average and shows strong out-of-domain generalization to unseen datasets and image types.

中文摘要

大型视觉语言模型（VLMs）通常可以从中间的视觉线索中受益，这些线索可以通过外部工具注入，或在推理过程中生成潜在的视觉标记，但这些机制仍然忽略了细粒度的视觉证据（例如图表中的折线）、在不同领域之间的泛化能力较差，并且推理时间成本高。在本文中，我们提出双向感知塑形（BiPS），它将基于问题的掩码视图转换为双向“观察位置”信号，从而在训练过程中塑造感知。BiPS 首先在原始图像与保持证据的视图（仅保留与问题相关的区域）之间施加 KL 一致性约束，从而鼓励对支撑像素的粗略但完整覆盖。随后，在原始图像与证据消除视图（关键像素被遮蔽，使图像不再支持原始答案）之间施加 KL 分离约束，防止仅依赖文本的捷径（即仅从文本回答问题），并强制模型依赖细粒度视觉信息。在八项基准测试中，BiPS 平均将 Qwen2.5-VL-7B 提升了 8.2%，并在未见过的数据集和图像类型上表现出强大的跨域泛化能力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文针对大型视觉-语言模型（VLM）在视觉问答（VQA）中存在的感知瓶颈——即难以定位、识别并准确读取细粒度视觉证据（如折线图中的细线、医学图像中的病灶轮廓）——提出训练阶段的双向感知塑形框架 BiPS。其核心目标有三点：

消除推理时对额外视觉工具或中间视觉 token 的依赖，降低测试阶段计算开销与错误级联风险；
克服传统矩形裁剪/粗粒度掩码带来的“形状刚性”，使模型能捕捉任意形状的碎片化证据；
抑制“文本捷径”现象，防止模型仅凭问题文本猜测答案，强制其真正依赖视觉内容做决策。

Q: 有哪些相关研究？

相关研究可归纳为两条主线，均围绕“如何在多模态推理中引入视觉线索”展开：

推理时注入视觉线索
工具式：Refocus、Argus、Visual Sketchpad 等借助外部模块生成边框、遮罩或裁剪图，让模型聚焦关键区域。
latent-token 式：Mint-CoT、Visual-CoT 等训练模型在推理链中自回归地输出坐标或掩码 token。
共同局限：矩形/粗掩码难刻画细粒度结构；流程与特定领域强耦合；测试阶段需额外步骤，增加延迟与误差。
训练时利用视觉扰动或偏好对齐
负扰动：ChiP、PAPO 通过随机噪声或随机掩码构造“错误图”，以抑制视觉幻觉。
偏好优化：mdPO、OPPO 将“含证据 vs 不含证据”图像视为偏好对，用 DPO 方式对齐模型。
不足：扰动策略盲目，未显式区分“证据保留”与“证据删除”；缺乏细粒度、语义精确的监督信号。

BiPS 与上述方法的区别在于：

将“证据保留图”与“证据删除图”的 KL 散度作为双向塑形信号，完全在训练阶段完成，不增加推理成本；
通过可执行图表代码的语义级编辑，生成形状自由、语义精确的配对视图，提供此前工作未涉及的细粒度监督。

Q: 论文如何解决这个问题？

论文把“推理时依赖外部视觉工具”转化为“训练时内部感知塑形”，提出 Bi-directional Perceptual Shaping（BiPS）框架，具体分三步：

构造配对视图
利用可执行图表源码，在代码层面而非像素层面进行语义级编辑，自动生成

Evidence-Preserving View（仅保留回答问题所需的视觉元素）
Evidence-Ablated View（精细删除关键证据，保留上下文）
形成 13 k 高质量三元组 (I, I_pres, I_abl)。

双向 KL 约束
在 GRPO 强化学习框架内设计两阶段课程：

Consistency 阶段 最小化

L(cons)=E[min!(c(cons), D(KL)(πθ(·|I,q),|,sg[tildeπθ(·|I(pres),q)])]

把原始图的预测拉向“证据保留图”，迫使模型聚焦有效区域。

Separation 阶段 最大化

L(sep)=E[min!(c(sep), D(KL)(πθ(·|I,q),|,sg[tildeπθ(·|I(abl),q)])]

把原始图的预测推离“证据删除图”，阻断文本捷径，强化细粒度视觉依赖。

粗到细课程
先单独优化 Consistency，再引入 Separation，避免梯度冲突；全程无需额外标注或测试时视觉提示。

仅用 13 k 图表样本微调 Qwen2.5-VL-7B，平均提升 7.3 %；再加 39 k 数学样本后提升达 8.2 %，在八项基准（含图表与通用 VQA）上取得 SOTA 或次 SOTA 结果，验证了解决感知瓶颈的有效性。

Q: 论文做了哪些实验？

实验从数据规模、任务覆盖、消融分析、系数敏感性、案例可视化五个维度系统验证 BiPS 的有效性，主要结果如下：

主实验：8 基准全面评测

图表理解：CharXiv、ChartQAPro、ChartMuseum、EvoChart、ECD-Bench
通用视觉推理：MathVista、MathVision、MathVerse-VO、MMStar
结果：
仅 13 k 图表样本的 BiPS-Chart-7B 平均提升 +7.3 %（44.3→51.6）
追加 39 k 数学样本的 BiPS-General-7B 再提升至 52.5（+8.2 %），在全部 8 项数据集上均优于基线，并超越多款专用图表/数学模型（TinyChart-3B、Chart-R1-7B、BigCharts-R1-7B 等）。

消融实验

方法	CharXiv	ECD	ChartMuseum
GRPO 基线	44.3	35.6	30.8
+L_cons	47.2	36.3	31.3
+L_sep	47.7	38.3	31.8
BiPS 完整	49.4	39.9	33.5

训练课程对比

Joint 同时优化两目标 → 46.4
Reverse 先 L_sep 再 L_cons → 46.8
Coarse-to-Fine 先 L_cons 再 L_sep → 49.4
证明分阶段抑制梯度冲突的必要性。

视图生成策略对比
随机 60 % patch 掩码仅得 44.8，程序化代码编辑得 49.4，验证语义精确配对的重要性。
系数敏感性
α∈
0,0.08
、β∈
0,0.08
扫描显示：

α=0.01、β=0.02 附近达到峰值
过大系数（0.08）因辅助损失主导而掉点

案例可视化

图表任务：BiPS 能沿曲线追踪数值，避免基线“幻觉”峰值
跨域计数：BiPS 显式枚举并减去物体，基线漏数导致错误
直观展示双向塑形带来的“视觉 grounded”推理行为。

与标准 GRPO 对照
在相同数据混合上，标准 GRPO 仅提升至 45.4，而 BiPS-General 达 50.6（CharXiv 差 +5.2），表明增益源自感知塑形而非单纯 RL 优化。

Q: 有什么可以进一步探索的点？

以下方向可在此基础上继续深入，分为数据、任务、算法、理论四个层面：

数据层面

跨模态源码扩展：将“可执行代码→配对视图”思路推广到几何图、流程图、化学结构、医学影像（DICOM 参数化脚本）等，验证通用性。
自动难度校准：目前用 base-model 8 次全对作为“易题”过滤，可尝试可微分难度预测器，实现动态课程。
人类红队对抗：引入人工设计的“证据-删除但可文本猜”陷阱样例，进一步暴露并惩罚潜在捷径。

任务层面

视频时序证据：将 I_pres/I_abl 拓展为帧级管状区域，研究双向塑形对长视频因果推理的影响。
多图对比：如科学文献组图，构造跨子图证据保留/删除，考察模型对跨图引用、趋势对比的感知鲁棒性。
生成式任务：把 BiPS 的 KL 目标迁移到图像描述、文本-到-图像生成，检验能否抑制幻觉并提升事实一致性。

算法层面

可学习视图生成：目前依赖 LLM 代码编辑器，可训练一个轻量级“证据分割-代码编辑”联合网络，实现端到端优化。
自适应系数：引入元梯度或强化控制器，在训练步层面动态调整 α、β，避免手工调参。
更多散度选择：探索 JS 散度、Wasserstein 或 f-散度族，分析不同度量对细粒度感知的影响。
双向约束的博弈视角：把 L_cons 与 L_sep 视为两人零和博弈，用纳什均衡求解器替代两阶段课程，可能进一步缓解梯度冲突。

理论与分析

感知瓶颈量化：建立“视觉证据熵”或“答案-视觉互信息”指标，定量衡量模型对关键像素的依赖度，验证 BiPS 是否真正提升视觉信息利用率。
捷径学习动态追踪：记录训练过程中文本先验与视觉先验的权重变化，揭示分离约束何时、如何打破文本主导。
泛化边界：基于 VC 维或 PAC-Bayes，推导双向 KL 约束对 OOD 泛化的理论保证，指导系数选择。

通过上述扩展，可系统检验 BiPS 的极限与适用范围，并推动“训练时内部感知塑形”成为多模态推理的新范式。

Q: 总结一下论文的主要内容

问题：大型视觉-语言模型在 VQA 中常被无关像素干扰，且难以聚焦折线、病灶等细粒度证据；现有推理时工具或中间 token 方案存在形状刚性、领域耦合、测试开销大三大缺陷。
思路：把“推理时视觉提示”转为“训练时感知信号”，用证据保留图与证据删除图的 KL 散度双向塑形模型，使其既关注关键区域又阻断文本捷径，且零推理开销。
方法：

基于可执行图表代码自动合成 13 k 精确配对视图（保留/删除问题相关元素）。
在 GRPO 框架内实施两阶段课程：

Consistency 阶段最小化 D(KL)(πθ(·|I,q)|πθ(·|I(pres),q)) ，强制聚焦。
Separation 阶段最大化 D(KL)(πθ(·|I,q)|πθ(·|I(abl),q)) ，强制视觉依赖。
结果：
仅用 13 k 图表样本，Qwen2.5-VL-7B 在 8 项基准平均提升 7.3 %；再加 39 k 数学样本后提升至 8.2 %，超越多款专用模型。
消融、课程、系数、案例实验均验证双向塑形与程序化视图生成的有效性。
贡献：提出“训练时双向感知塑形”新范式，实现数据高效、细粒度感知、无测试延迟的多模态推理增强。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Shuoshuo Zhang,Yizhen Zhang,Jingjing Fu,Lei Song,Jiang Bian,Yujiu Yang,Rui Wang

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.22120.pdf

Arxiv URL: https://arxiv.org/abs/2512.22120

Arxiv ID: 2512.22120

CoolPaper URL: https://papers.cool/arxiv/2512.22120

Published: 2025-12-26T18:59:47Z

Updated: 2025-12-26T18:59:47.000Z

8. Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding

Weather modeling requires both accurate prediction and mechanistic interpretation, yet existing methods treat these goals in isolation, separating generation from understanding. To address this gap, we present Omni-Weather, the first multimodal foundation model that unifies weather generation and understanding within a single architecture. Omni-Weather integrates a radar encoder for weather generation tasks, followed by unified processing using a shared self-attention mechanism. Moreover, we construct a Chain-of-Thought dataset for causal reasoning in weather generation, enabling interpretable outputs and improved perceptual quality. Extensive experiments show Omni-Weather achieves state-of-the-art performance in both weather generation and understanding. Our findings further indicate that generative and understanding tasks in the weather domain can mutually enhance each other. Omni-Weather also demonstrates the feasibility and value of unifying weather generation and understanding.

中文摘要

天气建模既需要准确的预测，也需要机制性的解释，但现有的方法将这两个目标孤立对待，生成与理解相分离。为了解决这一差距，我们提出了Omni-Weather，这是第一个多模态基础模型，在单一架构中统一了天气生成和理解。Omni-Weather集成了用于天气生成任务的雷达编码器，然后通过共享的自注意力机制进行统一处理。此外，我们构建了一个用于天气生成因果推理的思维链数据集，实现了可解释的输出并提高了感知质量。大量实验证明，Omni-Weather在天气生成和理解方面均达到了最先进的性能。我们的研究进一步表明，天气领域的生成任务和理解任务可以相互促进。Omni-Weather还展示了统一天气生成和理解的可行性与价值。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在解决气象领域中长期存在的“生成”与“理解”任务割裂的问题。现有方法将短时预报（nowcasting）、雷达反演等生成任务与雷达图像/序列的质量评估、因果解释等理解任务分离建模，导致：

预报模型缺乏可解释性，无法给出物理机制层面的诊断；
理解模型仅能对已有结果进行后验评价，无法直接生成或改进预报场；
两套独立系统难以共享表征，限制了跨任务知识迁移与数据效率。

为此，作者提出统一的多模态基础模型 Omni-Weather，首次在单一架构内联合建模气象生成与理解，使预报精度与机理解释相互增强，并通过引入面向天气因果推理的 Chain-of-Thought 数据集，实现可解释的生成式预报。

Q: 有哪些相关研究？

相关研究可归纳为三条主线，均指向“生成-理解割裂”这一核心痛点：

纯生成模型

短时预报：PreDiff（latent diffusion）、DiffCast（residual diffusion）、CasCast（cascade CNN）
雷达反演：DiffSR（卫星→雷达反射率）、WeatherGFM（in-context 通用预报-反演）
气候尺度：ClimaX、FengWu（Transformer 全球预报）
共性：仅输出物理场，不提供可解释诊断。

纯理解模型

文本分析：ClimateBERT、ClimateNLP（气候风险文本分类）
多模态问答：WeatherQA（20 张大气图像→灾害影响区域）、RadarQA（雷达+数值预报→专家质量报告）
共性：只能评价或描述，无法生成或修正预报场。

通用多模态“统一”框架（视觉-语言-生成）

Transfusion、LMFusion、MetaMorph、MetaQuery、BLIP3-o、BAGEL、Lumina-DiMOO
共性：在通用图文领域实现生成-理解一体化，但未触及气象物理约束与因果可解释性。

Omni-Weather 首次将上述 3 类思路引入气象领域，通过共享 Transformer 骨干与天气因果 CoT 数据，把生成任务（nowcasting、inversion）与理解任务（QA、质量诊断）统一为序列到序列范式，填补“生成-理解割裂”空白。

Q: 论文如何解决这个问题？

论文提出 Omni-Weather，通过三项关键设计将“生成”与“理解”统一在同一基础模型中，解决气象领域长期割裂的问题：

1. 统一任务建模：序列到序列范式

将所有气象任务抽象为同一映射形式：

T: X arrow Y

生成任务（如雷达外推、卫星→雷达反演）：输入为雷达或卫星序列，输出为未来雷达场或反演场。
理解任务（如图像/序列诊断）：输入为雷达图像或序列，输出为自然语言描述或结构化评估。

通过任务提示（task-specific prompt）控制目标类型，实现单模型多任务切换。

2. 统一架构：共享主干 + 模态专用编码器

架构如图 3 所示，核心组件包括：

模块	功能
Text Encoder	编码任务提示，统一条件空间
Understanding Encoder	处理单帧/序列雷达图像，用于理解任务
Generation Encoder	处理卫星或雷达序列，用于生成任务
Radar Sequence Encoder（EarthFormer）	提取时序动态，用于雷达外推
Shared Self-Attention	统一建模跨模态、跨任务表示
VAE Decoder	输出生成任务中的雷达场
Text Decoder	输出理解任务中的自然语言

所有任务共享同一 Transformer 主干，生成与理解信号在表示层互补增强。

3. 因果推理增强：Chain-of-Thought 数据集与训练机制

为解决黑盒问题，构建天气因果推理数据集：

因果要素分类：
时序因子（运动方向、速度、旋转中心）
感知因子（形态、强度、位置）
直接结果（强度演变）
深层结果（面积变化、组织演变）
三阶段构建流程：

GPT-4o 提取属性（JSON 格式）
GPT-o3 生成连贯推理文本（无列表、无机制臆测）
自动校验结构、因果对齐与术语一致性

最终获得 4k 条 nowcasting CoT 与 4k 条 inversion CoT。

训练与推理一体化

训练阶段：
联合优化生成损失与理解损失，CoT 文本作为辅助监督，迫使模型同时学习“预测”与“解释”：

L = ∑(t ∈ T)(gen) λt |y_t - y_t|_2^2 + ∑(t ∈ T)(under) λ_t ∑(k=1)^(nt) -log p_psi(y(t,k) | y(t,<k), fθ(X_t))

推理阶段：
将 CoT 提示与任务指令拼接，引导模型输出带因果链的预测结果，实现可解释生成。

效果总结

生成侧：CRPS ↓15%，LPIPS ↓25%，高阈值 CSI ↑20%，感知质量显著提升。
理解侧：在 RadarQA 基准上，Miss/False Alarm 准确率提升 20–25 个百分点，动态一致性 ↑10 分。
相互增益：联合训练相比单任务训练，理解准确率 ↑5–8 分，生成 CSI ↑3–4 分，验证“生成-理解闭环”有效性。

通过上述设计，Omni-Weather 首次在单一模型中实现气象生成与理解的统一，兼顾预报精度与机理解释，为可解释气象智能奠定基础。

Q: 论文做了哪些实验？

论文在 SEVIR 与 RadarQA-70K 基准上开展了三类实验，覆盖生成、理解、消融与泛化，共涉及 6 个任务、20 余项指标、8 个强 baseline，并辅以 200/4000 样本的细粒度消融与可视化案例。核心实验一览如下：

1. 主实验：统一生成 vs. 专用 SOTA

任务	Baseline（专用模型）	评价指标	Omni-Weather 结果
Radar Nowcasting	EarthFormer、DiffCast、CasCast	CSI-M、CSI-P4/16、CRPS、SSIM、LPIPS、Radar Score	CRPS ↓15 %，LPIPS ↓25 %，CSI-M 持平或↑， perceptual 指标全面领先
Radar Inversion	UNet、ViT、WeatherGFM	CSI@16/74/160/181/219、RMSE、Radar Score	高阈值 CSI ↑20 %，RMSE 最低，Radar Score 2.42 vs 2.28（WeatherGFM）
Radar Image Understanding	Claude-3.5-Sonnet、Gemini-2.5-Pro、GPT-4o、RadarQA	Accuracy(Miss/FAR/Sharp/High-Val)、Rouge-L、BERTScore、GPT4-Score	Miss Acc 92.2 %（+25 ↑）、FAR Acc 88.7 %（+23 ↑），Overall 64.3 %（+2.8 ↑）
Radar Sequence Understanding	同上	Accuracy(Dyn./Cum./High-Val)、Rouge-L、BERTScore、GPT4-Score	Dyn. Consistency 64.1 %（+10.7 ↑），Overall 61.8 %（+5.0 ↑）

2. 消融实验：验证三大设计必要性

2.1 联合训练 vs. 单任务

设置	Understanding Acc ↑	Generation CSI-M ↑	RMSE ↓
Understand-only	81.95 / 54.34	—	—
Generate-only	—	0.303 / 0.323	0.590 / 19.01
Joint (U+G)	86.65 / 59.58	0.338 / 0.347	0.514 / 17.11

2.2 因果推理 (CoT) 消融

CoT Fine-tune	Thinking Inference	CSI-M ↑	CRPS ↓	LPIPS ↓	GPT4-Score ↑
✗	✗	0.347	0.023	0.182	—
✓	✗	0.335	0.023	0.163	7.82
✓	✓	0.335	0.023	0.163	7.82

说明：CoT 显著降低 LPIPS（-10 %），GPT4-Score 提升 86 %，CSI 略降但仍在误差允许范围，实现“感知-解释”双赢。

2.3 数据混合比例

通用数据占比	CSI-mean ↑	SSIM ↑	PSNR ↑
0 %	0.2358	0.7528	21.42
30 %	0.2501	0.6866	19.67
50 %	0.2478	0.6823	19.15
70 %	0.1386	0.6187	16.66

30 % 通用数据即可带来确定性指标提升，过多反而稀释气象特征。

2.4 雷达时序编码器 vs. vanilla VAE

编码器	CSI-mean ↑	CSI-P16 ↑	SSIM ↑	PSNR ↑
VAE	0.2358	0.4356	0.7528	21.42
EarthFormer	0.3471	0.5390	0.7621	23.22

3. 定性实验：可视化与案例对比

Radar Inversion：Omni-Weather 在高值区结构更紧凑，CoT 推理可追溯“卫星冷池→雷达高VIL”因果链。
Radar Nowcasting：相比 CasCast/DiffCast，风暴边缘更锐利，段落给出“东移-无旋转-强度维持”的可解释论证。
Understanding：输出专家级报告，自动给出四维评分（Miss/FAR/Sharp/High-Val）与区域误差归因，与人工评估一致。

4. 推理尺度与效率

全实验在 8×H200 节点完成，20 k 步训练，256×256 输入，≈256 visual tokens/图。
推理时支持 CFG=2 最优平衡，生成 12 帧 VIL 仅需 ≈180 ms（单张 H200）。

5. 局限与后续验证

尚未覆盖 中期预报、台风路径 等更长尺度任务；
通用 VAE 无法直接适配，需领域化微调。

综上，实验从 精度-感知-解释-效率 四维度系统验证了 Omni-Weather 的统一架构有效性，并量化展示生成与理解任务 相互增益 的机制。

Q: 有什么可以进一步探索的点？

以下方向可视为对 Omni-Weather 的直接延伸或深层突破，均围绕“统一生成-理解”范式在气象领域的未解问题展开：

1. 时空尺度外推

中长期天气（3–15 d）：引入层次化时间金字塔或频域分解，缓解误差累积。
次季节-季节预测（S2S）：耦合海温、积雪、MJO 等慢变变量，探索生成-理解联合约束下的可解释性预报。
区域-全球嵌套：研究统一模型在可变分辨率球面图上的 zero-shot 泛化，解决台风路径、季风爆发等行星尺度现象。

2. 物理一致性约束

隐式微分方程嵌入：将动力学先验（如浅水方程、热力学守恒）作为正则项或神经网络隐式层，降低物理违背率。
可微分数值模式耦合：把谱模式或格点模式的前向梯度接入生成分支，实现“数据-物理”双驱动。
守恒律量化评价：新增质量、能量、涡度守恒指标，与 CSI、LPIPS 并列，引导模型学习真正的物理守恒。

3. 多模态扩展

雷达-卫星-闪电-地面自动站-模式场五模态对齐：构建任意→任意映射（如闪电→雷达、模式→卫星），验证统一 tokenizer 的跨传感器能力。
文本-视觉-图表混合推理：引入地面观测报告、社交媒体灾情文本，实现“人-机”混合增强预报。
声音模态探索：利用雷声、风噪等声学信号反演对流强度，拓展多模态边界。

4. 因果与可解释性深化

反事实生成：给定“无地形”“无城市热岛”等反事实条件，生成对应雷达场，量化特定因子贡献。
干预-响应曲线：系统性地扰动温度、湿度初值，观测生成输出的梯度，绘制因果响应图。
人类可编辑推理：支持预报员在链中插入“人工干预节点”，实时重定向生成轨迹，实现交互式预报。

5. 高效架构与部署

连续时间隐空间模型：用神经 ODE 或 DiT (Diffusion Transformer) 替代离散帧 VAE，实现任意步长插值与可变时效输出。
移动端轻量化：蒸馏至 ≤1 B 参数，支持边缘 GPU/TPU 实时推理，服务基层台站。
在线增量学习：设计记忆回放与正则平衡策略，使模型在新年份、新区域数据上持续更新而不遗忘。

6. 极端事件与灾害链

快速增强台风、爆发性气旋等小样本极端：引入元学习与外部记忆，提高稀有模式命中率。
级联灾害理解：一次模式调用同时生成降水→径流→城市内涝→交通中断的跨领域序列，并给出结构化风险报告。
社会韧性评估：将经济、人口暴露数据接入理解分支，输出“物理-社会”复合损失指数，支持决策。

7. 评价基准与社区共建

Omni-Weather-Bench：开源覆盖 0–15 d、多传感器、多语言问答的统一评测套件，包含物理守恒、因果可解释性新指标。
人类-模型协同评分：引入预报员盲评与模型互评机制，建立“气象图灵测试”排行榜。
持续学习赛道：每年发布新区域、新极端案例，鼓励社区在不重训全量模型前提下快速适应。

8. 气候变率与变化

升温情景 downscaling：输入 SSP-RCP 情景的大尺度场，生成高分辨率区域极端降水变化，并输出归因文字。
年代际振荡可解释性：利用 CoT 链追踪 AMO、PDO 位相转换对局地干旱-洪涝交替的影响路径。

这些方向既可直接继承 Omni-Weather 的“共享主干+CoT”框架，又需在物理嵌入、多模态对齐、因果推理、高效部署四个维度上突破现有技术栈，为构建下一代“可解释、可交互、可信任”的气象基础模型提供持续动力。

Q: 总结一下论文的主要内容

论文提出 Omni-Weather，首个将天气生成（nowcasting、雷达反演）与天气理解（图像/序列诊断、问答）统一在单一多模态基础模型中的框架，解决气象领域长期存在的“生成-理解割裂”问题。核心内容可概括为四点：

1. 统一范式

所有任务形式化为 序列到序列映射

T: X arrow Y

通过任务提示控制输出类型：

生成：10 帧 VIL → 12 帧 VIL；卫星双红外 → VIL 场
理解：单帧或序列雷达 → 自然语言评估（Miss/FAR/Sharp/High-Val 等）

2. 统一架构

共享 Transformer 主干
模态专用编码器：
Understanding Encoder（图像/序列）
Generation Encoder（卫星/雷达）
Radar Sequence Encoder（EarthFormer，注入时序动态）
双解码器：VAE 解码生成场，Text 解码诊断文本
→ 单模型即可切换任务，表征层共享互补

3. 因果可解释

构建 天气 Chain-of-Thought 数据集（4k 外推 + 4k 反演）
先验属性：形态、运动、强度、旋转等
三阶段：GPT-4o 标注 → GPT-o3 生成连贯推理 → 自动质检
训练：强制模型同时输出推理链与最终预测
推理：提示+链式思考，实现“预测+解释”端到端

4. 实验效果

任务	指标提升
Radar Nowcasting	CRPS ↓15 %，LPIPS ↓25 %， perceptual 领先
Radar Inversion	高阈值 CSI ↑20 %，RMSE 最低
Image/Sequence Understanding	Miss/FAR Acc ↑20–25 分，Dynamic Consistency ↑10 分

联合训练 > 单任务：生成与理解相互增益
CoT 推理：感知质量↑，像素误差微降，实现“ fidelity-interpretability ”折中
数据混合：30 % 通用数据即可增强确定性指标

结论

Omni-Weather 首次验证“生成-理解统一”在气象领域的可行性与互补性，为可解释、多任务、通用气象基础模型提供新范式。代码与数据集已开源。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Zhiwang Zhou,Yuandong Pu,Xuming He,Yidi Liu,Yixin Chen,Junchao Gong,Xiang Zhuang,Wanghan Xu,Qinglong Cao,Shixiang Tang,Yihao Liu,Wenlong Zhang,Lei Bai

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.21643.pdf

Arxiv URL: https://arxiv.org/abs/2512.21643

Arxiv ID: 2512.21643

CoolPaper URL: https://papers.cool/arxiv/2512.21643

Published: 2025-12-25T12:08:09Z

Updated: 2025-12-25T12:08:09.000Z

9. InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

The ability for AI agents to “think with images” requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search — locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .

中文摘要

人工智能代理“通过图像进行思考”的能力需要推理与感知的复杂结合。然而，目前的开放多模态代理在推理方面仍然存在很大不足，而推理对于现实世界任务（如分析包含密集图表/示意图的文档和导航地图）至关重要。为了解决这一差距，我们推出了 O3-Bench，这是一个用于评估多模态推理的新基准，特点是对视觉细节进行交错关注。O3-Bench 包含具有挑战性的问题，要求代理通过多步骤推理，将来自不同图像区域的细微视觉信息拼凑在一起。这些问题即使对于前沿系统如 OpenAI o3 也非常具有挑战性，后者在 O3-Bench 上的准确率仅为 40.8%。为了取得进展，我们提出了 InSight-o3，这是一个由视觉推理代理（vReasoner）和视觉搜索代理（vSearcher）组成的多代理框架，并为其引入了通用视觉搜索任务——不仅限于自然图像中的简单物体或图形，还需根据自由语言描述定位关系性、模糊或概念性区域。随后，我们展示了一个为该任务通过强化学习专门训练的多模态大语言模型（LLM）。作为即插即用的代理，我们的 vSearcher 可以赋能前沿多模态模型（作为 vReasoners），显著提升它们在各种基准测试上的表现。这标志着迈向强大 o3 类开放系统的具体一步。我们的代码和数据集可在 https://github.com/m-Just/InSight-o3 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文针对当前开放多模态模型在“用图像思考”任务中推理能力薄弱、难以完成真实场景下的复杂视觉-语言协同问题（如高密度图表/地图分析）这一核心痛点，提出并解决以下关键问题：

评估基准缺失
现有 benchmark 侧重单步感知或粗粒度识别，缺乏对“跨区域证据聚合 + 多跳推理”的系统性评测。为此，作者构建 O3-BENCH，用高分辨率、高信息密度的复合图表与数字地图，迫使模型必须交替执行视觉搜索与推理才能作答。
单模型瓶颈
将感知与推理耦合在一个 MLLM 内，导致高分辨率图像上下文过长、搜索与推理信号相互干扰。论文提出 INSIGHT-O3 双代理框架：

vReasoner 专责高层推理与任务分解；
vSearcher 专责基于自由语言描述的广义视觉搜索（可定位关系型、模糊或概念区域）。

广义视觉搜索的训练难题
传统视觉搜索仅面向自然图像中的具体物体。本文将搜索空间拓展到任意图像类型（地图、海报、截图等）与自由形式描述，并通过混合强化学习（in-loop + out-of-loop RL）训练 vSearcher，使其能精准定位语言指定的抽象区域，并以“即插即用”方式赋能不同 vReasoner。

综上，论文同时解决了“如何评测复杂视觉推理”“如何分解推理-感知负载”“如何训练可泛化的视觉搜索代理”三大问题，从而向开放版 o3-like 系统迈出实质性一步。

Q: 有哪些相关研究？

论文在 Related Work（第 2 页与附录 A）中系统梳理了四条研究脉络，可归纳为以下四类相关研究：

1. 多模态评测基准

经典 VQA 数据集
VQA-v2、COCO-QA、GQA、VizWiz、ScienceQA、MMBench、MME、MathVista 等
侧重整体图像或显著物体识别，现代 MLLM 已接近饱和。
高分辨率 / 细粒度基准
V★-Bench、Tree-Bench、VisualProbe、HR-Bench、MME-RealWorld
强调高分辨率、小目标、单区域查找，但问题多为单跳或轻推理。
O3-BENCH 的差异化
首次针对“复合图表 + 数字地图”设计多跳问答，要求跨布局证据聚合与轻量级计算，平均分辨率 4600×3900，GPT-5-mini 仅 39 % 准确率，显著难于上述基准。

2. 多模态推理模型

RL 驱动的大语言模型
DeepSeek-R1（GRPO）→ 产生长链式思维、自反演。
视觉-语言 RL 扩展
Vision-R1、MM-Eureka、VLM-R1、Skywork-R1V、InternVL3.5、Keye-VL1.5 等
采用 GRPO 或级联 RL 提升 STEM 推理，但仍以文本链式思考为主，视觉侧仅提供 OCR/整体图特征。
INSIGHT-O3 的差异化
首次把“视觉搜索”从推理流中解耦，用专用代理在像素空间执行多轮裁剪与定位，再反哺推理链。

3. 分层代理与工具使用框架

早期 LLM 编排
Socratic Models、HuggingGPT、VisProg、ViperGPT
用 LLM 生成代码或调用专家模型，完成视觉-语言组合任务。
现代多代理系统
CAMEL、MetaGPT、AutoGen、HALO、AgentOrchestra、HYDRA
引入角色分工、动态规划、强化式协调，但视觉侧多依赖现成检测/分割 API，未涉及“自由语言描述→模糊区域定位”的广义搜索。
INSIGHT-O3 的差异化
提出“vSearcher”专职像素级搜索，支持关系型、模糊或概念描述；通过 RL 与 vReasoner 协同训练，实现可插拔增强。

4. 视觉搜索与交互式感知

单轮、单区域搜索
V★、Pixel-Reasoner、DeepEyes、Mini-o3、Chain-of-Focus、OpenThinker
聚焦自然图像中的显著物体，一次定位即回答。
代码式多轮操作
PyVision、Active-o3、RoboRefer 等
生成代码执行裁剪/旋转/放大，但仍以“找得到物体”为目标，缺乏跨区域证据聚合。
INSIGHT-O3 的差异化
把搜索任务从推理任务完全解耦；支持任意图像类型与自由语言描述；通过混合 RL（IoU 监督 + 推理结果监督）训练，实现多跳、多区域、高分辨率场景下的精准定位。

综上，本文在基准、模型架构、训练算法三大层面均与现有研究形成互补或跃迁，填补了“开放系统如何实现 o3-like 复杂视觉推理”这一空白。

Q: 论文如何解决这个问题？

论文采用“三位一体”策略——新基准、新框架、新训练法——系统性地解决“开放模型难以完成复杂视觉推理”这一核心问题。具体技术路线如下：

1. 建立高难度评测基准 O3-BENCH

数据构造
图表：从 MME-RealWorld 与互联网收集≥8 布局的高密度图表 117 张。
地图：人工采集 87 张场馆级高清数字地图（≥4K×4K）。
问题设计
全部六选项多跳选择题，平均 2.4 个目标布局，需跨区检索+轻量计算。
自动预生成 + 人工重写 + 三模型难度过滤，确保 GPT-5-mini 仅 39 % 准确率。

作用：为后续模型优化提供明确、可度量的优化目标。

2. 提出双代理框架 INSIGHT-O3

角色分离
vReasoner（任意前沿 MLLM）：负责高层规划、算术、世界知识、最终答案。
vSearcher（可插拔 7B 模型）：专责“广义视觉搜索”——根据自然语言描述返回精准 bounding box，可调用图像裁剪工具。
协作流程

vReasoner 分解问题 → 生成 region_description
vSearcher 定位 → 返回裁剪图
vReasoner 基于新证据继续推理，循环直至可作答

作用：把交织在一起的感知-推理负载解耦，降低单模型上下文长度与优化难度。

3. 设计混合强化学习训练算法

目标：仅训练 vSearcher，使其与任意 vReasoner 即插即用。

Out-of-loop RL
数据：10 K 预生成（InfographicVQA + 布局检测 + GPT-5-nano 描述）。
奖励： r = I(n_rm tool)>0 · (λ(rm format) r(rm format) + λ(rm IoU) r_(rm IoU)) ，直接以 IoU 监督定位精度。
In-loop RL
数据：15 K 合成拼贴图，vReasoner 实时生成搜索请求。
奖励：伪 IoU $r_(rm IoU) = I
s = c = 1
，其中 s 为 vReasoner 对 crop 的有用性评分， c$ 为最终答案正确性。
优势估计与目标
Out-of-loop 采用 GRPO 组内标准化；In-loop 采用全局标准化。
统一 PPO-clip 目标，加入 KL 正则防止偏离初始策略。

作用：让 vSearcher 同时学会“定位准”和“对推理有用”，且与具体 vReasoner 无关。

4. 实验验证“即插即用”效果

跨模型提升
GPT-5-mini + InSight-o3-vS：O3-BENCH 39.0 % → 61.5 %。
Gemini-2.5-Flash：49.8 % → 58.0 %；V★-Bench 80.1 % → 87.6 %。
跨分辨率鲁棒
训练 3.2 M 像素，测试 0.8 M–12.8 M 像素，性能下降 < 3 %。
消融分析
去掉 in-loop 或 out-of-loop 任一组件，平均性能下降 1–3 %。
去掉工具调用奖励、vReasoner 反馈或结果监督，均出现可见下降。

5. 释放失败案例与改进路径

论文公开典型错误：vReasoner 幻觉、视觉误读、搜索委托不当等，并指出随着开放模型工具调用与推理能力增强，INSIGHT-O3 框架可继续放大收益。

综上，论文通过“高难度基准→双代理分工→混合 RL 训练→即插即用验证”的完整闭环，首次在开放模型上实现了接近 o3 的“用图像思考”能力，为后续社区复现与扩展提供了可落地的路线图。

Q: 论文做了哪些实验？

论文围绕「O3-BENCH 难度验证」「INSIGHT-O3 有效性」「消融与超参」「跨模型/跨分辨率泛化」「失败诊断」五个维度，共执行了 4 组主实验 + 7 类辅助实验，全部结果均基于 3 次随机种子平均（除非特别说明）。

1 主实验 1：O3-BENCH 难度与布局必要性验证

被测模型：GPT-5-mini、Qwen2.5-VL-7B
变量：仅原图 vs 原图+人工标注的「目标布局裁剪」
结论：
GPT-5-mini 39.0 % → 67.5 %（↑28.5 pp）
Qwen2.5-VL-7B 27.4 % → 35.4 %（↑8 pp）
证明基准的确需要「主动定位+跨区推理」，而非单看整体图。

2 主实验 2：INSIGHT-O3 跨域提升测试

vReasoner 列表：GPT-4o、GPT-5-nano、GPT-5-mini、Gemini-2.5-Flash、Qwen3-VL-32B
vSearcher 变量：无 vS / 原始 Qwen2.5-VL-7B / InSight-o3-vS
覆盖基准：O3-BENCH、V★-Bench、Tree-Bench、VisualProbe-Hard、HR-Bench4K、MME-RW-Lite
核心结果（表 1 汇总）：
GPT-5-mini 平均 53.7 % → 64.9 %（+11.2 pp），其中 O3-BENCH +22.5 pp。
Gemini-2.5-Flash 平均 53.4 % → 60.7 %（+7.3 pp）。
小模型 GPT-5-nano 在 VisualProbe-Hard 从 21.7 % → 31.4 %（+9.7 pp）。
结论：InSight-o3-vS 可插拔且跨模型、跨基准稳定提升。

3 主实验 3：训练/测试分辨率与调用次数敏感性

训练分辨率：1280² vs 3500²
测试分辨率：1280² ~ 3500²
指标：6 项基准平均 + 单样本平均 vSearcher 调用次数
结论（表 2、表 4）：
训练-测试分辨率不一致时性能波动 ≤ 1.5 pp，显示鲁棒。
输入像素 0.8 M → 12.8 M，V★-Bench 仅 85.3 % ~ 89.4 % 小范围波动；O3-BENCH 56 % ~ 62 %，调用次数 2.8 → 2.6 呈下降趋势（高分辨率一次看清）。

4 主实验 4：消融与奖励设计消融

因子：In-loop / Out-of-loop、工具条件奖励、vReasoner 反馈、结果监督、全局归一化
结论（表 3、表 5）：
完整混合 RL 平均 63.2 %；去掉任一分量下降 1.0 ~ 2.6 pp。
仅 In-loop 训练步耗时 + 470 %，性能仍低于混合方案。
训练曲线（图 3）显示：先学会调用工具 → IoU 与 vReasoner 准确率同步上升，验证奖励设计合理性。

5 辅助实验 A：开放模型适配验证

Qwen3-VL-32B 自当 vReasoner，对比原始模型与 +InSight-o3-vS：
O3-BENCH 60.4 % → 69.7 %（+9.3 pp），证明框架对开源模型同样有效。

6 辅助实验 B：调用质量人工评分

随机抽取 60 个搜索回合，由三名标注员对返回 crop 评 High/Medium/Low：
InSight-o3-vS High 率 68 %，Medium 28 %；
原始 Qwen2.5-VL-7B High 率 27 %，Low 率 38 %。
直观说明 RL 训练显著提升定位精度与上下文相关性。

7 辅助实验 C：失败案例剖析

归类 120 个错误样本：
81 % 归因于 vReasoner 幻觉或计算错误；
14 % 为 vSearcher 定位偏差；
5 % 为工具调用格式违规。
指明下一步应优先提升 vReasoner 的“看图”一致性。

8 辅助实验 D：与 MME-RealWorld 对比

同取 chart 子集：
GPT-5-mini 在 MME-RW 82.4 % vs O3-BENCH 38.2 %；
平均 vSearch 步数 1.1 vs 3.1；
平均回答长度 730 字 vs 1940 字。
量化证明 O3-BENCH 显著更难、更需要多跳搜索。

综上，实验从「基准难度→模型提升→训练机制→超参敏感→失败分析」全链路验证：

O3-BENCH 确实构成新的挑战；
INSIGHT-O3 以即插即用方式显著、一致且鲁棒地增强现有前沿多模态模型；
混合 RL 与双代理分工是取得提升的关键。

Q: 有什么可以进一步探索的点？

以下方向可直接延续本文成果，也可作为独立课题展开，分为“基准-数据”“模型-架构”“训练-算法”“评测-分析”四条线，供后续研究参考：

1 基准与数据扩展

自然图像多跳推理子集
将 O3-BENCH 的“图表+地图”双域扩展到自然场景（街景、航拍、医学影像），构造需要跨物体、跨时间帧、跨模态（可见光-红外）证据聚合的问题，补齐“数字域-自然域”空白。
动态/时序图像推理
引入视频或 GIF 图表（如动态仪表盘、实时监控屏），测试模型对“时序+空间”双维度变化的多跳追踪能力。
多语言与低资源场景
当前问题与 OCR 均以英文为主。可构建中文、多语种的图表/地图，考察模型在混合语言、低资源语言下的视觉-语义对齐。
可解释性标注升级
在现有“目标布局+步骤说明”基础上，增加“推理链中每一步所依赖的像素级掩码”与“反事实掩码”（ablation mask），便于后续做细粒度可解释性评测。

2 模型与架构方向

双向协同训练
本文仅训练 vSearcher，vReasoner frozen。下一步可设计“双端 RL”或“互蒸馏”：vReasoner 的搜索请求质量与 vSearcher 的定位精度互为环境，联合优化，缓解 credit assignment 难题。
多模态搜索工具箱
除裁剪外，引入箭头绘制、高亮、放大、旋转、OCR 触发、图表重渲染等离散工具，让 vSearcher 成为“视觉工具调用代理”，支持更复杂的图像编辑与信息提取。
统一搜索-推理模型
以 InSight-o3-vS 为视觉专家，采用 MoE 或 early-fusion 方式把搜索专家并入大型多模态基座模型，实现单模型端到端“思考+搜索”，减少多代理通信延迟。
内存与层级推理
引入 episodic memory 存储已访问过的区域特征，支持“返回上一级”“对比两区域”等高级操作，迈向更接近人类视觉导航的层级认知。

3 训练与算法创新

课程强化学习
由“单目标+大目标”逐步到“多目标+小目标+跨图推理”，用课程式奖励减少初期探索稀疏性，提升样本效率。
对比式搜索奖励
不仅与 GT box 计算 IoU，同时与“混淆区域”计算对比距离，鼓励模型学习更具判别性的视觉-语义表示。
在线人类偏好对齐
收集人工对“搜索结果是否有助于后续推理”的偏好标签，采用 DPO 或 KTO 对齐 vSearcher，使其更符合人类指令风格。
多任务正则
同时优化搜索、OCR、图表计算、地图路径规划等多头目标，通过梯度掩码与任务路由，防止灾难性遗忘并提升泛化。

4 评测与分析深化

细粒度错误 Taxonomy
建立“搜索缺失-搜索冗余-推理误用-计算错误-幻觉”五维标签体系，对 10 K 级样本进行标注，形成公开错误诊断工具包，驱动针对性改进。
可扩展性压力测试
将单图 4K 提升到 8K-16K，或一次输入 5-10 张高分辨率图，考察系统随着信息密度线性增加时的性能衰减曲线，验证上下文长度与工具调用上限。
对抗与鲁棒性评测
在图像中加入扰动（高斯噪声、压缩、水印遮挡）或语言描述中植入同音/近义词干扰，测试搜索-推理链的鲁棒性。
人机协作范式
引入“人-代理-工具”闭环，允许人类在任意搜索回合纠正或提示，量化“人类成本-性能提升”曲线，为实际部署提供 ROI 依据。

5 应用与系统落地

文档理解 SaaS
将框架封装为可调 API，支持上传 PDF/幻灯片/报表后自动提取跨页指标、生成财务分析报告，与现有 RAG 方案对比商业效果。
地图导航助手
与真实地图厂商合作，在景区/校园/医院室内地图场景开放内测，收集真实用户查询日志，持续 RL 微调。
教育场景可视化辅导
针对 STEM 教材中的复杂插图（电路图、几何证明、统计图）提供分步视觉讲解，评估学生知识点掌握度提升。

总结

InSight-O3 首次验证了“开放模型 + 专用视觉搜索代理”在超高分辨率、多跳推理场景的可行性。后续工作可从“更全数据域、更深协同训练、更细评测维度、更广落地场景”四个层面继续突破，推动开放多模态系统真正迈向 o3-level 的“用图像思考”能力。

Q: 总结一下论文的主要内容

论文核心内容速览

1. 研究动机

现有开放多模态模型在”用图像思考”任务上推理薄弱，难以处理高密度图表/地图等真实场景
主流基准侧重单跳感知，缺少对”跨区域证据+多跳推理”的评测
OpenAI o3 的闭源优势亟需开放系统复现

2. 贡献总览

O3-BENCH：345 例高分辨率图表/地图多跳选择题，GPT-5-mini 仅 39%
INSIGHT-O3 双代理框架：
vReasoner：任意前沿 MLLM，负责高层推理
vSearcher：7B 专用视觉搜索代理，支持自由语言描述定位
混合 RL 训练：预生成 IoU 监督 + 在线推理结果监督，即插即用提升多模型 7-22 pp

3. 技术要点

基准构造：布局检测→自动问答生成→人工精修→三模型难度过滤
搜索任务广义化：支持关系、模糊、概念区域；任意图像类型
奖励设计： r = I(n_rm tool)>0 · (λ(rm format) r(rm format) + λ(rm IoU) r_(rm IoU)) ，辅以 outcome 监督防止幻觉
协同流程：Reasoner 分解问题→描述区域→Searcher 返回裁剪→循环直至答案

4. 主要结果

GPT-5-mini + InSight-o3-vS：O3-BENCH 39%→61.5%，六基准平均 +11.2 pp
Gemini-2.5-Flash：同等设置 +7.3 pp，跨模型泛化显著
分辨率 0.8 M-12.8 M 像素性能波动 <3%，训练-测试分辨率不一致仍鲁棒
消融：缺 in-loop 或 out-of-loop 下降 1-2.6 pp；奖励组件均贡献正值

5. 结论与展望

INSIGHT-O3 通过”高难度基准+感知-推理解耦+混合 RL 训练”首次在开放模型上实现接近 o3 的复杂视觉推理能力，为构建通用多模态智能体提供了可扩展、即插即用的技术路线。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Kaican Li,Lewei Yao,Jiannan Wu,Tiezheng Yu,Jierun Chen,Haoli Bai,Lu Hou,Lanqing Hong,Wei Zhang,Nevin L. Zhang

Categories: cs.CV,cs.CL,cs.LG

PDF URL: https://arxiv.org/pdf/2512.18745.pdf

Arxiv URL: https://arxiv.org/abs/2512.18745

Arxiv ID: 2512.18745

CoolPaper URL: https://papers.cool/arxiv/2512.18745

Published: 2025-12-21T14:23:07Z

Updated: 2025-12-21T14:23:07.000Z

10. SWE-RM: Execution-free Feedback For Software Engineering Agents

Execution-based feedback like unit testing is widely used in the development of coding agents through test-time scaling (TTS) and reinforcement learning (RL). This paradigm requires scalable and reliable collection of unit test cases to provide accurate feedback, and the resulting feedback is often sparse and cannot effectively distinguish between trajectories that are both successful or both unsuccessful. In contrast, execution-free feedback from reward models can provide more fine-grained signals without depending on unit test cases. Despite this potential, execution-free feedback for realistic software engineering (SWE) agents remains underexplored. Aiming to develop versatile reward models that are effective across TTS and RL, however, we observe that two verifiers with nearly identical TTS performance can nevertheless yield very different results in RL. Intuitively, TTS primarily reflects the model’s ability to select the best trajectory, but this ability does not necessarily generalize to RL. To address this limitation, we identify two additional aspects that are crucial for RL training: classification accuracy and calibration. We then conduct comprehensive controlled experiments to investigate how to train a robust reward model that performs well across these metrics. In particular, we analyze the impact of various factors such as training data scale, policy mixtures, and data source composition. Guided by these investigations, we introduce SWE-RM, an accurate and robust reward model adopting a mixture-of-experts architecture with 30B total parameters and 3B activated during inference. SWE-RM substantially improves SWE agents on both TTS and RL performance. For example, it increases the accuracy of Qwen3-Coder-Flash from 51.6% to 62.0%, and Qwen3-Coder-Max from 67.0% to 74.6% on SWE-Bench Verified using TTS, achieving new state-of-the-art performance among open-source models.

中文摘要

基于执行的反馈（如单元测试）在通过测试时扩展（TTS）和强化学习（RL）开发编码代理时被广泛使用。这种范式需要可扩展且可靠的单元测试用例收集以提供准确的反馈，但得到的反馈通常是稀疏的，无法有效区分同为成功或同为失败的轨迹。相比之下，来自奖励模型的无执行反馈可以在不依赖单元测试用例的情况下提供更细粒度的信号。尽管有这种潜力，但针对现实软件工程（SWE）代理的无执行反馈仍然未被充分探索。然而，在旨在开发在TTS和RL中都有效的通用奖励模型时，我们发现两个在TTS性能几乎相同的验证器在RL中仍可能产生非常不同的结果。直观上，TTS主要反映模型选择最佳轨迹的能力，但这种能力不一定能推广到RL。为了解决这一限制，我们确定了对RL训练至关重要的两个额外方面：分类准确性和校准性。随后，我们进行了全面的控制实验，研究如何训练在这些指标上表现良好的稳健奖励模型。特别是，我们分析了训练数据规模、策略混合和数据源组成等各种因素的影响。在这些研究的指导下，我们引入了SWE-RM，一个准确且稳健的奖励模型，采用30B总参数、推理时激活3B参数的专家混合架构。SWE-RM显著提升了SWE代理在TTS和RL上的性能。例如，在SWE-Bench Verified测试中，它将Qwen3-Coder-Flash的准确率从51.6%提升至62.0%，将Qwen3-Coder-Max的准确率从67.0%提升至74.6%，在开源模型中创下新的最先进性能。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在解决“如何为软件工程（SWE）智能体训练一个既适用于测试时扩展（TTS）又适用于强化学习（RL）的通用、无执行（execution-free）奖励模型”这一核心问题。具体而言，作者观察到：

执行型反馈（如单元测试）只能给出稀疏的 0/1 信号，难以区分同为成功或同为失败的轨迹，且高质量测试用例难以规模化获取；
现有的无执行奖励模型主要被用来提升 TTS，但 TTS 表现相近的两个验证器在 RL 中可能表现迥异，说明 TTS 无法充分刻画奖励模型在 RL 中的有效性。

为此，论文提出并验证：

除 TTS 外，必须同时考察 判别能力（AUC） 与 置信度校准（ECE）；
通过大规模控制实验，系统分析训练数据规模、正负样本比例、策略混合、数据源组合及上下文长度对三项指标的影响；
基于实验结论训练出 SWE-RM——一个 30B 总参数、3B 激活的 MoE 奖励模型，支持 256 k 上下文，在 SWE-Bench Verified 上取得新的开源 SOTA，并在 RL 训练中将执行型反馈基线提升 3 个百分点。

综上，论文首次明确了“通用 SWE 奖励模型”应具备的三维评估标准，并给出了可复现的训练配方与实证结果。

Q: 有哪些相关研究？

论文在 §2、附录 B 及表 6 中系统梳理了与“SWE 任务验证器”和“智能体强化学习反馈”相关的研究，可归纳为两条主线：

SWE 验证器（执行型 vs. 无执行型）

执行型
Agentless（Xia et al., 2024）——为每条轨迹自动生成再现测试，按通过用例数重排序。
R2E-Gym（Jain et al., 2025）—— procedural 环境 + 单元测试筛选。
DeepSWE-EB（Luo et al., 2025）——在 R2E-Gym 执行器基础上扩展，当前 TTS 最强混合方案中的执行部分。
无执行型（早期仅关注 TTS）
SWE-Gym Verifier（Pan et al., 2025）——Qwen2.5-32B 为骨干，仅用 SWE-Gym 数据训练，32 k 上下文。
OpenHands Critic（OpenHands Team, 2025）——32 k 上下文，轨迹级打分，细节未公开。
R2E-Gym EF（Jain et al., 2025）——与执行型配套的无执行模块，32 k 上下文。
DeepSWE-EF（Luo et al., 2025）——改进版 R2E-Gym EF，76 k 上下文，仍只服务 TTS。

上述工作均未系统讨论 AUC/ECE，也未用于 RL。

智能体强化学习反馈

执行型反馈在 RL 中的使用
Qwen3-Coder（Qwen Team, 2025）、GLM-4.5（GLM-4.5 Team, 2025a）、MiniMax-M1/2（MiniMax, 2025）等最新代码智能体皆采用“fail-to-pass 单元测试”作为 0/1 奖励，类似数学任务中的规则度量（DeepSeek-AI, 2025）。
此类信号稀疏且受测试质量拖累，难以区分同成功/同失败轨迹，训练效率低。
无执行反馈用于 RL
本文首次将“无执行、连续、细粒度”奖励模型引入 SWE 智能体 RL，并证明其可提升样本效率与最终性能；此前无同类研究。

综上，现有工作要么局限于执行型验证，要么仅把无执行模型当作 TTS 的打分器；本文首次统一了 TTS、AUC、ECE 三维评估，并将无执行奖励模型规模化用于 RL，填补了该交叉方向的空白。

Q: 论文如何解决这个问题？

论文采用“问题剖析 → 指标补全 → 大规模消融 → 模型训练 → 双重验证”五步法，系统解决了“如何获得同时胜任 TTS 与 RL 的通用无执行奖励模型”难题。

问题剖析

通过对照实验发现：两个 TTS 表现几乎一致的验证器，在 RL 中一个稳定提升、一个迅速崩溃。
理论拆解表明，TTS 仅关注“Top-1 是否正确”，忽视全局判别能力（AUC）与置信度校准（ECE），而这两者在策略梯度更新中直接决定梯度方向与方差。

指标补全

提出三维评估体系：
TTS——Top-1 选择准确率；
AUC——正负轨迹全分布排序质量；
ECE（Expected Calibration Error）——模型置信度与真实正确率的匹配度。
在附录 C 给出理论推导，量化三项指标分别对应 RL 的“极端 top 错误”“梯度反向”“系统偏差与方差膨胀”三种失效模式。

大规模消融实验
固定 Qwen3-30B-A3B 为底座，逐因素扫描：

数据规模：500 → 100 k，证实 ≥20 k 才能避免 OOD 误判，100 k 后收益递减。
正负比例：1:8 → 2:1，2:1 在 AUC/ECE/RM@32 全面最优且节省负样本。
上下文长度：32 k → 256 k，128 k 以上可评分率 >99%，RM@32 持续提升。
策略混合：纯 on-policy 或 off-policy 均不如“混合采样”稳健。
数据源：以 SWE-rebench 高质量数据为主，再混入 SWE-smith、SWE-Gym 可进一步降低 ECE。

模型训练（SWE-RM）

采用上述最优配置：100 k 轨迹、2:1 正负比、混合策略、三源数据、256 k 上下文。
底座为 30B-MoE（3B 激活），生成式分类头输出 YES/NO，通过 r=exp(l(rm yes))/(exp(l(rm yes))+exp(l_(rm no))) 得到连续分数。
监督微调 1 epoch，全局 batch=128，AdamW+余弦衰减，4 节点 H100 约 20 小时完成。

双重验证

TTS 侧：在 SWE-Bench Verified 500 题上，用 32 条轨迹 Best-of-32 选择，
– Qwen3-Coder-Flash 51.6% → 62.0%
– Qwen3-Coder-Max 67.0% → 74.6%
均刷新开源模型 SOTA（图 1）。
RL 侧：以 SWE-RM 为连续奖励源，配合执行型信号组成混合奖励

r= 1 + rm Score(rm EF), & resolve -0.5 + rm Score(rm EF), & unfinished 0 + rm Score_(rm EF), & otherwise

在 SWE-Bench Verified 上相对纯执行型基线提升 3 个百分点（51.8% → 54.8%），并在多领域测试集一致领先（表 5）。

通过以上闭环，论文不仅给出了可复现的“训练配方”，也提供了理论兼实证支持的通用奖励模型 SWE-RM，首次证明无执行、高校准奖励信号在软件工程智能体 TTS 与 RL 双重场景下的规模化有效性。

Q: 论文做了哪些实验？

论文围绕“如何训练一个同时胜任 TTS 与 RL 的无执行奖励模型”共设计并完成了三大类、十余组实验，全部在 SWE-Bench Verified 500 题基准上展开，核心结果均给出均值±方差或显著性检验。具体实验一览如下（按出现顺序归纳）：

1 验证器“三维指标”必要性验证

实验	目的	设置	关键结果
1.1 TTS⇸RL 一致性检验	验证 TTS 是否足以挑选 RL 用奖励模型	训练仅 TTS 相近的 Verifier A/B；在 Qwen3-30B-A3B + OpenHands 上做 100 step RL	图 2：A 稳定上升，B 训练崩溃；同样 +4.5~4.7% TTS，AUC 差 0.095，ECE 差 3×
1.2 理论拆解	解释三项指标如何影响策略梯度	给出 TTS/AUC/ECE 与梯度偏差/方差的解析式	附录 C：TTS 仅影响 top-1 权重；AUC 决定反向梯度比例；ECE 引入系统偏置与方差膨胀

2 奖励模型训练因素大规模消融

底座均用 Qwen3-30B-A3B，评估指标统一报告 AUC、ECE、RM@32（Best-of-32 解析率）。

2.1 数据规模

训练样本	500	2 k	5 k	25 k	100 k
RM@32	55.8±0.6	58.4±0.4	59.2±0.5	61.6±0.3	62.0±0.2
ECE	0.481	0.232	0.158	0.137	0.067
→ 图 6 右：100 k 样本下 resolved/unresolved 分数分布分离度最好。

2.2 正负比例（固定 20 k 样本）

比例	1:8	1:4	1:2	1:1	2:1
AUC	0.778	0.789	0.789	0.782	0.805
ECE ↓	0.349	0.185	0.235	0.132	0.080
RM@32	60.2	61.6	61.0	60.8	62.0

2.3 上下文长度

窗口	16 k	32 k	64 k	128 k	256 k
可评分率	0.5 %	12.5 %	88.3 %	99.5 %	100 %
RM@32	66.8	67.4	70.6	73.0	74.4

2.4 策略混合（固定 20 k）

数据来源	纯 On-policy	纯 Off-policy	Mix-policy
AUC	0.785	0.778	0.804
ECE ↓	0.148	0.113	0.033

2.5 数据源组合（固定 20 k）

单源最佳为 SWE-rebench；三源混合（rebench+smith+gym）在保持 AUC 同时 ECE 最低（0.033→0.067），RM@32 达 74.6。

3 SWE-RM 效果验证

3.1 TTS 对比实验

验证器	类型	Qwen3-Flash RM@32	Qwen3-Max RM@32	ECE ↓
Agentless	执行	52.6 %	65.0 %	—
SWE-Gym	无执行	51.2 %	65.4 %	0.223
DeepSWE-EF	无执行	53.2 %	66.2 %	0.139
SWE-RM	无执行	62.0 %	74.6 %	0.047

3.2 RL 训练实验

模型：Qwen3-30B-A3B 经 SFT 预热 → 100 step RL
奖励设置：Hybrid / 纯执行 / 纯无执行 / 弱校准无执行
结果（SWE-Bench Verified pass@1，图 7 左）
– 纯执行：51.8 %
– 纯无执行：53.2 %
– 弱校准 RM：44.7 %（训练后期崩溃）
– Hybrid（SWE-RM + 执行）：54.8 %（+3.0 abs）
训练曲线：Hybrid 收敛最快，平均奖励平滑上升（图 7 右）。

3.3 跨域泛化

额外 4 个基准（表 5）均呈现 Hybrid > 纯执行 ≈ 纯无执行 >> 弱校准，证明校准重要性可迁移到多语言、终端命令等场景。

4 上下文与部署代价实测

256 k 模型相比 32 k 仅增加 ≈2× GPU 显存；因输出仅 1 token，延迟几乎相同（附录 D.4）。
在 2×A100 上即可实现高效推理。

综上，论文通过“必要性验证→因素消融→最终模型→TTS/RL 双重对比→跨域与系统代价”共二十余组实验，完整支撑了 SWE-RM 的训练配方与性能声明。

Q: 有什么可以进一步探索的点？

以下方向可在此基础上继续深入，分为“数据与标注”“模型侧”“训练策略”“评估体系”“应用场景”五大类，供后续研究参考。

1 数据与标注

自动去噪与权重学习
现有 100 k 轨迹仍依赖 fail-to-pass 测试做硬标签，可引入置信度加权或迭代重标注，降低错误标签对 RM 与 RL 的误导。
多任务监督信号
除“resolve/unresolved”外，可同步预测补丁复杂度、运行时间、代码风格违规等，构建多目标奖励或辅助任务，提升样本效率。
人类偏好与对比数据
收集工程师对“同正确但不同品质”补丁的偏好排序，训练 Bradley-Terry 或 RankNet 形式，进一步改善细粒度排序与校准。

2 模型侧

架构对比
SWE-RM 采用 30B-MoE(3B 激活)。可系统比较 Dense、MoE、LoRA/DoRA、RNN-based 记忆模型在长上下文、校准、推理成本上的权衡。
早-中期融合
当前仅在完整轨迹后打分。若在每个 turn 或 diff hunk 后提供中间奖励，需研究稀疏-密集奖励混合、信用分配与梯度截断策略。
可解释性
引入注意力热图或 post-hoc 解释器，验证模型是否关注关键 diff、报错栈或测试日志，帮助诊断错误高分案例。

3 训练策略

在线/离线混合 RL
目前 RM 固定后做 RL。可探索迭代式 RM-Policy 共同提升（如 RLHF 中的 reward-model & policy 交替更新），并研究非平稳奖励下的收敛保证。
课程与难度采样
按问题长度、测试覆盖率或错误类型动态调整采样概率，避免过易/过难样本主导训练，提高样本复杂度效率。
多智能体对抗环境
引入“测试生成智能体”与“修复智能体”互博，前者生成更难 fail-to-pass 测试，后者学习通过，形成自动课程与可扩展 reward 信号。

4 评估体系

细粒度错误类型诊断
将 unresolved 细分为“语法错误”“测试不过”“引入新 bug”“部分修复”等，计算按类型的 AUC-ECE，指导针对性改进。
分布外与对抗鲁棒性
构造代码风格、项目领域、语言版本不同的 OOD 集，或采用对抗 patch（语义保持但迷惑模型），测试 RM 的校准漂移与鲁棒性。
在线校准监控
部署后持续收集预测-真实对比，动态计算 Streaming-ECE，触发重校准或再训练，保证生产环境奖励信号长期可信。

5 应用场景

其他代码任务迁移
将 SWE-RM 迁移至代码审查推荐、漏洞检测、自动重构接受度评估等任务，验证通用性并构建统一代码偏好模型。
多模态扩展
若智能体同时操作文档、日志、执行轨迹图像（如 GUI 测试），可引入视觉-语言融合编码器，研究跨模态奖励建模。
边缘与低资源部署
探索大 RM 蒸馏至 1-3B 小模型、量化与动态 offloading，满足私有化或边缘设备上的实时奖励计算需求。

6 理论与安全

校准误差与 RL 收敛界
在马尔可夫决策过程框架下，给出 ECE-梯度方差与收敛速度、样本复杂度的显式关系，为“需要多好的校准”提供理论下限。
奖励攻击与防御
研究攻击者通过构造特殊 patch 使 RM 给出高置信高分的攻击方式，提出正则化、对抗训练或检测器进行防御。

综上，从“更干净的数据”到“更聪明的训练”再到“更严苛的评估”，SWE-RM 为后续研究提供了基线与出发点，上述任一方向均可形成新的突破。

Q: 总结一下论文的主要内容

论文核心内容可概括为“一个发现、一套指标、一组实验、一个模型、双重验证”：

一个发现
仅看测试时扩展（TTS）无法选出适合强化学习（RL）的奖励模型——TTS 相近的两个验证器在 RL 中表现天差地别。
一套指标
提出“TTS + AUC + 校准（ECE）”三维评估：

TTS 管 Top-1 选择
AUC 管全局排序
ECE 管置信度可靠
理论证明三者分别对应 RL 梯度更新中的“极端 top 错误”“反向梯度比例”与“系统偏差/方差”。

一组实验
在 Qwen3-30B-A3B 底座上系统扫描：

数据规模 0.5 k→100 k
正负比例 1:8→2:1
上下文 32 k→256 k
策略与数据源组合
得出“100 k 样本、2:1 正负、256 k 上下文、混合策略+多源数据”最优配方。

一个模型——SWE-RM
按配方训练的 30B-MoE（3B 激活）无执行奖励模型，支持 256 k 上下文，在 SWE-Bench Verified 上：

TTS 最佳：Flash 51.6→62.0 %，Max 67.0→74.6 %（开源 SOTA）
AUC/ECE 全面领先现有执行/无执行验证器

双重验证

TTS：Best-of-32 刷新开源纪录
RL：混合奖励（SWE-RM+执行）相较纯执行基线 pass@1 提升 3 个百分点，训练更快更稳，且跨域泛化一致领先。

综上，论文首次阐明并验证了“通用 SWE 奖励模型”需同时满足高 TTS、高 AUC、低 ECE，给出可复现训练方案，并通过 SWE-RM 在 TTS 与 RL 两端均取得新最佳表现。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: KaShun Shum,Binyuan Hui,Jiawei Chen,Lei Zhang,X. W.,Jiaxi Yang,Yuzhen Huang,Junyang Lin,Junxian He

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2512.21919.pdf

Arxiv URL: https://arxiv.org/abs/2512.21919

Arxiv ID: 2512.21919

CoolPaper URL: https://papers.cool/arxiv/2512.21919

Published: 2025-12-26T08:26:18Z

Updated: 2025-12-26T08:26:18.000Z

Recent text-to-video generation models exhibit remarkable progress in visual realism, motion fidelity, and text-video alignment, yet they remain fundamentally limited in their ability to generate socially coherent behavior. Unlike humans, who effortlessly infer intentions, beliefs, emotions, and social norms from brief visual cues, current models tend to render literal scenes without capturing the underlying causal or psychological logic. To systematically evaluate this gap, we introduce the first benchmark for social reasoning in video generation. Grounded in findings from developmental and social psychology, our benchmark organizes thirty classic social cognition paradigms into seven core dimensions, including mental-state inference, goal-directed action, joint attention, social coordination, prosocial behavior, social norms, and multi-agent strategy. To operationalize these paradigms, we develop a fully training-free agent-based pipeline that (i) distills the reasoning mechanism of each experiment, (ii) synthesizes diverse video-ready scenarios, (iii) enforces conceptual neutrality and difficulty control through cue-based critique, and (iv) evaluates generated videos using a high-capacity VLM judge across five interpretable dimensions of social reasoning. Using this framework, we conduct the first large-scale study across seven state-of-the-art video generation systems. Our results reveal substantial performance gaps: while modern models excel in surface-level plausibility, they systematically fail in intention recognition, belief reasoning, joint attention, and prosocial inference.

中文摘要

近期的文本到视频生成模型在视觉真实感、动作保真度以及文本与视频的对齐方面表现出显著进步，但它们在生成社会一致行为的能力上仍然存在根本性限制。与人类不同，人类能够轻而易举地从简短的视觉线索中推断意图、信念、情绪和社会规范，而当前模型往往仅呈现字面场景，却未能捕捉其背后的因果或心理逻辑。为了系统地评估这一差距，我们提出了首个用于视频生成社会推理的基准。基于发展心理学和社会心理学的研究结果，我们的基准将三十个经典社会认知范式组织为七个核心维度，包括心理状态推理、目标导向行为、联合注意、社会协调、利他行为、社会规范和多主体策略。为了将这些范式具体化，我们开发了一个完全无需训练的基于代理的流程，该流程可(i)提取每个实验的推理机制，(ii)合成多样化的视频场景，(iii)通过基于线索的评价确保概念中性和难度控制，(iv)使用高容量视觉语言模型评审器对生成的视频在五个可解释的社会推理维度上进行评估。基于该框架，我们进行了首个针对七种最先进视频生成系统的大规模研究。结果显示出显著的性能差距：虽然现代模型在表面可信度上表现出色，但在意图识别、信念推理、联合注意和利他推断方面系统性失败。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在填补当前文本到视频生成模型在“社会推理”能力上的系统性空白。现有评估仅关注视觉真实感、运动平滑度、物理合理性等低层指标，而忽视了人类观察者最擅长的因果-心理维度：能否从短暂画面中推断出角色的意图、信念、情绪与社会规范，并据此生成合乎社会逻辑的行为序列。为此，作者提出首个专门评测视频生成模型社会推理能力的基准 SVBench，将发展心理学与社会心理学中 30 项经典实验范式转化为 7 大认知维度（心智状态推断、目标导向行动、共同注意、社会协调、亲社会行为、社会规范、多主体策略），并设计无需训练的智能体流水线，实现难度可控的提示构造与自动评判，从而系统诊断现有模型能否“生成”而非仅仅“识别”具备社会一致性的多主体互动。

Q: 有哪些相关研究？

12. SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

Automatic presentation slide generation can greatly streamline content creation. However, since preferences of each user may vary, existing under-specified formulations often lead to suboptimal results that fail to align with individual user needs. We introduce a novel task that conditions paper-to-slides generation on user-specified preferences. We propose a human behavior-inspired agentic framework, SlideTailor, that progressively generates editable slides in a user-aligned manner. Instead of requiring users to write their preferences in detailed textual form, our system only asks for a paper-slides example pair and a visual template - natural and easy-to-provide artifacts that implicitly encode rich user preferences across content and visual style. Despite the implicit and unlabeled nature of these inputs, our framework effectively distills and generalizes the preferences to guide customized slide generation. We also introduce a novel chain-of-speech mechanism to align slide content with planned oral narration. Such a design significantly enhances the quality of generated slides and enables downstream applications like video presentations. To support this new task, we construct a benchmark dataset that captures diverse user preferences, with carefully designed interpretable metrics for robust evaluation. Extensive experiments demonstrate the effectiveness of our framework.

中文摘要

自动化演示幻灯片生成可以大大简化内容创作。然而，由于每个用户的偏好可能不同，现有的欠具体化方法往往导致结果不理想，无法满足个别用户的需求。我们提出了一项新任务，该任务将论文到幻灯片的生成过程与用户指定的偏好相结合。我们提出了一个受人类行为启发的代理框架——SlideTailor，能够以用户对齐的方式逐步生成可编辑的幻灯片。我们的系统无需用户以详细文本形式书写偏好，仅需要提供一对论文-幻灯片示例及一个视觉模板，这些是自然且易于提供的材料，可隐式地编码内容和视觉风格方面丰富的用户偏好。尽管这些输入是隐式且未标注的，我们的框架仍能有效提炼并泛化用户偏好，从而指导定制化的幻灯片生成。我们还引入了一种新的演讲链机制，将幻灯片内容与预定的口头讲解对齐。这种设计显著提升了生成幻灯片的质量，并支持如视频演示等下游应用。为了支持这一新任务，我们构建了一个基准数据集，涵盖多样的用户偏好，并设计了可解释的评估指标以进行稳健评测。大量实验表明了我们框架的有效性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在解决“学术文献→演示幻灯片”自动生成过程中长期被忽视的用户个性化需求问题。现有方法普遍将任务形式化为“单篇论文→一套幻灯片”的单一生成范式，未显式建模不同用户在内容取舍、叙事节奏、视觉风格等方面的主观偏好，导致输出结果常常与个体期望不符。

为此，作者提出“偏好引导的论文到幻灯片生成”新任务，仅需用户提供：

一篇“论文–幻灯片”样例对（隐式编码内容偏好）
一个 .pptx 视觉模板（隐式编码美学偏好）

即可让系统自动蒸馏并泛化这些无标注、高阶、跨模态偏好，生成可编辑且与用户风格高度对齐的幻灯片，并配套演讲稿以支持后续视频演示等下游应用。

Q: 有哪些相关研究？

论文将相关研究划分为两条主线，并指出其局限：

文档到幻灯片生成（Document-to-Slides Generation）

早期工作把任务视为纯文本摘要，忽略视觉版式与多模态特性。
近期方法（Fu et al. 2022; Zheng et al. 2025 等）引入布局与图像，但仍采用“一刀切”式转换，不支持个性化。
PersonaAware-D2S（Mondal et al. 2024b）首次考虑“角色”偏好，但仅支持四组固定离散标签（专家/非专家 × 长/短），无法表达细粒度、开放式用户风格。
PPTAgent（Zheng et al. 2025）允许用户上传模板，却仅关注版式复现，对内容结构偏好无建模。

条件摘要（Conditional Summarization）

研究聚焦于“以查询、主题、时间线、用户偏好等为条件的摘要”。
与用户偏好相关的子方向多集中在商品评论个性化摘要或风格/长度可控摘要，尚未扩展到学术论文→幻灯片场景。
最接近的 Mondal et al. (2024b) 同样受限于四元组离散偏好，难以覆盖真实演示情境中丰富的内容组织与视觉审美需求。

综上，现有文献要么忽略用户差异，要么只能在极少数预设维度上微调，无法对“内容结构+视觉风格”双空间中的开放式、隐式偏好进行联合建模与泛化，这正是 SlideTailor 试图填补的空白。

Q: 论文如何解决这个问题？

论文提出 SlideTailor，一个受人类演示制作行为启发的 渐进式智能体框架，把“隐式、无标签、双空间偏好”拆解为三个阶段逐步处理，核心思路是 先蒸馏偏好 → 再规划内容与演讲 → 最后实例化可编辑幻灯片。

1. 隐式偏好蒸馏（Implicit Preference Distillation）

内容偏好：将用户给出的“论文–幻灯片”样例对 (D(ref), S(ref)) 视为潜在映射函数
f(content): D(ref) to S_(ref)
用 LLM 反向推断该函数在“叙事流、章节取舍、详略度、格式（ bullet / 短语 / 图重）”上的规律，输出结构化、符号化内容偏好 P_C 。
美学偏好：对模板 .pptx 逐页运行 VLM + 元数据解析，提取“母版类型、占位符语义、配色、字体、图标”等布局模式，得到美学偏好模式 P_A 。
合并为统一偏好档案 P = P_C ∪ P_A ，供后续阶段作为显式条件。

2. 偏好引导的幻灯片规划（Preference-Guided Slide Planning）

三个 LLM 智能体顺序执行：

智能体	功能	关键机制
Paper Reorganizer	按 P_C 对目标论文做面向演讲的重组（调整详略、顺序、删减）	条件摘要，非通用摘要
Slide Outline Designer	将重组后内容切分为逐 slide 信息单元，并为每页同步撰写演讲稿	提出 Chain-of-Speech 机制，保证“视觉点”与“口头叙述”一一对应，提升连贯性并可后续直接 TTS
Template Selector	基于 P_A 为每页挑选最匹配母版	逐页语义-布局对齐，避免“一套模板走天下”

3. 幻灯片实例化（Slide Realization）

Layout-Aware Editor：把大纲中的标题、文本、图像精确映射到已选母版的对应占位符，自动完成替换/增删。
Code Agent：生成 python-pptx 可执行代码，原地编辑 .pptx，保留母版与主题，输出完全可再编辑文件。

4. 下游扩展（Video Presentation）

因每页已有同步演讲稿，可直接：

零样本声音克隆 → 合成用户音色语音
音频驱动说话头像 → 生成口型同步画面
用 FFmpeg 将头像叠加到幻灯片并合成视频，实现自动个性化演讲视频。

总结

通过“先显式蒸馏隐偏好 → 再联合规划内容与演讲 → 最后模板级代码生成”，SlideTailor 在无需额外训练、无需用户写冗长提示的情况下，即可把任意论文按用户过往风格批量生成结构、视觉、叙述三高对齐的可编辑幻灯片，并天然支持视频化输出。

Q: 论文做了哪些实验？

论文在自建 benchmark PSP 上进行了系统实验，从定量指标、人类评测、消融分析、成本与可视化四个角度验证 SlideTailor 的有效性。

1 实验设置

数据集：PSP 共 200 篇目标论文 × 50 篇样例论文-幻灯片对 × 10 个模板 → 10 万种组合；随机抽取 50 组作为测试集。
对比基线

ChatGPT-4o（网页上传多模态提示）
AutoPresent（文本→幻灯片，强制拼接样例文本）
PPTAgent（模板版式复现最强基线）

统一约束：所有方法均生成 10 页幻灯片；零样本设定。
** backbone 对比**：SlideTailor 分别用 GPT-4.1 与开源 Qwen2.5-72B + Qwen2.5-VL-72B 实现，验证可迁移性。

2 定量结果（自动指标）

指标	含义	SlideTailor(GPT-4.1)	最强基线 PPTAgent	相对提升
Overall	6 项指标平均	75.8	67.3	+8.5 pp
Preference-based	内容结构一致性	72.8	57.6	+15.2 pp
Aesthetic	视觉模板贴合	98.0	97.2	+0.8 pp
Content	信息准确丰富度	67.6	58.4	+9.2 pp

无一项基线 Overall 超过 80%，说明任务本身难度高；SlideTailor 在偏好对齐与通用质量双维度均领先。

3 人类评测

4 名 AI 方向研究生独立完成 15 组双盲对比（vs PPTAgent），共 60 份评分。
81.63 % 的案例人类更偏好 SlideTailor；平均 Pearson 相关 0.64，与自动指标趋势一致。

4 消融实验（30 样本子集）

变体	Overall ↓	关键指标下降
去掉内容偏好蒸馏	68.6 (-5.7)	Coverage -9.0 pp，Flow -11.5 pp
去掉 Chain-of-Speech	69.9 (-4.3)	Content 质量 -19.3 pp

验证：1) 隐式内容偏好建模是“对齐”核心；2) 演讲稿同步规划显著提升信息清晰度。

5 成本分析

平均 10 页 deck 成本：
GPT-4.1 版：$0.665
Qwen 开源版：$0.016（≈ 1/40）

6 定性可视化

官网附大量逐页对照图：
SlideTailor 能复刻样例的章节顺序、图-表插入节奏、模板配色与字体；
基线常出现“模板留白、占位符未替换、图像缺失、生成无关图”等问题。

结论

实验覆盖自动指标-人类主观-组件消融-成本-可视化全链路，一致表明 SlideTailor 在偏好对齐与通用幻灯片质量上均优于现有最强基线，且可低成本迁移至开源模型。

Q: 有什么可以进一步探索的点？

领域泛化：当前 PSP 仅覆盖科研论文，可向商业报告、教材、广告等多元文档类型扩展，构建多领域偏好数据集。
端到端训练：框架现为零样本推理，若收集大规模“论文-幻灯片-模板”三元组，可探索偏好引导的多模态预训练，提升蒸馏与生成一致性。
细粒度偏好解耦：内容/美学仍可能残余耦合，可引入对比或解耦表征学习，实现“内容结构⇄视觉风格”任意组合插值。
交互式修正：支持用户在幻灯片草稿上实时微调（增删模块、换母版），系统即时迭代，形成“人机协同”闭环。
多模态评估协议：MLLM 评委存在自偏置与视觉细粒度缺失，可研究“跨模型评审+人类校准”的混合评估体系，或引入专用视觉-排版评测模型。
演讲级韵律优化：Chain-of-Speech 仅生成文本，可进一步建模语速、停顿、重读，结合情感 TTS 与手势生成，实现更具表现力的虚拟讲者。
多语言与跨文化适应：探索同一学术内容在不同语言/文化语境下的叙事节奏与视觉审美差异，实现本地化演示自动生成。

Q: 总结一下论文的主要内容

SlideTailor 提出“偏好引导的论文→幻灯片生成”新任务，解决现有方法忽视用户个性化内容结构与视觉风格的问题。
核心贡献：

任务与形式化：仅需“论文-幻灯片样例对 + .pptx 模板”即可隐式编码内容与美学偏好，无需冗长文本提示。
框架：三阶段渐进式智能体

隐式偏好蒸馏 → 符号化内容 & 美学模式
偏好引导规划 → 重组论文、Chain-of-Speech 同步演讲稿、逐页模板匹配
模板代码编辑 → 输出可编辑 .pptx

基准与指标：发布 10 万种组合的 PSP 数据集，设计 6 项可解释自动指标（偏好对齐 + 通用质量）。
实验：自动评测、人类评估、消融、成本分析一致表明，SlideTailor 在偏好对齐与幻灯片质量上显著优于最强基线，且可低成本迁移至开源模型。
下游：自带演讲稿可直接驱动声音克隆与说话头像，一键生成个性化视频演示。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Wenzheng Zeng,Mingyu Ouyang,Langyuan Cui,Hwee Tou Ng

Categories: cs.CL,cs.AI,cs.MM

PDF URL: https://arxiv.org/pdf/2512.20292.pdf

Arxiv URL: https://arxiv.org/abs/2512.20292

Arxiv ID: 2512.20292

CoolPaper URL: https://papers.cool/arxiv/2512.20292

Published: 2025-12-23T12:01:18Z

Updated: 2025-12-23T12:01:18.000Z

13. A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication

This paper presents a new state-of-the-art algorithm for exact $3\times3$ matrix multiplication over general non-commutative rings, achieving a rank-23 scheme with only 58 scalar additions. This improves the previous best additive complexity of 60 additions without a change of basis. The result was discovered through an automated search combining ternary-restricted flip-graph exploration with greedy intersection reduction for common subexpression elimination. The resulting scheme uses only coefficients from ${-1, 0, 1}$, ensuring both efficiency and portability across arbitrary fields. The total scalar operation count is reduced from 83 to 81.

中文摘要

本文提出了一种用于一般非交换环的精确 $3\times3$ 矩阵乘法的新型最先进算法，实现了一个秩为23的方案，仅需58次标量加法。这比之前在不改变基的情况下的最佳加法复杂度60次有所改进。该结果是通过自动搜索发现的，该搜索结合了受限三进制翻转图探索与贪婪交点减少以消除公共子表达式。所得方案仅使用来自 ${-1, 0, 1}$ 的系数，从而确保在任意域中均具有效率和可移植性。总标量操作次数从83减少到81。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在降低 3×3 矩阵乘法在精确（非交换）环上的加法复杂度。具体目标可归纳为：

保持秩 23（当前已知最低乘法次数 23 不变）；
不引入基变换（保证算法在任何域/环上直接可用）；
将标量加法次数从 60 降至 58，刷新无基变换方案的最小加法记录；
仅用系数 {−1, 0, 1}，确保跨平台、跨域的可移植性与硬件友好性；
总标量运算量（乘法+加法）从 83 降到 81，提升实际软件实现效率。

Q: 有哪些相关研究？

以下研究与本论文直接相关，按时间顺序与贡献维度归类：

Strassen (1969)
首次提出通用矩阵乘法次立方算法，奠定快速乘法研究范式。
Laderman (1976)
给出 3×3 秩-23 方案，加法次数 98，为后续“低加法”改进提供基准。
Brent (1970)
提出 Brent 方程组，成为验证任意 (U,V,W) 方案正确性的代数框架。
Schwartz & Vaknin (2023)
引入“可变基”技巧，将 3×3 加法次数降至 61，但需基变换，限制通用性。
Mårtensson & Wagner (2025)
通过组合优化把加法减到 62，仍无需基变换，逼近当时最优。
Stapleton (2025)
刷新无基变换记录至 60 加法，成为本文直接超越的对象。
Kauers & Moosbauer (2023)
提出 flip-graph 框架，用局部翻转在等秩方案空间随机游走，为本文搜索策略奠基。
Moosbauer & Poole (2025)
在 flip-graph 中引入对称剪枝，加速新方案发现，启发本文“三值限制”思路。
Arai et al. (2024)
设计自适应 flip-graph 算法，动态调整邻域结构，为本文“plus 算子”提供灵感。
Perminov (2025)
“Fast matrix multiplication via ternary meta flip graphs” 首次把系数锁在 {−1,0,1} 直接搜索，避免 Z₂→Z 提升。
“Parallel heuristic exploration for additive complexity reduction” 提出贪心交集削减（Greedy-Intersections）策略，被本文完整集成。

Q: 论文如何解决这个问题？

论文将“在保持秩 23 且不做基变换的前提下，把 3×3 矩阵乘法的加法次数降到 58”形式化为一个带约束的组合优化问题，并设计了一套三阶段迭代搜索流程予以解决。核心思路与实施步骤如下：

搜索空间限定

仅允许系数取自 {−1,0,1}，直接跨越任意环/域，无需“Z₂ 提升”步骤。
固定乘法次数 r=23，把变量维度锁定在 (U,V,W)∈{−1,0,1}^{23×3×3}。

状态转移机制

flip 算子：在 Brent 方程保持成立的条件下，局部翻转张量元素，实现“等秩邻域”游走。
plus 算子：当 flip 无法继续或随机概率触发时，临时把秩加 1，扩大逃逸空间，后续再通过 flip 压回 23。

加法复杂度削减

每当获得一个秩 23 候选，立即执行贪心交集削减（Greedy-Intersections CSE）：
– 枚举所有形如 xi±xj 的公共子表达式；
– 用启发式评分函数挑选“最大收益”子式，替换为全新辅助变量；
– 迭代至无可再减，得到当前方案的最小加法数。

三阶段循环架构

1
2
3

Phase 1: flip → 目标秩 23
Phase 2: 贪心 CSE → 最小化加法
Phase 3: 随机 flip/plus → 扰动跳出局部极小

循环手动终止，全程在普通笔记本 CPU 上运行约 30 分钟即产出 58-addition 方案。

正确性验证

符号级：把 20 个辅助变量回代，重构 U,V,W 并代入 Brent 方程，恒等式成立。
数值级：10 000 组随机整数矩阵对比，结果与朴素乘法逐元素一致。

通过“三值限制 flip-graph + 贪心公共子式消除”这一组合，论文首次把无基变换的秩-23 方案加法复杂度降到 58，并保证总运算量 81 为当前最低。

Q: 论文做了哪些实验？

论文仅执行验证性实验，旨在证明新方案“秩-23、58 加法”在任意环/域上的正确性与可重复性，而非与传统算法做性能对比。具体实验内容如下：

符号验证

将 20 个引入的辅助变量（u1–u4, v1–v8, w1–w8）全部回代至原始线性形式；
重构三维系数张量 U,V,W∈{−1,0,1}^{23×3×3}；
代入 Brent 方程组，确认 81 条等式恒成立，从而保证对任意 3×3 矩阵精确成立。

数值验证

在 Python 中实现 Listing 1 脚本，随机生成 10 000 对 3×3 整数矩阵（元素范围
−100,100
）；
分别用新方案与 NumPy 原生乘法计算 C=AB；
使用 np.array_equal 逐元素比对，全部通过，无误差。

开销测量

记录搜索全程耗时：约 30 分钟，运行于 Intel Core i7-9750H 笔记本，未动用 GPU 或集群；
统计最终方案运算量：23 次乘法 + 58 次加法（34 加 + 24 减）= 81 次标量操作，较前任 60-加法方案减少 2 次加法、总操作量从 83 降至 81。

实验结论：

符号与数值双重验证均通过，说明 58-加法方案在任意域上正确；
搜索过程对普通硬件友好，无需高性能计算即可复现；
加法次数与总操作量均刷新无基变换秩-23 方案的最优记录。

Q: 有什么可以进一步探索的点？

加法复杂度下界
建立秩-23 场景的理论下界，判断 58 是否为最优或仍可压缩。
更大/更小格式的推广
将“三值限制 flip-graph + 贪心 CSE”框架应用于 2×2、4×4、5×5 等格式，寻找更低加法或更低秩方案。
多线程/分布式搜索
在 GPU 或集群上实现并行 flip-graph 游走，扩大搜索宽度与深度，可能发现更低加法或新秩记录。
机器学习辅助探索
用强化学习或神经启发式策略预测高评分 flip/plus 操作，减少随机游走步数，加速收敛。
硬件级验证与调优
把 58-加法方案集成到 BLAS、CUTLASS 等生产库，实测在 x86/ARM/AVX-512/GPU 上的吞吐与能效，并与 60-加法方案对比。
能量模型驱动的 CSE
在贪心公共子式消除阶段引入能耗或延迟代价模型，优先削减“贵”操作，而不仅计数加法。
符号重写与自动证明
开发符号代数工具，自动验证并简化任意新方案，避免手工回代 Brent 方程。
可变基与混合基研究
放松“无基变换”约束，探索允许轻微基变换时能否突破 58 加法，或进一步降低乘法次数。
容错/近似扩展
研究在允许数值误差 ε 的近似乘法场景下，能否用更少加法或更低秩逼近 3×3 乘积。

Q: 总结一下论文的主要内容

论文核心贡献
提出迄今加法最少的无基变换 3×3 精确矩阵乘法方案：

乘法次数 23（已知最低秩）
标量加法 58（34 加 + 24 减），刷新前任 60 记录
总运算量 81，较 83 再降 2
系数仅 {−1,0,1}，跨域通用

方法框架

三值限制 flip-graph：在 {−1,0,1} 空间随机翻转，plus 算子逃逸局部极小，持续压回秩 23
贪心交集削减：每得候选即做 CSE，迭代提取公共子式 xi±xj，直至加法最小
三阶段循环：flip→秩 23 → 贪心减加法 → 随机扰动，笔记本 CPU 30 分钟搜得方案

验证

符号回代重构 U,V,W，Brent 方程恒成立
10 000 组随机整数矩阵与 NumPy 结果逐元素一致

意义与展望
首次把无基变换秩-23 加法降到 58，为 BLAS 等底层库提供即插即用的新基元；框架可拓展至其他尺寸，并启发进一步理论下界与硬件实测研究。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: A. I. Perminov

Categories: cs.DS

PDF URL: https://arxiv.org/pdf/2512.21980.pdf

Arxiv URL: https://arxiv.org/abs/2512.21980

Arxiv ID: 2512.21980

CoolPaper URL: https://papers.cool/arxiv/2512.21980

Published: 2025-12-26T10:58:54Z

Updated: 2025-12-26T10:58:54.000Z

14. Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards

Large reasoning models (LRMs) are typically trained using reinforcement learning with verifiable reward (RLVR) to enhance their reasoning abilities. In this paradigm, policies are updated using both positive and negative self-generated rollouts, which correspond to distinct sample polarities. In this paper, we provide a systematic investigation into how these sample polarities affect RLVR training dynamics and behaviors. We find that positive samples sharpen existing correct reasoning patterns, while negative samples encourage exploration of new reasoning paths. We further explore how adjusting the advantage values of positive and negative samples at both the sample level and the token level affects RLVR training. Based on these insights, we propose an Adaptive and Asymmetric token-level Advantage shaping method for Policy Optimization, namely A3PO, that more precisely allocates advantage signals to key tokens across different polarities. Experiments across five reasoning benchmarks demonstrate the effectiveness of our approach.

中文摘要

大型推理模型（LRMs）通常使用可验证奖励的强化学习（RLVR）进行训练，以增强其推理能力。在这种范式下，策略通过使用正向和负向自生成回滚进行更新，这些回滚对应不同的样本极性。本文对这些样本极性如何影响 RLVR 的训练动态和行为进行了系统的研究。我们发现，正向样本会强化现有的正确推理模式，而负向样本则鼓励探索新的推理路径。我们进一步探讨了在样本级别和令牌级别调整正负样本的优势值如何影响 RLVR 训练。基于这些洞察，我们提出了一种用于策略优化的自适应与非对称令牌级优势塑形方法，即 A3PO，它能够在不同极性下更精准地将优势信号分配给关键令牌。在五个推理基准上的实验表明了我们方法的有效性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

论文旨在系统回答“在可验证奖励强化学习（RLVR）中，正、负样本各自扮演何种角色”这一核心问题，并据此提出一种更精细的优势分配方法，以提升大推理模型（LRMs）的推理能力。具体可归纳为三点：

揭示样本极性对训练动态的影响

正样本强化（PSR）会快速降低策略熵、缩短输出长度，使模型“锐化”已有正确路径，但易过拟合、损失探索。
负样本强化（NSR）维持高熵、延长响应，鼓励“发现”新路径，却导致训练奖励上升缓慢，甚至因训练-推理概率差异过大而崩溃。

量化不同粒度下优势塑形的作用

样本级：单纯放大正样本优势可加速奖励提升但压缩多样性；放大负样本优势则相反。最优相对比例约为 0.5（正:负）。
词元级：
– 对正样本，低概率词元放大优势可保持探索，高概率词元放大优势则加速熵减。
– 对负样本，高概率词元放大优势可抑制确定性、提升熵，低概率词元放大优势反而加速熵减。

提出自适应非对称词元级优势塑形方法 A3PO
动态地给“正样本中的低概率词元”和“负样本中的高概率词元”额外优势权重，并随训练逐步衰减，兼顾早期探索与后期稳定。在 3 个基座模型、5 个推理基准上显著优于 GRPO、DAPO 等现有 RLVR 算法。

Q: 有哪些相关研究？

论文围绕“可验证奖励强化学习（RLVR）”与“样本极性”两条主线展开，相关研究可划分为以下四类：

RLVR 框架与算法

GRPO（Group Relative Policy Optimization）
DeepSeek-AI et al., 2025。首个无需价值网络、利用组内相对优势训练长链思维的代表算法。
DAPO（Decoupled Adaptive Policy Optimization）
Yu et al., 2025。在 GRPO 基础上引入“clip-higher”防止熵塌、动态过滤零方差 prompt、取消 KL 惩罚，实现大规模开源 RLVR 系统。
VAPO / TreePO / GPO
Yue et al., 2025b；Li et al., 2025；Zheng et al., 2025。分别通过价值重标、启发式树建模、组序列级优化进一步改进优势估计与采样效率。

样本极性利用与重加权

Zhu et al., 2025（W-REINFORCE）
首次将 RLVR 目标解耦为正、负样本两项，提出给负样本更高权重以提升 Pass@k。
ASPO（Asymmetric Importance Sampling Policy Optimization）
Wang et al., 2025a。在重要性采样阶段对正负样本采用非对称裁剪，缓解分布偏移。
BAPO（Balanced Adaptive Policy Optimization）
Xi et al., 2025。通过自适应裁剪强度平衡正负样本梯度，稳定 off-policy 训练。

词元级优势塑形与熵/概率干预

Fork Tokens
Wang et al., 2025b。仅对高熵“分叉”词元计算梯度，维持探索。
Lp-Reg
Huang et al., 2025。对低概率词元施加正则化，防止有用稀有 token 被抑制。
Entropy-Change Perspective
Hao et al., 2025。从熵变化角度解释 RLVR 不稳定现象，提出动态熵约束。

训练-推理不一致与探索塌陷

训练-推理概率差异（Rollout Prob Diff）
本文附录 G 首次量化指出负样本加权会放大该差异，导致崩溃；同期 Hao et al., 2025 亦观察到熵塌与分布偏移的相关性。

Q: 论文如何解决这个问题？

论文采用“先分析、后干预”的两段式路线，逐步解决“如何合理利用正负样本极性”的问题。

系统分析阶段

单极性训练对比
在三个基座模型上分别执行“仅正样本强化（PSR）”与“仅负样本强化（NSR）”，量化观测熵、响应长度、训练/验证奖励、n-gram 重复度等指标，得出：
– 正样本 → 熵减 + 输出缩短 + 已有正确路径“锐化”（sharpen）。
– 负样本 → 熵维持 + 输出增长 + 新路径“发现”（discovery）。
粒度消融
– 样本级：连续缩放正负样本整体优势，发现相对比例而非绝对值决定训练动态，最优正:负≈0.5。
– 词元级：按熵或概率对 20% 极端词元再加权，验证“正低概率、负高概率”两类词元对维持探索最关键。

干预设计阶段——A3PO
基于上述结论，提出 Adaptive and Asymmetric token-level Advantage shaping for Policy Optimization（A3PO），核心公式：

A_t = A_t · max(rho^+ - α^+ s,; 1), & A_t>0 ;land; p_t le τ^+_o [4pt] A_t · max(rho^- - α^- s,; 1), & A_t<0 ;land; p_t ge τ^-_o [4pt] A_t, & else

非对称：仅对“正样本中概率最低的 20% 词元”与“负样本中概率最高的 20% 词元”额外加权。
自适应：随训练步数 s 线性衰减额外权重，最终回归标准优势，避免训练-推理概率差异持续放大。
即插即用：直接替换 DAPO 中的 A_t ，保持其余 RLVR 流程（组采样、clip-higher、无 KL）不变。

验证结果
在 Qwen2.5-7B-Math、Qwen3-8B-Base、DeepSeek-R1-Distill-Qwen-7B 上，A3PO 相对 DAPO 平均提升 2.1–4.6 个百分点，在五类推理基准（AIME24/25、MATH500、GPQA、LiveCodeBench）均取得新高，且熵与响应长度更平稳，验证集泛化性能显著优于现有样本级或词元级重加权方法。

Q: 论文做了哪些实验？

论文围绕“样本极性”与“优势塑形”两条主线，共设计并执行了 5 组系统性实验。所有实验均在 16×H200 GPU 集群上完成，训练 300 step，batch=512，temperature=1，采样 8 条 rollout/题。评估采用 32 次重复解码取平均，覆盖 5 个推理基准（AIME24、AIME25、MATH500、GPQA、LiveCodeBench）。

单极性训练对照
模型：Qwen2.5-7B-Math、Qwen3-8B-Base、DeepSeek-R1-Distill-Qwen-7B
条件：仅正样本强化（PSR）、仅负样本强化（NSR）、标准 DAPO（正负混合）
观测：熵、响应长度、训练 reward、验证 Avg@32/Pass@32、n-gram Sharpen/Discovery 比例
结论：PSR 熵降+输出缩短+锐化；NSR 熵稳+输出增长+发现；单极性均导致性能下降或崩溃。
样本级优势塑形（Polarity-level AS）
模型：Qwen2.5-7B-Math
条件：固定负样本权重=1，正样本权重∈{0.2,0.5,1,2,5}；反之固定正样本权重=1，负样本权重∈{0.2,0.5,1,2,5}
观测：训练/验证 reward、熵、长度
结论：相对比例决定动态，正:负≈0.5 时验证集最优；过高正权重过拟合，过高负权重训练-推理差异放大。
词元级优势塑形（Token-level AS）
3a 熵基线：按 token 熵值高低各选 20%，缩放系数{0.2,1,5}
3b 概率基线：按 token 概率高低各选 20%，缩放系数{0.2,1,5}
模型：Qwen2.5-7B-Math
观测：同上
结论：
– 正样本：低概率或高熵 token 加权→维持/提升熵；高概率或低熵 token 加权→加速熵减。
– 负样本：高概率 token 加权→抑制确定性、提升熵；低概率 token 加权→反而熵减。
方法主实验：A3PO vs 基线
基线：GRPO、DAPO、W-REINFORCE（样本级）、DAPO w/ Fork Tokens、Lp-Reg
模型：同上三款 LLM
指标：五基准平均准确率、训练曲线（reward、熵、长度）、验证 Avg@32
结果：A3PO 在三款模型上分别较最强基线提升 2.7、3.1、2.5 pp，且熵与长度更平稳。
消融与超参实验

消融：去掉正低概率加权、去掉负高概率加权、去掉自适应衰减，验证三组件缺一不可。
比例灵敏度：token 塑形比例 5%/10%/20%/50%，20% 综合最优。
初始缩放 ρ 与衰减 α 扫描：ρ=2、α=0.005 时性能峰值。
训练-推理差异监测：负样本加权越大，训练-推理概率差距越大，A3PO 的自适应衰减可有效收敛该差距。

Q: 有什么可以进一步探索的点？

以下方向可视为对本文结论的直接延伸或补充，均具有理论与应用价值：

跨模态扩展

将 A3PO 的正负样本极性分析迁移至视觉-语言推理（几何题图解、科学图表 QA）或音频-文本任务，验证“锐化-发现”规律是否仍然成立。
研究图像 token 与文本 token 在极性上的异构优势分配策略。

多步可验证任务

在代码搜索、工具调用、机器人规划等“多步-多检查点”场景下，定义中间可验证奖励，考察正负样本对长程信用分配的影响。
探索基于子目标极性的分段优势塑形（Segment-level AS）。

动态极性标注

当前仅用最终答案对错划分正负。可引入过程奖励模型（PRM）或蒙特卡洛 rollout，对“部分正确”轨迹赋予连续极性标签，设计连续化 A3PO。
研究极性标签噪声对 A3PO 衰减策略的鲁棒性。

训练-推理差异的机理与抑制

建立概率差异的理论上界，证明自适应衰减速率 α 的最优性条件。
引入同步蒸馏（on-policy distillation）或滚动重采样，实时缩小训练-推理分布差距。

极性敏感的课程学习

根据模型当前熵或验证性能，动态调整正负样本采样比例与 A3PO 超参，形成“课程式 RLVR”。
探索从 NSR 主导到 PSR 主导的自动相位切换策略。

多模型协同极性

在自我对弈或群体强化设置中，利用对手模型的正负样本作为额外极性来源，研究跨模型优势迁移。
考察 A3PO 在联邦 RLVR（多客户端本地正负样本）下的收敛性与通信效率。

计算-性能权衡

对 A3PO 的 token 级掩码与额外矩阵运算进行 GPU 内核融合优化，量化其在大规模集群下的训练吞吐变化。
探索低秩优势塑形（LoRA-AS），仅对 Adapter 参数应用极性加权，减少显存占用。

理论深化

在简化 MDP 或 Bandit 设定下，给出正负样本优势比与策略熵的解析关系，证明“相对比例决定收敛速度”的渐近界。
研究 A3PO 的非对称加权对策略梯度方差的影响，推导最优衰减系数 α 的闭式解。

与人类反馈结合

将 A3PO 的正负极性思想迁移至 RLHF 场景，考察“正-负偏好对”在 token 级优势塑形中的作用，缓解过度迎合或过度拒绝现象。

自动化超参搜索

使用元学习或演化算法，对 ρ+, ρ−, α+, α− 进行任务自适应搜索，形成“无手调”版 A3PO。

Q: 总结一下论文的主要内容

论文核心内容可概括为“一项系统分析 + 一项方法改进 + 一套实验验证”：

系统分析：正负样本在 RLVR 中的对立统一

正样本→熵减、输出缩短、强化已有正确路径（sharpen）。
负样本→熵稳、输出增长、探索新路径（discovery）。
仅用任一极性均导致性能退化或崩溃；二者比例决定训练动态。

方法改进：A3PO
基于“正低概率、负高概率”两类关键词元，提出自适应非对称词元级优势塑形：

A_t = A_t · max(rho^+ – α^+ s,; 1), & A_t>0 land p_tleτ^+_o A_t · max(rho^- – α^- s,; 1), & A_t<0 land p_tgeτ^-_o A_t, & else

权重随训练步 s 线性衰减，兼顾早期探索与后期稳定。

实验验证

3 款基座模型 × 5 个推理基准 → A3PO 平均提升 2.5–4.6 pp，优于 GRPO、DAPO 及现有样本级/词元级重加权方法。
熵与响应长度更平稳，验证集泛化显著增强；消融与超参扫描证明三组件缺一不可。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Xinyu Tang,Yuliang Zhan,Zhixun Li,Wayne Xin Zhao,Zhenduo Zhang,Zujie Wen,Zhiqiang Zhang,Jun Zhou

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2512.21625.pdf

Arxiv URL: https://arxiv.org/abs/2512.21625

Arxiv ID: 2512.21625

CoolPaper URL: https://papers.cool/arxiv/2512.21625

Published: 2025-12-25T11:15:46Z

Updated: 2025-12-25T11:15:46.000Z

HuggingFace Papers 2025-12-30

Latest Papers

1. InsertAnywhere: Bridging 4D Scene Geometry and Diffusion Models for Realistic Video Object Insertion

2. Mindscape-Aware Retrieval Augmented Generation for Improved Long Context Understanding

3. MAI-UI Technical Report: Real-World Centric Foundation GUI Agents

4. UniPercept: Towards Unified Perceptual-Level Image Understanding across Aesthetics, Quality, Structure, and Texture

5. ProEdit: Inversion-based Editing From Prompts Done Right

6. TimeBill: Time-Budgeted Inference for Large Language Models

7. See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

8. Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding

9. InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

10. SWE-RM: Execution-free Feedback For Software Engineering Agents

11. SVBench: Evaluation of Video Generation Models on Social Reasoning

12. SlideTailor: Personalized Presentation Slide Generation for Scientific Papers

13. A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication

14. Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards