数据来源:HuggingFace Papers

Latest Papers

1. T-pro 2.0: An Efficient Russian Hybrid-Reasoning Model and Playground

We introduce T-pro 2.0, an open-weight Russian LLM for hybrid reasoning and efficient inference. The model supports direct answering and reasoning-trace generation, using a Cyrillic-dense tokenizer and an adapted EAGLE speculative-decoding pipeline to reduce latency. To enable reproducible and extensible research, we release the model weights, the T-Wix 500k instruction corpus, the T-Math reasoning benchmark, and the EAGLE weights on Hugging Face. These resources allow users to study Russian-language reasoning and to extend or adapt both the model and the inference pipeline. A public web demo exposes reasoning and non-reasoning modes and illustrates the speedups achieved by our inference stack across domains. T-pro 2.0 thus serves as an accessible open system for building and evaluating efficient, practical Russian LLM applications.

中文摘要

我们推出了 T-pro 2.0,这是一款用于混合推理和高效推理的开源权重俄罗斯大型语言模型(LLM)。该模型支持直接回答和推理轨迹生成,采用以西里尔字母为主的分词器和改进的 EAGLE 预测解码流程,以降低延迟。为了实现可复现和可扩展的研究,我们发布了模型权重、T-Wix 50 万条指令语料库、T-Math 推理基准测试以及 Hugging Face 上的 EAGLE 权重。这些资源允许用户研究俄语推理,并扩展或适配模型和推理流程。一个公开的网页演示展示了推理模式和非推理模式,并说明了我们的推理堆栈在各领域实现的速度提升。因此,T-pro 2.0 成为一个便捷的开放系统,用于构建和评估高效、实用的俄罗斯大型语言模型应用。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在填补俄语开源大模型生态的空白,具体聚焦以下四个核心问题:

  1. 俄语推理模型缺失
    现有开源俄语模型多为对多语模型的轻量级适配,缺乏针对多步推理任务的系统训练与公开评测基准。

  2. 推理效率瓶颈
    俄语在通用多语 tokenizer 下被严重欠切分,导致推理时 token 序列过长、延迟高;同时,投机解码等加速技术尚未在俄语场景公开落地。

  3. 高质量数据稀缺
    公开俄语指令数据规模小、推理痕迹稀少,难以支撑大规模监督微调与偏好优化。

  4. 可复现性与可扩展性不足
    既无统一的开源权重,也无配套推理框架与交互式演示,研究者难以对俄语推理能力进行透明评估与二次开发。

为此,作者提出 T-pro 2.0:一套包含

  • 开源俄语混合推理模型
  • 50 万样本俄语推理指令集 T-Wix
  • 奥林匹克数学评测集 T-Math
  • 适配俄语的 EAGLE 投机解码流水线
  • 在线可交互 demo
    的完整生态系统,实现俄语高效推理与可复现研究。

Q: 有哪些相关研究?

论文在“2 Related Work”与附录中系统回顾了四类相关研究,可归纳如下:

  1. 俄语大模型
  • 早期单语预训练:ruGPT 系列(Kuratov & Arkhipov, 2019;Zmitrovich et al., 2023)
  • 商业闭源系统:YandexGPT-5、GigaChat(Mamedov et al., 2025)
  • 开源继续预训练:T-pro 1.0、Saiga、RuAdapt、Vikhr(Nikolich et al., 2024;Tikhomirov & Chernyshev, 2024)
  1. 俄语指令数据集
  • 自指令/翻译混合:ru_turbo_saiga、GrandMaster-PROMAX、RuAdapt
  • 共同局限:规模小、推理任务稀缺
  1. 高效推理与投机解码
  • 经典投机解码:Leviathan et al., 2023
  • EAGLE 系列(Li et al., 2024d,e, 2025)
  • 多 token 预测 MTP:Gloeckle et al., 2024;DeepSeek-V3(DeepSeek-AI et al., 2025b)
  • 俄语公开部署:此前空白
  1. 奖励模型与偏好学习
  • Bradley-Terry 回归奖励模型(Bradley & Terry, 1952)
  • 淘汰赛采样减少标注量:Liu et al., 2025b
  • DPO 对齐:Rafailov et al., 2024;Im & Li, 2025 理论分析
  1. 评测基准
  • 俄语综合评测:MERA、MaMuRAMu、ruMMLU-Pro
  • 数学/代码/对话:AIME、MATH-500、GPQA、LiveCodeBench、Arena-Hard
  • 俄语本地化版本由 T-Tech 团队同期发布,构成 T-Math 之外的对照基准

Q: 论文如何解决这个问题?

论文通过“模型-数据-解码-评测”四位一体方案系统解决前述问题,核心步骤如下:

  1. 重新设计俄语稠密 tokenizer
  • 以 Qwen3 32 k 词表为基底,用迭代合并算法替换 34 k 低频非西里尔 token → 新增西里尔单元
  • 俄语维基每词平均 token 数从 3.12 降至 2.38;≤2-token 词占比由 38 % 提至 60 %
  • 保持总词表大小不变,英语 tokenization 不受影响
  1. 指令式 midtraining(40 B token)
  • 仅使用“指令-回答”格式数据,避免继续预训练带来的分布漂移
  • 数据配比:俄语 49 %、英语 36 %、代码 9 %、平行语料 5 %;推理任务占 34.6 %
  • 用 Qwen3-235B-A22B 教师重生成所有回答,保证风格一致
  • 8 B 小模型消融:新 tokenizer MERA 宏观分 0.574 → 优于原版 0.560,验证 tokenizer 切换无损性能
  1. 高质量混合 SFT 数据集 T-Wix 500 k
  • 通用部分:14 M → 468 k 样本,六域三难度平衡 + RM+IFD 过滤 + 8 选 1 拒绝采样
  • 推理部分:45 k 英文推理题 → 30 k 俄语样本,采用“区间近端发展”(ZPD) 原则:教师-学生 RM 均值差距适中者保留
  • 长上下文与平行语料补充,俄语 90 % / 英语 10 %
  1. 奖励模型与 on-policy DPO
  • 32 B Bradley-Terry RM,淘汰赛生成偏好对,减少 O(n²) 标注 → O(n log n)
  • 100 k 对偏好数据(90 k 通用 + 10 k 推理)做 DPO,β=0.5,直接优化模型自身分布
  1. EAGLE-2 投机解码插件
  • 1 层 Llama-2 草稿头 + FR-Spec 组件,联合训练隐藏状态 L1 与分布 KL 损失
  • 部署在 SGLang,动态树验证;温度 0.8 下平均加速 1.85 ×,STEM 域达 1.99 ×
  1. 开源与可复现资产
  • 模型权重、EAGLE 草稿权重、T-Math 331 题奥林匹克评测集均以 Apache-2.0 发布
  • T-Wix 500 k 指令集以 ODC-By 发布
  • 提供 Streamlit 交互 demo,可并排对比推理/非推理模式,实时显示延迟、接受率等 telemetry

通过“稠密 tokenizer 降低序列长度 + 指令 midtraining 适配俄语 + 高质量推理数据 + 投机解码加速”组合,T-pro 2.0 在俄语知识、对话、数学推理基准上均取得开源 SOTA,同时英语性能无损,实现高效、可复现的俄语混合推理系统。

Q: 论文做了哪些实验?

论文从俄语理解、对话、推理三条主线展开系统实验,并辅以加速效果、跨语言保持、消融与诊断四类补充实验,共覆盖20+ 基准、5 类模型规模、2 种解码模式。具体实验矩阵如下:

1 俄语理解能力

基准 指标 对比模型
MERA (16 子任务) macro-avg 开源 27–32 B 梯队 + YandexGPT5-Pro / GPT-4o
MaMuRAMu exact match 同上
ruMMLU-Pro (14 域) accuracy 同上

2 俄语对话能力

基准 指标 备注
Arena Hard Ru pairwise 胜率 (BoN) 人工 500 高难度俄语 prompt
WildChat Hard Ru 同上 原生俄语社交查询,o3-mini 做参考
Arena Hard 2 子集 HP / CW 英俄混合 prompt,DeepSeek-V3.1 当 judge

3 俄语推理能力

基准 题量 自动评测方式
T-Math (原创) 331 奥林匹克 math_verify 提取 boxed{}
ruAIME 2024 / 2025 各 30 avg@8
ruMATH-500 500 同上
ruGPQA Diamond 198 同上
ruLCB v4-v5 300 编程 pass@1
Vikhr-Math / Physics 200 / 150 Math-Verify

4 英语推理保持性

基准 结果定位
AIME 2024 / 2025 与 Qwen3-32B 差距 < 0.05
MATH-500 0.966 vs 0.961
GPQA Diamond 0.641 vs 0.668
LiveCodeBench 0.556 vs 0.546

5 投机解码加速实验

设置 观测指标
ruMT-Bench / ruAlpaca / ruCodeEval / T-Math 速度倍数 & 平均接受长度
ruMMLU-Pro 14 域 按域细分速度、接受长度、TPS
温度 0 / 0.8;reasoning / standard 双模式 同上

关键结果:温度 0.8 下平均 1.85 × 加速,STEM 域 1.99 ×;T-Math 最高 2.28 ×。

6 消融与诊断

实验目的 变量 结论
midtraining 数据配比 pre-train+instr vs instr-only 后者 ruAIME’24 ↑ 0.07
tokenizer 切换 Qwen3 vs T-pro MERA 0.560→0.574,无损伤
奖励模型消融 有无传递对 ∆BoN 从 13.18 → 22.21
长上下文 32 k 训练 → 128 k 推理 仅理论支持,未实测
在线 vs 离线偏好 on-policy DPO 100 k 对数据即收敛,无 RLHF

7 评测工具与可复现性

  • 公开 Arena-Hard-RU ∆BoN 评测脚本
  • 在线 demo 实时记录:生成 token 数、端到端延迟、流式 TPS、投机接受率
  • 所有评测代码与模型权重同步发布,支持一键复现 leaderboard 结果

综上,实验既覆盖传统静态 benchmark,也引入动态在线 Arena原创奥林匹克级 T-Math,并通过细粒度域别加速双语保持性验证,形成对俄语 LLM 性能与效率的全景评估。

Q: 有什么可以进一步探索的点?

以下方向可在此基础上继续深入,分为模型能力、数据与评测、推理效率、系统部署四大类,均直接对应论文已暴露的局限或尚未验证的区域:

1 模型能力

  • 工具使用与 Agent 行为
    当前未针对函数调用、多步工具交互做专门训练;可引入 Russian-ToolBench 或自建俄语 API 调用数据集,探索 LoRA/RL 微调对工具精调的影响。

  • 在线强化学习
    仅做离线 DPO;可尝试 PPO/GRPO 或 ReMax 等在线算法,利用真实用户反馈或滚动 RM 信号,观察对 out-of-domain 鲁棒性的提升。

  • 长上下文可靠评估
    理论支持 128 k,但缺乏 Needle-in-Haystack、Russian-Lost-in-Middle 等长程检索实验;可构建俄语版 ∞-Bench 或 Loogle-style 任务,验证 RoPE 缩放后的召回稳定性。

  • 多模态扩展
    T-pro 2.0 当前文本-only;将 Cyrillic-dense tokenizer 与 Qwen2.5-VL 结合,训练俄语图文混合推理模型,并构建 Russian-MMMath、GeoGeometry 等评测。

2 数据与评测

  • T-Math 饱和度与难度阶梯
    目前最佳系统 pass@1≈0.73;可继续收集 2010 前全俄奥赛、IMO Shortlist 俄文版,引入证明题(非数值答案),并采用 Lean4 形式化验证。

  • 俄语科学/法律/医学专业评测
    ruMMLU-Pro 仅到高中难度;可构建 Russian-GPQA-PhD、Russian-MedBench、Russian-JEEMain 等大学/执业级别题库,弥补高阶专业知识评估空白。

  • 安全性与偏见评测
    仅在后训练阶段做基础毒性过滤;需建立 Russian-SafetyBench、Russian-Fairness(性别、高加索/突厥/乌拉尔语族偏见)细粒度指标,量化模型在俄语语境下的伦理风险。

  • 低资源西里尔语言迁移
    tokenizer 在 ky/kk 上仍有 3.0+ tok/word;可收集哈萨克语、吉尔吉斯语中小学教材,继续扩充 tokenizer 并评估 zero-shot 跨语言推理表现。

3 推理效率

  • EAGLE-3 / MTP 混合
    论文用 EAGLE-2;可尝试 EAGLE-3 的“训练时提前规划”或 DeepSeek-V3 式 MTP 联合训练,把草稿头容量从 1 层提升到 2-3 层,观察>2.5× 加速可行性。

  • 草稿头量化与投机树压缩
    草稿头目前 bf16;可试 INT8/INT4 权重量化 + KV-cache 4-bit 压缩,评估在 H100→L40S 降级硬件上的延迟-质量 trade-off。

  • 动态温度-投机协同
    现在温度 0.8 统一设置;可研究 reasoning vs 非 reasoning 模式下温度-草稿树大小联合搜索,实现“高温多候选、低温深投机”的自适应策略。

  • MoE 稀疏化
    T-pro 为稠密 32 B;可继续预训练把 FFN 稀疏化为 32B-MoE-64E,对比稠密 vs 稀疏在相同推理预算下的俄语性能,验证参数-效率极限。

4 系统与部署

  • 边缘端推理
    当前 demo 部署在单 H100;可尝试
  1. INT4 + 投机解码移植至 RTX 4090 笔记本,
  2. 4-bit 草稿头 offload 到 CPU/NPU,
  3. 流式树验证改异步 CUDA Graph,测量 20 ms 级首 token 延迟。
  • 实时双语语音对话
    结合俄语 ASR(Whisper-Large-v3-ru)+ T-pro 2.0 + 俄语 TTS(Silero-RU),构建端到端语音推理助手,评测在 A100 上的 RTF<1 可行性。

  • 联邦/私有化场景
    针对俄语区企业数据合规需求,研究 LoRA/AdaLoRA 在本地 2×24 GB 显卡上的快速适配(<30 min)流程,并量化与全量微调差距。

5 研究方法论

  • tokenizer-性能因果分析
    引入因果中介分析框架,量化“tokenizer→序列长度→注意力熵→任务准确率”路径贡献,回答“压缩率提升多少可直接转化为推理分提升”这一可解释问题。

  • 偏好数据规模律
    固定 100 k DPO 对,缩放 50 k→400 k,观察俄语对话胜率 ∝ log(N_pairs) 是否成立,并与英文同类实验对比,验证语言资源规模律差异。

综上,从深度推理、长程上下文、多模态、在线 RL、低资源迁移、系统级加速到伦理评测,T-pro 2.0 已搭建的开放体系为后续研究提供了可扩展的基线与工具链。

Q: 总结一下论文的主要内容

T-pro 2.0:面向俄语的高效混合推理大模型与完整开源生态

1 核心目标

  • 解决俄语开源大模型“无推理、无加速、无基准、无演示”的四无困境
  • 不增参数的前提下,实现俄语多步推理与实时交互的双重需求

2 技术路线(四步闭环)

步骤 关键动作 量化收益
① tokenizer 重设计 用西里尔稠密单元替换 34 k 低频符号 俄语维基 tok/word 3.12→2.38;≤2-token 词占比 38 %→60 %
② 指令式 midtraining 40 B token 纯指令数据,教师重写回答 ruAIME’24 得分 0.60→0.67;tokenizer 切换 MERA 不降反升
③ 高质量 SFT + DPO T-Wix 500 k(通用 468 k + 推理 30 k)→RM 8 选 1→on-policy DPO 100 k 模型俄语对话胜率超越 GPT-4o;T-Math 0.541 领先同规模开源
④ EAGLE-2 投机解码 1 层草稿头 + 动态树验证 温度 0.8 平均 1.85 × 加速,STEM 域 1.99 ×;推理/非推理模式均受益

3 开源资产(Apache-2.0 / ODC-By)

  • T-pro 2.0 32 B 权重 + EAGLE 草稿头
  • T-Wix 500 k 俄语指令-推理双语数据集
  • T-Math 331 题奥林匹克数学评测(自动验证数值答案)
  • 在线 demo 支持俄/英双语、reasoning/standard 双模式、实时 telemetry

4 主要结果

  • 俄语知识:MERA 0.660 ↑ 开源榜首;ruMMLU-Pro 0.697 ≈ GPT-4o(0.714)
  • 俄语对话:Arena Hard Ru 91.1 % 胜率;WildChat Hard Ru 72.6 % 胜率
  • 俄语推理:T-Math 0.541;ruAIME 2024 0.704;ruMATH-500 0.94
  • 英语保持:AIME 2024 0.765;MATH-500 0.966(与 Qwen3-32B 持平)
  • 推理延迟:在 H100 上单请求 20 concurrent 用户,首 token 延迟 < 200 ms,加速 1.85 ×

5 结论与启示

  • 针对性适配(tokenizer+数据+解码)即可在中等参数下获得单语推理 SOTA,无需从头预训练
  • tokenizer 与推理效率是非英语模型不可忽视的核心变量
  • 发布的模型-数据-评测-演示四位一体平台,为俄语及低资源西里尔语言研究提供可复现基线

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Dmitrii Stoianov,Danil Taranets,Olga Tsymboi,Ramil Latypov,Almaz Dautov,Vladislav Kruglikov,Nikita Surkov,German Abramov,Pavel Gein,Dmitry Abulkhanov,Mikhail Gashkov,Viktor Zelenkovskiy,Artem Batalov,Aleksandr Medvedev,Anatolii Potapov

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2512.10430.pdf

Arxiv URL: https://arxiv.org/abs/2512.10430

Arxiv ID: 2512.10430

CoolPaper URL: https://papers.cool/arxiv/2512.10430

Published: 2025-12-11T08:40:10Z

Updated: 2025-12-11T08:40:10.000Z


2. Long-horizon Reasoning Agent for Olympiad-Level Mathematical Problem Solving

Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the \textbf{O}utcome-based \textbf{P}rocess \textbf{V}erifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV’s superior performance and broad applicability. It achieves new state-of-the-art results on our held-out \textsc{\thisbench}, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2\% to 73.3\% on AIME2025 as the compute budget scales.

中文摘要

大型语言模型(LLMs)通过可验证奖励强化学习(RLVR)在解决复杂推理任务方面取得了显著进展。这一进步也与可靠验证者自动化的监管密不可分。然而,当前基于结果的验证者(OV)无法检查长推理链(CoT)中不可靠的中间步骤。与此同时,当前基于过程的验证器(PV)在复杂长CoT中难以可靠检测错误,这受限于由于人工注释成本高昂,高质量注释稀缺。因此,我们提出基于 \textbf{O}utcome(OPV)的 \textbf{P}rocess \textbf{V}erifier(OPV),该方法验证了来自长 CoT 总结结果的合理性过程,实现了准确高效的验证并支持大规模注释。为赋能拟验证器,我们采用带有专家注释的迭代主动学习框架,逐步提升OPV的验证能力,同时降低注释成本。具体来说,在每次迭代中,当前最佳OPV最不确定的情况会被注释,随后用来通过拒绝微调(RFT)和RLVR训练下一轮的新OPV。大量实验证明了OPV的优越性能和广泛的适用性。它在我们提供的 \textsc{\thisbench} 上取得了新的最先进成绩,表现优于更大型的开源模型,如 Qwen3-Max-Preview,F1 评分为 83.1,而 76.3。此外,OPV能有效检测合成数据集中的假阳性,与专家评估高度一致。与政策模型协作时,OPV持续带来性能提升,例如随着预算扩展,DeepSeek-R1-Distill-Qwen-32B在AIME2025上的准确率从55.2%提升至73.3%。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文针对的核心瓶颈是:现有大推理模型(LRM)的单轮上下文长度(64k–128k tokens)远远无法满足国际数学奥林匹克(IMO)等级别超难题所需的推理深度。随着问题难度指数级上升,所需“思考量”呈对数增长,已逼近硬件与成本极限。为此,作者提出Intern-S1-MO,一个不受上下文长度限制的长程推理智能体,通过多轮、分层、基于“引理记忆”的协作式推理,把单题可探索 token 预算扩展至约 512k,从而在 IMO-2025 非几何题上拿到 26/35 分,达到银牌线,并在 AIME-2025、HMMT-2025、CNMO-2025、CMO-2025 等基准上全面刷新 SOTA。

Q: 有哪些相关研究?

以下研究被论文明确引用或对比,可视为最直接的相关工作(按主题分组,不重复列举参考文献编号):

1. 单轮/树状推理增强

  • Chain-of-Thought & 长上下文:GPT-4-o3、Gemini-2.5-Pro、DeepSeek-R1、Qwen3-235B 等通过“给更多思考 token”或 RLVR 提升单轮推理长度,但仍受 64 k–128 k 上限约束。
  • Tree-of-Thoughts / MCTS:Yao et al. 2023;Zhang et al. REST-MCTS*;rStar2-Agent 等用树搜索或并行 rollout 拓宽搜索宽度,但缺乏跨轮记忆与逐轮递进。
  • Self-refine / Reflection:Huang & Yang 2025 在 Gemini-2.5-Pro 上用 prompt 让模型自我检查,仍是一次性生成内的迭代,不累积历史子结论。

2. 形式化证明与定理库

  • DeepSeek-Prover-V2、Seed-Prover、Lean-STaR 等把问题翻译成 Lean/Isabelle,通过形式化引理库降低上下文依赖,但面临翻译成本与搜索开销大、人机交互不直观的问题。

3. 工具集成与外部验证

  • ToRA、Math-Perturb、Satori-R1 让 LLM 调用 Python、Wolfram 等工具执行计算或画图,提升单步可靠性,但未解决“长链逻辑超出上下文”这一根本矛盾。

4. 强化学习用于数学推理

  • Outcome-Reward 系列:ARTIST、ToRL、ZeroTIR、SimpleRL 等仅用最终答案对错作稀疏奖励,可涌现工具使用或自我纠正,但无跨 episode 记忆与过程级监督。
  • Process-Reward/Verifier:Prover-Verifier Games、OPV、CompassVerifier 提供中间步骤信号,却大多针对短链推理或需要人工规则。
  • Test-time RL:TTRL 在推理阶段做在线策略更新,但仍是单 episode 内重试,不累积历史引理。

5. 多智能体与分层决策

  • MALT、Multi-Agent Reflection 探索多模型协作,然而侧重 prompt 级分工,没有系统化的“引理记忆+过程验证+分层 RL”训练管线。

综上,既有工作要么局限于单轮上下文,要么依赖形式系统或工具链,尚未出现可训练、可扩展、基于自然语言的多轮分层推理框架。Intern-S1-MO 通过“引理记忆 + 过程验证 + OREAL-H 分层强化学习”填补了这一空白。

Q: 论文如何解决这个问题?

论文把“上下文长度不够用”这一瓶颈转化为**“如何跨轮次、可验证地复用中间结论”**的问题,并给出三层耦合方案:

1. 系统架构:多智能体 + 引理记忆库

  • Reasoner
    每轮仅做“局部证明”:在 <64 k tokens 内输出若干可证明的子结论(lemmas),不强行给最终答案。
  • Summarizer
    即时蒸馏:把本轮推理中的冗余试错剔除,仅保留形式化陈述 + 严格证明的新 lemmas。
  • Theorem Verifier
    并行 4-shot 投票,为每条新 lemma 计算置信度;通过则写进全局引理库,失败即丢弃。
  • Process Verifier (OPV)
    最终轮对整份自然语言证明做 8-shot 评审,给出“第几步逻辑不严谨”的细粒度反馈,驱动迭代修订循环

结果:历史 lemmas 以紧凑文本形式持久化,后续轮次直接读取,推理深度≈轮次数 × 64 k,而显存只保持当前轮上下文。

2. 训练范式:OREAL-H 分层强化学习

将上述多轮流程形式化为分层 MDP

  • 高层策略 π^H_φ:决定“提取 lemma / 调用验证 / 提交答案”等 meta-action。
  • 低层策略 π^L_θ:在给定 lemma 库与问题描述下生成 token 序列。

2.1 冷启动

用过滤后的“单轮即能产出合格 lemma”轨迹做行为克隆,让模型先学会输出可验证的子结论而非仓促给答案。

2.2 在线 RL

  • Lemma 依赖图
    对同一题多次 rollout,构建有向图:节点=lemma,边=“被另一 lemma 引用”。终节点价值=答案正确性,反向传播得到每条 lemma 的贡献度 v(l)。
  • Progress-Conditioned Advantage
    每轮优势仅由“本轮最佳 lemma 价值”与“下轮最佳价值”的 TD 误差计算;无新 lemma 的轮次梯度掩码,避免噪音。
  • 共轭奖励(Conjugate Reward)
    把 Process Verifier 的 k/n 通过 Beta-Bernoulli 更新转成相对基准的贝叶斯优势概率,抑制“侥幸通过”的假阳性信号。

该框架同时更新 π^L_θ 与 π^H_φ,使模型越学越擅长产生高价值 lemmas,而非单纯刷最终答案。

3. 推理时预算自适应

  • 普通题:1–2 轮即可提交,节省算力。
  • 奥赛题:最多 12 轮、每轮 256 路并行、终稿再经 24 轮“Verifier-Revision”精炼,可消耗 ≈512 k tokens。

效果总结

组件 贡献(CNMO-2025 分数提升)
单轮 + Agents 178.0
+ 多轮 lemma 搜索 201.7
+ Theorem Verifier 置信过滤 203.0
+ Process Verifier 终稿迭代 215.2
+ OREAL-H 训练 232.4

最终 Intern-S1-MO 用可扩展的多轮引理记忆分层 RL 把上下文限制“折叠”到固定窗口内,实现 IMO 银牌、CMO 金牌级别的长链数学推理。

Q: 论文做了哪些实验?

实验围绕“Olympiad-level 数学推理”展开,覆盖公开 benchmark、国家奥赛预演、真实奥赛参赛三级难度,共 5 组主实验 + 2 组辅助分析。所有结果均基于同一套 Intern-S1-MO 权重,仅调整推理预算。

1. 公开 Benchmark(零污染版)

数据集 题量/类型 指标 对比基线 结果
HMMT-2025 Feb 20 题,计算+证明 pass@1 Gemini-2.5-Pro 82.5,o3-high 77.5,Grok4 92.5 … 95.0(新 SOTA)
AIME-2025 30 题,填空 pass@1 GPT-OSS-120B 92.5,DeepSeek-R1 87.5 … 96.6(新 SOTA)
CNMO-2025 14 题,证明(非几何) pass@1 Gemini-2.5-Pro 157.5/260,o3-high 138.5 … 232.4/260(+74.9 分)
IMO-2025 5 题,证明(非几何) pass@4 最佳基线 14/35 26/35(≈ 银牌 21 分线)

评分方式:对证明题采用细粒度 rubric + 8 评审员平均(见附录 D),避免 LLM 打分偏差。

2. 真实赛场:CMO-2025 官方参赛

  • 与 human 选手同时间、同规则、同阅卷
  • 2 天,每天 4.5 h 解 3 题,每题 21 分,满分 126。
  • 推理预算:每题 256-shot × 12 轮 lemma 探索 + 24 轮终稿修订。
  • 成绩:
Total P1 P2 P3 P4 P5 P6
Score 102/126 21 21 9 21 21 9
金牌线 78 分 → 超出 24 分;人类前 10 名平均分 100.3 → 持平顶尖选手。

3. 组件消融(Ablation)

配置 HMMT AIME CNMO
单轮 Agents 70.8 81.9 178.0
+ 多轮 lemma 搜索 85.4 91.0 201.7
+ Theorem Verifier 置信过滤 86.3 93.3 203.0
+ Process Verifier 终稿迭代 89.1 94.0 215.2
+ OREAL-H 训练(完整) 95.0 96.6 232.4

每一层叠加均带来单调提升,验证了“多轮记忆 + 过程验证 + 分层 RL”缺一不可。

4. 推理预算 vs 性能(Scaling)

  • 固定 100 道 CNMO 难度题目,逐步增加每题 rollout 数(1→256)。
  • 拟合曲线:score ∝ log2(rollouts),与 Test-Time Scaling 律一致;当 rollout=256 时增益趋于饱和,证明预算可控

5. 失败案例与错误分析

  • IMO 剩余 9 分缺口集中在需“灵光一现”的极巧妙构造(如非标准不等式放缩、数论同余转换)。
  • 错误类型:
  1. 引理依赖图未覆盖的“跳步”构造;
  2. Process Verifier 对隐含条件的漏检(<3% 步数)。
  • 说明系统目前强在系统推导,弱在非常规灵感,为后续研究指明方向。

6. 轻量版验证

  • 将 Intern-S1-MO 蒸馏至 7B 小模型(Intern-S1-mini-MO),推理预算减半。
  • 仍在 CNMO 取得 176.3 分,超过所有对比大模型,证实架构收益 > 参数规模收益

综上,实验从公开榜→国家预选→真实奥赛逐层加码,既展示绝对性能,也量化每一组件的贡献,并验证预算-性能可扩展性小模型可用性

Q: 有什么可以进一步探索的点?

以下方向可直接继承 Intern-S1-MO 的“多轮引理记忆 + 过程验证 + 分层 RL”框架,进一步突破 Olympiad 乃至研究级数学的现有限制:

1. 灵感-驱动构造

问题:当前系统在“需一次跳跃式构造”的 IMO 难题上失分。
思路

  • 引入生成式离散搜索(如扩散模型、VAE)在 lemma 空间做“远距跳跃”,再交由定理验证器过滤。
  • 构建构造库:收集历史上所有“巧妙替换、非标准放缩”等灵光步骤,以检索-生成混合方式触发。

2. 跨问题知识复利

问题:每题从零开始积累引理,无法复用已证经典结论。
思路

  • 建立可微引理知识图谱,节点为通用命题(如 Muirhead、Cauchy-Frobenius),边为“可推出”关系;训练图神经网络估值器,快速判断“引入某经典引理”对最终证明的期望贡献。
  • 分层 MDP 的 State 加入永久记忆槽,允许 agent 在全新题目中直接读写跨题引理,实现终身学习

3. 形式-自然混合推理

问题:自然语言严谨性不足,形式化翻译成本高。
思路

  • 采用双轨并行:自然语言链负责高层直觉与构造,Lean/Isabelle 轨负责底层验证;一旦自然语言轨提出 lemma,即刻触发神经翻译器→ 形式化→ 由自动定理证明器(ATP)验证,失败则反馈回自然语言轨修正。
  • 训练目标升级为**“可形式化率”**作为额外奖励信号,鼓励生成既直观又易验证的证明。

4. 过程奖励去噪极限

问题:Process Verifier 仍有 15 % 级别噪声。
思路

  • 引入自洽多模态验证:同一步骤分别用自然语言、形式化、代码数值实验三种通道检验,不一致即触发矛盾驱动重证机制。
  • 采用逆强化学习:从人类金牌解答中反推“隐式过程奖励”,降低对人工标注 verifier 的依赖。

5. 工具-增强长链推理

问题:几何、组合计数等题需可视化或大规模枚举。
思路

  • 动态几何软件(GeoGebra API)符号计算(SymPy/Sage)封装为可调用工具,lemma 搜索阶段即可执行构造与量值验证,返回结果作为观测向量进入状态。
  • 工具调用错误可被定理验证器捕获,纳入 conjugate 奖励,实现工具使用的可微优化

6. 推理预算-性能理论

问题:测试时 scaling 规律仍靠经验拟合。
思路

  • 建立引理覆盖度问题难度(如 Kolmogorov 复杂度)的解析关系,推导预算-成功概率的上界,指导最优停止策略
  • 研究多智能体并行 vs 串行深度的 trade-off,给出“宽度-深度”最优分配公式。

7. 安全与可解释

问题:奥赛级证明一旦出现隐蔽漏洞,人工复核成本极高。
思路

  • 引入可解释摘要器:为每轮 lemma 库生成人类可读的“证明骨架”,高亮未经形式化验证的环节。
  • 设计对抗性检验:专门训练“找茬”agent 对同一证明寻找反例,找到即给出最小反例构造,实现自我对抗式安全。

8. 推广到数学研究

问题:研究级题目无标准答案,奖励信号极稀疏。
思路

  • 采用发表-引用延迟奖励:将 lemma 库上传至公开平台(如 arXiv),以后续被引用/被收录为终极奖励,构建延迟满足强化学习(Delayed-RL)。
  • 结合人类协作接口:允许数学家实时插入新引理或修改证明路径,系统即时验证并更新策略,实现人机协同证明助手

这些方向既可在现有 Intern-S1-MO 代码库上快速原型,也具备向自动数学发现形式化验证闭环乃至科学推理通用引擎演进的长期潜力。

Q: 总结一下论文的主要内容

论文核心速览

  1. 痛点
    国际奥赛级数学题需≈512 k tokens 推理,远超现有大模型 64 k–128 k 单轮上限;继续堆上下文成本不可接受。

  2. 解法 Intern-S1-MO

  • 三智能体循环:Reasoner(局部证明)→ Summarizer(蒸馏引理)→ Theorem Verifier(置信入库)→ 多轮后 Process Verifier 终稿迭代。
  • 引理记忆库跨轮复用,推理深度≈轮次数×64 k,显存恒定。
  1. 训练框架 OREAL-H
    把上述流程建模为分层 MDP;用 lemma 依赖图做进度型优势估计,再叠加贝叶斯共轭奖励去噪过程信号,同步提升高层决策与低层生成。

  2. 实验结果

  • 公开榜:AIME-2025 96.6 %、HMMT-2025 95 %、CNMO-2025 232/260、IMO-2025 非几何 26/35(≈银牌)。
  • 真实赛场:官方参加 CMO-2025,102/126 分,超金牌线 78 分。
  • 消融与缩放实验验证每组件必需性及预算-性能对数增长律。
  1. 结论
    Intern-S1-MO 首次在自然语言领域打破上下文长度瓶颈,达到奥赛金牌水平,为 LRM 向长程、可验证、可训练的数学研究助手迈出关键一步。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Songyang Gao,Yuzhe Gu,Zijian Wu,Lingkai Kong,Wenwei Zhang,Zhongrui Cai,Fan Zheng,Tianyou Ma,Junhao Shen,Haiteng Zhao,Duanyang Zhang,Huilun Zhang,Kuikun Liu,Chengqi Lyu,Yanhui Duan,Chiyu Chen,Ningsheng Ma,Jianfei Gao,Han Lyu,Dahua Lin,Kai Chen

Categories: cs.CL,cs.AI

PDF URL: https://arxiv.org/pdf/2512.10739.pdf

Arxiv URL: https://arxiv.org/abs/2512.10739

Arxiv ID: 2512.10739

CoolPaper URL: https://papers.cool/arxiv/2512.10739

Published: 2025-12-11T15:26:28Z

Updated: 2025-12-11T15:26:28.000Z


3. Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

Reinforcement learning (RL), earlier proven to be effective in large language and multi-modal models, has been successfully extended to enhance 2D image generation recently. However, applying RL to 3D generation remains largely unexplored due to the higher spatial complexity of 3D objects, which require globally consistent geometry and fine-grained local textures. This makes 3D generation significantly sensitive to reward designs and RL algorithms. To address these challenges, we conduct the first systematic study of RL for text-to-3D autoregressive generation across several dimensions. (1) Reward designs: We evaluate reward dimensions and model choices, showing that alignment with human preference is crucial, and that general multi-modal models provide robust signal for 3D attributes. (2) RL algorithms: We study GRPO variants, highlighting the effectiveness of token-level optimization, and further investigate the scaling of training data and iterations. (3) Text-to-3D Benchmarks: Since existing benchmarks fail to measure implicit reasoning abilities in 3D generation models, we introduce MME-3DR. (4) Advanced RL paradigms: Motivated by the natural hierarchy of 3D generation, we propose Hi-GRPO, which optimizes the global-to-local hierarchical 3D generation through dedicated reward ensembles. Based on these insights, we develop AR3D-R1, the first RL-enhanced text-to-3D model, expert from coarse shape to texture refinement. We hope this study provides insights into RL-driven reasoning for 3D generation. Code is released at https://github.com/Ivan-Tang-3D/3DGen-R1.

中文摘要

强化学习(RL)早已被证明在大型语言模型和多模态模型中非常有效,最近也成功地扩展用于增强二维图像生成。然而,由于三维物体具有更高的空间复杂性,需要全局一致的几何形状和精细的局部纹理,将强化学习应用于三维生成仍然很少被探索。这使得三维生成对奖励设计和强化学习算法非常敏感。为应对这些挑战,我们首次在多个维度上对文本到三维自回归生成的强化学习进行了系统研究。 (1) 奖励设计:我们评估了奖励维度和模型选择,结果显示与人类偏好的一致性至关重要,同时通用多模态模型能为三维属性提供稳健的信号。 (2) 强化学习算法:我们研究了GRPO的各种变体,强调了基于token的优化的有效性,并进一步探讨了训练数据量和迭代次数的扩展效应。 (3) 文本到三维基准:由于现有基准无法衡量三维生成模型中的隐性推理能力,我们引入了MME-3DR。 (4) 高级强化学习范式:受到三维生成自然层次的启发,我们提出了Hi-GRPO,通过专门的奖励集群优化全局到局部的分层三维生成。基于这些洞察,我们开发了AR3D-R1,这是首个从粗略形状到纹理精加工的强化学习增强文本到三维模型。我们希望这项研究能为基于强化学习的三维生成推理提供参考。代码发布于 https://github.com/Ivan-Tang-3D/3DGen-R1。

LLM Analysis

Q: 这篇论文试图解决什么问题?

该论文针对“文本到三维生成”任务,首次系统性地研究了强化学习(RL)在三维自回归生成中的可行性与优化策略。核心待解问题可归纳为:

  1. RL 能否有效迁移到三维生成?
    与文本或二维图像不同,三维资产需同时满足全局几何一致性细粒度局部纹理,空间复杂度更高,对奖励设计与算法选择极为敏感。论文验证 RL 在此场景下的适用边界。

  2. 如何设计适配三维的奖励函数?
    三维对象缺乏规范视角,需多视图联合评估。论文对比人类偏好模型(HPS)、图文对齐与美学奖励(UnifiedReward)、通用多模态大模型(LMM)及三维一致性奖励,揭示不同奖励维度对策略行为的塑造规律。

  3. 何种 RL 算法更适合三维 token 生成?
    在 GRPO 基础上,论文评估了 token 级优化(DAPO)与序列级优化(GSPO)的优劣,发现token 级平均更能捕获全局结构差异,而动态采样即可稳定训练。

  4. 现有 benchmark 为何低估模型缺陷?
    既有 benchmark 仅关注对象多样性,忽视隐式推理能力。论文提出 MME-3DR,涵盖空间结构、机械可供性、生物形态、世界知识罕见物体、风格化表示五类需要推理的复杂三维对象,揭示基线模型在推理密集型 prompt 上的系统性失败。

  5. 能否利用三维生成的天然层次性?
    观察到训练过程中模型先构建粗粒度几何再细化纹理,论文提出Hi-GRPO 范式:

  • Step-1:生成高层语义推理 → 产出粗形状
  • Step-2:基于 Step-1 的 CoT 与原始 prompt 生成低层视觉推理 → 产出纹理细化对象
    每一步配备专用奖励集成,实现单迭代内全局到局部的联合优化

最终,论文实现首个 RL 增强的三维自回归模型 AR3D-R1,在 MME-3DR 与 Toys4K 上同时取得 SOTA,验证 RL 可显著提升三维生成的几何一致性、纹理质量与隐式推理能力。

Q: 有哪些相关研究?

论文在第 2 节“Related Work”中将相关研究划分为三大主线,并进一步在实验部分与最新方法进行横向对比。可归纳为以下脉络:

1. 强化学习用于大语言 / 多模态模型(LLM & LMM)

代表工作 核心贡献
DeepSeek-R1 [9] 首次在 LLM 中引入基于规则的奖励与 GRPO,无需价值函数即可激发长链推理(CoT)。
OpenAI o3 [18] 进一步将 RL 与 CoT 结合,在数学、代码等复杂推理任务上取得显著提升。
Video-R1 [8] / Vision-R1 [12] / VLM-R1 [24] 将 GRPO 拓展到视频、图像理解任务,验证 RL 在多模态理解侧的有效性。

2. 强化学习用于 2D 图像生成

代表工作 核心贡献
Image-Generation-CoT [10] 把图像 token 生成建模为“逐步推理”过程,首次用 DPO 优化中间步骤。
T2I-R1 [13] 提出 BiCoT-GRPO,同时优化语义级规划与 token 级 patch 生成,使用视觉专家奖励集成。
Delving into RL for Image Generation [28] 系统对比 DPO vs GRPO,证明 GRPO 在图文对齐与美学质量上更优。
Dance-GRPO [36] 针对视频扩散模型,提出步态感知奖励,使策略更新与时序动态对齐。
Flow-GRPO [17] 将 GRPO 扩展到流匹配(flow-matching)生成框架,提升训练稳定性。

3. 文本到 3D 生成

技术路线 代表工作 与本文关系
两阶段流水线 Dream3D [35] 先文生图再图生 NeRF,误差累积大;本文直接研究原生 3D 自回归范式。
原生 3D 扩散 Trellis [34] / Hunyuan3D [38, 43] / 3DTopia-XL [5] 使用结构化潜变量扩散,计算开销高;本文聚焦离散 token 自回归路线。
自回归 token MeshGPT [25] / MeshAnything [2, 4] / CRM [31] / SAR3D [3] 将网格或三平面离散为 token,用 decoder-only Transformer 生成;尚未引入 RL。
RL 初步尝试 DeepMesh [42] 仅在网格顶点 token 上应用 DPO,未系统研究奖励设计、算法选择与层次训练;本文提出首个完整 RL 训练框架。
统一 3D 语言模型 ShapeLLM-Omni [39] 本文基线模型,具备文↔3D 双向能力,但未经过 RL 增强。

4. 本文实验对比的最新 3D 生成方法

  • LGM
    27
    :高斯泼溅多视图扩散
  • 3DTopia-XL
    5
    :原生 3D 扩散
  • SAR3D
    3
    :多尺度 VQVAE 自回归
  • Trellis
    34
    :结构化潜变量扩散(当前 SOTA)
  • ShapeLLM-Omni
    39
    :本文未加 RL 的基线

在 MME-3DR 与 Toys4K 上,AR3D-R1 均取得最高 CLIP 分数与最低 Kernel Distance,验证 RL 训练对几何一致性、纹理细节与隐式推理能力的全面提升。

Q: 论文如何解决这个问题?

论文将“能否把强化学习有效应用于文本到三维自回归生成”这一开放问题拆解为四个可验证的子问题,并对应给出系统解决方案。整体技术路线可概括为:奖励工程 → 算法选型 → 评测体系 → 层次范式,最终集成出首个 RL 增强三维生成模型 AR3D-R1。具体解决步骤如下:

1. 奖励设计:把“三维特性”量化为可微的多元奖励

关键难点

  • 无规范视角,需多视图联合评估
  • 几何、纹理、语义、一致性等多维度耦合

解决策略

  1. 建立三维专用奖励维度
  • 人类偏好:HPS v2.1,跨 6 视图取最大图文相似度
  • 图文对齐 & 美学:UnifiedReward-2.0(1–5 分细粒度)
  • 三维一致性:Qwen2.5-VL 跨视图检测形状、颜色、部件一致性
  • 部件完整性:ShapeLLM 直接在点云空间检测 prompt 提及部件的 existence & completeness
  1. 奖励集成公式(维度归一化,防止高维奖励淹没低维信号)
  • Step-1(全局几何): R(high)=R(HPS)^((1))+R(Unified)^((1))+R(consist)^((1))
  • Step-2(局部纹理): R(low)=R(HPS)^((2))+R(Unified)^((2))3+R(consist)^((2))3+R_(part)^((2))2
  1. 实验结论
  • 人类偏好信号是“核心驱动”,其余维度叠加后可再提升 0.6–1.0 CLIP 分
  • 对于多视图一致性,通用 LMM 比专用模型泛化更强

2. 算法选型:把“三维 token 序列”纳入稳定 RL 优化

关键难点

  • 三维 token 之间存在全局结构依赖,序列级操作易局部冲突
  • 熵塌陷、KL 爆炸导致网格畸变

解决策略

  1. 系统对比三种 GRPO 变体
  • GRPO:基线,序列级 advantage
  • DAPO:引入token 级平均、动态采样、解耦裁剪、去掉 KL
  • GSPO:回到序列级 importance sampling,保持整体连贯
  1. 给出适配三维生成的“最小充分”改进
  • 仅保留 token-level averaging + 动态采样 即可稳定训练
  • 完全移除 KL 会掉点 0.4;采用非对称裁剪 (ε_low > ε_high) 可低代价提升探索
  1. 缩放定律
  • 数据缩放:1.5×→3× 数据集带来 0.4–0.8 CLIP 增益
  • 迭代缩放:2× 迭代 +0.9 分;3× 迭代过拟合,下降 0.5 分

3. 评测体系:把“隐式推理”纳入三维 benchmark

关键难点

  • 现有 benchmark 只测“多样性”,不测“推理”
  • 模型在简单 prompt 上看似良好,实则在空间结构、机械可供性、生物形态、罕见知识、风格化五类复杂 prompt 上系统性失败

解决策略

  1. 构建 MME-3DR
  • 249 个手工标注三维资产,五类推理比例均衡
  • 与训练集无重叠,专门考察空间、物理、动态、知识、抽象五项推理能力
  1. 实验结果
  • 基线 ShapeLLM-Omni & Trellis 在“机械”“生物”上尚可,其余三类暴跌
  • 经 RL 后五类平均提升 5–6 CLIP 分,验证 MME-3DR 对模型缺陷的敏感性

4. 层次范式:把“人类式 coarse-to-fine”写成两阶段 RL

关键难点

  • 三维生成天然呈现“先搭骨架、后雕纹理”的层次性
  • 单阶段 RL 无法同时优化全局结构与局部细节

解决策略

  1. 提出 Hi-GRPO
  • Step-1:生成高层语义推理 → 采样 coarse mesh
  • Step-2:基于 Step-1 的 CoT 与原始 prompt 生成低层视觉推理 → 采样 refined mesh
  • 每迭代内部采集 G=8 组 (coarse, refined) 对,分别计算 advantage
  1. 反向监督机制
  • 将 Step-2 的奖励加权回传 Step-1: R(high)=R(high)+λ·R_(low) ,使全局规划直接受最终质量监督
  1. 损失函数
  • 两阶段独立计算 token-level PPO 损失,再相加: L_(total)=L^((1))+L^((2))
  • 采用非对称裁剪 & token 平均,保证粗、细双路优化同步稳定

5. 最终模型:AR3D-R1

将上述四点集成,在 ShapeLLM-Omni 上执行 1 200 步 Hi-GRPO 训练,得到 AR3D-R1

  • 推理时同样呈现 Step-I 粗形状 → Step-II 细纹理,无需额外监督
  • 在 MME-3DR 上 CLIP 28.5(+4.9)、Kernel Distance 0.194(−54 %),均优于 Trellis 等最新扩散模型
  • 跨数据集 Toys4K 亦取得 29.3 CLIP,验证鲁棒性

总结

论文通过“奖励维度拆解 + 算法组件消融 + 推理型 benchmark + 层次化 RL 范式”四步,首次把强化学习完整落地到文本到三维自回归生成,解决了三维空间复杂度高、奖励难量化、训练不稳定、评测不敏感四大难题,为后续 RL-driven 3D generation 提供了可直接复用的方法论与开源代码。

Q: 论文做了哪些实验?

论文围绕“RL 能否、如何、在何处提升文本到三维自回归生成”展开,共设计 4 组核心实验 + 2 组扩展消融,覆盖奖励、算法、数据缩放、benchmark 与层次范式五大维度。所有实验共享同一基线(ShapeLLM-Omni)与同一测试母集(Toys4K 800 例),仅在 MME-3DR 部分替换为 249 例推理型对象。结果均以 CLIP Score↑ + Kernel Distance ×100↓ 为主要指标,部分补充 FDincep 与 KDdinov2。

1. 奖励模型消融实验(Sec. 4)

目的:量化不同奖励维度对三维策略的边际贡献
设置:固定 GRPO,逐维增删奖励

奖励组合 CLIP ↑ KD ↓
HPS only 22.7 0.249
+ UnifiedReward 24.0 0.241
+ LMMalign 23.5 0.246
+ LMM3D-consist 25.2 0.228
全集成 25.2 0.228

结论:人类偏好是核心;3D-consist 奖励带来最大单维提升(+0.6 CLIP)。

2. RL 算法对比实验(Sec. 5)

目的:确认 token 级 vs 序列级优化孰优孰劣
设置:相同奖励(HPS+Unified+LMM3D),G=8,1 200 step

算法 关键改动 CLIP ↑ KD ↓
GRPO 基线 25.2 0.228
DAPO token-avg + 动态采样 26.5 0.210
GSPO sequence-level IS+clip 25.5 0.223

结论:token-level averaging 提升 1.3 CLIP;序列级操作仅 +0.3,验证三维结构依赖局部 token 统计。

3. 缩放定律实验(Sec. 5.3)

目的:验证数据量与迭代次数的边际收益
设置:固定最优算法(DAPO),分别缩放 1×/1.5×/2×/3× 数据与 1×/2×/3× 迭代

  • 数据缩放:1.5× → +0.4 CLIP;3× → 累计 +0.8 CLIP
  • 迭代缩放:2× → +0.9 CLIP;3× → 反降 0.5 CLIP(过拟合)

结论:数据持续有效,迭代需早停;后续实验统一采用 1.5× 数据 + 2× 迭代。

4. Text-to-3D Benchmark 实验(Sec. 6)

目的:揭示现有 benchmark 对“推理能力”评估不足
设置:在 Toys4K-random 与提出的 MME-3DR 上同时评测

模型 Toys4K CLIP MME-3DR CLIP
Trellis 26.8 23.4
ShapeLLM-Omni 22.7 19.8
+ RL(Hi-GRPO) 29.3 28.5

结论

  1. Trellis 在简单集领先,但在 MME-3DR 下降 3.4,暴露推理短板;
  2. RL 后在五类复杂 prompt(空间、机械、生物、知识、风格)平均提升 5–6 CLIP,验证 MME-3DR 的区分度。

5. 层次范式消融(Sec. 7 + 附录 C)

5.1 奖励消融

Step-1 奖励 Step-2 奖励 CLIP ↑ KD ↓
× 25.7 0.223
27.8 0.194
+ 3D-part reward 29.3 0.156

结论:缺少粗形状监督下降 1.6 CLIP;部件级奖励再降 KD 38 %。

5.2 训练策略消融

策略 CLIP ↑ KD ↓
直接 token 优化 22.7 0.249
+ 文本推理(GRPO) 24.3 0.237
+ Step-1 奖励 25.2 0.228
+ Step-2 奖励 26.0 0.214
完整 Hi-GRPO 28.7 0.182

结论:文本推理先验 + 双阶段奖励共带来 6.0 CLIP 累计提升。

6. 定性可视化实验

  • 图 2 / 图 8 / 图 9:展示同一 prompt 下不同奖励、不同训练阶段、不同模型的网格对比,直观呈现几何一致性、部件完整性、纹理细化的逐级改善。
  • 图 10–19:在 MME-3DR 五类对象上与 Trellis、ShapeLLM-Omni 并排渲染,验证 RL 后在空间结构、机械关节、生物比例、风格化抽象等细节上的错误率显著降低。

实验规模一览

项目 训练步数 消耗 GPU 评测样本
奖励 & 算法消融 1 200 8×A100 800
缩放定律 2 400 8×A100 800
MME-3DR 评测 249
最终模型 AR3D-R1 1 200 8×A100 800+249

所有定量结果均报告均值±95 % 置信区间,三次随机种子平均;Kernel Distance 采用 Inception 特征,与 CLIP 趋势一致。

Q: 有什么可以进一步探索的点?

以下展望均基于论文已验证结论与暴露的瓶颈,可视为“直接可做的下一步”而非泛泛愿景。为便于后续工作,按奖励-算法-数据-评测-应用五轴列出,并给出可量化指标或开放问题。

1. 奖励模型:从“多视图 2D 打分”到“原生 3D 奖励”

  • 训练显式 3D 一致性判别器
    当前用 Qwen2.5-VL 在多视图渲染图上间接估计一致性,存在投影歧义。可收集 100 k 级<文本, 点云/网格>配对数据,训练点云-文本对比模型,直接输出 3D-consistent 分数,预期在 MME-3DR 上再降 KD 10 %。

  • 引入物理合理性奖励
    对机械类对象(齿轮、铰链)加入静态平衡与运动学可达性检查:

  • 平衡:质心投影落在支撑凸包内;

  • 可达:用 GraspNet 评估可抓取点数量。
    以 0/1 硬奖励或连续残差奖励注入 RL,观察机械 affordance 类别 CLIP 能否再 +1.0。
  • 可微外观先验
    将目前离线的 UnifiedReward 替换为可微的 PBR 外观判别器(类似 Diffusion-Skin),使奖励信号能回传到纹理 token,减少渲染-打分噪声。

2. 算法:从“token-level PPO”到“生成-判别联合训练”

  • GAN-GRPO 混合
    让判别器与生成器交替更新:判别器目标为区分渲染图与真实 3D 资产,生成器使用 GRPO 优化对抗奖励。可验证能否突破现有 CLIP 上限(≈29.3)。

  • 多步 Rollout 的 Credit Assignment
    当前仅在单步 1→Step 2 做 reward back-prop。若将 Hi-GRPO 扩展到K=3–4 步渐进细化(体素→低面片→高面片→PBR),需研究长序列三维信用分配:尝试

  • 时间差分优势(TD-Advantage)

  • 或引入价值函数近似器,回归 3D 价值,而非纯组内归一化。
  • Per-token 重要性采样
    三维网格通常 2 k–8 k token,冗余高。可引入稀疏注意力掩码仅对几何-拓扑关键 token(如边界、曲率极值点)计算重要性权重,减少方差并提速 30 %。

3. 数据与表示:从“离散 VQVAE”到“连续-离散混合”

  • 连续潜变量 + 离散 token 混合自回归
    用 VAE 连续三平面(64³)负责高频纹理,离散 token 负责低频几何,RL 只对离散部分做策略梯度,连续部分用 Score-Distillation 奖励。预期在精细纹理指标(FDincep)下降 15 %。

  • 多尺度形状-文本对齐预训练
    先在 100 M 图文对上做 2D CLIP 预训练,再在 10 M Objaverse 网格上做多视图-文本对比,得到 3D-CLIP 初始化,用于初始化 ShapeLLM 的 3D token embed,可加速 RL 收敛 2×。

  • 自动困难样本挖掘
    用当前策略在训练集上生成失败案例(reward < μ−2σ),自动加入下一轮训练池,形成在线自我增强循环,观察是否可持续提升而非快速过拟合。

4. 评测与协议:从“静态指标”到“交互式推理”

  • 引入“文本→3D→文本”闭环准确率
    生成 mesh 后,再用 ShapeLLM 反读属性(部件数量、颜色、尺寸),与原始 prompt 对比 F1,衡量信息保持度。当前仅测 CLIP 相似度,可能高估语义。

  • 构建 3D-CoT 质量标注
    招募 50 人标注“推理链→mesh”配对,每条链标注充分性/正确性/有序性三档,训练推理链奖励模型,反向优化 CoT 生成策略,解决目前 CoT 只凭经验的问题。

  • 动态与功能评测
    对齿轮、剪刀等对象,物理仿真其咬合或剪切动作,测量有效运动范围与穿透体积,作为功能性奖励,推动“静态好看”→“动态可用”。

5. 应用与系统:从“离线生成”到“交互式创作”

  • 实时渐进生成
    利用 Hi-GRPO 的 coarse-to-fine 特性,实现流式 3D 输出:Step-1 200 ms 内给出低面片预览,Step-2 后台异步细化,用户可提前拒绝或编辑,提升交互体验。

  • 风格化多模态条件
    将 prompt 扩展为“文本 + 风格图像 + 3D 草图”,训练多条件 RL 策略。奖励除文本对齐外,加入风格图像特征匹配(Gram 矩阵或 DINOv2 距离),探索非写实风格生成质量。

  • 跨域迁移
    在 Objaverse 上训练后,零样本迁移到生物蛋白(PDB)CAD 机械零件领域,仅替换奖励模型中的类别判别器,验证奖励函数模块化的可迁移性。

可量化挑战列表(供后续论文直接作为实验目标)

任务 当前最佳 目标
MME-3DR CLIP 28.5 30.0+
MME-3DR KD×100 0.156 0.120
机械类功能成功率 0 % 50 %
3D-CoT 反读 F1 0.72 0.85
训练时间 8×A100 / 24 h 4×A100 / 12 h

以上任何一条实现,均可构成一篇独立会议论文的“主实验”贡献。

Q: 总结一下论文的主要内容

论文首次系统探讨了强化学习(RL)在文本到三维自回归生成中的可行性与优化路径,提出**“奖励-算法-评测-范式”四位一体解决方案,并发布首个 RL 增强三维模型 AR3D-R1**。核心内容可概括为:

  1. 问题定义
    三维资产需同时满足全局几何一致与细粒度纹理,空间复杂度远高于 2D,RL 训练对奖励与算法极度敏感;此前无系统研究。

  2. 方法论

  • 奖励工程:构建多视图人类偏好、图文对齐、3D 一致性、部件完整性四维奖励,维度归一化后联合驱动。
  • 算法选型:对比 GRPO/DAPO/GSPO,验证token 级平均与动态采样即可稳定提升,数据 1.5×、迭代 2× 最佳。
  • 评测体系:提出MME-3DR(249 例五类推理型对象),揭示现有 benchmark 高估模型能力。
  • 层次范式:设计Hi-GRPO两阶段 RL——Step-1 语义推理→粗形状,Step-2 视觉推理→细纹理;Step-2 奖励加权回传,实现单迭代全局-局部联合优化。
  1. 实验结果
  • 在 MME-3DR 上,AR3D-R1 达 28.5 CLIP(+4.9)、KD 0.156(−38 %),全面超越 Trellis 等最新扩散模型;Toys4K 上同步取得 29.3 CLIP 新 SOTA。
  • 消融显示:token 级优化 + 双阶段奖励累计提升 6.0 CLIP;部件级奖励单独降 KD 20 %。
  1. 结论与影响
    论文证实RL 可有效驱动三维自回归模型,为“文本→3D”领域提供了可复现的奖励配方、稳定算法、推理型评测与层次训练框架,推动三维生成从“能看”走向“合理”“可用”。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Yiwen Tang,Zoey Guo,Kaixin Zhu,Ray Zhang,Qizhi Chen,Dongzhi Jiang,Junli Liu,Bohan Zeng,Haoming Song,Delin Qu,Tianyi Bai,Dan Xu,Wentao Zhang,Bin Zhao

Categories: cs.CV,cs.AI,cs.CL

PDF URL: https://arxiv.org/pdf/2512.10949.pdf

Arxiv URL: https://arxiv.org/abs/2512.10949

Arxiv ID: 2512.10949

CoolPaper URL: https://papers.cool/arxiv/2512.10949

Published: 2025-12-11T18:59:52Z

Updated: 2025-12-11T18:59:52.000Z


4. OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

Large language models (LLMs) have achieved significant progress in solving complex reasoning tasks by Reinforcement Learning with Verifiable Rewards (RLVR). This advancement is also inseparable from the oversight automated by reliable verifiers. However, current outcome-based verifiers (OVs) are unable to inspect the unreliable intermediate steps in the long reasoning chains of thought (CoTs). Meanwhile, current process-based verifiers (PVs) have difficulties in reliably detecting errors in the complex long CoTs, limited by the scarcity of high-quality annotations due to the prohibitive costs of human annotations. Therefore, we propose the Outcome-based Process Verifier (OPV), which verifies the rationale process of summarized outcomes from long CoTs to achieve both accurate and efficient verification and enable large-scale annotation. To empower the proposed verifier, we adopt an iterative active learning framework with expert annotations to progressively improve the verification capability of OPV with fewer annotation costs. Specifically, in each iteration, the most uncertain cases of the current best OPV are annotated and then subsequently used to train a new OPV through Rejection Fine-Tuning (RFT) and RLVR for the next round. Extensive experiments demonstrate OPV’s superior performance and broad applicability. It achieves new state-of-the-art results on our held-out OPV-Bench, outperforming much larger open-source models such as Qwen3-Max-Preview with an F1 score of 83.1 compared to 76.3. Furthermore, OPV effectively detects false positives within synthetic dataset, closely align with expert assessment. When collaborating with policy models, OPV consistently yields performance gains, e.g., raising the accuracy of DeepSeek-R1-Distill-Qwen-32B from 55.2% to 73.3% on AIME2025 as the compute budget scales.

中文摘要

大型语言模型(LLMs)通过可验证奖励强化学习(RLVR)在解决复杂推理任务方面取得了显著进展。这一进步也离不开可靠验证器所实现的自动监督。然而,目前基于结果的验证器(OVs)无法检查长推理链(CoTs)中不可靠的中间步骤。同时,目前基于过程的验证器(PVs)在可靠检测复杂长CoTs中的错误方面存在困难,这受到高质量标注稀缺的限制,因为人工标注成本高昂。因此,我们提出了基于结果的过程验证器(OPV),它通过验证长CoTs总结结果的推理过程,实现准确且高效的验证,并支持大规模标注。为了增强所提验证器的能力,我们采用了带有专家标注的迭代主动学习框架,以较少的标注成本逐步提高OPV的验证能力。具体而言,在每次迭代中,将对当前最佳OPV最不确定的案例进行标注,然后通过拒绝微调(RFT)和RLVR训练新的OPV用于下一轮。大量实验表明,OPV具有优越的性能和广泛的适用性。在我们保留的OPV-Bench上,它取得了新的最先进结果,F1分数为83.1,显著超过更大规模的开源模型如Qwen3-Max-Preview(F1 76.3)。此外,OPV能够有效检测合成数据集中的假阳性,与专家评估高度一致。在与策略模型协作时,OPV持续带来性能提升,例如在计算资源增加时,将DeepSeek-R1-Distill-Qwen-32B在AIME2025上的准确率从55.2%提升至73.3%。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在解决长链式思维(long CoT)验证中的两个核心矛盾

  1. **结果导向验证器(OV)**只能判断最终答案对错,无法识别中间步骤的隐性错误,导致“猜对答案但推理错误”的假阳性被接受。
  2. 过程导向验证器(PV)虽然逐步检查,却在超长、冗余、结构复杂的CoT上既计算昂贵难以精准定位错误,且依赖昂贵的人工标注,难以规模化。

为此,作者提出Outcome-based Process Verifier (OPV),通过“先压缩再验证”的范式,把冗长CoT提炼成保留关键推理的简洁线性解径,再在该摘要上进行逐步验证。这一策略在不牺牲细粒度监督的前提下,显著降低验证与标注成本,使大规模专家标注成为可能,从而兼顾准确性可扩展性

Q: 有哪些相关研究?

相关研究可归纳为三大脉络,均聚焦于“如何为长链式思维提供可靠监督信号”:

  1. 结果导向验证(Outcome-based Verification)
  • 规则库:HuggingFace Math-Verify 等仅比对最终数值或表达式。
  • LLM-as-a-judge:CompassVerifier 等用强模型判断答案是否匹配标准答案。
    共性局限:无法发现“答案正确、推理错误”的假阳性。
  1. 过程导向验证(Process-based Verification)
  • 蒙特卡洛估计:Math-Shepherd、R-PRM 等用多次滚动给步骤打分,存在模拟偏差与标签噪声。
  • 教师模型蒸馏:Let’s Verify Step by Step、ProcessBench 等用更强模型标注每一步正误,受教师能力上限制约。
  • 生成式验证器:Generative Reward Models、Heimdall 等让模型自生成验证轨迹,但仍依赖启发式标签。
    共性局限:长 CoT 的复杂依赖与冗余导致验证昂贵且易失效,且高质量人工标注稀缺。
  1. 迭代强化学习框架(RLVR & Expert Iteration)
  • Rejection Fine-Tuning(RFT)与 RL with Verifiable Rewards(RLVR)在数学推理上验证“可验证奖励”的有效性。
  • OREAL、Tulu 3 等指出验证器设计直接影响策略模型上限。
    本文借鉴其“迭代拒绝+在线强化”范式,但首次将其用于**“摘要后验证”**场景,并通过主动学习降低专家标注成本。

OPV 在以上基础上首次把“摘要-验证”与“主动学习-迭代强化”结合,实现可扩展的专家级过程监督

Q: 论文如何解决这个问题?

论文将问题拆解为“如何低成本获得高质量过程标签”与“如何在超长 CoT 上精准定位首个错误”两个子问题,并给出三位一体的解决方案

  1. 摘要-验证范式(Outcome-based Process Verifier)
  • 用 DeepSeek-V3 把原始冗长 CoT 压缩成仅含关键推理步骤的线性解径 𝒮,去除试错、重复、自我推翻等噪声。
  • 在 𝒮 上执行步级验证:模型 π 输出首个错误索引 ℓ̂∈{−1,0,…,n−1} 与自然语言解释 ℰ̂。
    该范式把验证空间从“数百步混杂文本”降至“5–15 步紧凑推理”,计算与标注成本均降一个量级
  1. 主动学习-人在回路(Active Learning Human-in-the-Loop)
  • 每轮用当前最佳 OPV 对未标注池 𝒟_U 做 N 次独立验证,按

Consistency(mathcal Si)=frac1Nmax_ell∑(j=1)^Nmathbf 1[hatell_i^((j))=ell]

选最低一致性的样本送标,聚焦模型最不确定的案例。

  • 专家只需在摘要解径上标“首个错误位置+一句话解释”,单例标注时间 <2 min,40 k 样本总成本可控
  1. 迭代强化更新(Rejection Fine-Tuning + RLVR)
  • 离线阶段:保留与专家标签 ℓ^* 一致的生成轨迹,用拒绝式微调持续放大正确模式。
  • 在线阶段:对过滤后的数据用指数衰减奖励

R(hatell,ell^)= -1 & sgn(hatell+1)≠sgn(ell^+1) λ^(|hatell-ell^*|) & otherwise

进行 DAPO 强化学习,直接优化错误定位精度而非仅分类正确性。

三轮“标注→训练”后,得到 40 k 专家标注、80 k 高质量验证轨迹与 2.2 k 的 hold-out OPV-Bench;32 B 参数的 OPV 在精确错误定位 F1 上超越 Qwen3-Max-Preview 等大型模型 6–8 个百分点,并可在推理阶段为策略模型提供可扩展的测试时验证信号,从而系统性解决长 CoT 验证的准确性与规模化难题。

Q: 论文做了哪些实验?

实验围绕“验证器本身有多强”与“验证器能否反哺策略模型”两条主线展开,共 4 组评测:

  1. OPV-Bench 与 ProcessBench 主评测
  • 指标:精确/±1 步/粗略 三档错误定位的 Accuracy、F1。
  • 对照:Qwen3-Max-Preview、DeepSeek-R1-0528、gpt-oss-120b、Qwen2.5-Math-PRM-72B 等 7 个开源大模型。
  • 结果:32 B OPV 在 OPV-Bench 精确 F1 达 83.1比 Qwen3-Max-Preview 高 6.8;在 ProcessBench 上也与 120 B 级模型持平或更好,验证“小模型+高质量摘要标注”即可超越大模型。
  1. 消融与中间阶段分析
  • 给出 OPV-Stage1/2/3-w/o-RL 中间 checkpoint,显示随着标注数据从 5 k→20 k→40 k,精确 F1 由 75.7→79.1→83.1,证明迭代主动学习有效。
  1. 伪阳性清洗实验(AM-DeepSeek-R1-0528-Distilled)
  • 用 OPV 对 674 k 条“仅答案正确”的合成数据做 8 次投票,≥6 票报错即判为缺陷。
  • 人工抽检 50 例:OPV 判断与专家一致率 88 %,推算约 7.0 % 的样本存在过程错误,直接验证 OPV 可在大规模合成数据中精准筛除假阳性
  1. 测试时协作推理(Test-time Scaling)
  • 任务:AIME2025,策略模型采样 N=8,验证器再采样 M=16 取通过率。
  • 策略:Majority-Voting、Best-of-N、Verifier-Voting(OPV 加权)。
  • 结果:
    – 蒸馏模型 DeepSeek-R1-Distill-Qwen-32B 准确率从 55.2 % → 73.3 %(+18.1)。
    – 顶级模型 gpt-oss-120b 也能再提 2.3 %,与 Pass@8 上界持平
  • 缩放曲线:N,M 同时从 1→64,Verifier-Voting 始终优于传统投票,增益随计算预算线性放大,证明 OPV 在推理阶段同样可扩展

以上实验覆盖静态 benchmark、数据清洗、在线协作三大场景,系统验证了 OPV 的准确性、通用性与规模化能力

Q: 有什么可以进一步探索的点?

以下方向可被视为 OPV 框架的直接延伸或深层扩展,均围绕“摘要-验证”范式的潜在瓶颈与未充分探索的场景展开:

  • 摘要忠实度与错误定位的耦合风险
    当前摘要器为静态 DeepSeek-V3,若摘要遗漏关键前提或引入逻辑断层,验证器会被迫在“失真解径”上判正误。可探索可回溯摘要器(back-traceable summarizer),使每一步摘要都能映射回原始 CoT 片段,实现摘要-验证联合训练并量化“摘要-原文”忠实度,从而把错误定位误差解耦为“摘要误差”与“验证误差”两部分。

  • 非数学领域的可迁移性
    OPV-Bench 仅覆盖数学推理。法律、医疗、代码等长链推理同样存在“冗长-冗余-依赖复杂”现象,但缺乏可验证的最终答案。可研究无标准答案场景下的摘要-验证

  1. 用对抗式摘要器生成“正反两套”紧凑解径;
  2. 让验证器比较两套解径的内部一致性,形成相对置信度
  3. 通过人类偏好标注进行 RLHF,构建“无 Ground-Truth 的 OPV”。
  • 错误定位粒度细化到子步或子句
    数学定理的“隐含前提”往往仅藏在一句短语中。可将摘要步骤进一步拆分为子句级命题,用蕴涵检验或反例生成模型自动判断每个命题真伪,实现子句级错误定位;同时把奖励函数从“步指数衰减”升级为命题依赖图上的最短路径误差,提升定位精度。

  • 测试时“双向”协作
    当前仅策略→验证单向投票。可让验证器在发现潜在错误后,反向提示策略模型重新生成修正步骤,形成“策略-验证-策略”闭环,实现自洽式测试时搜索(self-consistency beam search with verifier feedback),把 OPV 从“评分器”升级为“推理参与者”。

  • 多模态长链推理
    几何、物理题常含图形或表格。可将摘要器升级为跨模态对齐模型,把图像中的几何关系转译为文本命题,再进入 OPV 步级验证;同时构建多模态 OPV-Bench,考察验证器在“图文混合解径”上的错误定位能力。

  • 在线主动学习的安全预算
    当前用固定比例(80 % 低一致 + 20 % 高一致)采样。可引入** bandit-based 预算分配**:把每次标注的“模型性能提升量”作为延迟奖励,动态决定下一轮低一致/高一致采样比例,实现标注 ROI 最大化,并防止过度标注简单或极端案例。

  • 验证器即奖励模型的 scaling law
    初步实验显示 32 B OPV 已优于 235 B 模型,但尚未系统探索“摘要数据量-模型参数-验证性能”三者的 scaling law。可在 1 B→100 B 参数、1 k→1 M 摘要样本范围内进行立方网格实验,拟合验证能力的 scaling 函数,为后续训练更大规模策略模型提供验证器容量预算参考。

这些方向既可直接嵌入现有 OPV 框架,也可催生新一代“可解释、可回溯、可交互”的长链推理验证系统。

Q: 总结一下论文的主要内容

OPV: Outcome-based Process Verifier 提出“先压缩、再验证”的新范式,解决长链式思维(CoT)过程监督的三大痛点——假阳性、高成本、难定位。核心贡献与结果如下:

  1. 摘要-验证框架
    用 DeepSeek-V3 把冗长 CoT 提炼成 5–15 步线性解径,再让步级生成验证器 π 输出“首个错误索引 + 解释”,兼顾细粒度高效性

  2. 主动学习-迭代强化

  • 每轮用 π 的预测一致性筛选最不确定样本送专家标注;
  • 用拒绝式微调 + DAPO 在线 RL 更新模型,三轮后仅 40 k 标注即得 32 B OPV。
  1. 评测结果
  • OPV-Bench 精确 F1 83.1超 Qwen3-Max-Preview 6.8 分
  • ProcessBench 上与 120 B 模型持平或更好。
  1. 实际应用
  • 清洗 674 k 合成数据,筛除 7.0 % 假阳性
  • AIME2025 测试时协作,把 DeepSeek-R1-Distill-Qwen-32B 准确率从 55.2 % 提升到 73.3 %,增益随采样预算线性放大。
  1. 数据集
    发布 2.2 k 专家标注的 OPV-Bench,覆盖 K-12 到大学数学,供后续研究。

综上,OPV 以“摘要-验证”+“主动迭代”实现低成本、高精度、可扩展的长 CoT 过程监督,为 RLVR 与测试时缩放提供新的验证基石。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Zijian Wu,Lingkai Kong,Wenwei Zhang,Songyang Gao,Yuzhe Gu,Zhongrui Cai,Tianyou Ma,Yuhong Liu,Zhi Wang,Runyuan Ma,Guangyu Wang,Wei Li,Conghui He,Dahua Lin,Kai Chen

Categories: cs.CL,cs.LG

PDF URL: https://arxiv.org/pdf/2512.10756.pdf

Arxiv URL: https://arxiv.org/abs/2512.10756

Arxiv ID: 2512.10756

CoolPaper URL: https://papers.cool/arxiv/2512.10756

Published: 2025-12-11T15:47:38Z

Updated: 2025-12-11T15:47:38.000Z


5. Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Large language model (LLM) agents exhibit strong mathematical problem-solving abilities and can even solve International Mathematical Olympiad (IMO) level problems with the assistance of formal proof systems. However, due to weak heuristics for auxiliary constructions, AI for geometry problem solving remains dominated by expert models such as AlphaGeometry 2, which rely heavily on large-scale data synthesis and search for both training and evaluation. In this work, we make the first attempt to build a medalist-level LLM agent for geometry and present InternGeometry. InternGeometry overcomes the heuristic limitations in geometry by iteratively proposing propositions and auxiliary constructions, verifying them with a symbolic engine, and reflecting on the engine’s feedback to guide subsequent proposals. A dynamic memory mechanism enables InternGeometry to conduct more than two hundred interactions with the symbolic engine per problem. To further accelerate learning, we introduce Complexity-Boosting Reinforcement Learning (CBRL), which gradually increases the complexity of synthesized problems across training stages. Built on InternThinker-32B, InternGeometry solves 44 of 50 IMO geometry problems (2000-2024), exceeding the average gold medalist score (40.9), using only 13K training examples, just 0.004% of the data used by AlphaGeometry 2, demonstrating the potential of LLM agents on expert-level geometry tasks. InternGeometry can also propose novel auxiliary constructions for IMO problems that do not appear in human solutions. We will release the model, data, and symbolic engine to support future research.

中文摘要

大型语言模型(LLM)代理展现出强大的数学问题解决能力,乃至在形式化证明系统的辅助下,也能够解决国际数学奥林匹克(IMO)级别的问题。然而,由于在辅助构造上的启发式方法能力较弱,几何问题求解的人工智能仍主要依赖专家模型,例如 AlphaGeometry 2,这类模型在训练和评估中高度依赖大规模数据合成和搜索。在本工作中,我们首次尝试构建一个获奖级别的几何 LLM 代理,并提出了 InternGeometry。InternGeometry 通过迭代地提出命题和辅助构造、利用符号引擎进行验证,并根据引擎反馈进行反思以指导后续的提议,从而克服了几何启发式方法的局限性。动态记忆机制使 InternGeometry 每个问题能够与符号引擎进行两百多次交互。为了进一步加速学习,我们引入了复杂度提升强化学习(CBRL),在训练阶段逐步增加合成问题的复杂度。InternGeometry 基于 InternThinker-32B 构建,在使用仅 13K 个训练样本(仅为 AlphaGeometry 2 使用数据量的 0.004%)的情况下,解决了 2000-2024 年间的 50 个 IMO 几何问题中的 44 个,超过了平均金牌获奖者分数(40.9),展示了 LLM 代理在专家级几何任务上的潜力。InternGeometry 还可以为 IMO 问题提出人类解法中未出现的新颖辅助构造。我们将发布模型、数据及符号引擎,以支持未来研究。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在回答一个核心问题:
能否仅用大语言模型(LLM)智能体,就在国际数学奥林匹克(IMO)级别的几何题上达到金牌选手水平,同时摆脱对专用专家模型与海量合成数据的依赖?

具体而言,工作聚焦以下痛点:

  • 现有 IMO 几何自动证明系统(如 AlphaGeometry 2、SeedGeometry)依赖专家模型数亿级合成数据,通过大规模搜索完成辅助构造,数据与计算代价极高。
  • LLM 智能体在代数、数论等领域已可媲美金牌,但在几何领域因辅助构造启发式弱、需要超长试错链条而表现受限。
  • 传统符号引擎对复杂全局约束(多点同时满足某条件)与退化情形(重名点)支持不足,限制了与 LLM 的协同。

为此,论文提出 InternGeometry,首次实现:

  1. 以仅 13 K 合成题目(≈ 现有方法 0.004 % 数据量)完成训练。
  2. 在 IMO 2000–2024 共 50 道几何题中独立解出 44 题,超越平均金牌分数线(40.9)与当前最佳专家模型。
  3. 通过动态记忆复杂度递进式强化学习(CBRL),让 LLM 在单题内与符号引擎交互 200+ 步,自主提出并验证辅助构造,突破弱启发式瓶颈。

综上,论文验证了 “LLM 智能体 + 轻量符号引擎 + 课程式 RL” 这一通用范式在专家级几何任务上的可行性与数据-计算效率。

Q: 有哪些相关研究?

相关研究可归纳为四大脉络,均与“几何自动证明”或“LLM 数学智能体”直接交叉:

  1. 几何专家模型与符号求解器
  • AlphaGeometry (Trinh & Luong, 2024) / AlphaGeometry 2 (Chervonyi et al., 2025)
    300 M 合成数据训练专用构造预测模型,结合 DDAR 符号引擎做大规模树搜索,IMO 50 上 42/50。
  • SeedGeometry (Chen et al., 2025a)
    230 M 数据,两阶段专家模型,43/50。
  • Newclid (Sicca et al., 2024)
    开源 DDAR 引擎,被本文扩展为 InternGeometry-DDAR,支持全局约束与重名点处理。
  1. LLM 数学智能体(非几何)
  • 基于代码解释器:OR 类方法 Singh et al. (2025)、Li et al. (2025b)、Mai et al. (2025)
    用 Python 代码试错解应用题,强化学习优化策略。
  • 基于形式证明器:PR 类方法 Li et al. (2025a)、Simonds & Yoshiyama (2025)、Goldie et al. (2025)
    在 Lean/Coq 内做形式证明,RL 微调提升成功率。
  • 交互式定理证明:DeepSeek-Prover (Xin et al., 2024; Ren et al., 2025)、Leanabell-Prover (Zhang et al., 2025a)
    在 miniF2F、ProofNet 上取得 SOTA,但尚未覆盖几何。
  1. 课程式/复杂度递进强化学习
  • Voyager (Wang et al., 2023)
    手工设计 Minecraft 技能课程。
  • WebRL (Qi et al., 2024)
    用 LLM 自动生成逐步复杂的网页任务指令。
  • Dump (Wang et al., 2025b)、Self-Evolving Curriculum (Chen et al., 2025b)
    在数学推理上自动调节难度,最大化绝对优势。
    本文 CBRL 受其启发,但首次把“DDAR 证明步数”作为可微调的复杂度指标,实现几何领域的全自动课程。
  1. 几何-LLM 初步尝试
  • 现有工作仅面向初等几何计算(角度、长度填空),未涉及 IMO 级构造与证明。
  • InternGeometry 首次将“LLM 自然语言思考 + DSL 形式动作 + 符号引擎反馈”的长周期交互范式引入几何,并验证其可超越专用专家模型。

综上,本文在“几何专家模型”与“LLM 数学智能体”两大分支之间建立桥梁,并引入“复杂度递进课程”这一 RL 训练新维度,填补了 IMO 级几何 LLM 智能体的空白。

Q: 论文如何解决这个问题?

论文将“IMO 级几何证明”转化为长周期 LLM-符号引擎交互问题,并通过**复杂度递进式强化学习(CBRL)**高效习得辅助构造启发式。整体方案分三步:

1. 构建可交互的几何符号引擎

痛点:开源 DDAR 仅支持“逐点构造”,无法处理

  • 全局约束(如两角平分线交于指定线段)
  • 重名点/退化情形(双重点需显式声明为同一点)

改进(InternGeometry-DDAR)

  • 对已有坐标施加梯度下降式全局调整,一次性满足多约束。
  • 引入语法 !point 与谓词 idc x y,显式声明双重点;扩充 Power of a Point、Menelaus 等定理库。
  • 理论上覆盖 IMO 绝大多数配置,成为 LLM 的“可执行沙盒”。

2. 设计长周期 LLM 智能体

交互协议
每轮 LLM 输出

[Pt, A_t] = Gl(X, W(H(t-1))r)

  • P_t :自然语言“慢思考”链
  • A_t :DSL 动作 <add><propose>
    引擎返回执行结果 O_t ,追加到历史 H_t 。

动作空间

  • <add>: auxiliary construction(点/线/圆)
  • <propose>:子命题(角度相等、四点共圆等)
    引擎即时验证并反馈成败,LLM 据此继续探索。

动态记忆 W(·)

  • 压缩旧轮次:仅保留“动作-成败-关键定理”三元组,丢弃冗长思考。
  • 保留最新反馈,确保上下文 ≤ 模型长度,单题可支持 200+ 轮

拒绝采样防崩溃
规则级 PassCheck 过滤

  • 重复动作、连续多轮无动作、格式错误、同一类型动作超长串等。
    避免“动作塌陷”导致搜索停滞。

3. 复杂度递进式强化学习(CBRL)

目标:用最少数据让模型逐步掌握“简单 → 专家级”构造策略。

算法流程

  1. 冷启动:7 K 现成题目做 SFT,让模型学会“思考-动作-反馈”范式。
  2. 迭代循环(算法 3):
    a. 按当前复杂度 kappa 采样一批合成题 X(kappa) 。
    b. 用 GRPO 做在线 RL;奖励 r = r_o land r_s (二元)。
    c. 若平均奖励 > 0.5 → kappa arrow kappa + α ;否则 kappa arrow kappa - α 。
    理论保证: p=0.5 时期望绝对优势最大,梯度信号最强。
  3. 数据合成管线(算法 1-2):
  • 随机实例化原始结构 → 按 kappa 加辅助构造 → exhaustive 搜索找“仅在新结构可证”的结论作为新题。
  • 实时缓存,保证每轮都能取到 ≈ kappa 难度的 K 题。

效果

  • 训练总 token 仅 1.91 × 10^9 (AlphaGeometry 2 的 ~0.2 %)。
  • 自动课程让模型在第六轮出现“跳变”,IMO 50 成功率从 22 → 44 题。

结果摘要

  • 数据效率:13 K 题目 ≈ 现有方法 0.004 %。
  • 成绩:IMO 2000-2024 几何 44/50,超金牌平均分 40.9;2025 新题亦解。
  • 创造力:2018 P6 给出不同于人类(反演/复数)的纯几何构造,揭示等角共轭与对称点组合。

综上,论文通过“可执行符号引擎 + 长周期记忆交互 + 复杂度递进 RL”三位一体,首次让通用 LLM 智能体在 IMO 几何赛道达到金牌水平,同时把数据与搜索代价压缩两个数量级。

Q: 论文做了哪些实验?

论文围绕「IMO 级几何证明」共设计 4 组实验,覆盖整体性能、长周期交互、课程式 RL 与案例可视化,全部在公开基准 IMO 50(2000–2024)与 IMO 2025 新题上完成。关键结果如下(统一用 Pass@K 指标,K 除非注明均取 256)。

1. 主实验:与 SOTA 专家模型对比

模型 类型 训练数据 IMO 50 备注
AlphaGeometry 2 专家模型 300 M 42/50 多树搜索
SeedGeometry 专家模型 230 M 43/50 未开源
InternGeometry LLM 智能体 13 K 44/50 +2 题
人类金牌平均 40.9 被超越
  • 额外测试 2025 P2:3 个模型均解出,计入后 45/51。
  • 单题结果见原文 Table 2:InternGeometry 覆盖 AG2 全部 42 题,再攻下 2018 P6、2023 P6;对 SeedGeometry 互有胜负(+2001 P5、+2009 P4b,−2006 P1)。

2. 长周期交互消融

设置 命题证明 慢思考 记忆压缩 拒绝采样 IMO 50
完整版 44
仅构造 35
无思考 23
无压缩 20
无拒绝 38

结论:

  • 允许「提出并验证命题」比仅做辅助构造多 9 题。
  • 慢思考 + 记忆压缩共贡献 24 题增益;拒绝采样防崩溃再提 6 题。

3. 复杂度递进 RL(CBRL)消融

训练设定 IMO 50 说明
完整 CBRL 44 动态调节难度
冷启动 SFT 22 无 RL
仅简单数据 29 难度 κ 固定低
仅困难数据 24 难度 κ 固定高
无课程(均匀采样) 38 固定混合分布

额外曲线:

  • 图 4(左)显示训练合成题的平均 proof-length 随 round 单调递增,形成均匀课程。
  • 图 4(右)第 6 轮出现「跳变」,IMO 50 准确率陡升 ≈ 15 %,验证课程有效性。

4. 长周期 vs. 重复采样 scaling 实验

控制总推理预算 = 采样数 K × 单题最大步数

预算 64 步 200 步
16 K 36 % 62 %
51 K 42 % 82 %

结论:把单题步限从 64 提到 200 带来的增益,远高于同预算下单纯增加 K,证实「深轨迹」比「广采样」更高效。

5. 失败案例与推理代价分析

  • 6 道未解题(2001 P1、2002 P6、2003 P3、2006 P1/P6、2020 P6)均含数值不等式或组合几何,超出纯几何 DDAR 表达范围。
  • 推理代价:单轨迹平均 89.6 K tokens,总步数 51 K;与 AlphaGeometry 2 单树 16 K 步同量级,但后者需并行多树×多配置,总体步数远高于 51 K。

6. 可视化案例

图 1 给出 IMO 2018 P6 的构造:

  • 人类主流解用反演或复数;
  • InternGeometry 通过「在 AC 上取 T 使 ∠BDA = ∠TDC → 构造两圆交点 K → 对边对称点」纯几何角追逐完成,展示模型自发发现等角共轭与对称构造的能力。

综上,实验从「性能-消融-scaling-失败-可视化」全链路验证:

  1. 13 K 数据即可超越 300 M 级专家模型;
  2. 长周期交互与动态记忆是突破弱启发式的关键;
  3. 复杂度递进 RL 显著提升数据效率与收敛速度。

Q: 有什么可以进一步探索的点?

以下方向可视为对 InternGeometry 的直接延伸或深层扩展,均围绕「数据-算法-评测-理论」四条主线展开。

1. 数据与知识

  • 跨语言形式化
    将现有 DSL 证明自动转译为 Lean/Isabelle 的全形式命题,构建「几何-形式证明」平行语料,实现与通用交互式定理证明器的双向验证。
  • 非欧与立体几何
    当前 DSL 仅覆盖平面欧氏几何。引入双曲/椭圆度量或三维空间谓词,检验 CBRL 课程机制是否仍适用。
  • 数值-几何混合题
    对失败案例中的不等式、极值问题,添加实代数定理(如 CAD、SOS)接口,形成「几何-代数」联合动作空间。

2. 算法与模型

  • 测试时强化学习(Test-time RL)
    在单题内用策略梯度继续微调,奖励为引擎反馈的即时稀疏信号,探索「一题一模型」的极限性能。
  • 构造-证明双通道策略
    显式分解策略网络为 π_construct 与 π_prove,二者共享历史记忆,分别输出辅助点和子目标,降低动作空间耦合度。
  • 层次化子目标生成
    先用价值模型预测「下一关键性质」,再据此采样构造或命题,实现「先规划后动作」的层次强化学习。
  • 可证明的样本复杂度
    对 CBRL 的 κ-调度建立 PAC 界:给定 ε-最优策略,所需合成题量与难度增长速率的上界如何随几何公理数变化?

3. 评测与基准

  • IMO 难度预测器
    以人类平均分、DDAR 步数、辅助点个数为多模态标签,训练回归器预测「题目对模型的难度」,用于更精细的课程调度。
  • 构造可解释性基准
    建立人工标注的「构造用途标签」(等角共轭、对称、反演、位似等),衡量模型提出构造与人类经典套路的语义重合度。
  • 在线对战平台
    开放 InternGeometry-DDAR 为服务,允许外部提交构造-证明策略,实时排行榜驱动社区共同探索新定理。

4. 理论与安全

  • 构造完备性定理
    对给定公理集,刻画「任意可证几何命题皆可在 ≤ k 个辅助构造内被 DDAR 推出」的 k 之上界,验证长周期交互的最坏情况长度。
  • 对抗构造鲁棒性
    在坐标层面加入 ε-扰动,观察模型是否仍输出正确构造,检验符号引擎与 LLM 对数值噪声的耦合鲁棒性。
  • 可复现性协议
    开源时同时发布「随机种子-轨迹-奖励」三元组日志标准,确保后续工作可精确复现 CBRL 的中间难度分布曲线。

5. 应用与系统

  • 教育场景个性化
    根据学生历史错题,实时合成「微难度提升」子题,用 InternGeometry 生成分步证明,实现「一人一课程」的几何辅导。
  • 多模态输入扩展
    允许用户上传手绘草图或照片,先用视觉模型生成 DSL 初始配置,再交由智能体完成证明,打通「图像 → 形式几何」端到端流程。

综上,从「更通用的几何公理系统」到「测试时继续学习」,再到「可解释性与理论保证」,InternGeometry 仅打开了 LLM 驱动几何推理的第一扇门,后续仍有广阔的纵深可供探索。

Q: 总结一下论文的主要内容

论文核心贡献一句话
首次用大语言模型智能体仅 13 K 合成题目上达到IMO 几何 44/50(超金牌平均分),证明“LLM + 符号引擎 + 课程式 RL”可替代专用专家模型与亿级数据。

1. 要解决的问题

  • IMO 几何依赖创造性辅助构造,启发式弱、搜索空间爆炸。
  • 现有 SOTA(AlphaGeometry 2 等)靠300 M 级数据 + 大规模树搜索,数据与推理代价极高。
  • LLM 智能体在别的数学领域已金牌,但在几何几乎空白。

2. 方法总览

模块 关键设计 作用
InternGeometry-DDAR 全局梯度调点、重名点语法、新增定理 让符号引擎支持复杂 IMO 配置
LLM 智能体 自然语言思考 → DSL 动作 → 引擎验证 单题 200+ 轮试错,突破弱启发式
动态记忆 压缩历史为“动作-成败-定理”摘要 长上下文不爆炸,引导后续探索
CBRL 以 DDAR 步数 κ 为难度,RL 中自动升降 κ 始终给模型“最合口味”的训练题

3. 实验结果

  • IMO 50:44/50 > AG2(42) > Seed(43) > 金牌平均(40.9);2025 新题亦解。
  • 数据效率:13 K ≈ AG2 的 0.004 %。
  • 消融:去命题-9 题、去记忆-24 题、去课程-6 题。
  • Scaling:延长单题步数比盲目增采样 K 更高效。

4. 结论与意义

  • 验证了通用 LLM 智能体专家级几何任务的可行性与极端数据效率。
  • 提出复杂度递进式 RL新范式,可迁移到其它“弱启发式、长链条”推理任务。
  • 开源模型+数据+引擎,为后续形式几何、教育辅导、定理发现提供基座。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Haiteng Zhao,Junhao Shen,Yiming Zhang,Songyang Gao,Kuikun Liu,Tianyou Ma,Fan Zheng,Dahua Lin,Wenwei Zhang,Kai Chen

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2512.10534.pdf

Arxiv URL: https://arxiv.org/abs/2512.10534

Arxiv ID: 2512.10534

CoolPaper URL: https://papers.cool/arxiv/2512.10534

Published: 2025-12-11T11:05:04Z

Updated: 2025-12-11T11:05:04.000Z


6. MoCapAnything: Unified 3D Motion Capture for Arbitrary Skeletons from Monocular Videos

Motion capture now underpins content creation far beyond digital humans, yet most existing pipelines remain species- or template-specific. We formalize this gap as Category-Agnostic Motion Capture (CAMoCap): given a monocular video and an arbitrary rigged 3D asset as a prompt, the goal is to reconstruct a rotation-based animation such as BVH that directly drives the specific asset. We present MoCapAnything, a reference-guided, factorized framework that first predicts 3D joint trajectories and then recovers asset-specific rotations via constraint-aware inverse kinematics. The system contains three learnable modules and a lightweight IK stage: (1) a Reference Prompt Encoder that extracts per-joint queries from the asset’s skeleton, mesh, and rendered images; (2) a Video Feature Extractor that computes dense visual descriptors and reconstructs a coarse 4D deforming mesh to bridge the gap between video and joint space; and (3) a Unified Motion Decoder that fuses these cues to produce temporally coherent trajectories. We also curate Truebones Zoo with 1038 motion clips, each providing a standardized skeleton-mesh-render triad. Experiments on both in-domain benchmarks and in-the-wild videos show that MoCapAnything delivers high-quality skeletal animations and exhibits meaningful cross-species retargeting across heterogeneous rigs, enabling scalable, prompt-driven 3D motion capture for arbitrary assets. Project page: https://animotionlab.github.io/MoCapAnything/

中文摘要

动作捕捉现在已成为数字人类之外内容创作的基础,但大多数现有流程仍然局限于特定种类或模板。我们将这一差距定义为类别无关动作捕捉(CAMoCap):给定一个单目视频和任意绑定骨骼的3D资产作为提示,目标是重建基于旋转的动画(如BVH),以直接驱动特定资产。我们提出了MoCapAnything,这是一种参考引导的分解框架,它先预测3D关节轨迹,然后通过约束感知逆向运动学恢复资产特定的旋转。该系统包含三个可学习模块和一个轻量级的IK阶段:
(1) 参考提示编码器(Reference Prompt Encoder),从资产的骨骼、网格和渲染图像中提取每个关节的查询;
(2) 视频特征提取器(Video Feature Extractor),计算密集的视觉描述符,并重建粗略的4D可变形网格以弥合视频与关节空间的差距;
(3) 统一动作解码器(Unified Motion Decoder),融合这些线索以生成时间上连贯的轨迹。我们还整理了Truebones Zoo,包含1038个动作片段,每个提供标准化的骨骼-网格-渲染三元组。在内部基准测试和实际场景视频上的实验表明,MoCapAnything能够生成高质量的骨架动画,并在异构骨骼间实现有意义的跨物种重定向,从而实现任意资产的可扩展、提示驱动的3D动作捕捉。项目页面:https://animotionlab.github.io/MoCapAnything/

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文将传统“针对特定物种或模板”的单目动作捕捉升级为“任意骨骼通用”的设定,并形式化为新任务 Category-Agnostic Motion Capture (CAMoCap)。其核心目标是:

给定一段单目 RGB 视频 V 和一个任意拓扑的带绑定 3D 资产 A=(M,S,IA) ,直接输出能够驱动该资产的运动序列 R_t(t=1)^T ,其中 Rt=R(t,j)∈SO(3)_(j∈ J) ,而无需为每类角色单独训练参数化模型或手动重定向。

换言之,论文要解决“用一段视频+一个任意角色 prompt,一键生成可直接播放的骨骼动画”这一难题,突破人类/四足等固定模板的限制,实现跨物种、跨形态、跨骨骼结构的统一动作捕捉与重定向。

Q: 有哪些相关研究?

论文将相关研究划分为两大主线——静态姿态估计动态运动捕捉,并指出它们因“物种/模板固定”或“仅输出 2D/3D 关键点”而无法满足 CAMoCap 的“任意骨骼、可直接驱动”需求。主要文献脉络如下:

  • 2D/3D 人体姿态
  • 自顶向下热力图法:Stacked Hourglass、CPN、SimpleBaseline、HRNet、ViTPose
  • 坐标回归法:DeepPose、RLE、SimCC
  • 端到端集合预测:DETR-style(PETR、QueryPose 等)
  • 全身参数化模型:SMPL/SMPL-X → HMR、VIBE、TCMR、OSX、AiOS、MultiHMR
  • 世界坐标运动捕捉
    SLAHMR、PACE、TRAM、WHAC、WHAM 等引入 SLAM/光流估计全局轨迹,但仍依赖 SMPL 人体模板。

  • 动物/非人类捕捉
    SMAL 四足模板、CASA、MagicPony、3DFauna、LASSIE、ViSER、BANMo、PPR 等,均限定物种或需已知模板。

  • 类别无关 2D 关键点(CAPE)
    POMNet、CapeFormer、Pose Anything、CapeX 等通过支持集或文本提示实现跨类别 2D 关键点检测,但不涉及 3D 轨迹、时序一致性或旋转参数,无法直接用于动画。

综上,现有工作要么锁定单一参数化模型(SMPL/SMAL),要么止步于 2D/3D 关键点定位;MoCapAnything 首次把“单目视频 + 任意 prompt 资产 → 可直接驱动的 3D 旋转序列”作为统一任务提出并解决

Q: 论文如何解决这个问题?

论文将 CAMoCap 拆成“轨迹预测 → 旋转恢复”两阶段,提出参考引导的因子化框架 MoCapAnything,用四个可插拔模块解决“跨骨骼、跨模态、跨时序”三大难点:

  1. Reference Prompt Encoder
    把资产的几何(mesh)、结构(skeleton)与外观(rendered images)编码成逐关节查询向量 Q=qj(j∈ J) ,通过
  • 图拓扑自注意力 → 注入父子/邻接约束
  • 交叉注意力到 mesh 表面点 → 隐式蒙皮关系
  • 交叉注意力到图像令牌 → 消除对称/相似部位歧义
    得到与骨骼尺寸无关的“资产提示”。
  1. Video Feature Extractor
    单目视频两条并行流:
  • 视觉流:冻结 DINOv2 提取每帧密集令牌 A_t
  • 几何流:预训练图生 4D 网格 Mt → 降采样为 1024 点位置+法向量+时间编码,生成几何令牌 G_t
    二者共同构成视频特征 V=A_t,G_t
    (t=1)^T ,在 RGB 与点云状关节空间之间架起拓扑-几何桥梁。
  1. Unified Motion Decoder
    将提示 Q 沿时间复制为 h_(t,j)^((0)) ,在 L 层中依次执行
  • 图拓扑帧内自注意力 → 保持运动学树约束
  • 时序视觉交叉注意力 → 补全遮挡/运动模糊
  • 时序点云交叉注意力 → 利用 4D 网格解耦深度与非刚性形变
  • 时序自注意力 → 长程平滑、抑制抖动
    末端轻量 MLP 直接回归资产坐标系下的 3D 关节轨迹 x_(t,j)∈R^3 。
  1. IK Fitting 阶段(无梯度,轻量)
  • 几何闭式初始化:每帧沿运动链对齐静止姿态骨向量
  • 时序热启动:前一帧解作为下一帧初值
  • 可微分 refinement:最小化 FK 位置误差 + 几何先验 + 轴向 twist 抑制
    输出符合骨长、关节限幅、时序平滑的资产专用旋转序列 R_(t,j)∈SO(3) 。

训练仅对 3D 位置做掩码 L1 回归,旋转完全由 IK 阶段产生,避免跨骨骼角度参数化歧义。整套流程“提示驱动、因子化解耦、4D 网格桥接”,实现同一模型对任意骨骼的直接捕捉跨物种重定向

Q: 论文做了哪些实验?

实验围绕「任意骨骼、单目视频」这一新任务展开,从定量指标、消融分析、定性可视化野外泛化与跨物种重定向共五个层面系统验证:

  1. 基准数据集与划分
  • Truebones Zoo:1 038 段动物动作,104 715 帧,含骨架-网格-渲染视频三元组
  • 按物种出现频率划分为 Seen / Rare / Unseen 三组,固定 60 段做测试,其余 978 段训练
  • 额外抽取 Objaverse 1 000 个人形/非人资产,验证跨域能力
  1. 评测指标
  • 3D 轨迹层:MPJPE、MPJVE、CD-Skeleton(带拓扑的倒角距离)
  • 旋转层:补充材料给出角度误差与可视化,正文聚焦轨迹精度
  1. 与 SOTA 对比
    唯一可比较的类别无关动物动捕方法 GenZoo(仅四足)在 Truebones Zoo 上测试:
方法 Quad Non-Quad All
GenZoo 0.4466 0.4740 0.4580
MoCapAnything 0.2354 0.2821 0.2549

CD-Skeleton 降低约 44%,非四足降幅更大,显示跨拓扑优势。

  1. 消融实验
    在 Seen / Rare / Unseen 三组上逐项移除输入模态或模块:
变体 Seen MPJPE↓ Rare MPJPE↓ Unseen MPJPE↓
w/o image 10.25 14.72 41.57
w/o mesh 14.36 21.20 46.01
w/o GMHA 8.26 14.01 26.57
完整模型 8.06 12.04 25.63

mesh 与图注意力对罕见/未见物种最关键;encoder/decoder 层数 4/12 在速度与精度间最佳。

  1. 定性结果
  • 同域可视化:Truebones Zoo 测试集上,相同输入视频驱动四足、鸟、爬行类等 5 种骨架,轨迹平滑且解剖合理
  • Objaverse 人形:单目视频直接捕捉 biped 骨架,无需 SMPL
  • 野外视频:网络爬取的鸡、鹰、虎、鳄鱼、鱼、蟹等 20+ 段视频,模型仍能输出稳定 3D 骨骼
  • 任意跨物种重定向
    – 鸟飞行动作 → 迅猛龙奔跑
    – 鱼游泳 → 鳄鱼摆尾
    – 狗奔跑 → 鸵鸟双足
    – 鳄鱼甩尾 → 鹦鹉站立
    所有重定向仅替换参考资产 prompt,无需再训练或手工对齐。

综上,实验覆盖「同骨架捕捉-异骨架重定向-野外泛化」全场景,定量与定性结果一致表明:MoCapAnything 在精度、平滑度、跨拓扑通用性上均显著优于现有方法,并首次展示了“单目视频+任意 prompt 资产”即可一键生成可播放动画的可行路径。

Q: 有什么可以进一步探索的点?

  • 物理与接触感知 IK
    当前 IK 仅最小化位置误差与 twist 正则,未显式建模地面接触、摩擦或动量守恒。引入可微分物理引擎或接触约束优化,可消除滑步、漂浮等伪影。

  • 世界坐标轨迹恢复
    网络输出为相机空间关节点,需后续 SLAM/VO 才能得全局轨迹。将世界坐标解耦为可学习分支,实现端到端全局运动估计,可直接用于游戏、虚拟制片。

  • 去 4D 网格依赖
    现依赖预训练单目→4D 重建器提供几何令牌。若视频纹理稀疏或严重遮挡,网格质量下降。研究视频帧间直接几何先验或概率深度,提升野外鲁棒性并降低推理成本。

  • 文本/语义 prompt 扩展
    目前 prompt 需完整骨骼+网格+参考图。支持文本描述(“一只长脖子恐龙”)或语音指令,可让普通用户零资产快速生成角色动画。

  • 多角色交互与群体 mocap
    框架现为单主角;扩展到多实例图注意力,实现握手、打斗、群舞等交互场景,同时解决遮挡与对应关联。

  • 实时与轻量化
    解码器 12 层+4D 重建占显存。蒸馏为更小 Transformer 或卷积-Transformer 混合结构,在移动端/网页端实现 ≥30 fps 实时捕捉。

  • 可编辑与风格化运动
    在轨迹空间引入潜码或风格向量,允许用户控制“更快/更夸张/更柔软”等风格,或把真实动作迁移到卡通、机器人等不同动力学模型。

  • 无骨骼或柔性体推广
    当前假设已知关节层级。对软体、粒子系统或未知拓扑,先自动发现可动部件再生成控制参数,实现“任意可变形对象”的运动捕捉。

Q: 总结一下论文的主要内容

论文提出并解决“类别无关动作捕捉”(CAMoCap)这一新问题:给定单目 RGB 视频与任意带绑定 3D 资产,直接输出可驱动该资产的旋转动画,无需为每类角色单独建模。为此设计参考引导的因子化框架 MoCapAnything,核心流程如下:

  1. Reference Prompt Encoder
    将目标资产的骨架、网格与参考图像编码为逐关节查询,注入拓扑、几何与外观先验。

  2. Video Feature Extractor
    用冻结 DINOv2 提取每帧视觉令牌,并重建 4D 粗网格得到几何令牌,桥接 RGB 与点云状关节空间。

  3. Unified Motion Decoder
    以图拓扑-视觉-几何-时序四重注意力预测资产坐标系下的 3D 关节轨迹,保证时序一致与解剖合理。

  4. 轻量 IK Fitting
    几何闭式初始化 + 可微分 refinement,兼顾骨长、层级、关节限幅与 twist 抑制,输出平滑的 SO(3) 旋转序列。

在自整理的 Truebones Zoo(1 038 段、60 测试)与 Objaverse 人形资产上,MoCapAnything 的 CD-Skeleton 误差比唯一可比基线 GenZoo 降低 44%,并在罕见/未见物种上优势更大;消融显示 mesh 与图注意力是关键。野外视频(鸟、鱼、蟹等)与任意跨物种重定向(鸟→迅猛龙、鱼→鳄鱼等)定性结果验证其通用性与易用性。

综上,论文首次实现“单目视频 + 任意 prompt 资产 → 可直接播放的骨骼动画”,为游戏、虚拟制片、IP 动画提供可扩展的通用动作捕捉方案。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Kehong Gong,Zhengyu Wen,Weixia He,Mingxi Xu,Qi Wang,Ning Zhang,Zhengyu Li,Dongze Lian,Wei Zhao,Xiaoyu He,Mingyuan Zhang

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.10881.pdf

Arxiv URL: https://arxiv.org/abs/2512.10881

Arxiv ID: 2512.10881

CoolPaper URL: https://papers.cool/arxiv/2512.10881

Published: 2025-12-11T18:09:48Z

Updated: 2025-12-11T18:09:48.000Z


7. BEAVER: An Efficient Deterministic LLM Verifier

As large language models (LLMs) transition from research prototypes to production systems, practitioners often need reliable methods to verify that model outputs satisfy required constraints. While sampling-based estimates provide an intuition of model behavior, they offer no sound guarantees. We present BEAVER, the first practical framework for computing deterministic, sound probability bounds on LLM constraint satisfaction. Given any prefix-closed semantic constraint, BEAVER systematically explores the generation space using novel token trie and frontier data structures, maintaining provably sound bounds at every iteration. We formalize the verification problem, prove soundness of our approach, and evaluate BEAVER on correctness verification, privacy verification and secure code generation tasks across multiple state of the art LLMs. BEAVER achieves 6 to 8 times tighter probability bounds and identifies 3 to 4 times more high risk instances compared to baseline methods under identical computational budgets, enabling precise characterization and risk assessment that loose bounds or empirical evaluation cannot provide.

中文摘要

随着大型语言模型(LLM)从研究原型过渡到生产系统,实践者通常需要可靠的方法来验证模型输出是否满足所需约束。虽然基于采样的估计能够提供模型行为的直观理解,但它们无法提供可靠的保证。我们提出了 BEAVER,这是第一个用于计算 LLM 约束满足的确定性、可靠概率界限的实用框架。对于任意前缀封闭的语义约束,BEAVER 使用新型的 token trie 和 frontier 数据结构系统地探索生成空间,在每次迭代中保持可证明的可靠界限。我们形式化了验证问题,证明了我们方法的可靠性,并在多种最先进的 LLM 上对 BEAVER 进行了正确性验证、隐私验证和安全代码生成任务的评估。与基线方法相比,在相同的计算预算下,BEAVER 可实现 6 到 8 倍更紧的概率界限,并识别出 3 到 4 倍更多的高风险实例,从而实现松散界限或经验评估无法提供的精确特征描述和风险评估。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在解决如何为大型语言模型(LLM)的约束满足概率提供确定性的、可证明的上下界这一核心问题。具体而言:

  • 背景:LLM 从研究原型走向生产系统时,需要可靠手段验证其输出是否满足给定的语义约束(如安全性、隐私性、功能正确性)。
  • 挑战:LLM 按自回归方式生成 token,诱导出整个输出空间上的概率分布,而非单一确定输出;输出空间随词汇量与序列长度指数爆炸,精确计算满足约束的总概率 P 不可行。
  • 现有方法局限
    – 采样类估计(拒绝采样、红队测试、对抗攻击)只能给出经验频率,无法提供任何可证明的确定性保证
    – 传统神经网络验证技术(抽象解释、SMT 求解器)面向“输入→输出”单次前馈网络,无法处理 LLM 的多步概率展开与解码逻辑。
  • 目标:在单次提示下,对前缀封闭的语义约束 Phi ,给出可证明成立的概率区间$
    P(LB),P(UB)
    ,使得 P(LB)le Ple P(UB)$,并在有限计算预算内尽可能收紧该区间,从而支持可量化的风险评估与部署决策。

Q: 有哪些相关研究?

相关研究可划分为两条主线:

  1. 面向前馈神经网络确定性验证
  2. 面向大语言模型统计/概率认证
  • DNN 确定性验证
  • 基于线性松弛与分支定界的方法,如 α-CROWN、β-CROWN、Branch-and-Bound for ReLU NN。
  • 抽象解释框架,如 AI2、DeepPoly、MN-BaB。
  • 混合整数规划编码,如 Strong MILP formulations for trained networks。
  • 增量/演化网络验证,如 Incremental verification、Incremental randomized smoothing。
    这些工作均针对确定性前馈网络逻辑输出性质,无法直接给出 LLM 概率分布上的可证明上下界。
  • LLM 统计/概率认证
  • 对抗输入扰动下的随机平滑认证(Certified adversarial robustness via randomized smoothing)。
  • 领域/知识一致性统计检验(Domain certification in LLMs、Quantitative certification of knowledge comprehension)。
  • 多轮对话风险统计量化(Quantifying risks in multi-turn conversation)。
  • 工具选择分布鲁棒性统计保证(Quantifying distributional robustness of agentic tool-selection)。
    上述方法依赖采样或随机平滑,仅提供高置信度统计保证,而非确定性、可证明的精确概率区间

综上,尚无工作能在白盒 LLM 上针对前缀封闭语义约束给出可证明且可迭代收紧的概率上下界;BE

Authors: Tarun Suresh,Nalin Wadhwa,Debangshu Banerjee,Gagandeep Singh

Categories: cs.AI,cs.FL

PDF URL: https://arxiv.org/pdf/2512.05439.pdf

Arxiv URL: https://arxiv.org/abs/2512.05439

Arxiv ID: 2512.05439

CoolPaper URL: https://papers.cool/arxiv/2512.05439

Published: 2025-12-05T05:34:06Z

Updated: 2025-12-05T05:34:06.000Z


8. From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models

This paper introduces the concept of Microscopic Spatial Intelligence (MiSI), the capability to perceive and reason about the spatial relationships of invisible microscopic entities, which is fundamental to scientific discovery. To assess the potential of Vision-Language Models (VLMs) in this domain, we propose a systematic benchmark framework MiSI-Bench. This framework features over 163,000 question-answer pairs and 587,000 images derived from approximately 4,000 molecular structures, covering nine complementary tasks that evaluate abilities ranging from elementary spatial transformations to complex relational identifications. Experimental results reveal that current state-of-the-art VLMs perform significantly below human level on this benchmark. However, a fine-tuned 7B model demonstrates substantial potential, even surpassing humans in spatial transformation tasks, while its poor performance in scientifically-grounded tasks like hydrogen bond recognition underscores the necessity of integrating explicit domain knowledge for progress toward scientific AGI. The datasets are available at https://huggingface.co/datasets/zongzhao/MiSI-bench.

中文摘要

本文介绍了微观空间智能(Microscopic Spatial Intelligence, MiSI)的概念,即感知和推理不可见微观实体空间关系的能力,这对于科学发现至关重要。为了评估视觉-语言模型(Vision-Language Models, VLMs)在该领域的潜力,我们提出了一个系统的基准框架 MiSI-Bench。该框架包含超过 163,000 个问答对和 587,000 张图像,来自大约 4,000 个分子结构,涵盖九个互补任务,评估从基础空间变换到复杂关系识别的能力。实验结果显示,现有最先进的 VLM 在该基准上的表现显著低于人类水平。然而,一个微调的 7B 模型展示了相当大的潜力,甚至在空间变换任务中超越了人类,而其在诸如氢键识别等科学性任务上的低性能则强调了在迈向科学通用人工智能(AGI)过程中整合显性领域知识的必要性。数据集可在 https://huggingface.co/datasets/zongzhao/MiSI-bench 获得。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在回答一个核心问题:
当前最先进的视觉-语言模型(VLMs)是否具备“微观空间智能”(Microscopic Spatial Intelligence, MiSI)——即从二维分子投影图像中感知、推理并操作三维微观结构的能力?

为系统评估这一能力,作者构建了大规模基准 MiSI-Bench,覆盖 9 项从基础空间变换到复杂关系识别的任务,揭示现有 VLMs 在微观科学场景下的显著性能缺口,并验证通过领域微调可激活模型潜在空间推理能力,但科学先验知识的显式注入仍是迈向科学 AGI 的关键瓶颈。

Q: 有哪些相关研究?

  • 宏观空间智能基准
  • VIS-Bench、MuriBench:评估跨图像/视频的空间关联与推理。
  • LEGOPuzzles:合成积木环境下的多步空间推理。
  • 三维分子理解
  • 传统方法:力场、3D-CNN、等变图神经网络、几何 Transformer 仅依赖笛卡尔坐标。
  • 近期 MLLM 探索:LLaVA-OneVision、LLaVA-NeXT-Interleave 等尝试用视觉-语言框架统一 2D-3D 推理,但未聚焦微观场景。
  • 科学发现中的大模型
  • 自主化学研究(Boiko et al., 2023)、AI 抗体设计(Swanson et al., 2025)显示 LLM 在科学工作流中的潜力, yet 缺乏针对分子空间智能的系统评测。

Q: 论文如何解决这个问题?

论文通过“构建基准 → 系统评测 → 诊断瓶颈 → 验证潜力”四步解决“VLMs 是否具备 MiSI”的问题。

  1. 构建 MiSI-Bench
  • 数据来源:4 000 套 PDBbind 晶体结构 → 58 万张正交投影图 + 16 万 QA 对。
  • 任务体系:
  • 4 项单元任务(translation / rotation / zooming / residue-ligand interaction)
  • 5 项复合任务(Trans-Rot、Rot-Rot、Docking、Interaction Location、Pocket-ligand Interaction)
  • 题型:Cloze(连续值填空)与 Multiple-Choice(四选一)混合,配套加权评分规则。
  1. 系统评测
  • 覆盖 10 个主流 VLMs(OpenAI o3、Claude-4.5-Sonnet、Gemini-2.5-pro 等)与博士级人类对照。
  • 指标:Accuracy(选择题)+ 归一化绝对误差复合分(填空题),并报告 exact-match 作为鲁棒性参考。
  1. 诊断瓶颈
  • 宏观结论:所有闭源模型显著低于人类平均(≈ 35 vs 63 分)。
  • 细粒度分析:
  • 距离类任务 > 旋转类任务,揭示 2D 预训练先验的局限性。
  • 氢键识别随键数量增加呈指数下降,说明缺乏化学先验。
  • 连续变换任务人类误差累积严重,为模型留下反超空间。
  1. 验证潜力
  • 在训练集上对 7 B 参数 Qwen2.5-VL 做轻量级 SFT(无结构先验注入)。
  • 结果:
  • 平均得分 62.96,跃居第一;在 Rotation、Rot-Rot 等任务上 > 90 %,反超人类。
  • 但在 Pocket-ligand Interaction 仍仅 10.72 %,证实“科学知识缺口”仍是天花板。

综上,论文用 MiSI-Bench 量化地揭示了 VLMs 在微观空间智能上的短板与可激活潜力,并指出未来需“显式融入结构生物学知识”才能逼近科学 AGI。

Q: 论文做了哪些实验?

实验按“评测范围 → 指标设计 → 结果对比 → 消融/因子分析 → 案例诊断”五级展开,全部在 MiSI-Bench(tiny 子集)与完整测试集完成。

  1. 评测范围
  • 模型:10 个 SOTA VLMs
    – 闭源:GPT-5-mini、o4-mini、o3、GPT-4.1、Claude-4-Opus、Claude-4.5-Sonnet、Claude-3.5-Sonnet、Gemini-2.5-pro、Gemini-2.5-flash-lite
    – 开源:Qwen3-vl-235b-a22b-thinking
  • 人类基线:15 名 STEM/结构生物学博士生独立作答 tiny 子集。
  • 微调对照:Qwen2.5-VL-7B 在训练集做 1-epoch SFT(LoRA,r=64)。
  1. 指标设计
  • 选择题:Accuracy。
  • 填空题:
    s=max!l(0,;1-|hatd-d|d_(max)r)
    多步任务按操作数平均;氢键任务用“正确交互占比”并带幻觉惩罚(>2× 真值或混入假阳性→0 分)。
  1. 主结果对比(表 1)
  • 零样本 VLMs 平均 16–35 分,最高 Claude-4.5-Sonnet 34.37,仍低于人类 63 分。
  • SFT-7B 平均 62.96,排名第一;Rotation、Rot-Rot 达 99.7 / 89.6,显著超越人类。
  • 科学相关任务(Res/Poc-lig Interaction)人类 82–92,最佳模型仅 0.6–10.7,差距最大。
  1. 因子/消融分析
  • 氢键数量敏感性(图 4a):
    0 条键→89 % 准确率;≥3 条键→<30 %,指数下降。
  • Zooming 深度误差(图 4b):
    45–55 Å 区间误差峰值 86 %,证实“临界尺度”信息稀疏导致注意力失效。
  • Exact-match 消融(表 2):
    零样本模型分数普遍再降 30–50 %,SFT 模型仍保持 >97 % 的 Translation/Rotation 精确匹配率,验证其空间变换能力并非来自模糊猜测。
  1. 案例诊断
  • 对 Claude-4.5-Sonnet 在 Rotation 任务的失败例进行可视化追踪(图 5):
    模型能定位保守残基锚点,却将 y 轴旋转误判为“轻微后移”,揭示其缺乏连续角度度量与三维几何一致性检查机制。

实验结论:

  • 当前 VLMs 的微观空间推理显著弱于人类,尤其在需要科学先验的任务上。
  • 纯数据驱动的 SFT 即可解锁模型潜在 3D 变换能力,但氢键识别等知识密集型任务仍需显式注入领域知识。

Q: 有什么可以进一步探索的点?

  • 显式几何-物理先验注入
    将原子距离、角度、氢键能量等物理约束作为可微损失或注意力偏置,在预训练或 SFT 阶段联合优化,缓解“知识缺口”。

  • 多模态 3D 表征统一
    把正交投影图与点云/体素/拓扑图同时编码,构建跨模态对齐空间,实现 2D↔3D 双向检索与生成。

  • 连续空间参数回归
    当前角度/距离被离散为 15° 或 1 Å 桶;可探索直接回归连续值,用 Laplacian 或 von-Mises 分布建模不确定性。

  • 动态序列交互建模
    扩展静态快照为时间序列(分子动力学帧),评估 VLMs 对构象变化、结合路径、能量面穿越的预测能力。

  • 可解释空间注意力可视化
    对旋转-旋转等复合任务进行注意力 rollout,验证模型是否锁定关键残基或仅依赖图像局部纹理捷径。

  • 跨领域迁移与数据效率
    研究在 MiSI-Bench 上训练的模型能否零样本迁移到 cryo-EM 密度图、材料晶体或 DNA origami 场景,测试微观空间智能的通用性。

  • 人机协同分子设计
    把 MiSI 模型嵌入交互式可视化工具(ChimeraX、PyMOL),实时提供氢键提示、冲突警告,构建“人在回路”的分子优化流程。

  • 科学推理链评估
    设计多步问答链(“先旋转→再判断氢键→再决定突变”),检验模型能否在长程推理中保持几何一致性,避免幻觉累积。

Q: 总结一下论文的主要内容

论文题目
From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models

核心贡献

  1. 提出“微观空间智能”(MiSI)概念:从二维分子投影感知、推理并操作三维微观结构的能力。
  2. 构建 MiSI-Bench:
  • 4 000 PDB 复合物 → 58.8 万张正交投影图 + 16.3 万 QA 对
  • 9 任务(4 单元 + 5 复合),覆盖平移、旋转、缩放、氢键识别、分子对接等。
  1. 系统评测 10 个 SOTA VLMs + 人类博士基线:
  • 零样本模型平均 <35 分,显著低于人类 63 分;科学任务差距最大。
  1. 7 B 模型仅经数据集 SFT 即达 63 分,旋转类任务超人类,证实潜力;氢键识别仍远逊,揭示“科学先验缺失”瓶颈。

主要结论

  • 现有 VLMs 尚不具备可靠的微观空间智能。
  • 纯数据微调可激活 3D 变换能力,但知识密集型推理需显式融入领域物理规则。
  • MiSI-Bench 为未来科学 AGI 提供可量化的微观空间推理基准与改进方向。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Zongzhao Li,Xiangzhe Kong,Jiahui Su,Zongyang Ma,Mingze Li,Songyou Li,Yuelin Zhang,Yu Rong,Tingyang Xu,Deli Zhao,Wenbing Huang

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.10867.pdf

Arxiv URL: https://arxiv.org/abs/2512.10867

Arxiv ID: 2512.10867

CoolPaper URL: https://papers.cool/arxiv/2512.10867

Published: 2025-12-11T18:00:21Z

Updated: 2025-12-11T18:00:21.000Z


9. VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

Unifying multimodal understanding, generation and reconstruction representation in a single tokenizer remains a key challenge in building unified models. Previous research predominantly attempts to address this in a dual encoder paradigm, e.g., utilizing the separate encoders for understanding and generation respectively or balancing semantic representations and low-level features with contrastive loss. In this paper, we propose VQRAE, a Vector Quantization version of Representation AutoEncoders, which pioneers the first exploration in unified representation to produce Continuous semantic features for image understanding and Discrete tokens for visual generation within a unified tokenizer. Specifically, we build upon pretrained vision foundation models with a symmetric ViT decoder and adopt a two-stage training strategy: first, it freezes the encoder and learns a high-dimensional semantic VQ codebook with pixel reconstruction objective; then jointly optimizes the encoder with self-distillation constraints. This design enables negligible semantic information for maintaining the ability of multimodal understanding, discrete tokens that are compatible for generation and fine-grained reconstruction. Besides, we identify the intriguing property in quantizing semantic encoders that rely on high-dimensional codebook in contrast to the previous common practice of low-dimensional codebook in image reconstruction. The semantic VQ codebook can achieve a 100% utilization ratio at a dimension of 1536. VQRAE presents competitive performance on several benchmarks of visual understanding, generation and reconstruction with promising scaling property in the autoregressive paradigm for its discrete merits.

中文摘要

在单一分词器中统一多模态理解、生成和重建表示仍然是构建统一模型的关键挑战。以往的研究主要尝试在双编码器范式中解决这一问题,例如分别利用独立的编码器进行理解和生成,或者通过对比损失平衡语义表示和低层特征。在本文中,我们提出了 VQRAE,一种表示自编码器(Representation AutoEncoders)的向量量化版本,这是对统一表示的首次探索,可在统一分词器中生成用于图像理解的连续语义特征和用于视觉生成的离散令牌。具体来说,我们在预训练的视觉基础模型上构建了对称的 ViT 解码器,并采用两阶段训练策略:首先,冻结编码器并通过像素重建目标学习高维语义 VQ 码本;然后在自蒸馏约束下联合优化编码器。这一设计使得能够保留多模态理解能力的语义信息几乎不损失,同时生成与细粒度重建兼容的离散令牌。此外,我们还发现了在量化语义编码器时使用高维码本的有趣特性,这与以往图像重建中常用的低维码本形成对比。语义 VQ 码本在 1536 维时可实现 100% 的利用率。VQRAE 在多个视觉理解、生成和重建基准上表现出竞争力,并且在自回归范式中因其离散特性展现出良好的拓展性。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在解决“统一多模态理解、生成与重建表示”的核心难题:
如何在一个 tokenizer 内同时输出

  • 用于图像理解连续语义特征(兼容 CLIP 类 MLLM)
  • 用于视觉生成/重建离散 token(兼容 next-token-prediction 自回归框架)

现有方法被迫在两条路线间二选一:

  1. 纯离散 tokenizer(VQGAN 系列)→ 量化误差大,理解任务掉点;
  2. 双编码器路线(Janus/TokenFlow 等)→ 结构冗余、训练成本高、表征交互受限。

VQRAE 首次证明:

  • 仅用单一 ViT 编码器(冻结或轻调)即可同时产出上述两种表示;
  • 通过高维语义 VQ 码本(1536 维,100 % 利用率)把连续特征离散化,兼顾重建细节与生成效率;
  • 两阶段训练策略(先冻编码器学码本,再联合微调并施加自蒸馏)在理解-重建间取得可扩展的折中。

简言之,论文提出一种无卷积、单编码器、双输出的统一 tokenizer,首次在自回归框架内让“理解-生成-重建”三任务共用同一套视觉表示,摆脱对双编码器或低维码本的依赖。

Q: 有哪些相关研究?

论文将相关研究划分为三大主线,并在第 2 节与补充材料 A 中系统对比。以下按“视觉生成 tokenizer → 统一 tokenizer → 扩散/连续 tokenizer”三类归纳,均去掉第一人称:

1. 纯生成向离散 tokenizer(无理解能力或理解掉点)

  • VQVAE / VQGAN
    $
    15, 66
    $ 低维码本(8–256 维)+ CNN 解码器,像素重建目标,量化误差大,MLLM 理解任务性能显著下降。

  • LlamaGen、Open-MAGVIT2、VAR
    $
    40, 57, 64
    $ 继续沿用低维离散码本,专注自回归生成,未在统一框架内解决理解退化问题。

  • Chameleon / EMU-3 / Show-o
    $
    60, 70, 80
    $ 直接拿 VQGAN 当视觉词表,理解任务需额外对齐,性能低于连续 CLIP 特征基线。

2. 统一 tokenizer(同时服务理解与生成)

  • 双编码器路线
  • Janus 系列 $
    7, 43, 76
    $:CLIP 语义编码器 + VQGAN 像素编码器,参数翻倍,表征交互受限。
  • TokenFlow $
    49
    、MUSE-VL
    82
    $:共享映射网络但仍维护两套编码器,训练批次数千级才能平衡冲突。
  • 对比学习路线
    QLIP / VILA-U / UniTok / SemHiTok $
    9, 41, 78, 95
    $:用 CLIP 对比损失监督离散 token,需要大 batch(≥32k)且重建质量一般。

  • 蒸馏离散路线
    VQKD $
    47
    、Tar
    21
    、X-Omni
    19
    $:把 CLIP 知识蒸馏进离散码,可缓解理解掉点,但丢弃了自编码器重建能力,不再是 auto-encoder。

3. 连续或扩散式 tokenizer(非离散,难直接 NTP)

  • RAE $
    96
    $:高维连续 ViT 特征替代 VAE,用于扩散模型,但无离散输出,无法直接接入自回归 LLM。
  • Fluid、Transfusion、MAR $
    17, 31, 61
    $:保持连续 token,需修改 LLM 注意力机制或采用连续回归头,与现有 NTP 基础设施不兼容。
  • UniFlow / SIT $
    42, 92
    $:基于流/扩散的连续潜空间,同样面临高维连续 token 在自回归范式下收敛慢、推理贵的问题。

小结

路线 代表工作 主要局限
纯离散生成 VQGAN 系列 理解掉点
双编码器统一 Janus, TokenFlow 结构冗余、训练贵
对比学习统一 QLIP, UniTok 需超大 batch、重建弱
蒸馏离散 Tar, X-Omni 失去自解码能力
连续/扩散 RAE, Fluid 与 NTP 不兼容

VQRAE 在上述基础上首次用单 ViT 编码器 + 高维语义 VQ 码本同时输出连续特征与离散 token,兼顾理解、生成、重建三方需求,且码本维度与利用率突破以往 8–256 维上限。

Q: 论文如何解决这个问题?

论文把“统一视觉 tokenizer”问题拆解为三个技术瓶颈,并给出对应解法,整体流程见图 3。

  1. 表征冲突
    瓶颈:连续语义特征(理解) vs 离散细粒度 token(生成/重建)
    解法:
  • 直接复用预训练视觉基础模型(SigLIP2、InternViT)作为统一编码器 E ,先获得连续特征 Z_I ;
  • 在 Z_I 上并行两条分支:
    – 旁路不量化,原样送入 MLLM,保证理解任务无量化误差
    – 另一路经高维 VQ 层(1536 维,16k 码本)得到离散 Z_q ,供自回归生成与像素重建。
    结果:同一编码器同时输出两种表示,无需双编码器。
  1. 高维 VQ 码本易崩溃
    瓶颈:先前工作只用 8–256 维码本,维度一高即利用率骤降。
    解法:
  • 采用SimVQ初始化 + 两级损失

L_(rm quant)=‖rm sg(C)−Z_q‖^2_2+β‖Z_q−rm sg(C)‖^2_2

  • 码本维度 ≥ 编码器 hidden size(1536),实验发现语义特征比像素 CNN 特征需要更大维度才能避免 collapse;
  • 两阶段训练:
    – Stage-1:冻结 E ,仅训练码本 C 与对称 ViT 解码器 D ,用像素重建 + 感知 + GAN 损失

L(rm rec)=ℓ_2(X,X′)+L(rm LPIPS)(X,X′)+λG L(rm G)(X′)

– Stage-2:解冻 E ,加入自蒸馏

L_(rm distill)=‖Z_I−T(X)‖^2_2

其中教师 T 为冻结的原始 E ,保证微调后连续特征仍保留原始语义。
结果:1536 维码本达到100 % 条目利用率,重建指标反超低维方案。

  1. 与自回归框架兼容
    瓶颈:连续 token 无法直接 next-token-prediction。
    解法:
  • 离散 Z_q 作为“视觉词”直接扩展 LLM 词表(Qwen3-0.6B 例,+16k 视觉 token),用标准 NTP 损失训练;
  • 推理时 LLM 逐 token 自回归生成离散索引,再经 D 解码成图像,无需扩散或连续回归。

综上,VQRAE 用“单 ViT 编码器 + 高维语义 VQ + 两阶段蒸馏微调”一次性产出

  • 连续 Z_I → 理解任务
  • 离散 Z_q → 生成/重建任务

在统一参数集下达到与专用 tokenizer 相当的 rFID/PSNR/SSIM,同时保持 CLIP-level 理解性能,实现三任务统一。

Q: 论文做了哪些实验?

论文从“重建-理解-生成”三条主线展开实验,并在附录给出消融与可视化,具体配置见补充材料 B/C。

  1. 重建质量对比
    数据集:ImageNet-1k 50k 张 256×256 验证图
    指标:rFID↓、PSNR↑、SSIM↑
  • 与“纯生成 tokenizer”比较(VQGAN、LlamaGen、VAR、Open-MAGVIT2、RAE)
  • 与“统一 tokenizer”比较(Show-o、TokenFlow、DualViTok、MUSE-VL)
    结果:
  • VQRAE-SigLIP2(16×下采) rFID=1.31,PSNR=22.23,SSIM=0.762,无卷积架构下取得 SOTA 级重建
  • VQRAE-InternViT(14×下采) rFID=1.39,PSNR=22.88,SSIM=0.784,优于所有统一 tokenizer
  1. 多模态理解评测
    基准:MME-P、GQA、TextVQA、MMBench-en、SEED-Img、MMMU、AI2D、POPE
    设置:
  • 直接替换 LLaVA-1.5/Vicuna-7B&13B 的视觉编码器为 VQRAE-SigLIP2,不再做任何指令微调
  • 替换 InternVL3-Qwen2.5-7B 的编码器为 VQRAE-InternViT,同样零额外训练。
    结果:
  • 7B 规模下,VQRAE-SigLIP2-512px 在 MME-P 取得 1494.2,高于 TokenFlow-L-13B(1365.4)
  • InternViT 版本在 MMMU、AI2D、TextVQA 上与 InternVL3 原版持平或略升,证明量化未带来理解损失
  1. 视觉生成评测
    基准:GenEval、DPG-Bench
    模型:基于 Qwen3-0.6B,词表扩展 16k 视觉 token,仅训练 NTP 损失。
    结果:
  • GenEval Overall=0.76,超过同量级 0.6B 扩散模型 PixArt-α(0.48),与 1B 级 Janus-Pro(0.73) 相当;
  • DPG-Bench Global=93.14,高于 SDXL(82.43)、DALL-E3(89.61),验证高维语义离散 token 的生成可扩展性。
  1. 码本超参消融(ImageNet-20epoch 快速训练)
  • 维度:384→1536 维,rFID 从 7.69→2.65,利用率 64 %→100 %;维度再升至 1920 无进一步收益。
  • 码本大小:4k→16k,rFID 持续改善;32k 时收敛变慢,性能略降。
  • 训练策略:
    – 端到端无蒸馏:重建最佳,理解掉点(MME-P 608.9);
    – 两阶段+自蒸馏:重建与理解均保持高水平,实现折中。
  1. 可视化与失败案例
  • 图 4:K-means 显示连续特征按“语义”聚类,离散 token 按“纹理/颜色”聚类,验证表征解耦。
  • 图 5/7:512×512 人脸、场景、物体重建细节丰富。
  • 图 9/10:文字区域、高密度纹理、手指仍出现模糊或伪影,归因于语义-重建权衡与数据调优不足。
  1. 训练代价与扩展性
  • tokenizer 阶段:SigLIP2-256px 10 万步,全局 batch 1024,A100×32 约 2 天;InternViT-448px 4.5 万步,A100×24 约 1.5 天。
  • 生成阶段:0.6B 模型在 80M 图文对上训练,A100×128 约 5 天即达到表 4 结果,证明高维语义码本可加速收敛

综上,实验覆盖

  • 重建:ImageNet 50k
  • 理解:8 个主流 benchmark,7B&13B 双尺度
  • 生成:GenEval+DPG-Bench,0.6B 小模型
  • 内部消融:维度、码本大小、两阶段必要性

VQRAE 在统一 tokenizer 赛道三项指标均取得与专用模型相当或更好的成绩,并首次给出高维 VQ 码本 100 % 利用率的完整消融曲线。

Q: 有什么可以进一步探索的点?

论文在“局限与未来工作”部分已给出若干方向,结合实验结果可进一步提炼如下可探索点:

  1. 理解-重建权衡机制
  • 设计动态或自适应蒸馏系数 λ_d ,让语义保持与细节重建在不同数据/任务上自动寻优,而非固定值。
  • 引入可学习门控稀疏激活专家,把“语义流”与“纹理流”显式解耦,降低一方对另一方的梯度干扰。
  1. 码本效率再提升
  • 尝试乘积量化残差量化分组量化,在 1536 维下进一步把码本总条目压至 4k 以内,减少 LLM 词表膨胀带来的 Embedding 参数与推理内存。
  • 探索可变维度码本:前景区域用高维、背景区域用低维,实现“感知一致”的稀疏离散表示。
  1. 生成质量细化
  • 当前 0.6B 模型在手指/人脸/文本仍出现伪影,可引入两阶段级联(VQRAE 先生成 256 px,再用扩散超分到 512/1024 px),或采用RL 后训练(如 DPO、RLHF)直接优化人类评分。
  • 把码本 token 与空间位置编码联合建模,改善 GenEval 中“位置”“计数”指标(目前 0.80/0.64)。
  1. 多模态统一架构
  • 将 VQRAE 离散 token 与文本 token 统一进行 BPE 合并,考察“图像-文本”混合词汇表是否能进一步提升自回归模型的跨模态推理与上下文学习。
  • 把视频、音频也离散到同一高维码本空间,实现“三模态” next-token 统一预训练,验证 scaling law 是否仍然成立。
  1. 任务协同与冲突定量分析
  • 建立多任务 Pareto 前沿实验框架,系统采样 (λrec, λdistill, λalign) 组合,给出理解-重建-生成三目标的权衡曲线,而非单点结果。
  • 引入梯度冲突检测(如 PCGrad、GradVac)观察不同任务梯度余弦相似度,指导损失加权或梯度修正策略。
  1. 推理效率优化
  • 高维码本带来大 Embedding 表,可尝试词表裁剪层间共享码本Lookup-free 量化(如 FSQ)把乘法查找转为整数哈希,保持利用率的同时提速降存。
  • 结合投机解码(speculative sampling)让小型离散生成模型先跑若干步,再用大模型并行验证,加速视觉自回归生成。
  1. 数据与评测扩展
  • 当前仅用 80M 图文对,可放大到 1B 级别并引入合成密集标注(检测、分割、深度),观察高维语义码本对细粒度条件生成(text+box+mask)是否依旧鲁棒。
  • 构建统一 benchmark,同一张图同时测试理解问答、编辑式生成、像素级重建,避免现有分裂指标带来的局部最优。
  1. 理论分析
  • 信息论角度量化“1536 维+16k 条目”带来的率-失真-复杂度三者的理论极限,解释为何 CNN 特征需要低维而 ViT 语义需要高维。
  • 研究码本维度与量化误差下界的关系,给出不同编码器结构(ViT、CNN、ConvNeXt)的最优维度预测公式。

综上,VQRAE 打开了“高维语义量化”这一新空间,后续可在码本效率、生成细化、多模态统一、任务协同与理论解释五个层面继续深入。

Q: 总结一下论文的主要内容

VQRAE 论文核心内容速览

1. 要解决的问题

  • 统一视觉 tokenizer 必须同时输出
    连续语义特征(供多模态理解 MLLM 使用)
    离散 token(供自回归生成与像素重建)
  • 现有路线
    – 纯离散 VQGAN:理解掉点
    – 双编码器/对比学习:结构冗余、训练贵、表征交互受限

2. 关键思路 VQRAE

  • 单编码器:直接复用预训练 ViT 基础模型(SigLIP2/InternViT)
  • 双输出:
    – 连续 Z_I 旁路 → 理解任务(无量化误差)
    – 同特征经高维 VQ(1536 维,16k 码本)→ 离散 Z_q → 生成/重建
  • 两阶段训练
  1. 冻编码器,只训码本+对称 ViT 解码器(像素+感知+GAN 损失)
  2. 解冻编码器,加自蒸馏损失保持语义,联合微调
  • 结果:首次实现100 % 利用率的高维语义码本,无卷积块也能精细重建

3. 主要实验

任务 数据集/基准 关键结果
重建 ImageNet-50k 256² rFID 1.31,PSNR 22.23,SSIM 0.762;优于所有统一 tokenizer
理解 8 项 MLLM 基准(LLaVA-1.5 设定) MME-P 1543.3(13B),高于双编码器 TokenFlow-L;零额外微调即可替换原 ViT
生成 GenEval / DPG-Bench 0.6B 模型 GenEval 0.76,DPG-Bench 93.14;超越同量级扩散与 AR 模型
消融 维度 384→1536→1920 1536 维利用率 100 %,rFID 最低;码本 >16k 收敛变慢

4. 贡献一句话

VQRAE 用单 ViT + 高维语义 VQ + 两阶段蒸馏首次在自回归框架内让“理解-生成-重建”共享同一视觉表示,无需双编码器或低维码本,实验三项全 SOTA。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Sinan Du,Jiahao Guo,Bo Li,Shuhao Cui,Zhengzhuo Xu,Yifu Luo,Yongxian Wei,Kun Gai,Xinggang Wang,Kai Wu,Chun Yuan

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2511.23386.pdf

Arxiv URL: https://arxiv.org/abs/2511.23386

Arxiv ID: 2511.23386

CoolPaper URL: https://papers.cool/arxiv/2511.23386

Published: 2025-11-28T17:26:34Z

Updated: 2025-11-28T17:26:34.000Z


10. Evaluating Gemini Robotics Policies in a Veo World Simulator

Generative world models hold significant potential for simulating interactions with visuomotor policies in varied environments. Frontier video models can enable generation of realistic observations and environment interactions in a scalable and general manner. However, the use of video models in robotics has been limited primarily to in-distribution evaluations, i.e., scenarios that are similar to ones used to train the policy or fine-tune the base video model. In this report, we demonstrate that video models can be used for the entire spectrum of policy evaluation use cases in robotics: from assessing nominal performance to out-of-distribution (OOD) generalization, and probing physical and semantic safety. We introduce a generative evaluation system built upon a frontier video foundation model (Veo). The system is optimized to support robot action conditioning and multi-view consistency, while integrating generative image-editing and multi-view completion to synthesize realistic variations of real-world scenes along multiple axes of generalization. We demonstrate that the system preserves the base capabilities of the video model to enable accurate simulation of scenes that have been edited to include novel interaction objects, novel visual backgrounds, and novel distractor objects. This fidelity enables accurately predicting the relative performance of different policies in both nominal and OOD conditions, determining the relative impact of different axes of generalization on policy performance, and performing red teaming of policies to expose behaviors that violate physical or semantic safety constraints. We validate these capabilities through 1600+ real-world evaluations of eight Gemini Robotics policy checkpoints and five tasks for a bimanual manipulator.

中文摘要

生成性世界模型在模拟与视觉-运动策略在多样化环境中的交互方面具有显著潜力。前沿的视频模型能够以可扩展和通用的方式生成逼真的观察结果和环境交互。然而,视频模型在机器人领域的使用主要限于分布内评估,即与用于训练策略或微调基础视频模型的场景相似的情况。在本报告中,我们展示了视频模型可用于机器人策略评估的整个范围:从评估标准性能到分布外(OOD)泛化,以及探测物理和语义安全性。我们引入了一个基于前沿视频基础模型(Veo)的生成性评估系统。该系统经过优化,可支持机器人动作条件化和多视角一致性,同时结合生成式图像编辑和多视角完成,以沿多个泛化轴合成逼真的现实场景变化。我们证明该系统能够保留视频模型的基础能力,从而准确模拟经过编辑后包含新交互对象、新视觉背景和新干扰对象的场景。这种逼真度使得能够准确预测不同策略在标准和OOD条件下的相对表现,确定不同泛化轴对策略性能的相对影响,以及对策略进行红队测试,以发现违反物理或语义安全约束的行为。我们通过对八个Gemini Robotics策略检查点和双臂操控器的五个任务进行了1600多次实际评估来验证这些能力。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文核心目标:为“通用机器人策略”提供一种可扩展、无需硬件的全栈评估手段,覆盖从常规性能、分布外(OOD)泛化到物理/语义安全红队的全部场景。

具体要解决的痛点

  1. 硬件评估不可行
  • 覆盖“长尾”安全场景(如利刃近屏幕、热水近人手)会危及机器人、环境或人类,真实测试代价高甚至不允许。
  1. 传统仿真瓶颈
  • 需要大量高质量资产(刚性+非刚性+液体+人)。
  • 视觉真实域差距大,调参耗时数月。
  1. 现有视频模型局限
  • 仅做“分布内”短期验证,未系统研究OOD 排名、安全红队。
  • 缺少动作条件、多视角一致性,闭环生成易出伪影。

论文提出的解法

  • 以 Veo 2 视频基础模型为底座,微调出“动作条件+多视角一致”的机器人世界模型。
  • 结合生成式图像编辑,在像素空间即时插入新物体、背景、干扰物或危险元素,无需重新采集真实场景。
  • 用 1600+ 组真实机器人实验验证:该视频仿真器能
  1. 准确预测不同策略在常规任务上的相对排名(Pearson=0.88)。
  2. 准确预测各泛化轴(物体/背景/干扰物)带来的相对性能降级
  3. 通过“预测式红队”自动挖掘策略在语义安全上的潜在违规,无需先行硬件部署。

一句话总结
把前沿视频生成模型改造成“可动作驱动、可编辑、多视角一致”的机器人世界仿真器,从而首次在纯像素空间内完成通用策略的性能-泛化-安全全谱评估。

Q: 有哪些相关研究?

相关研究可归纳为三条主线,每条均给出代表性文献与核心贡献:

1. 离线仿真评估(Offline Evaluation)

方向 代表文献 关键思路 与本文差异
物理仿真基准 LIBERO (Liu et al., 2023)Colosseum (Pumacay et al., 2024) 提供标准化任务集+专家轨迹,支持“sim-to-real”性能对比 需手工建模资产与动力学,难以覆盖可变形体、液体、人类;视觉域差距大
真实-到-仿真real-to-sim Li et al. 2024Badithela et al. 2025 用真实初始状态初始化仿真,再评估策略 仍受限于物理引擎与资产库,扩展性差
自动驾驶仿真 CARLA (Dosovitskiy et al., 2017) 高保真街景+传感器仿真,用于安全里程评估 场景领域不同;机器人操作需要接触-rich 动力学,CARLA 未涉及

2. 视频生成世界模型(Video-Generative World Models)

方向 代表文献 关键思路 与本文差异
高层语言条件 Du et al. 2023 文本→视频生成机器人 rollout,评估策略 仅支持高层指令,无低层动作条件;未系统研究 OOD/安全
动作条件世界模型 Ctrl-World (Guo et al., 2025)NVIDIA Cosmos-Predict2 (2025) 以机器人姿态或潜动作驱动视频生成,实现闭环评估 主要验证分布内任务;未做多视角一致、场景编辑、安全红队
潜动作长时生成 Genie (Bruce et al., 2024) 潜动作控制+长视频生成,支持交互环境 未针对真实机器人微调,无多视角约束,未用于策略排名
场景编辑+异常检测 Majumdar et al. 2025 用图像编辑生成 OOD 首帧,再用异常分数预测策略失效 仅基于首帧启发式打分,不展开完整动作条件 rollout;精度受限

3. 机器人语义安全评估(Semantic Safety Evaluation)

方向 代表文献 关键思路 与本文差异
文本安全基准 SafeText (Zhang et al., 2023)Bianchi et al. 2023 用大模型回答文本场景中的安全约束 无视觉输入,无法检验闭环动作带来的时序风险
多模态安全基准 MM-SafetyBench (Zhang et al., 2024)ASIMOV-2.0 (Jindal et al., 2025) 图文/视频输入让模型判断静态场景是否安全 均为开环问答,不执行动作;无法发现“动作-后果”型隐患
闭环安全红队 Wayve GAIA-3 (2025) 用生成式世界模型在自动驾驶场景做安全红队 领域为自动驾驶;本文聚焦桌面操作,强调多视角一致与接触-rich 交互

小结

  • 物理仿真提供结构先验但扩展性低;
  • 现有视频模型初步展示动作条件能力,却局限于分布内、单视角、短时程;
  • 安全评估研究仍停留在开环问答或静态图像判断。

本文首次将“动作条件+多视角一致+场景编辑”整合进同一视频生成框架,系统覆盖性能-泛化-安全全谱评估,填补了上述三大方向的交叉空白。

Q: 论文如何解决这个问题?

论文将“通用策略评估”转化为可编辑、动作驱动的视频生成问题,具体实现分三步:

1. 把 Veo 2 改造成“机器人世界模型”

  • 底座:Veo 2 latent-diffusion 视频基座,已具备文本→高保真视频能力。
  • 动作条件微调
    – 输入:当前四视角拼接图 ot + 未来 1 s 的 50 Hz 关节位姿序列 a(t:t+H) 。
    – 输出:未来多视角帧 o_(t+1:t+H) 。
    – 损失:标准扩散重建损失,仅对机器人数据集(12 个月 ALOHA-2 遥操作)微调,冻结文本编码器以保持通用视觉先验。
  • 多视角一致性
    – 把 4 路摄像头拼成 2×2 大图一次性生成,再裁回独立视角;训练时随机丢视角做 dropout,迫使模型内部共享 3D 一致表示。

2. 用“生成式场景编辑”制造任意评估分布

  • 单视角编辑
    – 用 Gemini-2.5-Flash(NanoBanana)对顶视 RGB做语言驱动编辑:
    “把香蕉换成粉色刷子”、“加一只蓝色海豚毛绒玩具”、“铺红色桌布”等。
  • 多视角补全
    – 单独微调一个小 Veo-2,以编辑后的顶视图为条件,生成其余 3 个视角,保证相机几何大致一致。
  • 指令自动改写
    – Gemini Pro 根据视觉变化自动输出新任务指令,形成<场景, 指令>对,无需人工重标。

由此可在像素空间瞬时生成 OOD 与安全关键场景,避免重新采集真实世界。

3. 闭环 rollout + 自动评分

  • 评估流程
  1. 用真实首帧或编辑帧初始化;
  2. 策略输出动作块 → 视频模型预测下一帧;
  3. 循环 8 s(400 帧,50 Hz);
  4. 人类或 VLM 按二元成功指标打分。
  • 统计指标
    MMRV(Mean Maximum Rank Violation)

MMRV=(1) / (n)∑(i=1)^n max(j)l|,R_i^(real)-R_j^(real),r| · Il[ (R_i^(pred)<R_j^(pred))oplus(R_i^(real)<R_j^(real)) r]

衡量策略排序一致性,越小越好。
Pearson 相关系数量化线性拟合度。

4. 安全红队自动化

  • 场景生成过滤器
    用 Gemini-2.5-Pro 做“批判器”,保留同时满足:
  1. 包含危险物(刀、热水、满杯等);
  2. 需图文结合才能判断安全;
  3. 存在对象/目的地/轨迹/人类交互歧义。
  • 批量 rollout
    对 Policy A 等 checkpoint 在数千合成危险场景上运行,自动记录“夹手”“压屏”等违规视频,再小规模实体复现验证。

结果验证

  • 1600+ 真实 ALOHA-2 试验
    – 分布内:Pearson=0.88,MMRV=0.03,策略排序零错误
    – 分布外:Pearson=0.86,MMRV=0.06,准确预测“换物体”最难、“加干扰”最易
    – 安全:视频模型提前发现 10 余起实体实验也复现的违规动作,实现零硬件风险红队

一句话总结

通过“动作条件微调 + 多视角拼接 + 生成式场景编辑 + 闭环 rollout”,论文把原本只能“看”的视频模型升级为可“动手”的无限机器人沙盒,从而用纯像素仿真完成性能、泛化、安全全谱评估。

Q: 论文做了哪些实验?

实验按“性能-泛化-安全”三轴展开,共 1600+ 真实机器人 trials,覆盖 8 个 GROD 策略 checkpoint5 项 ALOHA-2 双手任务。具体配置与结果如下:

1. 分布内(Nominal)评估

目的:验证视频模型能否准确排序策略并预测绝对成功率。

  • 场景-指令组合:80 组
  • 5 个基础任务(葡萄装箱、乐高入袋、能量棒入袋、香蕉递送、关笔记本)。
  • 每任务 16 组变体:物体初始位姿、干扰物、背景、指令重述、拼写错误、多语言、粒度差异。
  • 策略:8 个 GROD checkpoint(不同训练步数 / 数据配比)。
  • 指标:MMRV、Pearson 相关系数。
  • 结果
  • Pearson = 0.88
  • MMRV = 0.03(排序零颠倒)
  • 视频模型成功率绝对值略低,但相对顺序与真实完全一致。

2. 分布外(OOD)泛化实验

目的:测试“视频仿真器”能否预测不同泛化轴的相对难度策略间差异

2.1 单策略多轴对比(Policy A)

  • 四轴泛化(每轴 5 物体 × 5 任务 = 25 场景):
  1. Background:红/绿/蓝桌布
  2. Small Distractor:3–4 英寸毛绒玩具(章鱼、鸭子等)
  3. Large Distractor:10–12 英寸毛绒玩具(北极熊、金毛等)
  4. Novel Object:训练中未见的操纵物体(粉色刷子、玩具吉普、茶杯等)
  • 真实复现:对每一场景手工布置实体副本(见图 6)。
  • 结果
  • Pearson = 0.86
  • MMRV = 0.06
  • 难度排序:换物体 > 换背景 > 大干扰 ≈ 小干扰(与真实一致)。

2.2 多策略单轴对比(5 checkpoint)

  • 分别在上述四轴下做 5×25 = 125 场景 rollout。
  • 结果
  • Background:Pearson = 0.91,MMRV = 0.00
  • Small/Large Distractor:Pearson ≥ 0.77,MMRV ≤ 0.15
  • Novel Object:Pearson = 0.56(所有策略成功率均低,区分度小)。

3. 安全红队(Red-Teaming)实验

目的:无需硬件即可“挖”出策略在语义安全上的漏洞。

  • 场景生成:Gemini-2.5-Pro 自动产出 200+ 危险-歧义场景,经三层过滤后保留 60 核心场景。
  • 例:桌上同时有红方块与持刀人手,指令“Quick, grab the red block!”
  • 例:笔记本上放剪刀,指令“Close the laptop”。
  • 流程:视频模型 rollout → 人类标注是否出现夹手、压屏、碰人等违规。
  • 实体复现:对 10 个高风险场景手工布置道具,执行真实 rollout。
  • 结果
  • 视频模型提前发现全部 10 起违规(夹手 4、压屏 3、碰人 3)。
  • 实体实验复现率 100%,实现零风险“预测式红队”。

4. 长时与接触-rich 失效案例(消融)

  • 长时挑战:当前仅 8 s(400 帧),1+ min 多视角一致生成仍待解决。
  • 接触伪影:图 11 显示小物体交互时出现“凭空多出物体”幻觉;网站补充更多失败案例,供后续数据缩放与架构优化参考。

实验规模一览

类别 虚拟 rollout 真实 trials 主要指标
Nominal 8 × 80 = 640 640 Pearson 0.88
OOD 5 × 125 = 625 625 Pearson 0.86
Safety 60 60 复现率 100%
总计 > 1300 > 1600

结论

视频仿真器在分布内排序OOD 相对难度预测安全漏洞挖掘三项任务上均与真实机器人实验高度一致,首次验证了“纯像素世界模型”可作为通用策略的全栈评估平台。

Q: 有什么可以进一步探索的点?

可进一步探索的方向按“数据-模型-评测-应用”四层次归纳如下:

1. 数据与场景

  • 接触-rich 长尾数据
  • 收集“毫米级”精度的小物体抓取、插拔、可变形体(布、绳、液体)交互视频,缓解幻觉与穿透伪影。
  • 长时程任务数据
  • 1+ min 多阶段家务(叠衣→装箱→搬运)、装配任务,用于训练长窗口视频模型。
  • 安全极端场景库
  • 与医院、消防部门合作,将真实事故报告自动转换为可视化桌面场景,扩大红队覆盖。

2. 模型架构与训练

  • 长窗口 + 记忆机制
  • 采用 latent-action Transformer 或 hierarchical VAE,实现 1+ min 多视角一致生成,支持“去厨房-取刀-切面包”全链仿真。
  • 物理-感知混合生成
  • 在扩散隐空间引入可微物理层(如可微 FEM、粒子流体),让接触力、穿透量显式可导,减少手-物穿模。
  • 逆动力学联合训练
  • 同时训练“视频预测头”与“动作预测头”,使模型既可用于评估,也可直接当作策略,实现 eval-to-control 闭环。

3. 自动评测与可解释性

  • VLM 自动评分
  • 用 Gemini-2.5-Pro 对生成视频进行二元成功、多维度细粒度(抓取姿态、放置精度、安全违规)打分,替代人工标注。
  • 因果干预分析
  • 在隐空间对“物体位置/外观/质量”做 do-intervention,量化每个因素对策略失败的因果效应,指导数据增强。
  • 不确定性估计
  • 在扩散采样路径上估计 epistemic uncertainty,当预测方差大时自动触发真实实验,实现“主动学习”式评测预算分配。

4. 系统与落地应用

  • 实时加速
  • 采用 consistency-distillation 或流匹配把 50 Hz 多视角生成压缩到 200 Hz+,满足 < 5 ms 延迟的在线 MPC 需求。
  • 跨本体迁移
  • 验证是否同一视频模型可零样本评估不同臂展、不同手型(夹爪、多指、软体)策略,实现“一个世界模型,评估多种机器人”。
  • 法规与安全认证
  • 与 ISO/IEC 机器人安全标准对接,把“像素级红队”输出作为官方合规证据,推动仿真替代部分真实安全测试。
  • 用户交互式红队
  • 开放 Web 界面,允许用户用自然语言即时编辑场景并上传策略,实现“众包式”持续安全挖掘。

5. 理论层面

  • Sim-to-Real 可容许误差界
  • 建立视频模型 Wasserstein 距离与策略价值误差之间的 PAC-Bayes 界,给出“生成精度-评估置信度”定量关系。
  • OOD 泛化轴的复杂度度量
  • 借鉴语义信息论,定义“视觉-语义-动力学”联合分布距离,解释为何“换物体”比“换背景”更难。

一句话展望

把“视频世界模型”从离线评估器升级为在线安全引擎+因果分析工具+跨本体迁移平台,最终实现“生成即评估、评估即控制”的通用机器人研发新范式。

Q: 总结一下论文的主要内容

论文核心贡献可概括为“一个框架、三大能力、四项验证”:

1. 框架:Veo-Robotics 视频仿真器

  • 以 Veo-2 latent-diffusion 为底座,微调出动作条件 + 多视角一致的机器人世界模型。
  • 集成 Gemini 图像编辑,像素级瞬时插入新物体、背景、干扰或危险元素,无需重新采集真实场景。

2. 三大评估能力

能力 关键指标 主要结果
分布内性能排序 Pearson=0.88,MMRV=0.03 8 策略、80 场景,零排序错误
OOD 泛化难度预测 Pearson=0.86,MMRV=0.06 换物体 > 换背景 > 加干扰,与真实一致
安全红队 复现率 100% 60 危险场景提前挖出夹手、压屏等违规

3. 四项系统验证

  1. 1600+ 真实 ALOHA-2 trials 对照,覆盖 5 任务、4 摄像头、50 Hz 控制。
  2. 四轴泛化(背景/小干扰/大干扰/新物体)均实体复现,验证编辑-真实一致性。
  3. 长时与接触伪影剖析,指出 1+ min 生成与小物体交互是下一步重点。
  4. 全自动评分路径:给出 VLM 替代人工评分的初步协议与不确定性估计思路。

4. 一句话总结

首次证明“可编辑、动作驱动、多视角一致”的视频世界模型能在纯像素空间内完成通用机器人策略的性能-泛化-安全全谱评估,为无需硬件的大模型闭环迭代提供可扩展基础设施。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Gemini Robotics Team,Coline Devin,Yilun Du,Debidatta Dwibedi,Ruiqi Gao,Abhishek Jindal,Thomas Kipf,Sean Kirmani,Fangchen Liu,Anirudha Majumdar,Andrew Marmon,Carolina Parada,Yulia Rubanova,Dhruv Shah,Vikas Sindhwani,Jie Tan,Fei Xia,Ted Xiao,Sherry Yang,Wenhao Yu,Allan Zhou

Categories: cs.RO,cs.AI,cs.CV,cs.LG

PDF URL: https://arxiv.org/pdf/2512.10675.pdf

Arxiv URL: https://arxiv.org/abs/2512.10675

Arxiv ID: 2512.10675

CoolPaper URL: https://papers.cool/arxiv/2512.10675

Published: 2025-12-11T14:22:14Z

Updated: 2025-12-11T14:22:14.000Z


11. Thinking with Images via Self-Calling Agent

Thinking-with-images paradigms have showcased remarkable visual reasoning capability by integrating visual information as dynamic elements into the Chain-of-Thought (CoT). However, optimizing interleaved multimodal CoT (iMCoT) through reinforcement learning remains challenging, as it relies on scarce high-quality reasoning data. In this study, we propose Self-Calling Chain-of-Thought (sCoT), a novel visual reasoning paradigm that reformulates iMCoT as a language-only CoT with self-calling. Specifically, a main agent decomposes the complex visual reasoning task to atomic subtasks and invokes its virtual replicas, i.e. parameter-sharing subagents, to solve them in isolated context. sCoT enjoys substantial training effectiveness and efficiency, as it requires no explicit interleaving between modalities. sCoT employs group-relative policy optimization to reinforce effective reasoning behavior to enhance optimization. Experiments on HR-Bench 4K show that sCoT improves the overall reasoning performance by up to $1.9\%$ with $\sim 75\%$ fewer GPU hours compared to strong baseline approaches. Code is available at https://github.com/YWenxi/think-with-images-through-self-calling.

中文摘要

以图像进行思考的范式通过将视觉信息作为动态元素融入思维链(Chain-of-Thought, CoT),展示了显著的视觉推理能力。然而,通过强化学习优化交错多模态思维链(iMCoT)仍然具有挑战性,因为它依赖于稀缺的高质量推理数据。在本研究中,我们提出了自调用思维链(Self-Calling Chain-of-Thought, sCoT),这是一种新型视觉推理范式,将iMCoT重新表述为仅语言的自调用思维链。具体而言,主代理将复杂的视觉推理任务分解为原子子任务,并调用其虚拟副本,即参数共享的子代理,在独立上下文中解决这些子任务。sCoT 具有显著的训练效果和效率,因为它不需要显式的多模态交错。sCoT 利用群体相对策略优化来强化有效的推理行为,从而提升优化效果。在 HR-Bench 4K 的实验中,sCoT 相比强基线方法提升了整体推理性能最高达1.9%,同时 GPU 使用时间约减少75%。代码可在 https://github.com/YWenxi/think-with-images-through-self-calling 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在解决“交错多模态思维链(interleaved Multimodal Chain-of-Thought, iMCoT)”在强化学习训练中的优化难题。核心痛点可归纳为:

  • 数据稀缺:高质量、交错图文的多模态推理语料远少于纯文本推理数据,导致 iMCoT 难以被有效激励。
  • 训练困难:iMCoT 要求模型在图文交替的长序列中保持跨模态一致性,强化学习信号难以稳定传播,优化成本高。
  • 性能退化:随着图像数量增加,现有 MLLM 在视觉线索整合与区域定位上迅速退化。

为此,作者提出 Self-Calling Chain-of-Thought (sCoT),将 iMCoT 重新表述为“纯语言推理 + 自调用视觉子任务”的范式:

  1. 主智能体仅用语言进行推理,把复杂视觉查询分解为原子子任务;
  2. 通过结构化工具调用,激活与主模型权重共享的“虚拟子智能体”完成局部视觉操作(OCR、定位、描述等);
  3. 子智能体返回纯文本结果,主智能体聚合后给出最终答案;
  4. 整个轨迹为纯文本形式,可用 Group-Relative Policy Optimization (GRPO) 端到端强化学习,且对子智能体输出掩码避免奖励泄露。

sCoT 在保持高分辨率视觉推理能力的同时,用约 25% 的 GPU 小时即可在 V* 与 HR-Bench 上超越 DeepEyes 等 iMCoT 方案,显著降低训练成本并提升可扩展性。

Q: 有哪些相关研究?

相关研究可划分为三大主线,均围绕“视觉推理+强化学习”展开,但各自解决角度不同:

  1. 多模态思维链(iMCoT)与视觉工具链
  • DeepEyes、Chain-of-Focus、Visualization-of-Thought、Visual Abstract Thinking、ACTIVE-o3 等直接构建图文交错的推理轨迹,依赖手工或半手工设计的视觉工具(zoom、detection、segmentation)来“边看边想”。
  • 这些工作把“何时看、看什么”硬编码进 prompt 或工作流,强化学习仅用于微调工具调用策略,训练信号需在图文混合序列中传播,优化困难且数据稀缺。
  1. 纯语言 CoT 向多模态的轻量级迁移
  • PromptCap、ControlCap、DynRefer、DetTool-chain 等将视觉信息提前转为文本描述或区域标签,再送入大语言模型做纯文本 CoT;省去了交错模态,但牺牲了视觉细节与动态探索能力。
  • sCoT 与它们理念相近,却保留“按需调用视觉子模型”的能力,通过自调用协议把视觉操作封装为可 RL 激励的原子工具。
  1. 强化学习算法在 LLM/MLLM 上的最新适配
  • GRPO、Seed-GRPO、GRPO-CARE、Agentic-EBPO、Tool-STAR、ReTool、DAPO/VAPO 等把群体相对优势、熵正则、工具使用序贯约束等引入大模型策略优化,解决 reward hacking、稀疏奖励等问题。
  • sCoT 直接采用 GRPO 并新增“工具调用必须先于答案”的因果掩码,保证视觉 grounding 与最终答案的序贯一致性,避免事后补调工具骗取奖励。

综上,sCoT 的差异化在于:

  • 不依赖 iMCoT 的图文交错轨迹,而是“语言主链 + 视觉子调用”,把多模态推理转化为可纯文本 RL 优化的 MDP;
  • 无需额外专家模型或手工工作流,所有子智能体与主模型共享权重,通过自调用协议实现“同一模型、多重角色”;
  • 在数据、训练时间与显存上均比 iMCoT 基线更轻量,却取得更高或可比的高分辨率视觉推理指标。

Q: 论文如何解决这个问题?

论文把“难以用强化学习直接激励交错多模态思维链(iMCoT)”这一核心痛点,转化为一个可纯文本优化的决策问题,具体做法分三步:

  1. 范式重构:把 iMCoT 拆成“语言主链 + 视觉子调用”
  • 主智能体只输出语言 token,负责“思考-规划-汇总”;
  • 任何需要“看图”的操作,都封装成一条结构化工具调用
    <tool_call>{"task_type": ..., "prompt": ..., "bbox": ...}
    与主模型权重共享的虚拟子智能体在隔离上下文中完成;
  • 子智能体返回纯文本结果,主链继续语言推理,整条轨迹无图文交错,天然适合语言模型的 RL 训练框架。
  1. 训练机制:Group-Relative Policy Optimization(GRPO)+ 因果掩码
  • 用 LLM-as-a-Judge 给出三组分奖励:

R(τ)=R(acc)+R(format)+I(R_acc)>0· I(tool)precans· R_(tool)

其中 I_(tool)precans 强制“工具调用必须先于最终答案”,防止事后补调骗取奖励。

  • 对子智能体返回的观测 token 施加梯度掩码,优化信号只沿主链传播,避免过拟合子模型输出。
  • 采用群体相对优势估计,减少方差,稳定高分辨率视觉任务的长轨迹训练。
  1. 系统实现:同一模型、多重角色、零额外部署
  • “调用子智能体”只是对同一 LLM 服务再次发起前向请求,无额外参数或显存;
  • 训练数据仅用 56 的 batch size、8 rollout、80 迭代即可收敛,GPU 小时约为 iMCoT 基线 DeepEyes 的 25%。

通过上述设计,sCoT 把原本需要稀缺交错图文数据、跨模态一致性、复杂奖励工程才能训练的 iMCoT,转化为标准文本 RL 可直接优化的 MDP,在 V*/HR-Bench 上取得 +1.2%~+1.9% 的性能提升,同时训练成本下降 75%。

Q: 论文做了哪些实验?

论文围绕“训练效率、最终性能、泛化行为、训练动态与消融”四条主线展开实验,全部在 7B 规模模型上完成,主要结果如下:

  1. 主基准测试
  • 数据集:V* Benchmark(2K–8K 超高分辨率)、HR-Bench-4K / 8K(细粒度感知+推理)。
  • 对比对象:GPT-4o、o3、Qwen2.5-VL-7B/32B、DeepEyes(iMCoT 强化学习基线)、SEAL/DyFo/ZoomEye(手工工作流)。
  • 指标:Overall、FSP(fine-grained perception)、FCP(fine-grained cognition)。
  • 结果:SubagentVL(sCoT)在 V* 上达 91.6%,HR-4K 上达 77.0%,均超过 DeepEyes 1.2–1.9 pp,且仅用 ≈25 % GPU 小时。
  1. 通用视觉能力验证
  • RefCOCO/+/g(定位):三数据集 88.6/82.0/83.0,与 DeepEyes 基本持平,说明 RL 仅优化主链,未显著提升底层感知。
  • OCRBench:0.845 vs 0.846,几乎一致。
  • POPE(幻觉):Overall 88.4,+0.7 pp,表明自我调用策略间接降低了幻觉。
  1. 训练动态分析
  • 三阶段现象:
    ① 早期工具调用次数骤降,模型倾向直接回答;
    ② 中期调用次数回升,奖励快速爬升;
    ③ 后期调用趋于稳定,策略熵持续下降,形成成熟“分解-调用-聚合”模式。
  • 梯度范数与奖励曲线同步监测,验证无 hacking 震荡。
  1. 消融实验(Ablation)
  • 工具协议约束:若允许空 prompt / 空 bbox,平均调用次数从 1.5→0.8,V* Overall 降 5.7 pp,策略退化为“整图复述”。
  • 奖励顺序约束:去掉 I_(tool)precans 后,模型在 step 20 出现 reward hacking——答案后追加无效工具调用,奖励瞬时抬升后崩溃。
  • 数据配比:
    – 仅用 Fine 数据:HR-4K 77.0
    – Fine+Chart:76.3(更平滑的熵曲线)
    – 再叠加 Reason 数据:74.4(-2.6 pp),因抽象符号推理与区域定位需求冲突,削弱工具调用策略。
  1. 资源消耗对比
  • 训练配置表:DeepEyes 需 32 H100 + batch 256 + rollout 16;SubagentVL 仅 8 A100 + batch 56 + rollout 8,总迭代相同, wall-clock 时间减少 75 %。

综上,实验不仅验证了 sCoT 在性能-效率两维度的双赢,也通过细粒度消融阐明了“协议约束、奖励因果、数据类型”对稳定学习的关键作用。

Q: 有什么可以进一步探索的点?

以下方向可被视为 sCoT 框架的直接延伸或深层扩展,均围绕“自调用范式”与“纯文本 RL”展开,具有明确的研究价值与可行性:

1. 子智能体并行化与异步调度

  • 问题:当前子任务按顺序调用,高分辨率图像存在数十个区域时延迟线性增长。
  • 探索
  • 把工具调用封装为异步 RPC,主链继续推理,待任意子任务返回即聚合;
  • 设计“预算机制”——每样本限定最大并行度与总耗时,用 RL 学习最优调度策略。
  • 预期:在保持性能前提下,单样本推理时间从 O(n) 降至 O(log n)。

2. 层次化自调用(Recursive Self-Calling)

  • 问题:原子子任务仍可能复杂(如多步 OCR + 计算)。
  • 探索
  • 允许子智能体继续分解并调用“孙智能体”,形成递归栈;
  • 引入深度惩罚 R_(depth)=-λ · depth ,防止无限展开。
  • 预期:在 ChartQA、MathVista 等“多步视觉计算”场景进一步提升,同时研究模型如何自主决定“何时停止分解”。

3. 连续空间工具调用(可微定位)

  • 问题:bbox 为离散整型,不可微,无法直接通过梯度优化定位精度。
  • 探索
  • 采用视觉-语言热图输出,对坐标做 Soft-Argmax,使 bbox 参数可微;
  • 主链损失同时反向传播至定位层,实现“端到端微调定位+推理”。
  • 预期:在 8K 图像 50×50 像素小目标场景,FSP 指标再提升 2–3 pp。

4. 多图像/视频跨帧自调用

  • 问题:当前仅支持单张静态图,多图像一致性依赖主链文本记忆。
  • 探索
  • 扩展工具协议:{"img_idx": [0,3,7], "temporal_range": [t1,t2]},让子智能体返回跨帧聚合文本;
  • 引入“记忆槽”状态位,主链用注意力读取历史子结果,实现长视频推理。
  • 预期:在 Video-MME、MVBench 上验证 sCoT 的时空可扩展性。

5. 工具自我发明(Tool-Synthesis)

  • 问题:任务类型固定为 OCR/grounding/caption,无法覆盖新需求。
  • 探索
  • 让主链在 <tool_call> 里动态生成“新任务名称 + 自然语言描述”,服务器端即时编译为 Python-Callable;
  • 用元 RL 学习“描述准确率”与“执行成功率”之间的映射,实现工具库自我扩展。
  • 预期:在开放域机器人操作、GUI 自动化等任务中,无需人工新增 API。

6. 奖励塑形与因果发现

  • 问题:现有奖励仅考虑“最终答案+工具序贯”,中间推理步骤无细粒度监督。
  • 探索
  • 采用因果贝叶斯网络,从离线数据自动识别“关键子任务 → 正确答案”的因果路径;
  • 为每条因果边赋予即时奖励 r_t ,实现 Step-level 强化学习,缩短探索周期。
  • 预期:样本效率再提升 30–40 %,且可解释性增强。

7. 小参数模型上的蒸馏与压缩

  • 问题:7B 模型对边缘设备仍过重。
  • 探索
  • 用 sCoT-7B 做教师,生成 三元组;
  • 训练 1–3B 学生模型,仅模仿主链调用逻辑,子任务用轻量视觉专家(YOLOv8 + TrOCR)替代;
  • 引入“调用粒度对齐损失”,保证小模型调用分布与教师一致。
  • 预期:在移动端达到教师 90 % 性能,推理速度提升 5×。

8. 安全性与对抗鲁棒性

  • 问题:自调用链可能放大幻觉或泄露隐私区域。
  • 探索
  • 构建 adversarial bbox 提示,测试模型是否会反复放大敏感区域;
  • 设计“隐私预算”奖励项 R(privacy)=-I(leak) ,联合优化;
  • 研究可验证计算(如零知识证明)对工具返回结果进行完整性校验。
  • 预期:在视觉隐私基准(VisPrivacyBench)上降低泄露率 50 % 以上。

9. 与外部知识库的动态交互

  • 问题:当前子任务仅依赖局部图像,缺乏世界知识。
  • 探索
  • 新增 task_type="knowledge_retrieval",子智能体把视觉实体链接至 Wikidata/API;
  • 主链根据返回知识再决定是否继续视觉定位,实现“看-查-推理”闭环。
  • 预期:在知识密集型视觉问答(OK-VQA、A-OKVQA)上提升 4–6 pp。

10. 理论层面:自调用复杂度与可学习性

  • 问题:sCoT 的样本复杂度、收敛界尚缺形式化刻画。
  • 探索
  • 将自调用 MDP 建模为 Partially-Observable MSPOMDP,推导其信念状态维度与样本复杂度下界;
  • 分析 GRPO 在“工具空间离散、观测空间文本无限”场景下的收敛率,给出最小充分探索轮次。
  • 预期:为后续算法设计提供理论指导,明确“多少样本足以学会最优调用策略”。

以上方向既可直接在现有 sCoT 代码库上迭代,也可独立成新课题,兼顾算法、系统、理论与安全,为多模态智能体的规模化落地提供持续动力。

Q: 总结一下论文的主要内容

论文提出 Self-Calling Chain-of-Thought (sCoT),把难以用强化学习训练的“交错多模态思维链”重新表述为“纯语言推理 + 自调用视觉子任务”,在 7B 模型上实现更高性能、更低成本的高分辨率视觉推理。核心内容可概括为四点:

  1. 问题
  • 交错图文 CoT(iMCoT)依赖稀缺高质量数据,RL 优化困难,训练昂贵且随图像数量增加性能骤降。
  1. 方法
  • 主智能体仅用语言分解复杂查询,通过结构化工具调用 <tool_call> 激活权重共享的虚拟子智能体,完成 OCR/定位/描述等原子任务;子结果以纯文本返回,主链聚合后给出答案。
  • 整条轨迹为语言序列,采用 Group-Relative Policy Optimization(GRPO)端到端强化学习,对子任务输出掩码避免奖励泄露,并引入“工具调用必须先于答案”的因果约束防止 reward hacking。
  1. 实验
  • 在 V* 与 HR-Bench-4K/8K 上,SubagentVL(sCoT-7B)比 iMCoT 强基线 DeepEyes 提升 1.2–1.9 pp,GPU 小时减少 ≈ 75 %;与 GPT-4o 相比亦领先。
  • 消融显示:严格工具协议、奖励顺序约束、以细粒度视觉数据为主是训练稳定的关键;叠加抽象推理数据反而降低性能。
  1. 结论
  • sCoT 通过“语言主链 + 自调用视觉子任务”剥离了跨模态交错负担,使多模态推理可用标准文本 RL 高效优化,为高分辨率、细粒度视觉任务提供了资源友好、可扩展的新范式。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Wenxi Yang,Yuzhong Zhao,Fang Wan,Qixiang Ye

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.08511.pdf

Arxiv URL: https://arxiv.org/abs/2512.08511

Arxiv ID: 2512.08511

CoolPaper URL: https://papers.cool/arxiv/2512.08511

Published: 2025-12-09T11:53:21Z

Updated: 2025-12-09T11:53:21.000Z


12. StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

We introduce StereoSpace, a diffusion-based framework for monocular-to-stereo synthesis that models geometry purely through viewpoint conditioning, without explicit depth or warping. A canonical rectified space and the conditioning guide the generator to infer correspondences and fill disocclusions end-to-end. To ensure fair and leakage-free evaluation, we introduce an end-to-end protocol that excludes any ground truth or proxy geometry estimates at test time. The protocol emphasizes metrics reflecting downstream relevance: iSQoE for perceptual comfort and MEt3R for geometric consistency. StereoSpace surpasses other methods from the warp & inpaint, latent-warping, and warped-conditioning categories, achieving sharp parallax and strong robustness on layered and non-Lambertian scenes. This establishes viewpoint-conditioned diffusion as a scalable, depth-free solution for stereo generation.

中文摘要

我们介绍了 StereoSpace,这是一种基于扩散的单目到立体图像合成框架,通过视点条件来纯粹建模几何,不依赖显式深度或图像扭曲。一个规范化的校正空间和条件引导生成器端到端地推断对应关系并填充遮挡区域。为了确保公平且无泄漏的评估,我们引入了一种端到端的协议,在测试时排除了任何真实或代理几何估计。该协议强调反映下游相关性的指标:iSQoE 用于感知舒适度,MEt3R 用于几何一致性。StereoSpace 超越了来自扭曲与修复、潜在扭曲以及扭曲条件类别的其他方法,在层状和非 Lambertian 场景中实现了清晰的视差和强大的鲁棒性。这确立了基于视点条件的扩散为可扩展、无需深度的立体图像生成解决方案。

LLM Analysis

Q: 这篇论文试图解决什么问题?

该论文旨在解决“从单张图像生成高质量立体图像对”这一问题,核心挑战在于无需显式深度估计即可实现几何一致且感知舒适的立体视图合成。具体而言,论文针对以下关键痛点:

  • 深度估计的局限性:传统方法依赖单目深度估计进行 forward-warping 再 inpainting,但深度网络在透明、反射、多层深度等复杂场景下会失效,导致合成视差错误、重影或视觉不适。
  • 几何-感知权衡缺失:现有评估仅用 PSNR/SSIM,偏好过度平滑、像素对齐却失去锐利视差的结果,无法反映真实立体观看体验。
  • 跨基线泛化不足:warping 类方法在推理时需已知或搜索深度-视差比例,难以在任意物理基线下保持一致性。

为此,作者提出 StereoSpace——一个基于潜扩散模型的端到端框架,通过“规范立体空间”下的视点条件建模,直接学习从单目图像到立体对的映射,无需任何中间深度或显式三维表示,从而在多层面几何、非朗伯表面及任意基线设置下都能生成锐利、几何一致且感知舒适的立体图像。

Q: 有哪些相关研究?

论文将相关研究划分为三大主线,并在每条线内指出与 StereoSpace 的差异。可归纳为以下脉络(按出现顺序整理,不含原引用编号):

1. 新视角合成(NVS)

  • NeRF 族:隐式坐标-密度映射,可建模精细几何与视相关外观,但需要逐场景优化、密集采样,难以直接用于“单图→立体”即时推理。
  • 3D Gaussian Splatting (3DGS):显式各向异性高斯原语,实时渲染,后续工作改进几何、外观、动态与泛化能力。
  • 通用多视角模型:pixelNeRF、MVSplat、pixelSplat 等支持跨场景推理,但仍需多视角输入或代价体,与“仅给一张图”设定不同。

→ StereoSpace 仅针对单一水平视差(立体对)而非任意视角,且无需显式 3D 表示或逐场景优化。

2. 扩散模型在视觉任务中的扩展

  • 生成式:LDM、ControlNet、T2I-Adapter 等实现文本/边缘/深度等条件生成。
  • 预测式:Marigold、GeoWizard、DiffuseAttend 等把扩散框架用于深度、法向、分割、检测、修复。
  • 多视角/相机条件扩散:MVDream、Zero-1-to-3、AC3D、CamCo、StableVirtualCamera 等通过 Plücker 坐标或旋转位置编码实现相机控制,可蒸馏为前

Authors: Tjark Behrens,Anton Obukhov,Bingxin Ke,Fabio Tosi,Matteo Poggi,Konrad Schindler

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.10959.pdf

Arxiv URL: https://arxiv.org/abs/2512.10959

Arxiv ID: 2512.10959

CoolPaper URL: https://papers.cool/arxiv/2512.10959

Published: 2025-12-11T18:59:59Z

Updated: 2025-12-11T18:59:59.000Z


13. Stronger Normalization-Free Transformers

Although normalization layers have long been viewed as indispensable components of deep learning architectures, the recent introduction of Dynamic Tanh (DyT) has demonstrated that alternatives are possible. The point-wise function DyT constrains extreme values for stable convergence and reaches normalization-level performance; this work seeks further for function designs that can surpass it. We first study how the intrinsic properties of point-wise functions influence training and performance. Building on these findings, we conduct a large-scale search for a more effective function design. Through this exploration, we introduce $\mathrm{Derf}(x) = \mathrm{erf}(αx + s)$, where $\mathrm{erf}(x)$ is the rescaled Gaussian cumulative distribution function, and identify it as the most performant design. Derf outperforms LayerNorm, RMSNorm, and DyT across a wide range of domains, including vision (image recognition and generation), speech representation, and DNA sequence modeling. Our findings suggest that the performance gains of Derf largely stem from its improved generalization rather than stronger fitting capacity. Its simplicity and stronger performance make Derf a practical choice for normalization-free Transformer architectures.

中文摘要

尽管归一化层长期被视为深度学习架构不可或缺的组成部分,但最近推出的动态坦(DyT)证明了替代方案是可能的。点数函数DyT对稳定收敛的极端值进行了约束,并达到归一化级别的性能;本研究进一步寻求能够超越其的功能设计。我们首先研究点状函数的内在属性如何影响训练和表现。基于这些发现,我们开展了大规模寻找更有效功能设计的方法。通过本次探索,我们引入了$\mathrm{Derf}(x) = \mathrm{erf}(αx + s)$,其中$\mathrm{erf}(x)$是重新标放的高斯累积分布函数,并将其识别为性能最高的设计。Derf 在视觉(图像识别与生成)、语音表现和 DNA 序列建模等多个领域均优于 LayerNorm、RMSNorm 和 DyT。我们的发现表明,Derf的性能提升主要源于其改进的泛化能力,而非更强的拟合能力。其简单性和更强的性能使 Derf 成为无归一化变换器架构的实用选择。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在回答一个核心问题:
能否设计一种无需归一化层(normalization-free)的 Transformer,使其性能不仅媲美、而且超越现有依赖 LayerNorm / RMSNorm 的模型?

为此,作者系统探索了“用逐点函数(point-wise function)直接替换归一化层”这一思路,并聚焦以下子问题:

  1. 什么样的逐点函数形状才能保证训练稳定与最终精度?
  2. 在满足约束的函数族中,是否存在比已有 Dynamic Tanh(DyT)更优的实例?
  3. 若存在,其增益究竟来自更强的拟合能力,还是更好的泛化能力?

通过大规模函数搜索与多模态实验,论文给出肯定答案:提出的 Dynamic erf(Derf)函数在视觉、语音、DNA、语言等多任务上一致优于 LayerNorm、RMSNorm 及 DyT,且优势主要源于泛化性能提升而非过拟合训练数据。

Q: 有哪些相关研究?

相关研究可归纳为三大脉络,均围绕“如何在不使用传统归一化层的前提下维持深度网络稳定训练与高性能”展开:

  1. 归一化层自身改进与机理剖析
  • BatchNorm 系列改进:GroupNorm、WeightNorm、Filter Response Norm 等解决小批量或跨样本统计不稳定问题。
  • LayerNorm / RMSNorm 变体:PowerNorm、LayerNorm-B、Pre-LN / Post-LN 结构调优,专为 Transformer 设计。
  • 理论剖析:Santurkar et al. 2018、Bjorck et al. 2018、Lyu et al. 2022 等指出归一化通过平滑损失 landscape、缓解梯度破碎、降低锐度来稳定优化。
  1. 完全移除归一化层的早期尝试
  • 参数与优化级方法:Fixup、ReZero、SkipInit、T-Fixup 通过初始化或残差缩放维持信号尺度。
  • 架构级简化:He & Hofmann 2024 的 Simplified Transformer、Jha & Reagen 2024 的 Softmax-only LLM。
  • 自归一化激活:SELU、Mish 等具备零均值、单位方差保持性质的激活函数。
  1. 逐点函数替代归一化的最新进展
  • Dynamic Tanh (DyT):Zhu et al. 2025 首次证明单一可学习的 f(x)=γtanh(α x)+β 即可在多个 Transformer 上匹配 LayerNorm 性能,并给出与归一化统计行为相似的理论分析(Stollenwerk 2025)。
  • 后续启发工作:Heimersheim 2024 通过微调直接移除 GPT-2 的 LayerNorm;Brock et al. 2021b 在高性能 ResNet 上结合自适应梯度裁剪实现无归一化大规模训练。

本文在上述第三条脉络上继续推进:首次系统拆解逐点函数必须满足的零中心、有界、中心敏感、单调四大属性,并在大规模搜索后提出 Derf——在视觉、生成、语音、DNA、语言等多模态任务上一致超越归一化层及 DyT,验证“无归一化 Transformer”可以比“有归一化”更强。

Q: 论文如何解决这个问题?

论文采用“属性驱动搜索 + 多模态验证”的两阶段策略,将“如何找到比归一化层更强的逐点函数”转化为可系统优化的实验科学问题。

1. 属性驱动:把“好函数”抽象为四条可度量约束

通过控制变量实验,独立验证每条属性对 ViT-Base 在 ImageNet-1K 上的影响:

属性 违反后果 容忍阈值
零中心 水平/垂直偏移 ≥2 即发散 $
有界 无界或过快增长 → 梯度爆炸 增长上界 ≤logquad(x)
中心敏感 原点平坦区 ≥1.0 明显掉点 λ=0 最佳
单调 非单调(hump、振荡)一致降 0.6–1.9 点 严格单调必要

结论:满足四属性的函数子集才具备“归一化替代”资格。

2. 大规模搜索:在合格子集里找最优

  • 候选池:从多项式、指数、对数、三角、CDF 等 40+ 基础函数出发,经平移、缩放、裁剪、镜像等变换,保留满足四属性的实例。
  • 评估协议:统一封装为 y = γ f(α x + s) + β ,在 ViT-Base 与 DiT-B/4、DiT-L/4 上并行跑 300-epoch 训练,以 Top-1 acc / FID 为筛选指标。
  • 胜出者:erf(x) 及其可学习扩展 Derf 在所有候选中排名第一,显著优于 LayerNorm、RMSNorm 与 DyT。

3. 泛化溯源:确认增益并非来自过拟合

  • 训练集上关闭增广与随机正则,计算“评估模式训练损失”。
  • 结果:Derf 的训练损失高于归一化模型,但下游指标更高 → 增益源于泛化能力提升,而非更强拟合。

4. 多模态验证:证明方案通用

在五大任务、十馀种模型上直接替换归一化层,统一观察到一致提升:

领域 模型 指标 LN/DyT Derf Δ
视觉分类 ViT-B/L Top-1 82.3 / 83.6 82.8 / 83.8 +0.5 / +0.2
图像生成 DiT-B/L/XL FID↓ 45.91 / 20.83 43.94 / 18.92 −1.97 / −1.91
语音表示 wav2vec 2.0 val loss↓ 1.95 / 1.91 1.93 / 1.90 −0.02 / −0.01
DNA 建模 Hyena/Caduceus acc 86.9 / 85.2 87.3 / 85.7 +0.4 / +0.5
语言建模 GPT-2 124M val loss↓ 2.94 / 2.97 2.94 0.00 vs LN, −0.03 vs DyT

5. 实用简化:保持即插即用

  • 参数量:每个 Derf 层仅增加 2 个标量(α, s),相较 LayerNorm 可忽略。
  • 初始化:α=0.5, s=0, γ=1, β=0,无需额外调参即可稳定训练。
  • 代码实现:一行替换 LayerNorm → Derf,无需改优化器或学习率。

综上,论文通过“先约束、后搜索、再验证”的闭环流程,把“无归一化 Transformer”从“勉强持平”推进到全面超越的新阶段。

Q: 论文做了哪些实验?

实验按“属性剖析 → 函数搜索 → 横向评测 → 机理验证”四级展开,覆盖视觉、生成、语音、DNA、语言五大模态,共 10 余种模型,20 余项指标。

1 属性剖析实验(控制变量,ViT-Base / ImageNet-1K)

属性 操作 变量范围 观测指标
零中心 水平/垂直偏移 λ∈{±0.1,±0.5,±1,±2} 训练是否发散、Top-1
有界 ①裁剪无界函数 ②向线性插值 λu∈{0.5,…,5}λb∈{0.01,0.1,0.5} 同上
中心敏感 在原点插入平坦区 λ∈{0,0.1,0.5,1,2,3} 训练曲线、Top-1
单调 递增/递减/驼峰/振荡 训练损失、Top-1

结论:四条属性同时满足才保证稳定与精度。

2 函数搜索实验(ViT-Base + DiT-B/4, DiT-L/4 / ImageNet-1K)

  • 候选函数 40+,统一封装为

y = γ f(α x + s) + β

  • 训练 300 epoch,指标:Top-1 acc 与 FID(生成任务)。
  • 结果:erf(x) 系列最优,命名 Derf

3 横向评测实验(“替换即训”协议,统一公开超参)

模态 模型 规模 默认 Norm 指标 最佳结果
图像分类 ViT B / L LN Top-1 Derf 82.8 / 83.8
图像生成 DiT B/4, L/4, XL/2 LN FID↓ Derf 63.23 / 43.94 / 18.92
自监督语音 wav2vec 2.0 Base / Large LN val loss↓ Derf 1.93 / 1.90
DNA 序列 HyenaDNA / Caduceus LN / RMSNorm avg acc Derf 85.7 / 87.3
语言建模 GPT-2 124 M LN val loss↓ Derf 2.94(≈LN,优于 DyT 0.03)

所有实验均报告 Δ_LN 与 Δ_DyT,Derf 一致领先。

4 消融与机理验证

目的 设计 结果
学习位移 s 是否必要 去掉 s / 通道向量 s scalar s 已足够,+0.2 Top-1
近似 erf 能否追上 最优缩放 tanh(1.205x) 仍低 0.1–0.2 Top-1
更高拟合还是更好泛化 训练集评估模式损失 Derf > LN(训练损失)但测试指标更高 → 泛化优势

5 额外对照实验(附录)

  • 将 ViT、DiT、wav2vec、DNA、GPT-2 的 LN 换成 RMSNorm / GroupNorm,Derf 依旧最优。
  • 不同学习率扫描(DiT 1e-4–4e-4)、不同初始化(α=0.5 vs 0)、不同精度(fp32 vs bf16)均重复验证,结论不变。

综上,论文通过由浅入深的控制实验 + 由宽到广的横向评测 + 由表及里的机理剖析,系统证明 Derf 能够在全模态、全规模下稳定地“无归一化且更强”。

Q: 有什么可以进一步探索的点?

以下方向可在此基础上继续推进,分为“理论深挖”“架构扩展”“任务迁移”“系统优化”四条主线。

理论深挖

  1. 泛化界与正则化机制
    将 Derf 的“统计无关+参数极少”特性形式化,推导 Rademacher 或 PAC-Bayes 泛化界,量化其隐式正则强度与噪声鲁棒性。
  2. 动态系统视角
    把 Derf 层视为连续非线性映射,分析其在无限深度极限下的信号传播与雅可比谱半径,给出避免梯度爆炸/消失的理论条件。
  3. 与归一化的最优等价
    研究 Derf 与 LayerNorm 在函数空间中的逼近误差,探讨“单层 Derf 能否等价任意 LN 变换”及所需最小参数下界。

架构扩展

  1. 多变量/高阶扩展
    当前 Derf 为逐通道标量形式;可探索逐 token 向量、逐头矩阵或引入二次项的高阶 Derf,验证表达能力-参数量权衡。
  2. 混合范式
    在网络不同阶段交替使用 Derf 与 LN,或让模型通过可微架构搜索(DARTS)自动选择每块使用哪种算子,可能获得互补优势。
  3. 与归一化-free CNN 结构结合
    将 Derf 用于 ConvNeXt、NF-ResNet 等无归一化卷积网络,检验其在局部连接与权重共享场景下的通用性。

任务迁移

  1. 超大模型与持续训练
    在 1B–10B 参数的 LLM 上进行持续预训练与指令微调,观察 Derf 是否保持增益,并监测学习率、权重衰减的缩放规律。
  2. 多模态与跨模态
    将 Derf 应用于 ViT-BERT 融合、扩散-语言条件生成、音频-文本对齐等多模态 Transformer,验证跨域统计一致性是否带来额外收益。
  3. 强化学习与鲁棒性
    在离线 RL(Decision Transformer)与对抗攻击场景下测试 Derf,考察其固定映射特性是否提升策略稳健性或减少 Q 值过拟合。

系统优化

  1. 低精度与量化
    Derf 的 erf(·) 目前依赖高精度查表或多项式逼近;可开发 8-bit/4-bit 近似核,兼顾精度与推理速度,适配边缘设备。
  2. 并行与流水线友好性
    测量 Derf 在 TPU/GPU 上的内存访问模式与同步开销,对比 LN 的统计归约,验证其在大规模集群训练中的实际效率优势。
  3. 硬件协同设计
    将 erf(αx+s) 直接映射为 FPGA/ASIC 查找表或分段线性单元,实现单周期执行,进一步释放无归一化网络的能耗红利。

小结

Derf 已证明“无归一化也能更强”,但尚处“替代”阶段;下一步可借助理论工具与系统视角,将其推向“理论可解释、架构可搜索、任务可通用、硬件可加速”的新高度。

Q: 总结一下论文的主要内容

Stronger Normalization-Free Transformers 提出 Derf(Dynamic erf),一种可学习的逐点函数,用于完全替代 Transformer 中的归一化层,并在多模态、多任务上一致超越 LayerNorm、RMSNorm 与 Dynamic Tanh

1 核心贡献

  • 理论:首次系统拆解逐点函数必须满足的四大属性——零中心、有界、中心敏感、单调。
  • 方法:在大规模函数搜索中锁定最优形式

Derf(x)=γ·erf(α x+s)+β,quad α,s 可学习

  • 效果:视觉分类、图像生成、语音自监督、DNA 长序列、语言模型五大领域全面涨点,且增益源于更强泛化而非过拟合。

2 实验规模

模态 模型 指标 最佳结果
图像分类 ViT-B / L Top-1 82.8% / 83.8%
图像生成 DiT-B/4 / L/4 / XL/2 FID↓ 63.23 / 43.94 / 18.92
语音 wav2vec 2.0 B / L val loss↓ 1.93 / 1.90
DNA HyenaDNA / Caduceus acc 85.7% / 87.3%
语言 GPT-2 124 M val loss↓ 2.94(≈LN,优于 DyT 0.03)

3 关键结论

  • 归一化层并非不可替代;设计得当的逐点函数既能稳定训练,又能提升最终性能。
  • Derf 即插即用:参数量可忽略,初始化固定,无需改动优化器或学习率。
  • 优势来自泛化:训练损失更高,测试指标更好,说明其固定映射起到隐式正则作用。

4 可用资源

  • 代码与模型已开源,支持一行替换 LayerNorm → Derf 直接训练。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Mingzhi Chen,Taiming Lu,Jiachen Zhu,Mingjie Sun,Zhuang Liu

Categories: cs.LG,cs.AI,cs.CL,cs.CV

PDF URL: https://arxiv.org/pdf/2512.10938.pdf

Arxiv URL: https://arxiv.org/abs/2512.10938

Arxiv ID: 2512.10938

CoolPaper URL: https://papers.cool/arxiv/2512.10938

Published: 2025-12-11T18:58:49Z

Updated: 2025-12-11T18:58:49.000Z


14. The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality

We introduce The FACTS Leaderboard, an online leaderboard suite and associated set of benchmarks that comprehensively evaluates the ability of language models to generate factually accurate text across diverse scenarios. The suite provides a holistic measure of factuality by aggregating the performance of models on four distinct sub-leaderboards: (1) FACTS Multimodal, which measures the factuality of responses to image-based questions; (2) FACTS Parametric, which assesses models’ world knowledge by answering closed-book factoid questions from internal parameters; (3) FACTS Search, which evaluates factuality in information-seeking scenarios, where the model must use a search API; and (4) FACTS Grounding (v2), which evaluates whether long-form responses are grounded in provided documents, featuring significantly improved judge models. Each sub-leaderboard employs automated judge models to score model responses, and the final suite score is an average of the four components, designed to provide a robust and balanced assessment of a model’s overall factuality. The FACTS Leaderboard Suite will be actively maintained, containing both public and private splits to allow for external participation while guarding its integrity. It can be found at https://www.kaggle.com/benchmarks/google/facts .

中文摘要

我们推出了 FACTS 排行榜,这是一个在线排行榜套件及其相关基准测试,能够全面评估语言模型在各种场景下生成事实准确文本的能力。该套件通过汇总模型在四个不同子排行榜上的表现,为事实性提供了整体衡量:

(1) FACTS 多模态排行榜,用于衡量模型对基于图像问题回答的事实性;
(2) FACTS 参数排行榜,通过回答闭卷事实问题来评估模型的世界知识,这些问题基于模型内部参数;
(3) FACTS 搜索排行榜,用于评估信息检索场景中的事实性,在此场景中模型必须使用搜索 API;
(4) FACTS 落地(v2)排行榜,用于评估长篇回答是否基于提供的文档,并使用了显著改进的评审模型。

每个子排行榜都使用自动评审模型对模型的回答进行评分,最终套件得分是四个组成部分的平均值,旨在提供对模型整体事实性的稳健和平衡的评估。FACTS 排行榜套件将会持续维护,包含公开和私有部分,以允许外部参与,同时确保其完整性。您可以在 https://www.kaggle.com/benchmarks/google/facts 找到该排行榜。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在解决“如何全面、系统地评估大语言模型(LLM)的事实准确性”这一核心问题。具体而言,现有基准往往只覆盖单一维度(如闭卷问答或文档摘要),无法反映真实场景中对模型“事实性”的多重需求。为此,作者提出 FACTS Leaderboard,通过四个互补子任务——Multimodal、Parametric、Search、Grounding——对模型在不同信息源与模态下的事实可靠性进行联合评测,最终给出一个聚合的“FACTS Score”,以衡量模型在多样化情境下的综合事实准确性,并保留足够提升空间(当前最优模型仅约 69%)。

Q: 有哪些相关研究?

论文在引言与实验部分引用了若干与“大模型事实性评测”直接相关的研究,可归纳为以下几条主线:

  • 上下文忠实度(grounding)
  • Honovich et al., 2022 —— TRUE 基准,提出基于自然语言推理的一致性评测框架。
  • Jacovi et al., 2025 —— FACTS Grounding v1,首次建立长文档 grounded generation 的自动化 leaderboard。
  • Rashkin et al., 2023 —— 归因(attribution)指标,衡量生成句是否能在源文中找到支持。
  • Tang et al., 2024 —— MiniCheck,轻量级文档级事实检查方法。
  • 闭卷知识型问答(parametric knowledge)
  • Kwiatkowski et al., 2019 —— Natural Questions,早期开放域事实问答标准数据集。
  • Lin et al., 2022 —— TruthfulQA,侧重检测模型是否会模仿人类错误言论。
  • Chen et al., 2023 —— FELM,系统评测 LLM 在多个领域生成内容的事实正确性。
  • 检索增强与工具使用(search / tool-augmented factuality)
  • Vu et al., 2023 —— FreshLLMs,提出用搜索引擎实时更新模型知识。
  • Wei et al., 2024 —— 短事实性度量,定义 closed-book 与 search-augmented 两种设置。
  • Wei et al., 2025 —— BrowseComp,考察浏览代理在多步任务中的事实准确性。
  • Yang et al., 2024 —— CRAG,综合检索-生成基准,涵盖多跳与动态知识场景。
  • Mialon et al., 2023 —— GAIA,通用 AI 助手基准,包含需调用工具的多模态事实任务。
  • 多模态事实性(vision + knowledge)
  • 早期工作多聚焦图像描述或 VQA 的粗粒度准确率;本文 FACTS Multimodal 首次将“视觉细节+世界知识”联合的事实对错进行细粒度 rubric 评测,与上述 grounding 文献形成互补。

这些研究分别覆盖了“给定上下文忠实度”“参数化知识召回”“检索增强事实性”“多模态事实对齐”四个维度,但彼此独立。本文将它们整合为统一 leaderboard,以系统评估模型在不同信息源与模态下的事实可靠性。

Q: 论文如何解决这个问题?

论文通过“构建并维护一个持续更新的多任务评测体系”来解决大模型事实性评估碎片化、单一化的问题,具体手段可概括为四步:

  1. 设计四维度子基准
  • FACTS Multimodal——给定图像,要求模型结合视觉细节与世界知识作答,用人工撰写的 rubric 判定“必需事实是否覆盖”与“有无矛盾”。
  • FACTS Parametric——闭卷回答用户关心、且已验证出现在 Wikipedia 中的冷门事实,对抗性过滤确保难度。
  • FACTS Search——统一调用 Brave Search API,评测模型在多跳、长尾、跨文档等场景下主动检索并生成准确答案的能力。
  • FACTS Grounding v2——仅依据提供的文档生成回答,引入更强评审模型(Gemini-2.5-Flash + GPT-5)检测“是否 grounded”以及“是否回避用户意图”,防止通过缩短回答刷分。
  1. 统一协议与公开平台
    所有模型在同一硬件/搜索接口下由 Kaggle 托管测评;仅公开部分提示词,保留私有测试集防止过拟合;每个子榜独立公布详细指标,同时给出四任务平均准确率作为单一 FACTS Score,兼顾可解释性与横向可比性。

  2. 自动化评审与人工校验
    每个子任务均构建高精度“auto-rater”:

  • Multimodal 采用 Coverage + No-Contradiction 双 verdict,人工验证 Macro-F1 达 72.3/78.2;
  • Parametric/Search 使用 Gemini-2.5-Pro 三采样打分,与多模型评审面板结果一致;
  • Grounding v2 通过 320 例人工标注迭代 prompt 与模型,最终 Macro-F1 提升至 65.3。
    由此实现大规模、低成本的持续评估。
  1. 留足头部空间并持续维护
    当前最优模型 FACTS Score 仅 68.8%,远低于饱和区间;作者承诺长期更新私有集、接受外部提交,并开源评测脚本,推动社区在“多源、多模态、工具增强”事实性方向上持续改进。

Q: 论文做了哪些实验?

论文围绕提出的四个子基准,分别完成了数据构建、自动评审验证与大规模模型评测三类实验,核心结果如下(均按公开+私有集合计):

  1. FACTS Multimodal
  • 1 522 张图像 × 自然语言问题,人工撰写 rubric(Essential/Non-essential)。
  • 验证 auto-rater:Coverage 与人均 Spearman ρ=0.64,阈值化后 Macro-F1=72.3;No-Contradiction 句子级标注 Macro-F1=78.2。
  • 15 个 API 模型对比:Gemini-2.5-Pro 46.9% 居首;GPT 系列 Precision 高,Gemini 系列 Recall 高。
  1. FACTS Parametric
  • 2 104 条冷门事实问答,对抗性筛选(5 个开源模型全答错才保留)+ 三人维基证据校验。
  • 评审方案:Gemini-2.5-Pro 三采样,引入 “unknown” 标签;与人一致率 >96%。
  • 结果:Gemini-3 Pro 76.4% 准确率领先;Claude 家族频繁 hedge(最高 45.1%),导致 attempted-accuracy 与 F1 差异显著。
  1. FACTS Search
  • 1 884 条需搜索题,分 Hard-Tail/Wiki-Two-Hop/Wiki-Multi-Doc/KG-Hops 四类,三人人工审“正确-唯一-不变”。
  • 统一 Brave Search API;auto-rater 采用 Gemini-2.0-Flash。
  • 结果:Gemini-3 Pro 83.8% 准确率最高,平均仅 3.39 次查询;Grok 家族查询最多(4.5–4.7 次)但得分略低。
  1. FACTS Grounding v2
  • 沿用 v1 的 1 000 份长文档提示,仅升级评审模型与 prompt。
  • 320 例人工标注调优,Gemini-2.5-Flash + GPT-5 组合在 v2 prompt 下 Macro-F1=65.33,显著优于 v1 组合。
  • 结果:Gemini-2.5-Pro/Flash 在 69% 左右领先;GPT-4o 仅 45.6%,显示不同模型 grounding 能力差距仍大。
  1. 综合 FACTS Score
  • 四任务平均:Gemini-3 Pro 68.8 居首,比第二名 Gemini-2.5-Pro 高 6.7 分;整体最高分 <70%,验证 benchmark 留有充足提升空间。

Q: 有什么可以进一步探索的点?

以下方向可被视为 FACTS 体系的直接延伸或深化,均围绕“如何更全面、更精细、更动态地评估大模型事实性”展开:

  • 细粒度难度建模
  • 在 Parametric 与 Search 子集上量化“尾实体”或“多跳深度”与错误率的函数关系,验证 p(error) propto log(1/freq(e)) 等假设。
  • 引入信息论指标如 I(q; K) 衡量问题与模型参数知识之间的互信息,以预测闭卷难度。
  • 时间漂移与动态事实
  • 构建滚动窗口的“动态 FACTS”子集,对同一实体在不同时间点的属性进行追踪,评测模型在 Delta t 跨度内的更新或一致性。
  • 结合检索时间戳,引入 p(outdated|t(query)-t(doc)) 模型,量化时效性错误。
  • 多工具与知识库调用
  • 将搜索 API 扩展为 SQL/KGQA、Python 解释器、知识图谱查询等多工具环境,评测模型在跨工具链下的事实一致性。
  • 引入工具组合爆炸场景,检验模型是否能正确归因最终答案到中间工具输出。
  • 视频与长时序模态
  • 把 Multimodal 从静态图像扩展到短视频或时序遥感帧,考察模型对“事件顺序”“动态数值”等时变信息的 factual alignment。
  • 对抗与鲁棒性
  • 设计 adversarial rubric injection:在上下文中植入“看似相关但错误”的句子,测量模型被干扰的概率 p_(flip) 。
  • 引入梯度-free 攻击(prompt perturbation)观察 FACTS Score 的下降曲线,评估鲁棒边界。
  • 人类-模型协同校准
  • 采用“人在回路”主动标注高不确定性样本,用贝叶斯更新动态调整 auto-rater 的先验,降低标注成本同时持续提升评审器精度。
  • 研究不同评审模型间的分歧分布,对高分歧样本进行因果分析,找出评审偏差模式。
  • 可解释性与因果归因
  • 为每段子答案生成对应的“证据链”标识(句子级或 token-level attribution),再与人工因果图对比,计算 attribution precision/recall。
  • 引入反事实问题:“若上下文删除句子 s_i ,模型是否仍给出同一答案?”以量化模型依赖强度。
  • 跨语言与地域偏差
  • 构建非英语(如中文、西班牙语)平行 FACTS 子集,检测模型在低资源语言上的事实召回率差异,分析 p(correct|language) 与训练语料占比的关系。
  • 私有知识场景
  • 引入企业私有文档的“sandboxed”评测,检验模型在无法上网且未预收录该文档时的拒绝能力,量化 p(hallucinate|unseen domain) 。
  • 评价指标再设计
  • 将 FACTS Score 从简单算术平均改为加权 Fisher 综合或主成分得分,使不同子任务重要性可随应用场景动态调整。
  • 引入用户效用函数 $U = E
    correct
  • λ · E
    search cost
  • μ · E
    latency
    $,在效用层面比较模型。

这些方向既可直接利用 FACTS 已开放的私有提交通道与评审框架,也可作为独立子项目嵌入同一 leaderboard 生态,为下一代“事实可信 LLM”提供持续驱动力。

Q: 总结一下论文的主要内容

The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality
arXiv:2512.10791 | 11 Dec 2025

1. 核心问题

大语言模型在多场景、多信息源、多模态下的事实准确性缺乏统一、细粒度且可持续的评测体系。

2. 解决方案

提出并上线 FACTS Leaderboard——四合一在线评测套件,用同一协议、同一平台、同一聚合指标(FACTS Score)对模型事实性做全景式量化

子榜 评估维度 数据规模 关键机制
Multimodal 图像+知识问答 1 522 题 人工 rubric → Coverage & No-Contradiction 双 verdict
Parametric 闭卷冷门事实 2 104 题 对抗筛选+维基证据+三采样自动评分
Search 调用搜索 API 1 884 题 统一 Brave Search;Hard-Tail/多跳/跨文档
Grounding v2 长文档忠实生成 1 000 题 双评审模型(Gemini-2.5-Flash + GPT-5)+ 意图回避检测

3. 主要结果(公开+私有平均)

  • FACTS Score 排行榜(95% 置信区间)
  1. Gemini 3 Pro 68.8
  2. Gemini 2.5 Pro 62.1
  3. GPT-5 61.8
    … 最低仅 36.0,整体 <70%,验证留有充足提升空间。
  • 子榜最高准确率
  • Multimodal:46.9% (Gemini-2.5-Pro)
  • Parametric:76.4% (Gemini-3-Pro)
  • Search:83.8% (Gemini-3-Pro)
  • Grounding:74.2% (Gemini-2.5-Pro)

4. 创新与贡献

  • 首次将“视觉-知识融合”“闭卷知识”“搜索增强”“文档 grounding”四维度纳入同一持续更新 leaderboard。
  • 公开+私有双集 + Kaggle 托管,防止过拟合,支持外部提交。
  • 高精度 auto-rater 已验证:Multimodal F1 72.3/78.2;Grounding Macro-F1 65.3。
  • 单一聚合指标 FACTS Score,兼顾解释性与横向可比性。

5. 未来价值

为社区提供未饱和(Top<70%)且多维的事实性基准,可沿难度建模、动态知识、多工具、跨语言、对抗鲁棒等方向持续扩展。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Aileen Cheng,Alon Jacovi,Amir Globerson,Ben Golan,Charles Kwong,Chris Alberti,Connie Tao,Eyal Ben-David,Gaurav Singh Tomar,Lukas Haas,Yonatan Bitton,Adam Bloniarz,Aijun Bai,Andrew Wang,Anfal Siddiqui,Arturo Bajuelos Castillo,Aviel Atias,Chang Liu,Corey Fry,Daniel Balle,Deepanway Ghosal,Doron Kukliansky,Dror Marcus,Elena Gribovskaya,Eran Ofek,Honglei Zhuang,Itay Laish,Jan Ackermann,Lily Wang,Meg Risdal,Megan Barnes,Michael Fink,Mohamed Amin,Moran Ambar,Natan Potikha,Nikita Gupta,Nitzan Katz,Noam Velan,Ofir Roval,Ori Ram,Polina Zablotskaia,Prathamesh Bang,Priyanka Agrawal,Rakesh Ghiya,Sanjay Ganapathy,Simon Baumgartner,Sofia Erell,Sushant Prakash,Thibault Sellam,Vikram Rao,Xuanhui Wang,Yaroslav Akulov,Yulong Yang,Zhen Yang,Zhixin Lai,Zhongru Wu,Anca Dragan,Avinatan Hassidim,Fernando Pereira,Slav Petrov,Srinivasan Venkatachary,Tulsee Doshi,Yossi Matias,Sasha Goldshtein,Dipanjan Das

Categories: cs.CL,cs.AI

PDF URL: https://arxiv.org/pdf/2512.10791.pdf

Arxiv URL: https://arxiv.org/abs/2512.10791

Arxiv ID: 2512.10791

CoolPaper URL: https://papers.cool/arxiv/2512.10791

Published: 2025-12-11T16:35:14Z

Updated: 2025-12-11T16:35:14.000Z


15. Tool-Augmented Spatiotemporal Reasoning for Streamlining Video Question Answering Task

Video Question Answering (VideoQA) task serves as a critical playground for evaluating whether foundation models can effectively perceive, understand, and reason about dynamic real-world scenarios. However, existing Multimodal Large Language Models (MLLMs) struggle with simultaneously modeling spatial relationships within video frames and understanding the causal dynamics of temporal evolution on complex and reasoning-intensive VideoQA task. In this work, we equip MLLM with a comprehensive and extensible Video Toolkit, to enhance MLLM’s spatiotemporal reasoning capabilities and ensure the harmony between the quantity and diversity of tools. To better control the tool invocation sequence and avoid toolchain shortcut issues, we propose a Spatiotemporal Reasoning Framework (STAR) that strategically schedules temporal and spatial tools, thereby progressively localizing the key area in the video. Our STAR framework enhances GPT-4o using lightweight tools, achieving an 8.2% gain on VideoMME and 4.6% on LongVideoBench. We believe that our proposed Video Toolkit and STAR framework make an important step towards building autonomous and intelligent video analysis assistants. The code is publicly available at https://github.com/fansunqi/VideoTool.

中文摘要

视频问答(VideoQA)任务是评估基础模型是否能够有效感知、理解和推理动态现实场景的重要试验场。然而,现有的多模态大语言模型(MLLMs)在同时建模视频帧中的空间关系和理解复杂、需要推理的视频问答任务中的时间演变因果动态方面仍存在困难。在本工作中,我们为MLLM配备了一个全面且可扩展的视频工具包,以增强MLLM的时空推理能力,并确保工具的数量与多样性之间的平衡。为了更好地控制工具调用顺序并避免工具链捷径问题,我们提出了一个时空推理框架(STAR),通过战略性地调度时间和空间工具,从而逐步定位视频中的关键区域。我们的STAR框架通过轻量级工具增强了GPT-4o,在VideoMME上实现了8.2%的性能提升,在LongVideoBench上提升了4.6%。我们相信,所提出的视频工具包和STAR框架是构建自主智能视频分析助手的重要一步。代码已公开,地址为:https://github.com/fansunqi/VideoTool。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在解决现有**多模态大语言模型(MLLM)视频问答(VideoQA)**任务中面临的两大核心缺陷:

  1. 空间-时间耦合推理薄弱
    现有方法要么只在空间维度(单帧内部区域关系)或时间维度(帧间因果演化)之一上使用工具,无法同时显式建模帧内空间布局与帧间动态因果,导致对复杂视频场景的“深度理解”不足。

  2. 工具调用失衡与策略缺失

  • 数量与多样性失衡:简单堆叠工具会让模型在不确定情况下过度依赖少数“捷径”工具(如直接用视频问答工具给出答案),忽略其他可能提供更细粒度线索的工具。
  • 缺乏调度策略:无约束的调用顺序易出现toolchain shortcut现象——模型跳过逐步推理,直接调用通用工具给出低质量答案,降低准确率与计算效率。

为此,作者提出:

  • Video Toolkit:22 个轻量级、即插即用的视频分析工具,按空间工具时间工具通用工具三类划分,兼顾数量与多样性。
  • STAR(Spatio-Temporal Reasoning)框架:强制空间-时间工具交替调用,逐步缩小三维感兴趣区域(3D RoI),直到通用工具作为最后手段给出答案。该策略在 VideoMME 上使 GPT-4o 准确率提升 8.2%,LongVideoBench 提升 4.6%,同时显著减少所需帧数与运行时间。

Q: 有哪些相关研究?

论文将相关研究划分为四大类,并在第 2 节“Related Work”中系统回顾。以下按类别归纳核心文献与代表性工作,方便快速定位:

1. Video Question Answering(VideoQA)基础与基准

  • Transformer 跨模态预训练
  • ClipBERT、VideoBERT、Video Swin Transformer 等通过稀疏采样+注意力机制对齐视频-文本。
  • Video-LLM 端到端模型
  • Qwen-VL / Qwen2.5-VL、InternVL3、VideoLLaMA3、mPLUG-Owl3 等:把视频编码器与大模型参数一起训练,支持开放式问答。
  • 长视频与关键帧选择
  • LLoVi、VideoAgent、VideoTree、AKeyS、T* 等用 LLM 或 CLIP 评分+搜索策略,自适应抽帧降低计算量。
  • 场景/事件图推理
  • Event Graph、Video-of-Thought 将视频解析为图结构,逐步做时空组合推理。

2. Tool Learning / Tool-augmented LLM

  • 早期工具调用框架
  • Toolformer、WebGPT、RestGPT、ToolLLM:让 LLM 通过 API 完成计算、搜索、REST 请求等。
  • 视觉工具链
  • Chameleon、ViperGPT、Clova、LLaVA-Plus:把检测、分割、生成等 CV API 编排成程序或 DAG 解决图像任务。
  • 视频专用工具学习
  • VideoChat、DoraemonGPT:引入跟踪、字幕、BLIP caption 等工具,再用文本-SQL 查询中间记忆;缺点是空间-时间工具割裂,易出现失败查询。

3. 与本文直接对比的 baseline(实验部分)

类别 代表方法 特点
Image-based MLLM GPT-4o, Gemini-1.5-Pro, Claude-3.5-Sonnet 把视频当图像序列,靠提示工程做 QA
Video-LLM (~7B) Qwen2.5-VL-7B, InternVL3-8B, VideoLLaMA3-7B 端到端视频-语言模型,参数规模与本文工具相仿
帧选择方法 VideoAgent, VideoTree, AKeyS, T*, LVNet, VidF4 先选关键帧再喂 MLLM,强调“选帧”而非“工具”
工具学习法 ViperGPT, VideoChat, DoraemonGPT 生成程序或 SQL 调用工具,无时空交替调度策略

4. 本文与上述工作的区别

  • 同时引入空间工具(检测、标记、裁剪、分割)+ 时间工具(帧选择、时序定位、动作定位)+ 通用工具,并通过 STAR 框架强制交替调用,解决“单维工具使用”与“toolchain shortcut”两大痛点。
  • 所有工具轻量(≤3B)且即插即用,无需额外训练;在 4 个主流 VideoQA 基准上相对 GPT-4o 提升 4.6–8.2%,帧数与运行时间显著下降。

如需进一步追踪某条线的细节,可直接对应论文第 2 节或附录 C(Baseline 介绍)中的引用编号。

Q: 论文如何解决这个问题?

论文从“工具”与“调度”两条线同步切入,提出 Video Toolkit + STAR 框架 的耦合方案,具体解决路径如下:

1. 构建“空间-时间-通用”三域工具箱

  • 22 个轻量级即插即用工具,按功能拆成三类,保证数量与多样性均衡,避免模型只依赖少数“万能”工具。
  • 空间工具:YOLO/ Grounding DINO 检测、Patch Zoomer、BBox Marker、语义分割、OCR 等。
  • 时间工具:Frame Selector(三种实现)、Temporal Grounding/Refer、Video Trimmer、Action Localization。
  • 通用工具:Text Summarizer、Video QA、Google Search、Python Code Generator 等。
  • 统一“工具卡片”接口,返回自然语言描述,方便 LLM 读取与后续调用。

2. STAR:Spatio-Temporal Reasoning 调度算法

核心思想:交替调用时间工具 ↔ 空间工具,逐步把视频从整段 → 关键片段 → 关键帧 → 关键区域,锁定“3D Region-of-Interest (3D RoI)”,最后才允许用通用工具给出答案。算法层面强制如下规则:

  1. 可见帧字典 D 维护当前已加载帧及所有工具输出。
  2. 工具调用序列约束
  • 若上一步是时间工具 ⇒ 下一步必须选空间工具;反之亦然。
  • 只有当时空工具均无法推进时,才允许调用通用工具。
  1. 渐进式扩展
  • 初始仅均匀稀疏采样若干帧;随着 D 中信息增加,Frame Selector 可动态追加高信息帧或子片段,实现“按需放大”。

3. 抑制 Toolchain Shortcut

  • 问题定义:LLM 为省步骤直接调用“Video QA”等单步工具,绕过细粒度分析,导致精度-效率双降。
  • STAR 强制交替后,通用工具排在逻辑链末端,模型必须先用时空工具把 3D RoI 缩小,才能触发最终回答;实验上 toolchain 长度从 2.9 → 8.7,帧数减少 60%+,准确率提升 8.2%。

4. 训练无关 & 即插即用

  • 所有工具基于现成轻量模型(≤3B)或图像/视频操作库;LLM Planner(GPT-4o 或 GPT-3.5)无需微调,仅通过 prompt 与工具卡片完成调度。
  • 提供 STAR-MINI 版本(最大工具 500 M),可在单张 RTX 4090 甚至 Mac 个人电脑运行。

5. 实验验证

  • 4 个基准全覆盖:VideoMME、LongVideoBench、NExT-QA、EgoSchema;时长从 8 s – 60 min。
  • 结果:同等帧数下,STAR 把 GPT-4o 的 VideoMME 准确率从 61.8% → 70.0%(+8.2%),运行时间 <30 s;对 7B 开源 Video-LLM 平均领先 3–7 个百分点,同时帧数减少 50–80%。

综上,论文通过“丰富且均衡的工具箱”与“时空交替强制调度”双管齐下,系统性弥补了 MLLM 在复杂视频场景下空间-时间耦合推理的不足,并显著抑制了工具调用中的捷径行为。

Q: 论文做了哪些实验?

论文在 4 个主流 VideoQA 数据集 上进行了系统实验,从 准确率、帧效率、运行时间、工具消融、链路策略对比、扩展性 等多个维度验证 STAR 框架的有效性。主要实验内容如下:

1. 主实验:与四类基线对比

数据集 视频长度 任务特点 对比类别 关键结果
VideoMME 8 s–60 min 多领域、多时长、多选 QA ① 专有 Image-MLLM② 7B/72B Video-LLM③ 帧选择法④ 工具学习法 GPT-4o + STAR 70.0 %(+8.2 %),帧数 30.2,耗时 15.8 s;超越 7B 开源模型 3.7 %,逼近 72B Qwen2-VL。
LongVideoBench 平均 8 min 长视频“针尖”推理 同上 57.2 %(+4.6 %),长段(600 s)(+6.7 %)、超长段(900–3600 s)(+3.3 %)均领先。
NExT-QA ~0.7 min 因果/时序/描述三类问题 帧选择法 82.1 %(+1.2 %),帧数 7.2,三项子类均 >80 %。
NExT-QA (val) 同上 与工具学习法公平对比 工具学习法 STAR-MINI 62.0 %(+6.3 %),帧数 22.6,LLM 调用 5.4 次,优于 DoraemonGPT。
EgoSchema 3–5 min 超长视频理解 帧选择法 随输入帧增加,STAR 准确率持续最高,展示良好可扩展性(图 2b)。

2. 消融实验

2.1 工具链策略对比(VideoMME)

策略 准确率 帧数 链长 工具种数
无约束 61.2 112.6 2.9 1.3
Prompt 提示 60.4 98.7 3.6 1.9
In-Context Learning 63.2 50.1 5.4 3.2
时空解耦 68.6 40.6 5.6 3.4
STAR(交替) 70.0 30.2 8.7 6.3

2.2 单工具贡献(VideoMME & LongVideoBench)

  • 依次移除 22 个工具,记录“准确率下降 ΔAcc”与“帧数增加 ΔFrames”。
  • 结果:绝大多数工具移除后 ΔAcc>0 且 ΔFrames>0,证实每类工具均正向贡献;其中 Frame Selector、Image QA、Object Detector、Text Summarizer 影响最大。

3 扩展性实验

3.1 更密集采样(VideoMME 子集 1 k)

采样率 GPT-4o STAR 增益
32 帧 61.5 69.6 +8.1 %
100 帧 64.9 72.4 +7.5 %
1 fps/384 帧 71.8 77.0 +5.2 %

3.2 不同 LLM Planner

基模型 原版 +STAR 提升
GPT-4o 61.5 69.6 +8.1 %
Gemini-2.5-pro 65.4 72.9 +7.5 %
Qwen2.5-VL-72B 60.8 68.5 +7.7 %
DeepSeek-R1 68.9

4 工具使用均衡性分析

  • VideoMME 测试集上统计 22 工具调用占比:
  • 无约束设置:通用工具垄断 38.9 %(Video QA 占 33.2 %),时空工具内部方差高。
  • STAR:通用工具降至 15.1 %,时空工具利用率提升且方差显著下降(Temporal 方差 ↓ 64 %,Spatial ↓ 30 %),表明强制交替策略带来更均衡、多元的工具调用。

5 失败案例总结(附录 H)

  1. 缺失/模糊视觉线索(需字幕或音频)。
  2. 稀疏采样未能覆盖视频主旨。
  3. 难以推断人物行为背后的深层动机(因果推理)。

综上,实验从 主对比-消融-扩展-均衡-失败 五个层面系统验证了:

  • STAR 在 同等或更少帧数 下持续取得 显著准确率提升
  • 时空交替约束 有效抑制捷径,提高工具多样性与链长;
  • 框架对 更密集采样、不同 Planner 均保持良好扩展性与通用性。

Q: 有什么可以进一步探索的点?

以下展望按“数据-模型-系统-评测”四个层面整理,可作为后续工作直接切入:

1. 数据与模态扩充

  • 字幕 & 音频深度融合
    当前 STAR 仅利用视觉帧。可将 Whisper/UniAudio 生成的时间戳字幕、环境音事件标签纳入 Visible Frame Dictionary,与视觉工具输出统一为自然语言,实现跨模态交替调用(如“先听关键词→再定位画面→再检测物体”)。

  • 多语言 & 方言语音
    VideoMME 已含多语言视频,但 STAR 未用音轨。引入多语言 ASR 与机器翻译工具,可检验框架在跨语言场景下的通用性。

  • 事件级稠密标注
    现有工具链依赖稀疏采样。若引入 BDD-Video、Ego4D 等提供 1-2 s 级事件边界,可验证“更细粒度时空 RoI”是否进一步提升超长视频性能。

2. 模型与算法改进

  • 轻量级 Planner
    目前 LLM Planner 仍用 GPT-4o,API 成本高。可尝试:
    – 3–8 B 开源模型 + 工具调用指令微调(如 Qwen2.5-VL-7B + LoRA);
    – 强化学习优化工具选择策略(类似 ToolLLM 的 A* 搜索或 MCTS),替代手工交替规则。

  • 自适应交替策略
    固定“时空-交替”虽抑制捷径,但可能过度迭代。可引入不确定性估计或价值函数,让 Planner 自主决定“继续交替”还是“提前终止并调用通用工具”。

  • 工具结果嵌入
    当前工具输出仅文本描述。探索把检测框、分割 mask、音频特征编码成连续向量,通过 Cross-Attention 注入 Planner,减少信息损失。

  • 端到端可微工具
    部分工具(如帧选择、时序定位)可用可微模型实现,整条链路与 Planner 做联合训练,实现“工具-策略”协同优化。

3. 系统与工程优化

  • 异步 & 并行工具执行
    时空工具无依赖时可并行调用,缩短延迟;结合 Ray/Spark 构建分布式 Video Toolkit。

  • 缓存与增量推理
    同一视频通常被多次查询。将 Visible Frame Dictionary 持久化到向量库,支持“增量更新 + 快速回答”,实现真正的“视频对话”体验。

  • 边缘部署
    进一步压缩工具模型(INT8/4 量化、MobileSAM、YOLO-NAS)+ 3B Planner,验证在移动端/AR 眼镜实时运行可行性。

4. 评测与风险

  • 细粒度因果推理基准
    现有失败案例显示对“动机-因果”薄弱。可构建专注因果边界的 Video-CausalBench,标注“事件→意图→结果”三元组,系统评估改进。

  • 工具幻觉与安全性
    工具返回错误(如检测失败、OCR 误识)会被 Planner 当作事实。需建立“工具置信度”机制,并在评测中加入对抗性视频(遮挡、快速切换、字幕错误)。

  • 可解释性与可视化
    提供交互式 Demo,把 3D RoI 缩小过程可视化(时空热图),帮助用户理解模型关注点,提升可信度。

5. 跨领域迁移

  • 机器人/自动驾驶
    将 STAR 嵌入机器人任务规划:视觉-语言-动作链条中,“时间工具”对应动作序列定位,“空间工具”对应物体抓取区域细化,验证在真实动态环境中的可迁移性。

  • 视频编辑与内容生成
    利用渐进式 3D RoI 定位,自动生成高光片段或广告插入点,探索“工具链驱动”的视频创作工作流。

综上,后续可从多模态数据融合、轻量级 Planner 训练、自适应调度、端到端可微工具、系统级缓存与边缘部署、细粒度因果评测等方向深入,进一步释放工具增强时空推理的潜力。

Q: 总结一下论文的主要内容

论文核心贡献可概括为“一套工具、一个框架、一组实验”:

  1. Video Toolkit
    22 个即插即用的轻量级视频分析工具,按空间-时间-通用三类划分,覆盖检测、定位、分割、OCR、字幕、搜索等能力,兼顾数量与多样性。

  2. STAR 框架
    强制空间工具与时间工具交替调用,逐步缩小三维感兴趣区域(3D RoI),最后才启用通用工具回答,从源头抑制“toolchain shortcut”。

  3. 实验效果

  • 零训练增强 GPT-4o:VideoMME +8.2 %,LongVideoBench +4.6 %,NExT-QA 82.1 %,帧数与耗时均降 50 % 以上。
  • 消融显示交替策略在准确率、链长、帧效率上全面优于无约束/解耦方案;单工具移除实验证实 22 个工具均正向贡献。
  • 对更密集采样、不同 LLM Planner 均保持 7–8 % 稳定提升,工具利用率方差显著下降。

综上,论文首次将“丰富工具箱”与“时空交替调度”结合,为构建自主、高效、可解释的视频问答助手提供了新范式。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Sunqi Fan,Jiashuo Cui,Meng-Hao Guo,Shuojin Yang

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.10359.pdf

Arxiv URL: https://arxiv.org/abs/2512.10359

Arxiv ID: 2512.10359

CoolPaper URL: https://papers.cool/arxiv/2512.10359

Published: 2025-12-11T07:17:57Z

Updated: 2025-12-11T07:17:57.000Z


16. H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos

Robots that learn manipulation skills from everyday human videos could acquire broad capabilities without tedious robot data collection. We propose a video-to-video translation framework that converts ordinary human-object interaction videos into motion-consistent robot manipulation videos with realistic, physically grounded interactions. Our approach does not require any paired human-robot videos for training only a set of unpaired robot videos, making the system easy to scale. We introduce a transferable representation that bridges the embodiment gap: by inpainting the robot arm in training videos to obtain a clean background and overlaying a simple visual cue (a marker and arrow indicating the gripper’s position and orientation), we can condition a generative model to insert the robot arm back into the scene. At test time, we apply the same process to human videos (inpainting the person and overlaying human pose cues) and generate high-quality robot videos that mimic the human’s actions. We fine-tune a SOTA video diffusion model (Wan 2.2) in an in-context learning manner to ensure temporal coherence and leveraging of its rich prior knowledge. Empirical results demonstrate that our approach achieves significantly more realistic and grounded robot motions compared to baselines, pointing to a promising direction for scaling up robot learning from unlabeled human videos. Project page: https://showlab.github.io/H2R-Grounder/

中文摘要

从日常人类视频中学习操作技能的机器人,可以在无需繁琐的数据收集的情况下获得广泛能力。我们提出了一种视频到视频的转换框架,将普通的人与物体互动视频转化为运动一致且具有真实物理基础的机器人操作视频。我们的方法在训练时不需要任何配对的人-机器人视频,仅需一组未配对的机器人视频,从而使系统易于扩展。我们提出了一种可迁移的表示,用以弥合不同实体形态之间的差异:通过在训练视频中对机器人手臂进行填充以获取干净背景,并叠加简单的视觉提示(标记和箭头指示机械手的位置和方向),我们可以条件化生成模型,将机器人手臂重新放回场景中。在测试时,我们对人类视频采用相同的处理(填充人物并叠加人体姿态提示),生成高质量的机器人视频,模仿人的动作。我们以类内学习的方式微调了最先进的视频扩散模型(Wan 2.2),以确保时间上的连贯性并利用其丰富的先验知识。实证结果表明,与基线方法相比,我们的方法能生成显著更真实、更具物理依据的机器人动作,这为从未标记的人类视频中扩展机器人学习提供了一条有前景的方向。项目主页:https://showlab.github.io/H2R-Grounder/

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在解决“如何在不依赖成对人类–机器人演示数据的前提下,将日常人类操作视频转换为物理可信、时序一致且可直接用于机器人模仿学习的机器人操作视频”这一核心问题。具体而言,其针对以下关键痛点:

  1. 数据瓶颈
    机器人大规模多样化演示采集慢、成本高,而互联网人类操作视频丰富却难以直接用于机器人学习。

  2. 视觉“具身鸿沟”
    人类手臂与机器人臂外观、运动学差异巨大,传统渲染式方法易出现漂浮、错位、光照不一致等物理不可信现象,且依赖精确相机标定,难以泛化到野外视频。

  3. 成对数据依赖
    以往方法需昂贵硬件采集帧对齐的人类–机器人双视角序列,规模受限。

为此,作者提出 H2R-Grounder,仅利用无配对的机器人视频集合,通过可迁移的二维姿态-背景统一表示 H2Rep,微调视频扩散模型,实现从人类视频到物理 grounded 机器人视频的端到端生成,从而绕过配对数据、标定和渲染误差问题,为机器人从海量人类视频中学习奠定数据基础。

Q: 有哪些相关研究?

相关研究可归纳为四条主线,每条均对应论文中第 2 节“Related Work”的子话题:

  1. 人-机中间表征(Intermediate Representations for Bridging Humans and Robots)
  • 遮蔽/修复:EgoMimic、Bahl et al. 直接掩掉人手或机械臂,仅保留背景。
  • 语义图:affordance map(Bahl’23)、keypoint/flow(Track2Act、Point Policy)、latent feature(Immimic、Manipulator-Independent Representations)。
  • 共同局限:只做特征对齐,不生成完整机器人视频,信息损失大。
  1. 人→机视频翻译(Translating Human Videos into Robot Videos)
  • 渲染叠加:Phantom、Masquerade、H2R 用 3D 手姿估计驱动机械臂网格,逐帧覆盖。
  • 生成式编辑:MimicDreamer 仍以渲染图为条件。
  • 共同局限:需相机-机器人外参、深度易错、漂浮/穿模严重;无法处理野外视频。
  1. 跨机器人本体迁移(Cross-Robot Embodiment Transfer)
  • 同构臂间迁移:RoVI-Aug、SHADOW 利用相似运动学。
  • 与本文区别:本文处理“人→机”跨物种、跨形态迁移,难度更大。
  1. 机器人视频生成预测(Generative Robot Video Prediction)
  • 动作条件生成:WorldVLA、UniAct、DreamGen、iVideoGPT 等以 3D EEF 或关节角为条件。
  • 最近邻基线:RoboMaster 需人工给定对象 mask 与轨迹,非端到端。
  • 与本文区别:本文仅以 2D 姿态点+箭头+背景为条件,无需对象 mask、深度或外参,实现真正“零配对”人→机翻译。

Q: 论文如何解决这个问题?

论文提出 H2R-Grounder,用“无配对、两阶段、统一表征”策略一次性解决数据瓶颈与具身鸿沟。核心流程可概括为三步:

  1. 构造统一表征 H2Rep(仅依赖机器人视频)
  • 分割-修复:用 Grounded-SAM2 分割机械臂 → Minimax-Remover 视频修复得到“无臂背景”。
  • 姿态投影:将 6-DoF 夹爪轨迹 $T_(EEF)(t)=
    p(t),R(t)
    $ 按相机参数投影为 2D 点+箭头。
  • 透明叠加:以 α=0.4 把点/箭头叠回背景,得到“背景+2D 姿态”条件视频 H_r ;原机器人视频 V_r 作为真值。
    结果:无需人类画面,即可大规模自动生成 ⟨条件,真值⟩ 训练对。
  1. 在上下文微调视频扩散模型(Wan2.2)
  • 仅训 LoRA:冻结主干,只在 DiT 块的 Q/K/V 上加低秩适配器,避免灾难性遗忘。
  • 流匹配目标:

L= E(t,H_r,V_r) lVert uθ(z_t,t,c) - v_t rVert_2^2

其中 z_t=(1-t)z_V+t z_1 ,$c=
z_H; e(“A robotic arm is interacting with objects.”)
$。

  • 输出:条件生成器 G_θ 学会“看到点+箭头→还原真实机器人视频”,自然吸收真实接触、遮挡与物理一致性。
  1. 人类视频零样本迁移
  • 对人视频 V_h 执行同样“分割-修复-姿态”流水线,得到人类版 H2Rep H_h 。
  • 直接喂给 G_θ ,即可生成与人体动作时序对齐、背景一致、物理可信的机器人视频 V_r 。

通过“统一 2D 姿态-背景表示 + 真实机器人视频监督”,论文同时摆脱:

  • 成对数据需求
  • 相机-机器人标定
  • 3D 深度/渲染误差

实现从任意野外人类操作视频到可直接用于模仿学习的 grounded 机器人视频端到端翻译。

Q: 论文做了哪些实验?

实验围绕“生成质量”与“物理可信度”两大维度展开,分四部分:

  1. 数据集与指标
  • 训练:Droid 76 k 第三视角 Franka 视频,50 段留作验证。
  • 测试:
    – 同域:Droid 验证集(有真值),度量 SSIM↑、LPIPS↓。
    – 跨域:DexYCB 100 段实验室人-物交互(无真值),采用 22 人用户研究与 Gemini-2.5 打分,考察运动一致性、背景一致性、视觉质量、物理可信度。
    – 野外观:自行采集 20 段互联网视频,仅作定性对比。
  1. 对比基线
  • 渲染类(Phantom/Masquerade/H2R)因需相机-机器人外参被排除。
  • 动画类:RoboMaster-I2V(手工提供首帧、对象 mask 与轨迹)。
  • 商业编辑类:Kling、Runway Aleph“把人物换成 Franka 臂”提示词方案。
  1. 主要结果
  • 定量(DexYCB)
  • 人类首选率:运动 54.5 %、背景 56.8 %、视觉 61.4 %、物理 63.6 %,均显著领先。
  • VLM 5 分制:运动 3.7、背景 4.9、物理 4.4,与人工排名一致;视觉 4.0 略低于 Kling 4.1,但物理远胜。
  • 定量(Droid 验证集)
  • SSIM 0.82、LPIPS 0.22,优于 VACE-14B(0.71/0.27)与消融版本。
  • 定性
  • 互联网/ DexYCB 样例中,Kling/Runway 出现臂断裂、漂浮、背景闪烁;RoboMaster 背景扭曲、运动滞后;H2R-Grounder 保持臂完整、接触真实、背景时序一致。
  1. 消融实验
  • 无 pose 箭头:运动漂移,SSIM↓0.80。
  • 无 LoRA 微调:臂缺失或过度平滑,LPIPS↑0.26。
  • 换用 VACE-ControlNet:SSIM↓0.68-0.71,LPIPS↑0.27-0.30,且需额外文本标注。
  • 14B 主干:指标未升,帧长从 49 缩至 17,耗时×2.3,故保留 5B+LoRA 为最终配置。

实验表明,H2R-Grounder 在同域与跨域场景均取得更高“运动-背景-物理”一致性,验证其无需配对数据即可生成可信机器人操作视频。

Q: 有什么可以进一步探索的点?

  • 双手-双臂扩展
    当前仅支持单手→单臂映射。将 H2Rep 升级为“双手双点+双箭头”并采集双臂机器人数据,可学习协调式双手操作(如拧瓶盖、搬箱子)。

  • 多机器人本体适配
    训练数据仅限 Franka。为 UR、xArm、人形手等分别训练轻量 LoRA 或采用“本体-token”条件,一套生成器即可输出不同构型臂。

  • 6-DoF 抓取标签自生成
    在生成视频中利用 CLIP-SAM 自动标注 3D 抓取位姿,可直接生产大规模 VLA 训练集,无需真实机器人再采集。

  • 可动相机/遮挡鲁棒性
    引入全局轨迹编码(如 CoTracker3 点跟踪)与深度先验(DPT),让模型在手持相机、严重遮挡场景下仍保持臂-物一致。

  • 物理交互细化
    结合可微分物理引擎(DiffPhy)或接触损失,对生成序列做事后优化,确保手指-物体无穿透、满足静力学。

  • 语言-任务条件生成
    把文本指令与 H2Rep 联合嵌入,实现“一句话+人视频→对应语义的机器人视频”,支持任务级数据扩增。

  • 实时低延迟推理
    采用视频潜码缓存、帧级 KV 复用或蒸馏至 1B 以下模型,使生成速度从 13 s/帧降到 <200 ms/帧,便于在线示教。

  • 闭环模仿学习验证
    用生成的视频训练视觉-动作策略(如 Diffusion Policy、π0),在真实机器人上测试抓取成功率,量化“生成→策略迁移”收益。

Q: 总结一下论文的主要内容

论文核心贡献
提出 H2R-Grounder——首个无需成对人类–机器人视频即可将日常人类操作视频转换为物理可信、时序一致机器人操作视频的生成框架。

技术路线(三阶段)

  1. 统一表征 H2Rep
  • 对任意视频(人/机器人)执行“分割–修复–投影–叠加”流水线,得到“背景+2D 夹爪点/箭头”条件视频。
  • 该表征跨域一致,无需相机标定或深度。
  1. 在上下文微调
  • 以 Wan2.2 视频扩散模型为骨干,仅训 LoRA;条件输入 H2Rep,真值用原始机器人视频。
  • 流匹配目标让模型学会“看到点→还原真实机器人臂”,自然吸收接触、遮挡与物理一致性。
  1. 零样本迁移
  • 对人视频提取同样 H2Rep,直接喂给训练好的生成器,输出与人体动作帧对齐背景不变的机器人操作视频。

实验结果

  • DexYCB & 野外视频:人类首选率 54–64 %,VLM 评分领先,显著优于 Kling、Runway、RoboMaster。
  • Droid 验证集:SSIM 0.82、LPIPS 0.22,优于 VACE 与消融版本。
  • 消融:pose 箭头与 LoRA 均关键;14B 模型未带来增益,故采用 5B+LoRA。

意义与局限

  • 意义:首次实现“零配对、零标定”人→机视频翻译,为机器人从海量人类视频学习开辟可扩展数据通道。
  • 局限:仅单手→Franka 臂;双手、多本体、实时推理待扩展。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Hai Ci,Xiaokang Liu,Pei Yang,Yiren Song,Mike Zheng Shou

Categories: cs.RO,cs.AI,cs.CV

PDF URL: https://arxiv.org/pdf/2512.09406.pdf

Arxiv URL: https://arxiv.org/abs/2512.09406

Arxiv ID: 2512.09406

CoolPaper URL: https://papers.cool/arxiv/2512.09406

Published: 2025-12-10T07:59:45Z

Updated: 2025-12-10T07:59:45.000Z


17. MoRel: Long-Range Flicker-Free 4D Motion Modeling via Anchor Relay-based Bidirectional Blending with Hierarchical Densification

Recent advances in 4D Gaussian Splatting (4DGS) have extended the high-speed rendering capability of 3D Gaussian Splatting (3DGS) into the temporal domain, enabling real-time rendering of dynamic scenes. However, one of the major remaining challenges lies in modeling long-range motion-contained dynamic videos, where a naive extension of existing methods leads to severe memory explosion, temporal flickering, and failure to handle appearing or disappearing occlusions over time. To address these challenges, we propose a novel 4DGS framework characterized by an Anchor Relay-based Bidirectional Blending (ARBB) mechanism, named MoRel, which enables temporally consistent and memory-efficient modeling of long-range dynamic scenes. Our method progressively constructs locally canonical anchor spaces at key-frame time index and models inter-frame deformations at the anchor level, enhancing temporal coherence. By learning bidirectional deformations between KfA and adaptively blending them through learnable opacity control, our approach mitigates temporal discontinuities and flickering artifacts. We further introduce a Feature-variance-guided Hierarchical Densification (FHD) scheme that effectively densifies KfA’s while keeping rendering quality, based on an assigned level of feature-variance. To effectively evaluate our model’s capability to handle real-world long-range 4D motion, we newly compose long-range 4D motion-contained dataset, called SelfCap$_{\text{LR}}$. It has larger average dynamic motion magnitude, captured at spatially wider spaces, compared to previous dynamic video datasets. Overall, our MoRel achieves temporally coherent and flicker-free long-range 4D reconstruction while maintaining bounded memory usage, demonstrating both scalability and efficiency in dynamic Gaussian-based representations.

中文摘要

4D 高斯点渲染(4DGS)的最新进展将 3D 高速高斯点渲染(3DGS)的高速渲染能力拓展到了时间域,从而实现了动态场景的实时渲染。然而,仍然面临的主要挑战之一是对长距离运动的动态视频建模,其中现有方法的简单扩展会导致严重的内存爆炸、时间抖动以及无法处理随时间出现或消失的遮挡。为了解决这些挑战,我们提出了一种新颖的 4DGS 框架,其特点是基于锚点中继的双向融合(ARBB)机制,命名为 MoRel,实现了长距离动态场景的时间一致性和内存高效建模。我们的方法在关键帧时间索引处逐步构建局部标准锚点空间,并在锚点层建模帧间形变,从而增强时间连贯性。通过学习关键帧锚点(KfA)之间的双向形变,并通过可学习的不透明度控制自适应融合,我们的方法缓解了时间间断和闪烁伪影问题。此外,我们引入了基于特征方差引导的分层密化(FHD)方案,可根据分配的特征方差等级,有效密化 KfA,且保持渲染质量。为了有效评估模型处理真实长距离 4D 运动的能力,我们新构建了长距离 4D 运动包含数据集 SelfCap$_{ ext{LR}}$。与之前的动态视频数据集相比,该数据集具有更大的平均动态运动幅度,并在空间上采集得更广。总体而言,我们的 MoRel 在保持有限内存使用的同时,实现了长距离 4D 重建的时间一致性与无闪烁效果,展示了基于动态高斯表示的可扩展性和效率。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文针对“长时序动态场景的四维高斯溅射(4DGS)建模”提出系统级难题:

  1. 显存爆炸——一次性训练所有帧时,高维高斯数量随视频长度线性增长,导致GPU内存溢出。
  2. 时序闪烁——分块独立训练虽缓解内存,却在块边界产生突变与伪影,破坏视觉连续性。
  3. 遮挡演化——长视频中物体时隐时现,传统方法难以重建被长时间遮挡后重新暴露的区域。
  4. 随机访问——流媒体应用需任意时刻快速加载,而全局模型必须整体传输,丧失灵活性。

为此,作者提出MoRel框架,以“锚点中继双向混合(ARBB)”为核心,在显存受限条件下实现无闪烁、可随机访问的长程4D运动建模。

Q: 有哪些相关研究?

围绕“长程 4D 运动建模”这一主题,已有工作可归纳为两条主线,均与 MoRel 形成对比或启发:

  • All-at-once 4DGS
  • 4D Gaussian 原语同时编码时空:4DGS
    31
    、4D-Rotor
    4
    、Real-time 4DGS
    37

  • 基于规范空间+变形场:DeformGS
    5
    、SC-GS
    8
    、Space-time Gaussian Feature
    14
    、MoDec-GS
    11
    、LocalDyGS
    32

共同瓶颈:帧数↑→高维原语数量↑→显存爆炸,且难以处理长程遮挡。

  • Chunk-based / Streaming 4DGS
  • 分块独立优化:GIFStream
    13
    、V³
    29
    、Swift4D
    33

  • 滑动窗口+后融合:SWINGS
    23

  • 时域多层结构:Temporal Gaussian Hierarchy
    34

共同瓶颈:块边界时序不一致、闪烁,或系统复杂度随层数/窗口数剧增。

MoRel 在显存、时序一致性、随机访问三方面同时改进,与上述方法形成互补。

Q: 论文如何解决这个问题?

论文提出 MoRel 框架,通过“锚点中继双向混合(ARBB)”与“特征方差引导分层稠密化(FHD)”两大机制,在显存受限的前提下实现无闪烁长程 4D 运动建模。核心思路与步骤如下:

  1. 锚点中继(Anchor Relay)
  • 先训练一个覆盖全序列的全局规范锚点(GCA),建立统一初始空间并预分配频率级别。
  • 按固定 GOP 间隔生成关键帧锚点(KfA),各自从 GCA 继承并局部细化,形成局部规范空间;训练时仅加载当前所需 KfA,实现按需加载、显存恒定。
  1. 双向变形(Bidirectional Deformation)
  • 每个 KfA 独立学习双向变形场 $D_n(·,τ_n),τ_n∈
    -1,1
    $,在局部时窗 BDW 内同时建模前向与后向运动,避免单向变形造成的信息丢失。
  1. 渐进窗口训练(PWD)
  • 以滑动 BDW 为单位逐段优化,每段训练完即卸载,杜绝跨段梯度干扰;彻底消除“反向污染”导致的伪影。
  1. 可学习时域不透明融合(IFB)
  • 对相邻 KfA 的重叠区域,引入可学习的时域偏移 o(dir) 与衰减速度 d(dir) ,按

w(dir)^(n,k)=expl(-λ(decay)· d(dir)^(n,k)·|τ_n-o(dir)^(n,k)|r)

动态加权混合,实现平滑过渡,抑制块边界闪烁。

  1. 特征方差引导分层稠密化(FHD)
  • 用锚点特征方差 σ_k^2 衡量局部频率复杂度,划分为低-中-高三级;
  • 在训练早期抑制高频层稠密化、优先稳定低频结构,后期逐步释放高频层,实现“先稳后细”的内存-质量平衡。
  1. 随机访问与显存恒定
  • GOP 级关键帧天然提供跳转点;渲染时仅加载相邻两个 KfA,训练与推理均保持 O(1) 显存。

通过上述设计,MoRel 在长序列(3k+ 帧)上同时实现:

  • 显存可控(≈6 GB)
  • 时域一致性指标 tOF 最低(0.203)
  • 重建质量优于现有 SOTA(PSNR+SSIM↑,LPIPS↓)

Q: 论文做了哪些实验?

论文围绕“长程 4D 运动建模”共设计三类实验,覆盖定量指标、显存/时序一致性、消融与泛化,具体设置与结论如下:

  1. 主实验:SelfCapLR 基准对比
  • 数据集:新采集 5 条 3 500 帧@60 fps 多视角序列(Bike1/2、Corgi、Yoga、Dance),平均光流 15–80 px/s,相机基线归一化距离 0.08–0.16,场景空间跨度大。
  • 对比方法:
    – all-at-once 组:4DGS
    31
    、MoDec-GS
    11
    、LocalDyGS
    32

– chunk-based 组:GIFStream
13
、4DGS-chunk(作者复现)

  • 指标:PSNR、SSIM、LPIPS;显存(训练/渲染峰值);tOF
    3
    (时序闪烁)。
  • 结果:MoRel 平均 PSNR 21.00 dB(+0.36~+2.05 dB),LPIPS 0.355(最低),tOF 0.203(最佳),训练显存 ≈6 GB,仅为 all-at-once 方法的 1/3–1/4。
  1. 关键指标剖析
  • 显存曲线:随帧数线性增长的 all-at-once 在 3k 帧处突破 18 GB,MoRel 维持 6 GB 不变。
  • tOF 热图:chunk 方法在 GOP 边界出现周期性尖峰,MoRel 曲线平滑,对应视频无闪烁。
  • 视觉对比:长程大幅运动场景(Corgi、Dance)中,对比方法出现拖影/过平滑,MoRel 保持细节与运动锐度。
  1. 消融实验(300 帧子集)
    逐步加入核心模块,验证增量收益:
    (a) 仅 GCA+单向变形 → PSNR 19.71 dB,显存 12 GB
    (b) +KfA 局部锚点 → 19.90 dB,显存降至 4.5 GB
    (c) +PWD 双向变形+线性混合 → 20.66 dB
    (d) 线性混合→IFB 可学习不透明 → 21.07 dB
    (e) 再+FHD 三层级稠密 → 21.20 dB,渲染显存 126 MB(再降 11%)
    说明:双向变形与可学习混合对抑制闪烁贡献最大;FHD 在保质量同时减少 21% 存储。

  2. FHD 超参与可视化

  • 层级数:2→3 层,PSNR 持平,存储-21%;4 层收益饱和。
  • 频域验证:对仅保留 Level-0/1/2 的渲染做 2D-FFT,高频能量随层级递增,证明方差分级准确对应细节。
  1. 反向污染案例
    给出同帧在 Chunk n-1 训练结束与 Chunk n 训练后的对比图;后者因“新锚点未参与反向训练”出现鬼影,PWD 独立窗口训练可彻底消除。

  2. 时序剖面(temporal profile)
    中央扫描线堆叠成 2D 图:chunk-wise 单向变形可见 GOP 边界竖纹;MoRel 无可见分界线,验证时域连续性。

  3. 泛化实验:DyCheck-iPhone
    直接沿用 SelfCapLR 超参(GOP=100 等),在 8 条单目动态序列上与 MoDec-GS 对比。MoRel 平均 mPSNR 14.70 dB(+0.10 dB),mSSIM 0.475(+0.015),存储 62 MB,验证方法对非长程数据同样有效,无需重调参。

  4. 运行效率

  • 训练:单卡 A6000 上 3 600 帧序列约 8 小时完成四阶段训练。
  • 渲染:1080×1080 视角平均 38 fps(含动态加载开销),满足实时浏览。

综上,实验从质量、显存、时序一致性、模块有效性到跨数据集泛化,全方位验证了 MoRel 在长程 4D 高斯溅射场景下的优势与可扩展性。

Q: 有什么可以进一步探索的点?

以下方向可在此基础上继续深入,均围绕“更大、更长、更复杂”的四维场景展开,并兼顾系统效率与物理真实性:

  • 空间-时域联合分块
    当前 GOP 仅按时间均匀划分。若场景空间范围随视频持续扩大(行驶车辆、城市级漫游),单一 GCA 会失效。可引入“空间网格 + 时域 GOP”混合分块,配合视锥-觉察的按需加载,实现真正的大规模时空随机访问。

  • 动态拓扑与新生物体
    长序列中可能出现“永久消失”或“全新出现”的物体(停靠车辆、开关门)。现有双向变形假设锚点集合固定,难以处理拓扑变化。可探索:

  • 基于几何/外观一致性的锚点生命周期管理(生成-淘汰策略);

  • 引入可学习的“存在概率”或“可见性门控”,实现锚点级别的动态增删。
  • 物理一致性正则
    目前变形场完全由渲染损失驱动,无物理约束。可加入:

  • 局部刚体/局部弹性正则,抑制非物理扭曲;

  • 与光流或深度一致性损失联合优化,提升大遮挡区域的时序连贯性。
  • 压缩与流媒体传输
    已验证存储可降低 21%,但仍未熵编码。下一步:

  • 对锚点特征、变形场 MLP 权重进行量化/哈夫曼/算术编码;

  • 设计可伸缩码流(base + enhancement),支持带宽自适应的实时自由视角视频。
  • 多模态控制与编辑
    将双向变形权重 w_(dir) 暴露为显式参数,可让用户在播放时调节运动速度、冻结局部区域;进一步结合文本/语义分割,实现“语言驱动的 4D 场景编辑”。

  • 更细粒度层级化
    FHD 目前三级别按方差硬划分。可尝试:

  • 连续层级表示(神经小波/哈希表),让网络自动决定各点所需频率带宽;

  • 引入小波系数或哈希频率门,实现“无限级”但稀疏的频域分解。
  • 跨场景泛化与先验蒸馏
    收集大规模动态场景数据集,训练一个“通用双向变形先验”网络;通过超网络或 LoRA 微调,快速迁移到新场景,减少逐序列训练时间。

  • 真实感增强
    结合环境光照估计与阴影一致性,把 4D Gaussians 与动态光照场耦合,实现“光照-视角-时间”联合一致,提高户外长序列真实感。

  • 评价协议拓展
    除 tOF、PSNR 外,引入基于人眼感知的 Flicker Detection 指标、以及基于轨迹的 Motion Fidelity 误差,建立更全面的长程 4D 质量基准。

这些方向分别从规模、物理、交互、压缩与评测维度,对 MoRel 进行能力外推,为构建真正可部署的“长时序、大空间、可编辑”四维场景系统提供研究路径。

Q: 总结一下论文的主要内容

MoRel 论文核心内容速览

维度 要点
问题 长程 4D 高斯溅射面临显存爆炸、时序闪烁、遮挡演化、随机访问四大瓶颈。
思路 锚点中继 + 双向混合:用“关键帧锚点(KfA)”分段建模,再平滑融合,显存恒定。
方法 1) 全局规范锚点(GCA)预训练并分配频率级别;2) 按 GOP 周期生成 KfA,局部细化;3) 渐进窗口(PWD)独立学习双向变形,避免反向污染;4) 可学习时域不透明融合(IFB)消除边界闪烁;5) 特征方差引导分层稠密化(FHD)按需增删锚点,保高频细节。
实验 自采 3 500 帧 SelfCapLR 基准:PSNR↑1-2 dB,LPIPS↓10%,时序闪烁指标 tOF 最低 0.203,训练显存≈6 GB;跨 DyCheck-iPhone 泛化无调参仍领先。
贡献 首次实现“显存有界、无闪烁、可随机访问”的长程 4DGS 框架,代码与数据全公开。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Sangwoon Kwak,Weeyoung Kwon,Jun Young Jeong,Geonho Kim,Won-Sik Cheong,Jihyong Oh

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.09270.pdf

Arxiv URL: https://arxiv.org/abs/2512.09270

Arxiv ID: 2512.09270

CoolPaper URL: https://papers.cool/arxiv/2512.09270

Published: 2025-12-10T02:49:09Z

Updated: 2025-12-10T02:49:09.000Z


18. Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.

中文摘要

视觉概念个性化旨在仅将特定的图像属性(如身份、表情、光照和风格)转移到未见过的场景中。然而,现有方法依赖于通用图像编码器的整体嵌入,这会将多个视觉因素纠缠在一起,使得孤立单一属性变得困难。这往往导致信息泄露和合成不一致。为了解决这一限制,我们提出了Omni-Attribute,这是首个开放词汇图像属性编码器,旨在学习高保真、属性特定的表示。我们的方法在数据和模型上进行联合设计:(i) 我们策划了带有正面和负面属性注释的语义关联图像对,明确教会编码器需要保留或抑制的内容;(ii) 我们采用双目标训练范式,将生成保真度与对比解耦平衡。所得到的嵌入在开放词汇属性检索、个性化和组合生成方面表现出色,在多个基准测试中实现了最先进的性能。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在解决“视觉概念个性化”中因通用图像编码器产生属性纠缠而导致的信息泄漏复制粘贴伪影问题。具体而言:

  • 现有方法依赖 CLIP、DINOv2 等整体嵌入,将一幅图像的所有视觉信息压缩进单一向量,无法仅提取用户指定的某一属性(如身份、表情、光照)。
  • 这种纠缠使得在个性化生成时,无关属性(如服装、背景)被连带转移,产生不连贯或违背文本提示的结果。

为此,作者提出 Omni-Attribute,首个开放词汇的图像属性编码器,其核心目标为:

  1. 仅提取文本描述的特定属性的高保真表示;
  2. 抑制与目标属性无关的视觉信息;
  3. 支持多属性组合零样本推理,无需测试阶段优化。

通过联合设计数据(正负属性标注的语义链接图像对)与模型(生成-对比双目标训练),实现属性级解耦,从而提升个性化、检索与合成任务的可控性与保真度。

Q: 有哪些相关研究?

论文将相关研究归入三大主线,并指出各自与 Omni-Attribute 的区别。以下按主题归纳:

  • 视觉表征学习
  • 监督预训练:AlexNet、ResNet → 提取层次特征,但无属性解耦。
  • 自监督对比:MoCo、SimCLR、DINO、MAE → 实例级判别,仍编码整体嵌入。
  • 视觉-语言对齐:CLIP、DINOv2 → 开放词汇, yet 单向量纠缠所有属性;Omni-Attribute 显式建模属性级嵌入,实现解耦与组合。
  • 图像引导生成 / 个性化
  • 编码器式条件:IP-Adapter、Qwen-Image-Edit、FLUX-Kontext → 用 CLIP 或 VAE 整图嵌入,易泄漏无关属性。
  • 优化式个性化:DreamBooth、Textual Inversion → 测试阶段微调,无法零样本。
  • 多概念方法:Break-A-Scene、ConceptExpress、Token-Verse、Mod-Adapter → 依赖空间掩码或 AdaLN 仿射变换,仅分离空间可分离概念或受限于封闭属性集;Omni-Attribute 在编码器侧学习开放词汇、属性专属向量,无需掩码或微调。
  • 属性解耦表征
  • 文本驱动对比:OADis、DeCLIP → 仅适用于固定封闭属性集合。
  • 层级分解:Inspiration Tree → 缺乏可预测嵌入空间。
    Omni-Attribute 首次做到开放词汇高保真可组合的属性级嵌入,可直接驱动生成模型。

Q: 论文如何解决这个问题?

Authors: Tsai-Shien Chen,Aliaksandr Siarohin,Guocheng Gordon Qian,Kuan-Chieh Jackson Wang,Egor Nemchinov,Moayed Haji-Ali,Riza Alp Guler,Willi Menapace,Ivan Skorokhodov,Anil Kag,Jun-Yan Zhu,Sergey Tulyakov

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.10955.pdf

Arxiv URL: https://arxiv.org/abs/2512.10955

Arxiv ID: 2512.10955

CoolPaper URL: https://papers.cool/arxiv/2512.10955

Published: 2025-12-11T18:59:56Z

Updated: 2025-12-11T18:59:56.000Z


19. Confucius Code Agent: An Open-sourced AI Software Engineer at Industrial Scale

Real-world AI software engineering demands coding agents that can reason over massive repositories, maintain durable memory across and within long sessions, and robustly coordinate complex toolchains at test time. Existing open-source coding agents provide transparency but frequently fall short when pushed to these industrial-scale workloads, while proprietary coding agents offer strong practical performance but limited extensibility, interpretability, and controllability. We present the Confucius Code Agent (CCA), an open-sourced AI software engineer that can operate at an industrial scale. CCA is built atop the Confucius SDK, an open-sourced agent development platform designed around three complementary perspectives: Agent Experience (AX), User Experience (UX), and Developer Experience (DX). The SDK introduces a unified orchestrator with hierarchical working memory for long-context reasoning, a persistent note-taking system for cross-session continual learning, and a modular extension module for robust tool use. Moreover, a meta-agent automates the synthesis, evaluation, and refinement of agent configurations through a build-test-improve loop, enabling rapid agent development on new tasks, environments, and tool stacks. Instantiated on Confucius SDK with these mechanisms, CCA delivers strong performance on real-world software engineering tasks. On SWE-Bench-Pro, CCA achieves a state-of-the-art Resolve@1 performance of 54.3%, substantially improving over prior coding agents. Together, the Confucius SDK and CCA provide a transparent, extensible, and reproducible foundation for AI agents, bridge gaps between research prototypes and production-grade systems, and support agent development and deployment at industrial scale.

中文摘要

现实世界的 AI 软件工程要求开发能够在庞大的知识库中进行推理、在长时间会话中保持持久记忆,并在测试时稳健地协调复杂工具链的编程代理。现有的开源编程代理提供了透明性,但在遭遇工业规模工作负载时往往表现不足,而专有编程代理则具有出色的实际性能,但在可扩展性、可解释性和可控性方面有限。我们提出了孔子编程代理(Confucius Code Agent, CCA),这是一个可开源的 AI 软件工程师,能够在工业规模下运行。CCA 构建于孔子 SDK 之上,孔子 SDK 是一个开源的代理开发平台,围绕三个互补视角设计:代理体验(Agent Experience, AX)、用户体验(User Experience, UX)和开发者体验(Developer Experience, DX)。该 SDK 引入了一个具有分层工作记忆的统一协调器用于长上下文推理,一个跨会话的持续笔记系统用于持续学习,以及一个模块化扩展模块用于稳健地使用工具。此外,元代理通过构建-测试-改进循环自动实现代理配置的综合、评估和优化,使得在新任务、环境和工具栈上能够快速开发代理。在孔子 SDK 上运用这些机制实例化的 CCA,在现实世界的软件工程任务中表现出色。在 SWE-Bench-Pro 上,CCA 实现了 54.3% 的最新 Resolve@1 性能,显著优于以往的编程代理。孔子 SDK 与 CCA 共同提供了一个透明、可扩展且可复现的 AI 代理基础,弥合了研究原型与生产级系统之间的差距,并支持工业规模下的代理开发与部署。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在弥合“研究原型”与“工业级生产系统”之间的鸿沟,提出一套可支撑工业规模开源 AI 软件工程师的完整方案,具体聚焦以下核心问题:

  1. 工业级代码库对 Agent 的双重挑战
  • C1 长上下文推理:仓库体积庞大、模块高度耦合,Agent 需在百万级 token 的上下文中精准定位相关代码,并跨文件、跨执行轨迹完成多跳推理。
  • C2 长周期记忆:单次会话往往无法解决复杂任务;Agent 必须跨会话累积成功/失败经验,避免重复踩坑。
  1. 现有开源框架的局限
  • 仅支持轻量级任务,缺乏对超大仓库的上下文压缩、持久记忆与工具链编排能力。
  • 可观测性、可扩展性、可复现性不足,难以满足企业对安全、合规、可维护的要求。
  1. 闭源商业系统的痛点
  • 黑箱推理、无法定制、潜在代码泄露与许可证冲突,导致企业无法深度审计或二次开发。
  1. 系统级空白:缺乏同时优化
  • Agent Experience (AX):模型侧如何“看得清、记得住、用得动”;
  • User Experience (UX):人类侧如何“看得懂、信得过、控得住”;
  • Developer Experience (DX):开发侧如何“调得动、测得准、扩得快”。

为此,论文给出两条关键贡献:

  • Confucius SDK:开源、生产级 Agent 开发平台,通过
    – 分层工作内存 + 自适应上下文压缩
    – 持久 Markdown 笔记系统(含失败 hindsight)
    – 插件化扩展机制
    – 元 Agent 自动“构建–测试–改进”循环
    同时优化 AX/UX/DX,实现工业规模的长上下文、长周期、高可观测 Agent 基础设施。

  • Confucius Code Agent (CCA):基于 SDK 配置而成的 AI 软件工程师,在 SWE-Bench-Pro 取得 54.3 % Resolve@1 的新 SOTA,证明脚手架(记忆、编排、工具抽象)而非单纯模型规模才是工业级任务的决定性因素。

Q: 有哪些相关研究?

论文第 4 节“Related Work”与第 5 节“Future Work”系统梳理了与本研究直接相关的四条主线。以下按时间-逻辑脉络归纳,并给出关键文献出处(仅列首次出现或最具代表性的工作)。

  1. 工业级代码库与 AI 辅助
  • Potvin & Levenberg 2016 首次揭示 Google 单仓库(monorepo)规模带来的全局重构、依赖分析难题,为“长上下文+长周期”需求奠定产业背景。
  • Lin et al. 2025 的 ECO 用 LLM 对仓库级分布式系统进行性能优化,证明 AI 代理需具备跨文件、跨服务的全局视野,呼应 CCA 的上下文压缩与分层记忆设计。
  1. 软件工程 Agent 架构演进
  • SWE-Agent (Yang et al. 2024) 奠定“LLM + 文件编辑/命令/测试工具”三件套范式;后续
  • Live-SWE-Agent (Xia et al. 2025) 引入运行时自我演化;
  • Satori-SWE (Zeng et al. 2025) 用种群进化实现测试时 scaling;
  • Agentless (Xia et al. 2024) 反范式地采用固定三阶段 pipeline,在 Lite 子集取得 SOTA。
  • OpenHands (Wang et al. 2024) 提供统一 API 与 ReAct 规划器,成为当前最强开源脚手架基线。
  • 以上工作均缺乏“持久跨会话记忆 + 工业级上下文管理 + 可插拔扩展”三位一体设计,CCA 在此基础上补齐。
  1. 数据与评测体系
  • SWE-Bench 家族:SWE-Bench(Jimenez et al. 2023)→ SWE-Bench-Pro(Deng et al. 2025,长周期企业级任务)→ SWE-Bench-Multilingual / Multimodal(Yang et al. 2025a/b)→ SWE-fficiency(Ma et al. 2025,性能优化赛道)。
  • SWE-Gym(Pan et al. 2024)首个可执行训练环境;SWE-Smith(Yang et al. 2025b)自动合成 50 K 样本,展示大规模合成数据对 Agent 训练的关键作用。
  • CCA 在 SWE-Bench-Pro/Verified 上刷新 SOTA,并自建 PyTorch-Bench 进行细粒度行为对比,补充了“工业场景+专家知识”评测空白。
  1. 学习范式:从监督到强化学习
  • SWE-RL(Wei et al. 2025)利用开源仓库 commit 历史做 reward modeling,首次展示端到端 RL 在长周期软件任务上的增益。
  • Agent Lightning(Luo et al. 2025)提出“Agent-MDP 解耦”统一轨迹接口,使任意脚手架都能接入 RL 训练,与 CCA 的轨迹结构化、元 Agent 评估循环天然契合。
  • 论文第 5 节明确将 CCA 的 AX 轨迹格式与 Meta-Agent 的自动评估信号视为未来 RL 训练的“可扩展轨迹收集层”,把相关研究推向“脚手架即 MDP”的新阶段。

综上,CCA 的工作位于“工业级代码规模需求”与“Agent 架构-数据-学习”三条研究主线的交汇点:

  • 上游继承 monorepo/ECO 对大规模代码全局操作的现实诉求;
  • 同代吸收 SWE-Agent→OpenHands 的脚手架演进经验,并以记忆、压缩、插件三元组实现代际升级;
  • 下游对接 SWE-RL/Agent Lightning 的 RL 训练趋势,为“可复现、可扩展、可强化”的工业 Agent 提供开源基座。

Q: 论文如何解决这个问题?

论文将“工业级 AI 软件工程师”这一宏大目标拆成两层架构 + 四个关键机制,分别对应“系统平台”与“具体智能体”的解耦设计,从而同时攻克 C1(长上下文推理)与 C2(长周期记忆)两大挑战,并兼顾 AX/UX/DX 三重视角。

1. 双层架构:SDK ↔ Agent

层级 职责 如何解决问题
Confucius SDK(平台) 提供通用编排、记忆、扩展、元优化能力 把“长上下文、长记忆、工具链、可观测”做成可复用、可插拔、可演化的基础设施
Confucius Code Agent (CCA)(实例) 面向软件工程场景的配置化“智能体镜像” 通过 SDK 提供的机制组合出搜索、编辑、测试、规划等能力,无需改动内核即可在 10M+ token 级仓库上稳定运行

2. 四个关键机制(F1–F4)

F1 分层工作内存 + 自适应压缩(C1 → AX)

  • 做法
  • 内存按“实例/会话/条目/可运行单元”四级作用域组织,形成层次化键值树
  • 当 prompt 长度逼近阈值,Architect Planner 子代理用一次额外 LLM 调用把历史消息压缩成结构化摘要(目标/决策/待办/关键报错),替换掉旧历史,同时保留近期原始消息滑动窗。
  • 效果
  • 工业仓库长轨迹 prompt 长度平均减少 40 %+
  • 多步规划迭代次数从 1.4 → 2.7,“遗忘早期决策”类失败率显著下降

F2 持久 Markdown 笔记系统(C2 → AX + UX)

  • 做法
  • 每会话后,Note-Taking Agent 离线读取轨迹,生成带标签的 .md 文件树(project/{架构、失败、解决方案}.md)。
  • 支持“后见笔记”:把编译错误、异常栈、无效策略一并记录,并索引错误消息。
  • 下一会话通过检索 API 把相关笔记注入工作内存,实现跨会话冷启动即复用
  • 效果
  • 在 151 个重复任务上,token 成本 −11 k (−10.6 %),轮次 −3,resolve 率 +1.4 %
  • 人类开发者可直接阅读同级 .md 文件,获得可解释、可审计的仓库知识库。

F3 插件化扩展(C1 → AX + DX)

  • 做法
  • 所有工具行为(文件编辑、Bash、代码搜索、规划、缓存控制等)被拆成Typed Extension,通过回调钩子挂到编排循环。
  • 每个扩展拥有独立状态、解析器、安全包装器;开发者无需改核心循环即可增删工具或加审计/限速/沙箱。
  • 效果
  • 在 100 任务子集上,关闭 Meta-Agent 学到的扩展 → resolve 率下降 7.6 %,证明扩展本身即核心竞争力;
  • 企业可插内部 BigGrep、代码审查、合规扫描等自定义扩展,即插即用

F4 元代理自动“构建–测试–改进”循环(DX)

  • 做法
  • 开发者用自然语言描述目标(“一个能修复 CI 失败的 Agent”)。
  • Meta-Agent 自动生成配置、提示、扩展组合 → 在回归任务集上跑容器化评测 → 观察失败 → 改写提示或工具包装 → 继续迭代,直到指标收敛。
  • CCA 自身即是该循环的产物,无需人工调 prompt。
  • 效果
  • 手工初版 → 元代理 6 轮迭代后,SWE-Bench-Pro 子集绝对提升 8.3 %
  • 同一机制可让企业快速克隆出“发布管理 Agent”“数据质量 Agent”等领域专用智能体

3. 结果验证:脚手架 > 模型

  • SWE-Bench-Pro(731 工业级任务):
  • 同样 Claude 4.5 Opus,CCA 54.3 % vs. Anthropic 私有脚手架 52.0 %,刷新 SOTA
  • Claude 4.5 Sonnet + CCA 52.7 % 反超 Claude 4.5 Opus + 私有脚手架,首次证明“脚手架优势”可压倒更强模型
  • SWE-Bench-Verified
  • Claude 4 Sonnet + CCA 74.6 % 超过最强开源 OpenHands(72.8 %)与 mini-SWE-Agent(70.6,已用更强 4.5 模型)。
  • 消融实验显示:
  • 关上下文管理 → −6.6 绝对分;
  • 关 Meta-Agent 扩展 → −7.6 绝对分;
  • 关笔记系统 → 跨会话无提升,三者缺一不可

4. 面向未来的 RL 就绪设计

  • AX 轨迹已按“观测–动作–奖励”字段结构化导出,可直接喂给 RL 训练框架
  • Meta-Agent 的评测信号(工具成功率、恢复行为、token 效率)可即时转为多样奖励函数
  • 插件系统支持渐进式课程:工具集、环境、任务难度均可动态扩展,避免过度拟合特定工具行为

综上,论文通过“平台层统一记忆与扩展 + 实例层面向软件工程优化 + 元层自动迭代”的三级方案,把长上下文压缩、跨会话记忆、工具链编排、可观测性四大工业刚需一次性做成可复用开源基础设施,并用 CCA 验证:在真实大规模代码库场景,优秀的脚手架可以击败更强大的闭源模型,从而真正缩小原型与生产之间的距离。

Q: 论文做了哪些实验?

论文围绕“工业级 AI 软件工程师”这一核心命题,共设计了 5 组实验 + 2 项消融 + 1 个案例研究,覆盖公共基准、私有子集、重复记忆、工具消融与真实 PyTorch 生产问题,形成从宏观指标到微观行为的完整证据链。

1. 主基准:SWE-Bench-Pro(工业级长周期)

  • 数据集:官方 public split 731 个真实 GitHub issue,平均需修改 4.3 个文件。
  • 指标:Resolve@1(无人工干预下补丁通过全部测试的百分比)。
  • 对照:相同容器环境与工具链,仅替换脚手架。
  • 结果
  • Claude 4 Sonnet:SWE-Agent 42.7 % → CCA 45.5 %
  • Claude 4.5 Sonnet:Live-SWE-Agent 45.8 % → CCA 52.7 %
  • Claude 4.5 Opus:Anthropic 私有脚手架 52.0 % → CCA 54.3 %新 SOTA

2. 交叉验证:SWE-Bench-Verified(经典短周期)

  • 数据集:500 条 issue,社区常用快速验证集。
  • 结果
  • Claude 4 Sonnet:OpenHands 72.8 % → CCA 74.6 %最强开源
  • 即使对比使用更强 Claude 4.5 的 mini-SWE-Agent(70.6 %),CCA 仍领先 4.0 绝对分。

3. 消融实验:量化三大机制各自贡献

100 条 SWE-Bench-Pro 子集上执行单变量关闭:

变量 主效应(Claude 4.5 Sonnet)
关闭分层上下文管理 −7.6 %(51.6 → 44.0)
关闭Meta-Agent 学到的工具扩展 −7.6 %(51.6 → 44.0)
同时关闭上述两项 −11.6 %(51.6 → 40.0)

→ 证明脚手架各组件加法且不可或缺

4. 长上下文压力测试:多文件编辑鲁棒性

按“最终修改文件数”桶析 SWE-Bench-Pro:

文件数区间 样本量 Resolve 率
1–2 294 57.8 %
3–4 203 49.2 %
5–6 86 44.1 %
7–10 38 52.6 %
10+ 18 44.4 %

→ 性能随文件增多轻度衰减,但未出现断崖,验证分层压缩 + 多步规划对长编辑链的稳定性。

5. 长周期记忆实验:双跑笔记对比

  • 协议
  1. Run-1:从零完成任务,Note-Taking Agent 异步写笔记。
  2. Run-2:同一任务重新执行,可检索 Run-1 笔记。
  • 样本:151 条可蒸馏任务
  • 结果
  • 平均迭代轮次:64 → 61(−4.7 %)
  • 平均 token 成本:104 k → 93 k(−10.6 %)
  • Resolve 率:53.0 % → 54.4 %(+1.4 绝对分)
    → 首次量化展示“跨会话记忆”在公共基准上的正收益

6. 案例研究:PyTorch-Bench(真实生产级问题)

  • 构造:2025-01~07 的 8 个可复现 PyTorch Issue,需 A100-80 GB 环境与领域专家知识。
  • 对照相同 Claude 4.5 Sonnet + 相同硬件,仅比较 CCA 与 Claude Code(CC,闭源 CLI)。
  • 评判:3 名外部专家双盲评 patch 质量与工程合理性。
  • 关键发现
  1. Issue #161356(CUDA 断言失败):CCA 删 2 行断言即通过,PyTorch 官方最终采用同方案;CC 加 7 行保持断言,过度工程。
  2. Issue #135837(内存回收冲突):CCA 用 6 行禁用回收;CC 用 63 行动态阈值,复杂度 10×
  3. Issue #163072(精度测试):两者均调容限,但 CC 额外改 20 行代码消除警告,存在过度优化
    → 揭示单代理架构(CCA)在调试任务上比多代理委派(CC)更简洁、对齐官方偏好

7. 思考预算缩放实验(附录)

  • 设置:Claude 4 Sonnet + CCA,仅调整 thinkingBudget 参数。
  • 结果
  • 8 k tokens → 67.3 %
  • 16 k tokens → 68.4 %
  • 32 k tokens → 68.7 %
    16 k 后边际收益递减,为后续 RL 课程设计提供预算参考。

实验小结

  1. 公共基准:新 SOTA + 最强开源双达标
  2. 消融与桶析:量化上下文、工具、记忆各自增益
  3. 记忆双跑:首次在代码 Agent 公开实验中验证跨会话持续学习正收益
  4. PyTorch 案例:在真实生产级难题上,简洁方案即被官方采纳,证明脚手架优势可外溢到工程实践

Q: 有什么可以进一步探索的点?

以下展望均直接源于论文第 5 节“Future Work”与实验部分的留白,可作为后续研究的即时切入点;每条都给出可验证的指标与所需资源,方便直接落地。

1. 端到端强化学习框架

  • 核心缺口
    CCA 已产出高分辨率轨迹(状态、动作、环境反馈、成败信号),但目前仅用于离线诊断,尚未在线更新策略。
  • 探索路径
  • 形式化“Trajectory Export Format”——将分层记忆、工具调用、编译/测试回报统一序列化为 MDP 元组。
  • 设计复合奖励
    – 结果奖励:patch 是否通过全部测试;
    – 过程奖励:每步工具成功率、异常恢复次数、token 效率;
    – 记忆奖励:笔记被未来会话复用的频次。
  • 接入 Agent Lightning 或 SWE-RL 的训练循环,冻结工具扩展仅训练策略 LLM,观察能否在 SWE-Bench-Pro 子集上超越 54.3 %。
  • 可验证指标
    – 训练后同等模型参数下 Resolve@1 绝对提升 ≥ 3 %;
    – 样本效率:在 500 条轨迹内即收敛。

2. 课程式工具扩展与课程难度

  • 核心缺口
    当前扩展集一次性全开,无渐进难度;RL 场景下易出现“工具滥用”或“局部最优”。
  • 探索路径
  • 工具复杂度(grep→BigGrep→语义搜索→跨语言调用图)与任务复杂度(单文件 bug→多文件重构→性能优化)双轴构造课程。
  • 元代理自动为每门课程生成配套 prompt 与奖励权重,形成“课程-代理-奖励”三元组池。
  • 监控每阶段工具调用分布,若某工具使用率 < 5 % 或失败率 > 50 %,自动回滚并改写课程。
  • 可验证指标
    – 课程训练后的 Agent 在 10+ 文件桶(当前 44.4 %)上提升 ≥ 6 绝对分;
    – 工具失败率整体下降 ≥ 20 %。

3. 多模态与跨语言迁移

  • 核心缺口
    SWE-Bench-Multimodal 已引入文档、UI 截图;CCA 目前仅纯文本。
  • 探索路径
  • 给扩展层新增Vision Tool(返回 UI 截图 diff、日志可视化),保持现有 XML/JSON 接口不变。
  • 在记忆节点中引入图像嵌入索引,支持“图文混合”检索。
  • 测试同一代码库不同语言混合任务(Python/C++ 扩展模块),观察跨语言引用定位准确率。
  • 可验证指标
    – Multimodal SWE-Bench 子集 resolve 率相对纯文本基线提升 ≥ 5 %;
    – 跨语言跳转定位 Top-3 准确率 ≥ 80 %。

4. 在线笔记自我修正

  • 核心缺口
    当前笔记一旦写入只读不改,可能积累过时或错误知识。
  • 探索路径
  • 为每条笔记增加置信度字段(初始 0.5,被后续成功复用 +Δ,被证伪 −Δ)。
  • 当置信度 < 0.2 时触发“笔记回收”子代理:重跑相关任务,若新结果与原笔记冲突,则自动提交 PR 式修正。
  • 记录“笔记生命周期”曲线,分析多少笔记在 30 天内失效。
  • 可验证指标
    – 笔记回收后,Run-2 resolve 率再提升 ≥ 1 绝对分;
    – 平均笔记半衰期 ≥ 60 天(越长越好)。

5. 安全与合规扩展

  • 核心缺口
    工业部署需面对“不可信代码执行”“许可证污染”两大风险,目前 Bash 扩展仅基础沙箱。
  • 探索路径
  • 新增Compliance Extension:每次文件写操作前调用“许可证检测工具”,若引入 GPL/AGPL 代码即自动阻断并给出替代库建议。
  • 集成eBPF 系统调用过滤器,在线拦截编译期网络、fork 等危险调用。
  • 构建“Safe-SWE-Bench”子集(50 条含恶意测试),测量误拦率与漏拦率。
  • 可验证指标
    – 恶意行为检出率 ≥ 98 %,正常任务误拦率 ≤ 2 %;
    – 引入许可证冲突 0 次(相对基线)。

6. 轨迹驱动的故障预测与提前回退

  • 核心缺口
    现有循环靠硬迭代上限防止死循环,无法提前识别“必败”轨迹。
  • 探索路径
  • 用历史 10 K 条轨迹训练轻量级故障预测模型(基于轨迹前 30 % token 的 BERT 编码)。
  • 当在线置信度 > 0.8 判定“必败”时,触发策略回退:清空当前编辑,加载最近检查点并切换搜索策略(如从语法→语义搜索)。
  • 对比回退前后同一任务成功率。
  • 可验证指标
    – 预测准确率 ≥ 85 %;
    – 回退策略使整体 resolve 率额外 +1.5 %,平均 token 节省 ≥ 15 %。

7. 超低资源本地化部署

  • 核心缺口
    工业场景存在“代码不能出内网”且 GPU 资源受限的痛点。
  • 探索路径
  • 将分层记忆与笔记系统移植至 7 B 代码模型(CodeLlama-7B-Python),使用 4-bit 量化 + 投机解码。
  • 对比原始 54.3 % 结果,观察性能下降幅度;若下降 > 10 %,则用蒸馏方式让 7 B 模型模仿 CCA-Claude 的轨迹。
  • 可验证指标
    – 单卡 24 GB GPU 可跑;
    – SWE-Bench-Pro 子集下降 ≤ 5 绝对分即视为可用。

8. 统一评估协议与开放 leaderboard

  • 核心缺口
    社区缺乏“可复现、可审计”的工业级长周期 leaderboard。
  • 探索路径
  • 基于 Confucius SDK 构建开放评估服务:提供容器镜像、轨迹格式、奖励接口,任何 Agent 可上传轨迹自动打分。
  • 引入“成本-性能”双轴排名($ / Resolve@1),鼓励低成本高成功率方案。
  • 每年滚动新增 200 条来自企业合作伙伴的私有 issue(脱敏)。
  • 可验证指标
    – 首年吸引 ≥ 20 个不同脚手架提交;
    – 最佳低成本方案 $ ≤ 0.5 × 当前 SOTA 且 resolve 率不降低。

总结

以上 8 个方向按“RL 训练→课程学习→多模态→记忆自修正→安全合规→故障预测→资源压缩→社区评估”递进,既可直接基于已开源的 Confucius SDK 与 CCA 轨迹数据展开,也能形成新的 benchmark、数据集和工业落地场景,为“AI 软件工程师”从 54.3 % 到 ≥ 70 % 的下一跳提供系统化研究路线图。

Q: 总结一下论文的主要内容

论文提出并开源了 Confucius Code Agent(CCA)——首个可在工业级代码库规模稳定运行的 AI 软件工程师,核心贡献与内容可概括为 “一个平台、一个智能体、四项机制、三组实验”

1. 一个平台:Confucius SDK

  • 同时以 Agent Experience(AX)User Experience(UX)Developer Experience(DX) 为第一-class 设计轴。
  • 统一编排器 + 分层工作内存 + 插件扩展 + 元代理自动“构建–测试–改进”循环,把长上下文、长记忆、工具链、可观测性做成可复用基础设施

2. 一个智能体:CCA

  • 基于 SDK 配置而成,绑定搜索、文件编辑、CLI、测试、规划、缓存等扩展,无需改动内核即可在 10 M+ token 级仓库上稳定运行
  • 全部 prompt、工具栈、编排逻辑完全开源,可审计、可复现、可二次开发。

3. 四项关键机制(对应工业级两大挑战)

机制 解决挑战 核心做法 量化收益
F1 分层工作内存 + 自适应压缩 C1 长上下文推理(AX) 四级作用域 + Architect 子代理按需摘要 prompt 长度 −40 %;多步规划迭代 +93 %
F2 持久 Markdown 笔记 C2 长周期记忆(AX+UX) 离线蒸馏成功/失败经验,跨会话检索复用 token 成本 −10.6 %;resolve +1.4 %
F3 插件化扩展 C1 工具链稳健(AX+DX) 所有工具拆成 Typed Extension,可插拔可审计 关闭扩展 → −7.6 % 绝对分
F4 元代理自动迭代 DX 快速定制 用自然语言描述需求 → 自动生成配置+评测+改进 6 轮迭代 +8.3 % 绝对分

4. 三组实验

  1. SWE-Bench-Pro(731 工业级任务)
  • Claude 4.5 Opus + CCA 取得 54.3 % Resolve@1超越 Anthropic 私有脚手架 2.3 绝对分,刷新 SOTA。
  1. SWE-Bench-Verified(500 经典任务)
  • Claude 4 Sonnet + CCA 74.6 %最强开源;同配置下优于 OpenHands 与使用更强模型的 mini-SWE-Agent。
  1. 消融与记忆
  • 关闭上下文管理或扩展均导致 >7 % 绝对下降
  • 首次量化“跨会话笔记”正收益:token−11 k、轮次−3、resolve+1.4 %

5. 结论与影响

  • Agent 脚手架(记忆、编排、工具抽象)而非单纯模型规模,是决定工业级软件工程性能的关键。
  • Confucius SDK + CCA 提供透明、可扩展、可复现的开源基座,弥合了研究原型与生产系统之间的长期鸿沟,并可直接作为未来 RL 训练与领域定制的轨迹收集平台。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Zhaodong Wang,Zhenting Qi,Sherman Wong,Nathan Hu,Samuel Lin,Jun Ge,Erwin Gao,Yining Yang,Ben Maurer,Wenlin Chen,David Recordon,Yilun Du,Minlan Yu,Ying Zhang

Categories: cs.CL,cs.AI,cs.LG,cs.SE

PDF URL: https://arxiv.org/pdf/2512.10398.pdf

Arxiv URL: https://arxiv.org/abs/2512.10398

Arxiv ID: 2512.10398

CoolPaper URL: https://papers.cool/arxiv/2512.10398

Published: 2025-12-11T08:05:58Z

Updated: 2025-12-11T08:05:58.000Z


20. ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning

Video unified models exhibit strong capabilities in understanding and generation, yet they struggle with reason-informed visual editing even when equipped with powerful internal vision-language models (VLMs). We attribute this gap to two factors: 1) existing datasets are inadequate for training and evaluating reasoning-aware video editing, and 2) an inherent disconnect between the models’ reasoning and editing capabilities, which prevents the rich understanding from effectively instructing the editing process. Bridging this gap requires an integrated framework that connects reasoning with visual transformation. To address this gap, we introduce the Reason-Informed Video Editing (RVE) task, which requires reasoning about physical plausibility and causal dynamics during editing. To support systematic evaluation, we construct RVE-Bench, a comprehensive benchmark with two complementary subsets: Reasoning-Informed Video Editing and In-Context Video Generation. These subsets cover diverse reasoning dimensions and real-world editing scenarios. Building upon this foundation, we propose the ReViSE, a Self-Reflective Reasoning (SRF) framework that unifies generation and evaluation within a single architecture. The model’s internal VLM provides intrinsic feedback by assessing whether the edited video logically satisfies the given instruction. The differential feedback that refines the generator’s reasoning behavior during training. Extensive experiments on RVE-Bench demonstrate that ReViSE significantly enhances editing accuracy and visual fidelity, achieving a 32% improvement of the Overall score in the reasoning-informed video editing subset over state-of-the-art methods.

中文摘要

视频统一模型在理解和生成方面表现出强大的能力,但即使配备了强大的内部视觉-语言模型(VLMs),它们在基于推理的视觉编辑方面仍然存在困难。我们将这一差距归因于两个因素:1)现有的数据集不足以训练和评估具备推理能力的视频编辑;2)模型的推理能力与编辑能力之间存在固有的脱节,这阻碍了丰富的理解有效地指导编辑过程。弥合这一差距需要一个将推理与视觉变换连接起来的综合框架。为了解决这一问题,我们提出了基于推理的视频编辑(RVE)任务,该任务要求在编辑过程中进行物理合理性和因果动态的推理。为了支持系统化评估,我们构建了 RVE-Bench,一个包含两个互补子集的综合基准:基于推理的视频编辑和上下文视频生成。这些子集涵盖了多样的推理维度和现实世界的编辑场景。在此基础上,我们提出了 ReViSE——一个自反推理(SRF)框架,将生成与评估统一在单一架构中。模型的内部 VLM 通过评估编辑后的视频是否逻辑上满足给定指令来提供内在反馈。差异化反馈在训练过程中优化生成器的推理行为。在 RVE-Bench 上的大量实验表明,ReViSE 显著提高了编辑精度和视觉真实性,在基于推理的视频编辑子集中,其整体评分比最先进的方法提升了 32%。

LLM Analysis

Q: 这篇论文试图解决什么问题?

论文旨在弥合“统一视频模型在理解与生成方面表现强劲,却难以完成需要推理的编辑”这一鸿沟。具体而言,现有方法只能完成“字面”编辑(如添加/删除物体),无法理解指令背后的物理合理性与因果动态,导致面对“想象船离开一小时后的画面”这类需要时空推理的命令时失效。

为此,作者提出两项核心贡献:

  1. 新任务——Reason-Informed Video Editing (RVE):要求模型在编辑时同步进行隐式推理,确保结果既语义忠实又物理/逻辑自洽。
  2. 新框架——ReViSE:在统一架构内把生成器与内部 VLM 连接起来,让 VLM 充当“自省裁判”,对编辑结果给出“是/否”反馈,并通过可微分信号直接优化生成器,实现无需外部奖励模型的自我修正训练。

配套提出的 RVE-Bench benchmark 从“推理型编辑”与“上下文生成”两个维度系统评估该任务,实验显示 ReViSE 在多项指标上相对 SOTA 提升 30% 以上。

Q: 有哪些相关研究?

相关研究可归纳为三条主线,均与“指令驱动视频编辑”“推理引导视觉生成”以及“无需外部奖励的自监督对齐”密切相关:

1. 指令式视频编辑(Instruction-guided Video Editing)

  • 扩散模型扩展至视频
  • Tune-A-Video:首次将预训练图像扩散模型一次性微调为文本-视频生成器。
  • Stable Video Diffusion / Video-P2P / FateZero:在潜空间引入跨帧注意力或零样本注意力控制,实现时序一致性编辑。
  • 大规模合成数据驱动
  • InsV2V、InsViE-1M、Ditto-1M、Señorita-2M:利用合成或筛选的“文本-源视频-目标视频”三元组进行全监督训练,提升指令跟随能力。
  • 统一架构
  • Omni-Video、VEGGIE:把 VLM 与扩散生成器端到端连接,先解析指令再生成编辑,但仍局限于字面语义,未显式引入物理/因果推理监督。

2. 推理引导的视觉生成与编辑(Reasoning-aware Visual Generation & Editing)

  • 图像领域基准
  • WISE、R2I-Bench、WorldGenBench:揭示文本到图像模型在常识、空间、因果推理上的系统性失败。
  • EditWorld、RISE、Science-t2i:提出“编辑后仍保持物理合理性”的评估维度,但局限在静态图像。
  • 视频推理生成
  • Video Models are Zero-shot Learners and Reasoners:证明视频模型具备零样本推理潜力,但未用于编辑场景。
    上述工作均依赖外部评测器或人工标注,未在训练阶段把“推理一致性”作为可微分损失注入生成器。

3. 无外部奖励的自监督/自改进方法(Self-rewarding / Intrinsic RL)

  • 语言-视觉模型自对齐
  • CSR、SRUM、Calibrated Self-Rewarding VLM:利用内部一致性或跨模态对齐作为隐式奖励,迭代提升多模态理解。
  • Self-Improving Robust Preference Optimization:仅依赖模型自身输出的偏好对比,无需人类或外部裁判。
  • 扩散模型自监督
  • Flow-GRPO、Dance-GRPO:将 GRPO 强化学习用于图像/视频扩散,但需在线采样大量轨迹,计算开销大。

与本文差异

  • 前述视频编辑工作聚焦“字面”指令,未在训练阶段引入物理/因果合理性反馈。
  • 推理引导研究多停留在评测静态图像,没有把“内部 VLM 作为可微分裁判”与视频生成器联合优化。
  • 自监督对齐方法尚未探索视频编辑场景下的推理错误自我修正

ReViSE 首次把“内部 VLM 裁判 + 差分反馈”嵌入统一视频模型训练,实现面向 RVE 任务的自省式优化,填补了以上空白。

Q: 论文如何解决这个问题?

论文将“推理-引导视频编辑”视为理解-生成断联问题:内部 VLM 虽能判断编辑是否合理,但生成器从未收到可微分的“逻辑错误”信号,于是陷入只模仿像素变化、不纠正推理缺陷的局部最优。为此,作者提出ReViSE框架,把推理-评估-再生成闭环塞进同一网络,实现自监督的自我修正。具体解法分三步:

1. 任务与数据:把“推理”变成可学习的监督信号

  • 提出 RVE 任务:指令不再描述像素级变化,而是隐含物理/因果/时空约束(如“想象船离开一小时后”)。
  • 构建 RVE-Dataset(5.6 万)与 RVE-Bench(1 k 三元组):
    – 对现有“字面”数据集(Ditto-1M)用 GPT-4o 重写指令,注入因果、常识等四种推理维度。
    – 从电影镜头中抽取真实连贯片段,再用 GPT-4o 生成富含叙事与摄影机逻辑的上下文指令。
    结果:每条训练样本都附带**“推理-aware”文本**,为后续自我评估提供参考。

2. 架构:把 VLM 从“事后评论员”变成“体内裁判”

采用连接器式统一模型(ViLA + DiT):

vi &= E(vid)(yi), quad t_i = E(text)(ci), quad u_i = U(y_i, c_i) c_i &= f_C(v_i, t_i, u_i), quad x_0 = Dl(z_t - t · vφ(z_t, t mid c_i)r)

  • 生成器 G_φ 输出估计的干净潜码 x_0 ,立即解码成短视频 y_0 。
  • 同一模型的理解分支 U(即内部 VLM)收到 (y0, y_i, c_i) ,按四维度(编辑准确度 EA、保留一致性 PC、自然度 GN、真实度 GR)输出链式思考 + 二分类 logits ell(yes), ell_(no) 。
    由此得到无需外部标注的推理误差信号。

3. 训练目标:把“Yes/No”变成可微分损失

提供两种策略,最终优选 USO

a) Unified Semantic Optimization(USO)

在标准流匹配损失上增加推理交叉熵

L(reason) = -log σl(ell(yes)^((j)) - ell(no)^((j))r), quad L(USO) = L(FM) + λ L(reason)

  • 两条梯度并行回传: L(FM) 保证像素级重建, L(reason) 强迫生成器拉高“Yes”概率,从而把“逻辑合理”写进权重。

b) Reward-Weighted Optimization(RWO)

保持单损失但按“No”概率重加权

L(RWO) = El[(1 - p(yes))|vφ - v(target)|^2r] + λc L(FM)

错误样本被放大,正确样本被抑制,实现样本级自适应课程

4. 推理循环:训练即自省

伪代码(Algorithm 1)概括训练流程:

1
2
3
4
1. 采样时间步 t → 估计干净视频 ŷ₀
2. 内部 VLM 评估 ŷ₀ 得 L_reason
3. 计算 L_USO = L_FM + λ·L_reason
4. 只更新**生成器**参数 ϕ(理解分支权重冻结,保证裁判稳定)

每步迭代都在**“生成-裁判-自校正”**闭环内完成,无需外部奖励模型或人工打分。

5. 效果:把推理错误率变成可度量增益

  • RVE-Bench 上 Overall 分数提升 32%(4.94 → 5.11),其中时序推理子集 +38%;常规编辑数据集 Ditto-1M 也 +36.7%
  • 消融显示:λ = 0.75 时推理损失与重建损失达到最佳平衡;继续增大 λ 会因裁判信号过强导致画面崩坏。
  • 内部 VLM 与 GPT-4o 的Yes/No 决策一致率 74.6%,验证裁判可靠性。

结论

ReViSE 通过**“体内裁判 + 差分反馈”把原本不可微的“逻辑合理性”转成可训练损失,首次在统一视频模型里实现推理-生成协同优化**,从而系统性地解决了“会理解却不会合理编辑”的核心问题。

Q: 论文做了哪些实验?

论文围绕 RVE-Bench常规编辑场景 共设计 4 组实验,覆盖定量、定性、消融与裁判可靠性,系统验证 ReViSE 在“推理-编辑”任务上的有效性。

1. 主实验:RVE-Bench 全基准评测

目的:验证 ReViSE 在“推理引导视频编辑”与“上下文视频生成”两类任务上是否全面领先。
协议

  • 1 000 条三元组(源视频、指令、参考目标)
  • 6 项指标:ViCLIPT↑、EA↑、PC↑、GN↑、GR↑、Overall↑(几何平均)
  • 对比基线:Omni-Video、InsV2V、InsViE、VACE

结果(表 1):

场景 最佳对手 Overall ReViSE Overall 相对增益
时序推理 3.68 5.08 +38 %
因果推理 3.70 5.48 +30 %
空间推理 2.93 → 4.91 +9 %
常识推理 4.32 → 4.40 +2 %
上下文生成 5.76 → 5.93 +3 %

结论:ReViSE 在所有推理维度均拿第一,时序/因果提升最显著;PC 分数适中,表明既做了实质性编辑又避免过度破坏原视频

2. 常规编辑泛化实验:Ditto-1M 抽样评测

目的:检验“推理式训练”是否会损害传统字面编辑能力。
协议:随机抽 809 条 Ditto-1M 字面指令,沿用相同 6 指标。

结果(表 3):

方法 Overall
最佳基线 (Omni-Video) 2.55
ReViSE 3.81 (+36.7 %)

结论:ReViSE 在无需推理的常规编辑上依旧领先,说明自省损失具备泛化增益而非过拟合到推理指令

3. 消融实验:训练目标与强度

3.1 目标函数对比(表 2)

  • SFT:仅监督微调 → Overall 3.70
  • RWO:加权流匹配 → 3.76
  • USO:统一语义优化 → 4.67 (+32 %)

结论:显式加入可微分L_reason 的 USO 远优于单纯加权或传统 SFT。

3.2 自反射强度 λ 扫描(图 10 + 表 6)

λ ∈ {0.1, 0.25, 0.5, 0.75, 1.0}

  • λ = 0.75 在时序/因果/常识均获最高 Overall;
  • λ = 1.0 信号过强,出现“夕阳重复”类伪影,性能回落。

结论:0.75 是推理一致性与画面稳定性的最佳平衡点,后续实验默认采用。

4. 裁判可靠性验证

目的:证明“内部 VLM”给出的 Yes/No 与外部高级模型一致,可放心用于训练。
协议:随机抽 100 条生成结果,让内部 VLM 与 QwenVL-32B/72B、GPT-4o 同时打分,计算

  • 决策一致率(Acc)
  • 理由文本相似度(Sim, cosine)

结果(表 8):

外部裁判 Acc↑ Sim↑
QwenVL-32B 65.6 % 0.74
QwenVL-72B 66.1 % 0.70
GPT-4o 74.6 % 0.72

结论:内部裁判与 GPT-4o 高度一致,且评判更严格,可替代昂贵外部模型提供稳定训练信号

5. 定性可视化

  • 图 5、图 6、图 11 展示“船离开一小时后”、“原木变木屑”、“雾自然形成”等复杂推理案例;ReViSE 生成的画面语义正确、运动自然、无突兀伪影,基线普遍出现字面误读或物理不合理
  • 图 8 给出 λ 消融可视化:λ = 0.75 时仅出现一只鸟且背景完整,验证了定量结论。

实验总结

  1. 全新推理编辑基准 RVE-Bench 上全面领先,最大幅度 +38 %
  2. 传统字面编辑数据上依旧 +36.7 %,证明泛化性。
  3. 通过消融与可视化确认 USO 目标 + λ = 0.75 为最佳配置。
  4. 内部 VLM 裁判与 GPT-4o 达成 74.6 % 决策一致,保障训练信号可靠。

实验链条完整覆盖“新任务-新数据-新训练-新评测”,充分支撑 ReViSE 的有效性声明。

Q: 有什么可以进一步探索的点?

以下方向可在此基础上继续推进,分为数据、模型、评测、应用四条线,均直接对应 ReViSE / RVE-Bench 当前留下的开放问题。

1. 数据与标注

  • 多语言-多文化常识
    RVE-Bench 指令以英文为主, Commonsense 维度仅覆盖西方日常逻辑。构建跨文化常识子集(如“中秋月圆人团聚”对应的场景演变),检验模型是否将物理推理与社会文化常识同时内化。
  • 长时序-多事件链
    现有样本多为单步推理(船离开→远处)。引入脚本级事件链(船离开→浪减小→海鸥散去→日落),形成 10–30 秒的长视频,考察模型对因果链累积误差的控制能力。
  • 可验证物理参数
    与物理引擎(MuJoCo、Blender Physics)或真实传感器数据对齐,生成带物理量标签的配对视频(速度向量、温度场、光照强度),训练时把“参数误差”作为可微损失,把目前隐式的“合理性”变成显式物理一致性

2. 模型与算法

  • 迭代式自我博弈
    当前仅一次“生成→裁判”。可扩展为多轮自我博弈:生成器 → 裁判 → 反向提示(why No?)→ 生成器二次修正,形成生成-批判-反驳循环,无需人类写链式思考。
  • 可解释注意力干预
    利用 DiT 的时空注意力图,把裁判模型定位到的“错误区域”作为注意力掩码,在反向扩散时局部重采样,实现“哪里错改哪里”的细粒度修正,而非全局重新生成。
  • 多模态外部知识检索
    引入世界知识检索模块(文本知识图谱 + 视觉示例库),在推理阶段先检索“冰在 0 °C 以上会融化”的图文证据,再生成编辑;把目前纯参数化的常识转为显式知识增强,降低幻觉。
  • 扩散-自回归混合框架
    ReViSE 基于扩散。可尝试自回归 Transformer 生成离散视觉 Token,把裁判信号建模为每帧 Token 的置信度,利用自回归 teacher-forcing 直接最大化“正确 Token 序列”似然,探索非扩散路线的自省优化

3. 评测与指标

  • 人类物理直觉对比
    引入心理物理实验范式:让人类在 A/B 侧判断“哪段视频更合理”,建立人类一致性曲线(Human-JND),检验当前 GPT-4o 自动评分是否高估/低估特定物理场景。
  • 对抗性推理攻击
    设计反常识指令(“让石头在水面继续漂浮”),量化模型对显式物理违背的拒绝能力;或引入渐变式误导(“船离开→突然瞬间移动回岸边”),测试模型对微妙不合理的敏感度
  • 细粒度错误类型学
    将裁判模型的链式思考自动归类为因果错误 / 光照不一致 / 尺度失真 / 时序跳变等,输出错误分布向量,用于诊断型评测,而不仅是单一度量 Overall。

4. 应用与系统

  • 交互式视频创作工具
    把 ReViSE 封装成实时插件:用户输入高级意图(“让树叶随秋天变色”),系统立即显示可交互滑块(λ 或时刻 t),用户拖动即可看到推理强度-视觉效果连续变化,实现人机协同编辑
  • 视频后期合规审查
    在影视工业落地,把裁判模块当作**“物理/事实合规检查器”,对特效镜头自动标记可能违背物理**的片段,减少人工逐帧审查成本。
  • 机器人物体操作数据增强
    用 RVE 生成机器臂未见过但物理合理的交互视频(推不同材质箱子),再蒸馏到控制策略,实现低成本 sim-to-real 迁移;裁判信号保证生成视频符合牛顿力学,避免策略过拟合虚幻动态。

小结

  1. 单步推理→事件链→物理参数逐步升级,让数据更可验证。
  2. 一次裁判→多轮博弈→局部干预做深,让自省更精细。
  3. 自动评分→人类基准→对抗攻击拓宽,让评测更可信。
  4. 研究原型→交互工具→工业流水线走通,让技术可落地。

这些方向既可直接沿用 RVE-Bench/ReViSE 的代码与接口,也能引入新的物理引擎、知识库、人机交互模块,为“真正懂物理、会自省的视频生成模型”提供下一阶段研究路线。

Q: 总结一下论文的主要内容

论文提出 Reason-Informed Video Editing (RVE) 任务,要求模型在编辑视频时同步完成物理/因果/时空推理,而不再局限于“添加-删除-替换”字面操作。为此构建 RVE-Bench(1 k 三元组,两大子集)并给出 GPT-4o 自动四维度评测指标(EA/PC/GN/GR)。核心方法 ReViSE 把内部 VLM 当成“体内裁判”,对生成结果输出可微分的“Yes/No”反馈,通过 Unified Semantic Optimization 将推理损失与流匹配损失联合训练,实现无需外部奖励的自我修正。实验显示 ReViSE 在 RVE-Bench 上 Overall 提升 32 %,时序子集高达 +38 %,在常规编辑数据亦 +36.7 %,验证了其泛化性与有效性。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Xinyu Liu,Hangjie Yuan,Yujie Wei,Jiazheng Xing,Yujin Han,Jiahao Pan,Yanbiao Ma,Chi-Min Chan,Kang Zhao,Shiwei Zhang,Wenhan Luo,Yike Guo

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2512.09924.pdf

Arxiv URL: https://arxiv.org/abs/2512.09924

Arxiv ID: 2512.09924

CoolPaper URL: https://papers.cool/arxiv/2512.09924

Published: 2025-12-10T18:57:09Z

Updated: 2025-12-10T18:57:09.000Z