HuggingFace Papers 2026-05-28

数据来源：HuggingFace Papers

Latest Papers

1. ResearchMath-14K: Scaling Research-Level Mathematics via Agents

Abstract:The frontier of mathematics is defined by problems whose solutions are not yet known, yet it remains unclear whether language models can meaningfully engage with such problems without human intervention. A major obstacle is the lack of large-scale research-level math datasets. To this end, we introduce ResearchMath-14k, a set of $14{,}056$ problems curated from academic sources via a multi-agent pipeline, making it the largest collection of research-level mathematical problems to date. We further generate ResearchMath-Reasoning, $220$K teacher trajectories from two open models, where we observe recurring avoidance behaviors such as non-attempts and fabricated references. Interestingly, across eight open-weight models, newer generations produce $5.6\times$ more references and $5.0\times$ more fake references per trace. After agentic filtering of ResearchMath-Reasoning, fine-tuning Qwen3 models from 4B to 30B parameters improves over base models by $9.2$ points on average. This shows that filtered open-problem attempts can provide useful supervision even without fully correct reasoning traces. We make ResearchMath-14k publicly available for future works on research-level mathematical reasoning.

中文摘要

摘要：数学的前沿由那些尚未有已知解答的问题定义，但目前仍不清楚语言模型在没有人类干预的情况下能否有意义地处理这些问题。一个主要障碍是缺乏大规模的研究级数学数据集。为此，我们引入了 ResearchMath-14k，这是通过多代理流水线从学术资料中精心挑选的 14,056 个问题，使其成为迄今为止最大的研究级数学问题集合。我们进一步生成了 ResearchMath-Reasoning，这是来自两个开源模型的 220K 个教师轨迹，在这些轨迹中我们观察到重复出现的回避行为，如不尝试和伪造引用。有趣的是，在八个开源权重模型中，新一代模型每条轨迹产生的引用数量增加了 5.6 倍，伪造引用数量增加了 5.0 倍。在对 ResearchMath-Reasoning 进行代理过滤后，将 Qwen3 模型从 4B 微调到 30B 参数，平均在基础模型上提高了 9.2 个积分。这表明，即使没有完全正确的推理轨迹，经过过滤的开放问题尝试也可以提供有用的监督。我们公开了 ResearchMath-14k，以供未来研究级数学推理的相关工作使用。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败（已重试2次）: Navigation timeout of 10000 ms exceeded

Authors: Guijin Son,Seungyeop Yi,Minju Gwak,Hyunwoo Ko,Wongi Jang,Youngjae Yu

PDF URL: https://arxiv.org/pdf/2605.28003.pdf

Arxiv URL: https://arxiv.org/abs/2605.28003

Arxiv ID: 2605.28003

CoolPaper URL: https://papers.cool/arxiv/2605.28003

Published: 2026-05-28T02:19:08.280Z

Updated: 2026-05-28T02:19:08.280Z

2. From Pixels to Words — Towards Native One-Vision Models at Scale

Abstract:Current vision-language models (VLMs) typically stitch together separate image encoders and language decoders via multi-stage alignment, a modular framework that inevitably fragments pixel-level signals across frames and scatters early pixel-word interactions. In parallel, native VLMs, despite impressive performance on single images, remain largely unexplored in multi-image, video understanding, and spatial intelligence. Hence, we introduce NEO-ov, a native foundation model that learns cross-frame and pixel-word correspondence end-to-end, without any external encoders, auxiliary adapters, or post-hoc fusion. By eliminating module boundaries entirely, NEO-ov enables fine-grained and unified spatiotemporal modeling to emerge natively inside the model. Notably, NEO-ov largely narrows the gap to modular counterparts while excelling at fine-grained visual perception, validating that native “one-vision” architectures are not only feasible but competitive at scale. Beyond empirical performance, we unveil systematic architectural analyses and detailed training recipes to facilitate subsequent native multimodal modeling. Our code and models are publicly available at: this https URL.

中文摘要

摘要：当前的视觉-语言模型（VLMs）通常通过多阶段对齐将独立的图像编码器和语言解码器拼接在一起，这种模块化框架不可避免地在帧之间分散像素级信号，并分散早期的像素-词交互。同时，原生VLMs尽管在单张图像上表现出色，但在多图像、视频理解和空间智能方面仍很少被探索。因此，我们提出了NEO-ov，一种原生基础模型，可以端到端地学习跨帧和像素-词对应关系，无需任何外部编码器、辅助适配器或后期融合。通过完全消除模块边界，NEO-ov使细粒度和统一的时空建模能在模型内部自然形成。值得注意的是，NEO-ov在缩小与模块化模型的差距的同时，在细粒度视觉感知上表现优异，验证了原生的“一视觉”架构不仅可行，而且在大规模应用中具有竞争力。除了经验性能外，我们还揭示了系统的架构分析和详细的训练方案，以促进后续原生多模态建模。我们的代码和模型可在以下网址公开获取：this https URL。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败（已重试2次）: Navigation timeout of 10000 ms exceeded

Authors: Haiwen Diao,Jiahao Wang,Penghao Wu,Yuhao Dong,Yuwei Niu,Yue Zhu,Zhongang Cai,Weichen Fan,Linjun Dai,Silei Wu,Xuanyu Zheng,Mingxuan Li,Yuanhan Zhang,Bo Li,Hanming Deng,Huchuan Lu,Quan Wang,Lei Yang,Lewei Lu,Dahua Lin,Ziwei Liu

PDF URL: https://arxiv.org/pdf/2605.28820.pdf

Arxiv URL: https://arxiv.org/abs/2605.28820

Arxiv ID: 2605.28820

CoolPaper URL: https://papers.cool/arxiv/2605.28820

Published: 2026-05-28T02:19:43.822Z

Updated: 2026-05-28T02:19:43.822Z

3. Chartographer: Counterfactual Chart Generation for Evaluating Vision-Language Models

Abstract:Chart question-answering (QA) benchmarks aim to pose questions that require visual reasoning to correctly answer, but models can often reach solutions through shortcuts or prior familiarity with a chart based on their own background knowledge. To strictly evaluate visual reasoning, we propose counterfactual charts where the chart-question task remains fixed, but underlying chart and the corresponding answer are varied. We introduce Chartographer, a framework to reverse engineer charts into executable code, validate reconstruction fidelity, generate seed-controlled counterfactual variants, and derive new answers from executable QA logic. We apply this framework to existing chart QA datasets and evaluate proprietary and open-source vision-language models (VLMs), measuring variation sensitivity and generalizability. Counterfactual charts reveal failures hidden by single-chart performance: VLMs often fail to generalize after answering the original chart correctly. We find failures are most prevalent when updated charts require novel visual reasoning pathways.

中文摘要

摘要：图表问答（QA）基准旨在通过提问需要视觉推理能力的问题来正确作答，但模型常常可以通过捷径或基于自身背景知识对图表的熟悉度来获得答案。为了严格评估视觉推理能力，我们提出了反事实图表，其中图表问题任务保持不变，但底层图表和对应答案会有所变化。我们引入了Chartographer，这是一个将图表逆向工程为可执行代码的框架，可验证重建的准确性、生成受种子控制的反事实变体，并从可执行的QA逻辑中推导出新答案。我们将该框架应用于现有的图表QA数据集，并对专有和开源的视觉-语言模型（VLMs）进行评估，测量其对变化的敏感性和泛化能力。反事实图表揭示了单图表性能掩盖的失败情况：VLMs往往在正确回答原始图表后无法泛化。我们发现，当更新后的图表需要新的视觉推理路径时，失败情况最为普遍。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决图表问答（Chart QA）基准测试中对视觉推理能力评估不够严格的问题，具体表现为：

1. 现有基准测试的局限性

当前的Chart QA基准测试主要依赖固定的图表-问题-答案三元组（fixed chart-question-answer triples）。这种评估方式存在以下缺陷：

捷径学习（Shortcut Learning）：模型可能通过利用问题中的语言规律、统计偏差或答案分布模式来”猜测”正确答案，而无需真正理解图表内容
参数知识依赖（Parametric Knowledge）：模型可能依赖预训练期间记忆的相关知识或见过的类似图表，而非基于当前呈现的图表进行推理
无法测试泛化性：现有方法无法验证模型在图表数据变化时，是否仍能基于视觉证据进行正确推理

2. 核心研究问题

论文提出了一个关键的评估盲区：当底层数据改变时，模型是否仍能保持正确的推理能力？

现有基准无法回答：

模型在回答原始图表正确后，面对相同问题但数据不同的图表时，能否相应调整答案？
模型的成功是基于真正的视觉推理，还是基于对特定图表的记忆？

3. 提出的解决方向

为严格评估视觉推理能力，论文引入了**反事实图表（Counterfactual Charts）**的评估框架：

保持图表-问题任务不变，但改变底层数据并重新计算答案
通过对比模型在原始图表和反事实变体上的表现，分离真正的视觉推理能力与记忆/捷径依赖
构建包含原始图表、重建图表和多个反事实变体的图表-问题家族（Chart-Question Families），测试模型在视觉证据改变时的表现稳定性

简而言之，该论文试图建立一个更严格的评估标准，确保模型在图表理解任务中展现的是基于视觉证据的鲁棒推理能力，而非对训练数据的记忆或统计捷径的利用。

Q: 有哪些相关研究？

该论文在**第2节（Related Work）**中系统梳理了三个主要研究方向的相关文献：

1. 图表问答基准测试（Chart QA Benchmarks）

早期研究通过受控生成隔离基础视觉推理操作：

DVQA（Kafle et al., 2018）与 FigureQA（Kahou et al., 2018）：使用合成图表或图形生成，测试基础视觉推理能力
PlotQA（Methani et al., 2020）：专注于科学图表的推理

近期研究转向真实世界数据源：

ChartQA（Masry et al., 2022）：结合网络来源图表与需要复杂视觉和逻辑推理的人工编写问题
CharXiv（Wang et al., 2024）：面向真实科学图表，评估视觉、文本和多模态理解
ChartMuseum（Tang et al., 2025）：包含人工设计的可视化，测试多样化的视觉推理能力

与本文的关系：现有基准均以固定三元组（图表-问题-答案）为评估单元，本文则将这些基准转换为反事实图表-问题家族，以隔离真正的视觉推理能力。

2. 视觉语言模型中的图表理解（Chart Understanding with VLMs）

基础架构：

Flamingo（Alayrac et al., 2022）：将视觉编码器与大语言模型结合，实现视觉-文本对齐

增强图表推理的中间表示方法：

Pix2Struct（Lee et al., 2023）：通过截图解析为HTML进行预训练
DePlot（Liu et al., 2023a）与 MatCha（Liu et al., 2023b）：图表到表格的逆向渲染（derendering）
ChartPoint（Xu et al., 2025）：基于 grounding 和 reflection 的引导方法
Distillation方法（He et al., 2025）：从LLM向MLLM蒸馏视觉图表推理能力

与本文的关系：上述工作专注于提升模型能力，而本文专注于严格评估这些能力是否真正基于视觉证据而非捷径。

3. 捷径学习与反事实评估（Shortcuts and Counterfactual Evaluation）

自然语言处理领域：

Gururangan et al. (2018)：发现自然语言推理（NLI）数据中的注释伪影（annotation artifacts）可使标签在无需访问问题的情况下被部分预测

多模态评估领域：

Hou et al. (2025)、Chi et al. (2025)、Xia et al. (2025)：记录视觉推理基准中奖励捷径行为而非视觉逻辑应用的现象，包括对参数知识的依赖和表面语言规律

图表领域的反事实方法：

Chart-HQA（Chen et al., 2025）：引入对图表问题的假设性假设（hypothetical assumptions），探测对图表内容的反事实推理
CharXiv的替代评估（Wang et al., 2024）：使用视觉复杂度相似但带有新标注问题的图表，替代模板化问题

与本文的关系：现有工作通过文本假设或替换图表进行反事实评估，而本文通过重新生成图表本身并改变数据（保留任务但改变视觉证据），要求模型基于改变后的视觉证据进行推理，从而更严格地测试视觉 grounding 能力。

总结

本文定位在现有研究的交叉点：继承了Chart QA基准的评估传统，采用了VLM图表理解的技术背景，但创新性地扩展了反事实评估方法，通过代码逆向工程和可控数据变异，实现了对视觉推理能力更严格的隔离测试。

Q: 论文如何解决这个问题？

论文通过引入 CHARTOGRAPHER 框架解决该问题，该框架将单一图表-问题-答案三元组扩展为反事实图表-问题家族（Counterfactual Chart-Question Families），从而严格测试模型在视觉证据变化时的推理泛化能力。具体解决方案包含以下四个核心环节：

1. 图表重建（Chart Reconstruction）

通过逆向工程将静态图表转换为可执行代码，为可控变异奠定基础：

图表到代码的转换：利用VLM从图表图像中提取语义数据（实体、类别、数值、标签）和渲染代码（视觉编码、布局逻辑），分离数据与样式，使得数据可独立修改而图表主题保持不变
自改进循环（Self-Refinement）：通过迭代诊断-修订流程提升重建保真度。VLM对比原始图表与重建渲染结果，诊断差异（如标签错位、比例失真），生成改进计划并执行，最多迭代5次直至无显著缺陷
人工验证（Human-in-the-Loop）：对模糊标签、不可读数值或无法从像素恢复的编码等困难案例，人工审核重建是否保留回答问题所需的关键视觉证据，确保重建质量足以支持后续反事实生成

2. 反事实图表生成（Counterfactual Chart Generation）

基于重建的图表模式，生成种子控制的数据变体：

参数化数据生成器：为每个接受的重建创建 Python 函数 generate_data(data_template, seed) ，保持图表模式、渲染约束和领域假设，但系统性地改变数值、排名、组成或趋势
多种子变异：使用随机种子 0 到 9 生成 10 个反事实变体，每个变体在保持视觉外观相似性的同时，确保底层数据发生有意义的变化（如改变极值点、交叉顺序、阈值关系等）

3. QA再生（QA Regeneration）

确保问题与答案随数据更新而保持有效：

问题适配：创建 adapt_question(data) 模块，仅在必要时（如原问题涉及特定不再存在的实体）对原问题进行最小化修改，保持问题语义一致性
可执行答案逻辑：构建 generate_answer(data) 模块，直接从底层数据计算答案而非依赖视觉观察。该模块基于数据对象中的字段计算黄金答案，支持重排序元素和数值变化，实现大规模自动标注

4. 反事实家族评估框架（Counterfactual Family Evaluation）

建立多维度指标体系，分离原始性能与泛化能力：

核心指标定义（设 F_d 为数据集 d 中的家族集合， V_i 为种子变体集合）：

原始准确率（OA）：模型在原始基准图表上的准确率
OA(m,d) = (1) / (|F_d|) ∑(i ∈ Fd) 1[y^o(m,i) equiv y^o_i]
重建准确率（RA）：模型在逆向工程重建图表（数据未变）上的准确率，验证任务在重建过程中是否得以保留
变体准确率（VA）：模型在 10 个反事实变体上的平均准确率
VA(m,d) = ∑(i ∈ Fd) ∑(j ∈ Vi) 1[haty^v(m,ij) equiv y^v_(ij)]|F_d||V_i|
相对变体变化（RVC）：衡量对变体图表的敏感度
RVC(m,d) = 100 · VA(m,d) - OA(m,d)OA(m,d)
条件变体准确率（CVA）：核心诊断指标，仅统计模型在原始图表回答正确的家族中的变体表现
CVA(m,d) = ∑(i ∈ Sm,d) ∑(j ∈ Vi) 1[y^v(m,ij) equiv y^v(ij)]|S(m,d)||Vi|
其中 S(m,d) = i ∈ Fd : y^o(m,i) equiv y^o_i

失败模式诊断：在原始回答正确的条件下，将变体预测分为三类：

正确更新（CU）：模型根据新视觉证据正确调整答案
陈旧预测（SP）：模型重复原始答案（在新数据下错误），表明依赖记忆而非视觉重新推理
噪声更新（NU）：模型改变答案但新答案仍错误，表明尝试更新但未能正确基于视觉证据

关键创新点

该方法的核心优势在于：

分离记忆与推理：通过保持问题不变但改变底层数据，强制模型必须基于当前视觉证据重新计算，而非依赖预训练记忆
控制变量设计：重建图表作为对照组（RA vs OA），排除因图像质量、分辨率或渲染差异导致的性能变化，将性能下降归因于数据变化本身
任务保持性：确保反事实变体与原始图表在视觉复杂度、推理类型和任务难度上等价，仅改变需要视觉 grounding 的具体数值关系

通过该框架，论文揭示了现有单图表评估无法发现的失效模式：模型可能在原始图表上表现完美（高OA），但在数据改变后无法泛化（低CVA），暴露出其依赖参数知识或统计捷径而非真正视觉推理的缺陷。

Q: 论文做了哪些实验？

该论文开展了系统的实证研究，评估了多种视觉语言模型（VLMs）在反事实图表家族上的泛化能力。实验设计如下：

1. 数据集与样本选择

源数据集：

ChartQA（验证集）：传统网络来源图表，含人工编写问题
CharXiv（验证集）：真实科学论文图表，侧重复杂视觉推理
ChartMuseum（开发集）：人工设计的多样化可视化，标注有推理类型

样本筛选：

从三个数据集中随机抽取 462 个图表问答任务
排除标签模糊、数值被遮挡、视觉编码无法可靠逆向工程的案例
最终保留 440 个有效的图表-问题家族（ChartQA: 150, CharXiv: 148, ChartMuseum: 142），每个家族扩展为1个原始图表+1个重建图表+10个反事实变体

2. 评估模型

专有模型（Proprietary）：

Claude 家族：Haiku 4.5、Sonnet 4.6
Gemini 家族：2.5 Flash、2.5 Pro
GPT 家族：GPT-4o、GPT-4.1、GPT-4.1 mini、GPT-5.4、GPT-5.4 mini

开源模型（Open-source）：

Gemma 4 E4B IT
InternVL3-8B
LLaVA-OneVision-Qwen2-7B
Pixtral-12B
Qwen2.5-VL-7B-Instruct、Qwen3-VL-8B-Instruct

所有模型使用统一提示模板，仅接收图表图像和问题，通过 <answer> 标签提取最终答案，并由 GPT-4.1-mini 作为评判器判定答案等价性。

3. 核心实验结果

实验围绕四个关键指标展开，主要发现如下：

(1) 重建控制实验（RA vs OA）

目的：验证逆向工程过程是否引入无关噪声
发现：重建准确率（RA）与原始准确率（OA）接近或略高（尤其在 CharXiv 上），表明重建图表因分辨率高、视觉干扰少，反而可能更易于解析，确认任务在重建过程中得以保留

(2) 变体敏感性分析（VA 与 RVC）

发现：
ChartQA：VA 保持较高水平，RVC 轻微负向（约 -3.3%），模型对数据变化相对稳健
CharXiv：平均 RVC 略微正向（+3.7%），但掩盖了个体差异——原始错误案例的增益抵消了原始正确案例的损失
ChartMuseum：显著下降，平均 RVC 为 -20.6%，多数模型出现统计显著的负向变化（如 GPT-5.4 的 -21.3%，Claude Sonnet 4.6 的 -21.6%），表明 VLMs 在数据改变后难以维持正确回答

(3) 条件变体准确率（CVA）——核心实验

目的：测量模型在”已证明能解决的原始图表”上，面对数据变化时的泛化能力
关键发现：
ChartQA：CVA 较高（平均 0.93），表明传统图表问答任务泛化良好
CharXiv：CVA 降至 0.73（专有）和 0.47（开源），暴露大量隐藏失效：模型虽答对原始图表，但面对反事实变体时失败
ChartMuseum：CVA 进一步降至 0.58（专有）和 0.41（开源），证实数据变化后成功无法泛化

(4) 失效模式诊断（CU/NU/SP 分析）

在原始回答正确的条件下，分析变体预测的三类结果：

数据集	正确更新(CU)	噪声更新(NU)	陈旧预测(SP)
ChartQA	0.93	0.07	0.01
CharXiv	0.73	0.21	0.06
ChartMuseum	0.58	0.33	0.09

陈旧预测（SP）：模型重复原始答案（在新数据下错误），表明依赖记忆或参数知识而非视觉重新推理
噪声更新（NU）：模型改变答案但新答案错误，表明尝试更新但未能正确基于视觉证据（最常见失效模式）
开源模型的 NU 和 SP 率显著高于专有模型，显示更严重的泛化缺陷

4. 细粒度分析实验

推理类型敏感性（ChartMuseum）

按 ChartMuseum 的推理类型分类分析 CVA：

Text（纯文本）：CVA 最高（0.79），模型可依赖显式文本线索
Visual/Text（混合）：CVA 中等（0.62）
Synthesis（综合）：CVA 较低（0.48）
Visual（纯视觉）：CVA 最低（0.46）

结论：当问题真正依赖视觉 grounding（如空间比较、轨迹追踪）而非文本线索时，泛化能力最弱。

失效案例研究

通过定性分析识别关键瓶颈：

轨迹追踪与判断：模型难以准确追踪多曲线在特定区间的局部变化（如判断哪条线在 c=0.35 处下降最大）
空间视觉比较：在需要精确视觉定位的任务中（如计算阶梯图中两点间步数），易受视觉近似和锚定效应影响
符号-视觉绑定失败：难以正确将图例标签与视觉标记对应，尤其在颜色重复或标记密集时
阈值判断：在数值接近阈值（如 0.25）时，计数错误率高

5. 关键实验结论

单图表性能具有误导性：模型可能在原始基准上表现良好（高 OA），但反事实变体暴露其依赖记忆或统计捷径（低 CVA）
视觉推理的脆弱性：当数据变化要求模型重新进行视觉定位、比较或追踪时，失败率显著上升
数据污染风险：陈旧预测（SP）的存在表明，模型可能依赖预训练中对特定图表或问答对的记忆，而非实时视觉推理
基准难度差异：ChartMuseum 和 CharXiv 比 ChartQA 更能揭示模型的视觉推理缺陷，尤其是需要复杂视觉操作的任务

这些实验共同证明了反事实评估框架的必要性——传统单点评估无法区分真正的视觉推理能力与参数记忆/捷径学习。

Q: 有什么可以进一步探索的点？

基于论文的实验发现与局限性讨论，以下几个方向值得进一步探索：

1. 扩展反事实变异的维度（方法扩展）

当前框架主要改变底层数据值而保持图表类型和问题不变，未来可探索：

图表类型迁移（Chart Type Transfer）：将同一数据集转换为不同视觉编码（如将柱状图转为折线图或饼图），测试模型对数据关系本质的理解是否独立于视觉呈现形式
视觉设计扰动（Visual Design Variation）：系统性地改变颜色方案、字体、布局密度、图例位置等视觉属性，量化模型对非任务相关视觉特征的鲁棒性
问题重构（Question Paraphrasing）：在保持答案逻辑不变的情况下，改变问题表述方式（如将”最大值”改为”顶峰”），测试语言理解对视觉 grounding 的干扰

2. 模型机制与失效分析（诊断深化）

论文识别了**陈旧预测（SP）和噪声更新（NU）**两种失效模式，但其深层机制尚待厘清：

记忆 vs. 推理的分离：开发更精细的探测方法，区分模型失败是由于：
对训练数据的确切记忆（data contamination）
对特定视觉模式的过度泛化（如总是选择最左侧的柱子）
或纯粹的视觉感知错误（如数值读取偏差）
注意力机制分析：通过可视化模型在处理原始图表与反事实变体时的注意力分布，识别模型是否关注到了数据变化的关键视觉区域，还是固着于无关特征
推理链验证（Chain-of-Thought Verification）：论文提到模型常提供推理过程，未来可评估这些推理文本是否与视觉证据一致，或存在”幻觉式”推理（如案例中错误地描述原始图表特征）

3. 提升视觉推理泛化能力（模型改进）

针对实验发现的视觉 grounding 脆弱性，可探索训练或微调策略：

反事实训练（Counterfactual Training）：在预训练或微调阶段引入反事实图表对，强制模型学习”数据变化→答案变化”的映射关系，减少对参数知识的依赖
视觉-语言对齐强化：针对图表特定的视觉元素（如坐标轴、图例、数据标记）设计专门的对比学习目标，增强模型对图表结构的理解
显式计算模块（Explicit Calculation Modules）：结合论文提到的可执行QA逻辑，开发能生成并执行代码的视觉-语言模型，将感知与计算分离，提高数值推理的准确性

4. 跨领域与复杂场景扩展（应用拓展）

科学图表的深度理解：当前CharXiv已涉及科学图表，但可进一步探索：
多图表联合推理（跨图表反事实：若图A的数据改变，如何影响图B的结论？）
时序图表的因果推断（改变时间序列中的某个节点，预测后续趋势变化）
交互式图表与动态可视化：将框架扩展到支持交互（如可缩放、筛选的仪表盘）的动态图表，测试模型在多状态视觉证据下的推理一致性
低资源与噪声场景：论文排除了模糊或低质量图表，未来可研究：
在部分遮挡、低分辨率或手绘草图条件下的反事实推理
结合OCR纠错机制处理真实世界中的噪声图表

5. 评估指标与基准建设（工具开发）

细粒度能力图谱：基于ChartMuseum的推理类型分类，构建更细粒度的评估矩阵，映射特定视觉推理能力（如”对数坐标理解”、”误差棒比较”）与模型失效模式的关系
人类-模型对比研究：测量人类受试者在相同反事实图表上的表现，识别模型失效是属于”人类也会犯的合理错误”还是”独特的算法缺陷”
自动化反事实生成：当前依赖人工验证，未来可开发全自动的质量控制流程，通过程序化验证确保反事实变体的有效性和难度一致性，实现大规模基准扩展

这些方向既回应了论文明确提及的局限性（对”可逆向工程”图表的依赖、任务固定性），也基于实验发现（视觉推理的脆弱性、记忆依赖）提出了系统性改进路径。

Q: 总结一下论文的主要内容

这篇论文针对图表问答（Chart QA）基准测试中存在的捷径学习与记忆依赖问题，提出了基于反事实图表的严格评估框架。以下是主要内容总结：

1. 研究背景与核心问题

现有Chart QA基准主要依赖固定的图表-问题-答案三元组，导致评估存在盲区：

模型可能通过参数知识（训练记忆）或统计捷径（问题文本规律）答题，而非基于视觉证据推理
无法验证当底层数据改变时，模型是否能相应调整答案
单点准确率（OA）可能高估真正的视觉推理能力

核心问题：模型在回答原始图表正确后，面对相同问题但数据不同的图表时，能否保持答案与视觉证据的一致性？

2. CHARTOGRAPHER框架

论文提出端到端的反事实图表生成与评估框架，将单一QA实例扩展为图表-问题家族：

（1）图表重建（Reconstruction）

使用VLM将静态图表逆向工程为可执行代码与语义数据的分离表示：
语义数据：实体、数值、类别等可变内容
渲染代码：视觉编码、布局等固定结构
通过自改进循环（最多5轮）与人工验证，确保重建保真度

（2）反事实生成（Counterfactual Generation）

为每个重建图表创建种子控制的数据生成器 generate_data(template, seed)
使用种子 0 至 9 生成10个变体，系统性地改变数值、排名、趋势等，同时保持图表类型与视觉复杂度

（3）QA再生（QA Regeneration）

构建可执行答案逻辑 generate_answer(data) ，直接从底层数据（而非视觉）计算黄金答案
问题仅在必要时进行最小化修改，确保语义一致性

3. 评估指标与诊断体系

论文建立多维度指标，分离原始性能与泛化能力：

核心指标

原始准确率（OA）：在原始图表上的准确率
重建准确率（RA）：在数据未变的重建图表上的准确率（控制组）
变体准确率（VA）：在10个反事实变体上的平均准确率
相对变体变化（RVC）：
RVC = 100 · (VA - OA) / (OA)
，衡量对数据变化的敏感度
条件变体准确率（CVA）：
CVA = ∑(i ∈ S) ∑(j ∈ Vi) 1[haty^v(ij) equiv y^v_(ij)]|S||V_i|
，其中 S 为原始回答正确的家族集合。这是诊断泛化能力的关键指标

失效模式诊断 在原始回答正确的条件下，将变体预测分为：

正确更新（CU）：根据新视觉证据正确调整答案
陈旧预测（SP）：重复原始答案（在新数据下错误），指示记忆依赖或数据污染
噪声更新（NU）：改变答案但新答案错误，指示视觉 grounding 失败

4. 主要实验发现

在ChartQA、CharXiv、ChartMuseum三个数据集上对10个专有模型与6个开源模型的评估显示：

（1）单图表性能具有误导性

虽然重建准确率（RA）与原始准确率（OA）接近，但条件变体准确率（CVA）显著下降：
ChartQA：CVA 保持较高（约0.93）
CharXiv：CVA 降至0.73（专有）/ 0.47（开源）
ChartMuseum：CVA 进一步降至0.58（专有）/ 0.41（开源）

（2）视觉推理泛化脆弱

按推理类型分析（ChartMuseum）：
**纯文本（Text）**任务CVA最高（0.79）
**纯视觉（Visual）与综合（Synthesis）**任务CVA最低（约0.46-0.48）
模型在需要轨迹追踪、空间比较、符号-视觉绑定的任务上失败率最高

（3）失效模式分布

**噪声更新（NU）**是最常见失效（ChartMuseum达33%），表明模型尝试更新但未能正确基于视觉证据
**陈旧预测（SP）**在复杂数据集上显著（ChartMuseum达9%），证实模型依赖参数记忆而非实时推理
开源模型的NU与SP率普遍高于专有模型

（4）案例研究证据

定性分析显示，模型常在变体上复用描述原始图表的”事实”（如”Watching TV从幼儿期开始”），即使变体中该描述已不成立，这是记忆依赖的明确证据

5. 研究结论与意义

核心结论

现有单图表基准无法区分真正的视觉推理能力与记忆/捷径学习
反事实图表家族能暴露隐藏失效：模型可能答对原始图表，但在数据改变后无法泛化
失败集中于需要新颖视觉推理路径的更新图表，表明当前VLMs的视觉 grounding 能力有限

贡献

提出首个系统性的图表反事实评估框架，实现从”固定答案恢复”到”证据敏感推理”的评估范式转变
构建可扩展的自动化流水线（逆向工程→变异生成→答案再生），支持大规模基准构建
揭示视觉语言模型在科学图表（CharXiv）和复杂可视化（ChartMuseum）上的泛化鸿沟

局限性

仅适用于可逆向工程为代码的图表（排除极度模糊或手绘图表）
保持任务固定，未测试图表类型或问题风格的更广泛变化

该研究为严格评估多模态推理能力提供了新工具，强调评估应关注模型预测是否随视觉证据变化而相应调整，而非仅追求单点准确率。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yifan Jiang,Dae Yon Hwang,Jesse C. Cresswell,Freda Shi

PDF URL: https://arxiv.org/pdf/2605.27311.pdf

Arxiv URL: https://arxiv.org/abs/2605.27311

Arxiv ID: 2605.27311

CoolPaper URL: https://papers.cool/arxiv/2605.27311

Published: 2026-05-28T02:20:22.706Z

Updated: 2026-05-28T02:20:22.706Z

4. OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning

Abstract:Diffusion Transformers achieve strong video generation quality, but the quadratic cost of full attention limits efficiency. We introduce OSP-Next, an efficient text-to-video generation model that integrates sparse attention, parallelism, quantization, and reinforcement learning. OSP-Next uses a hybrid full-sparse attention architecture, where the sparse component is implemented with Skiparse-2D Attention. This fixed-pattern mechanism applies token-wise and group-wise sparse attention along spatial dimensions, leveraging locality while maintaining native compatibility with FlashAttention kernels. Based on the local equivalence of rearrangement in Skiparse-2D Attention, we further propose Sparse Sequence Parallelism (SSP), which partitions subsequences across ranks and switches sparse patterns through a single All-to-All communication. Compared with Ulysses Sequence Parallelism (SP), SSP provides a native parallel strategy for sparse attention and reduces communication volume by 75%. OSP-Next also incorporates HiF8 quantization to enable stable joint training with 8-bit quantization and sparse fine-tuning, and applies Mix-GRPO post-training to improve the performance of the sparse model. Experiments show that OSP-Next achieves a VBench total score of 83.73%, surpassing the Wan2.1 baseline. Under the 5-second 720P and 5-second 768P settings, OSP-Next achieves up to 1.64$\times$ single-GPU speedup and over 1.52$\times$ eight-GPU speedup on NVIDIA H200 GPUs. In addition, with only a 0.4% drop in VBench total score, OSP-Next-HiF8 achieves 1.69$\times$ and 2.27$\times$ speedups under the two settings on a single Ascend 950PR, demonstrating the efficiency and performance of OSP-Next across hardware platforms.

中文摘要

摘要：扩散变换器在视频生成质量方面表现出色，但全注意力的二次计算成本限制了效率。我们提出了 OSP-Next，这是一种高效的文本生成视频模型，结合了稀疏注意力、并行性、量化和强化学习。OSP-Next 使用混合全-稀疏注意力架构，其中稀疏部分通过 Skiparse-2D 注意力实现。这种固定模式机制沿空间维度应用逐令牌和逐组稀疏注意力，利用局部性，同时保持与 FlashAttention 内核的原生兼容性。基于 Skiparse-2D 注意力重排的局部等价性，我们进一步提出了稀疏序列并行（Sparse Sequence Parallelism，SSP），它将子序列跨不同等级分区，并通过一次全到全（All-to-All）通信切换稀疏模式。相比 Ulysses 序列并行（SP），SSP 为稀疏注意力提供了原生的并行策略，并将通信量减少了 75%。OSP-Next 还采用 HiF8 量化实现 8 位量化与稀疏微调的稳定联合训练，并应用 Mix-GRPO 后训练方法提升稀疏模型的性能。实验表明，OSP-Next 在 VBench 总分上达到 83.73%，超过了 Wan2.1 基线。在 5 秒 720P 和 5 秒 768P 设置下，OSP-Next 在 NVIDIA H200 GPU 上分别实现了高达 1.64 倍单 GPU 加速和超过 1.52 倍八 GPU 加速。此外，OSP-Next-HiF8 在 VBench 总分仅下降 0.4% 的情况下，在单块 Ascend 950PR 上的两种设置下分别实现了 1.69 倍和 2.27 倍加速，展示了 OSP-Next 在不同硬件平台上的效率与性能。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败（已重试2次）: Navigation timeout of 10000 ms exceeded

Authors: Yunyang Ge,Xianyi He,Zezhong Zhang,Bin Lin,Bin Zhu,Xinhua Cheng,Li Yuan

PDF URL: https://arxiv.org/pdf/2605.28691.pdf

Arxiv URL: https://arxiv.org/abs/2605.28691

Arxiv ID: 2605.28691

CoolPaper URL: https://papers.cool/arxiv/2605.28691

Published: 2026-05-28T02:20:31.960Z

Updated: 2026-05-28T02:20:31.960Z

5. Less is More: Early Stopping Rollout for On-Policy Distillation

Abstract:On-policy distillation has recently emerged as a promising alternative to standard sequence-level imitation, training a student by scoring its own rollouts with a teacher model. However, we observe ``Off-policy Teacher Decay’’ problem in this paradigm: for the later tokens, with student’s earlier trajectory as context that is off-policy to the teacher, the teacher’s ability to produce a corrective score would decay, and may fall back to token-completion behavior learned in the pre-training stage. We empirically verify this problem, and we propose Early Stopping Rollout (ESR) to fix it: a simple yet effective distillation strategy that simply restricts the rollout generation to the first response tokens. We show that ESR both surpasses the full rollout OPD performance across model size, family, tasks and training regime, and exhibit much higher GPU efficiency and training stability, especially under cross model family scenarios. We further investigate the mechanism behind this surprising performance and discovered “Cascading Alignment” and “Sub-mode Commitment” effect of ESR that may explain why it works effectively and even sometimes exceeding the teacher model performance. Besides, we show that this position-based token selection strategy cannot be fully explainable by KL divergence and entropy signals.

中文摘要

摘要：策略内蒸馏（On-policy distillation）近年来已成为标准序列级模仿学习的一种有前景的替代方法，通过教师模型对学生模型自身生成的轨迹进行评分来训练学生模型。然而，我们在该范式下观察到“策略外教师衰减”（Off-policy Teacher Decay）问题：对于后续的令牌，由于学生模型的先前轨迹作为上下文，而该轨迹对教师模型而言是策略外的，教师模型产生纠正性评分的能力会衰减，并可能退回到预训练阶段学到的令牌补全行为。我们通过实验证实了这一问题，并提出了早停生成（Early Stopping Rollout，ESR）来解决它：这是一种简单但有效的蒸馏策略，仅限制生成过程在初始响应令牌。在实验中，我们展示了ESR在模型规模、模型家族、任务类型和训练模式上均超过了完整生成的OPD性能，并表现出更高的GPU效率和训练稳定性，尤其是在跨模型家族的场景下。我们进一步探讨了这一惊人成果背后的机制，并发现了ESR的“级联对齐”（Cascading Alignment）和“子模式固化”（Sub-mode Commitment）效应，这可能解释了它为什么能够有效工作，甚至在某些情况下超过教师模型的性能。此外，我们表明，这种基于位置的令牌选择策略不能完全通过KL散度和熵信号来解释。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败（已重试2次）: Navigation timeout of 10000 ms exceeded

Authors: Zhou Ziheng,Jiaqi Li,Huacong Tang,Ying Nian Wu,Demetri Terzopoulos

PDF URL: https://arxiv.org/pdf/2605.27028.pdf

Arxiv URL: https://arxiv.org/abs/2605.27028

Arxiv ID: 2605.27028

CoolPaper URL: https://papers.cool/arxiv/2605.27028

Published: 2026-05-28T02:21:06.860Z

Updated: 2026-05-28T02:21:06.860Z