数据来源:ArXiv Domain

LLM Domain Papers

1. PoQ-Judge: A Multi-Architecture Evaluation Framework for Cost-Aware Proof-of-Quality in Decentralized LLM Inference

Abstract:Decentralized LLM inference networks need lightweight, reference-free quality evaluation for Proof of Quality (PoQ). We present PoQ-Judge, a framework that trains dedicated judge models to score query-output pairs without ground-truth references. We study three architectures across the quality-cost tradeoff: a TextCNN judge, a MiniLM cross-encoder, and a DeBERTa judge. Using two-stage training on UltraFeedback plus GPT-labeled in-domain data, the best model reaches 0.747 Pearson correlation with the ground-truth proxy on a held-out test set, outperforming reference-based evaluators from prior work. As a reference-free component in composite scoring, it achieves 0.645 Pearson correlation, matching the best single reference-based evaluator while removing the need for reference answers. We also show that online calibration identifies semantic quality as the dominant dimension and that cascade evaluation reduces cost by 72.7 percent with only modest quality loss. Results are much stronger on QA than summarization, pointing to proxy quality as the main remaining limitation.

{% hideToggle 中文摘要 %} 摘要:去中心化的LLM推理网络需要轻量级、无参考的质量评估来进行质量证明(PoQ)。我们提出了PoQ-Judge框架,通过训练专门的评判模型对查询-输出对进行评分,而无需真实参考答案。我们研究了质量与成本权衡下的三种架构:TextCNN评判模型、MiniLM交叉编码器和DeBERTa评判模型。通过在UltraFeedback数据集和GPT标注的域内数据上进行两阶段训练,表现最好的模型在保留测试集上的与真实代理的Pearson相关系数达到0.747,优于以往工作的基于参考的评估方法。作为复合评分中的无参考组成部分,它实现了0.645的Pearson相关系数,与最佳单一参考评估器相当,同时消除了对参考答案的需求。我们还展示了在线校准能够识别语义质量为主要维度,而级联评估可以在仅有轻微质量损失的情况下将成本降低72.7%。在问答任务上的结果明显优于摘要任务,这表明代理质量是目前主要的限制因素。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文致力于解决**去中心化大语言模型(LLM)推理网络中缺乏可靠无参考质量评估信号**的问题。 具体而言,论文针对以下核心挑战: - **参考答案不可得性**:在实时去中心化推理场景中,用户提交查询并接收输出,但不存在可供比较的 ground-truth 答案。然而,现有最强的质量评估维度(语义相似度)必须依赖参考答案才能计算,导致最强信号在部署阶段无法使用。 - **现成评估器失效**:预训练的无参考评估器(如基于自然语言推理的交叉编码器)与真实质量的相关性极差(甚至为负相关),无法直接用作 PoQ(Proof of Quality)的独立质量信号。 - **LLM-as-a-Judge 的成本障碍**:虽然大语言模型可作为评估器,但数十亿参数的生成式模型推理延迟过高,无法满足 PoQ 每轮共识需快速评估数千个输出的效率要求。 - **评估架构的权衡**:需要在评估质量与计算成本之间取得平衡,以适应不同预算和延迟约束的部署场景。 为此,论文提出 **PoQ-Judge** 框架,通过训练专门的轻量级判别模型(TextCNN、MiniLM、DeBERTa),在无需参考答案的情况下对查询-输出对进行质量评分,从而填补离线多维质量分析与实时去中心化推理之间的部署鸿沟。

Q: 有哪些相关研究?

该论文的相关研究涵盖以下六个主要领域: 1\. LLM-as-Judge 与学习型评估器 基于大语言模型的评估框架近年来受到广泛关注。研究表明,GPT-4 等强模型在适当提示下可有效评估输出质量,在 MT-Bench 等基准上实现显著的人类相关性。Chatbot Arena 提供了大规模的人类偏好评估平台及相关排名方法。然而,LLM 法官存在系统性偏差,包括位置偏好、冗长偏好和自我增强偏差。 Prometheus 及其后续工作证明,开源模型可通过基于评分标准的提示和 AI 反馈数据(如 UltraFeedback)微调后用于评估。与该领域其他工作不同,本文针对参数规模小得多的模型( 10M sim 184M 参数),专门优化以满足去中心化 PoQ 评估的延迟和成本约束,而非追求通用 LLM 评估能力。 2\. 自动评估指标 经典的基于重叠的指标(如 BLEU 和 ROUGE)仍广泛使用,但已知其对开放式生成的人类判断代理能力脆弱,尤其在摘要任务中。基于嵌入的指标通过在学习表示空间中操作改进了相关性:BERTScore 使用上下文词嵌入,MoverScore 使用嵌入 {% endhideToggle %}

Authors: Arther Tian, Alex Ding, Frank Chen, Simon Wu, Aaron Chan

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11196.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11196

Published: 2026-06-11T02:03:51.890Z


2. The Structural Attention Tax: How Retrieval Format Hijacks In-Context Learning Independent of Content

Abstract:Retrieval-augmented generation (RAG) systems inject external knowledge to improve LLM outputs, yet the format of injected content — distinct from its semantic relevance — can independently distort the model’s attention distribution. We identify and formalise a phenomenon we term the structural attention tax: knowledge graph (KG) triples, due to their relational delimiters and repeated slot patterns, capture 2-3x more attention per token than semantically equivalent natural-language text ($\hat{o}$(KG) $\approx$ 0.70 vs. $\hat{o}$(neutral) $\approx$ 0.25), compressing demonstration attention by up to 42% — regardless of whether the triples are relevant or noise. We develop a formal framework decomposing attention scores into semantic and structural components (Eq. 2), derive a compression bound (Proposition 1) connecting token-level format bias to demonstration attention loss, and show that the structural term governs how much attention is diverted while the semantic term governs whether this helps or hurts. This decoupling reveals two orthogonal axes for improving retrieval-augmented ICL: optimising retrieval quality (semantic axis) and reducing format-driven attention capture (structural axis). Empirically, across two model families (Mistral-7B, LLaMA-3-8B) and three QA benchmarks, we observe that source-task alignment dominates: task-matched BM25 retrieval achieves 58-62% on HotpotQA vs. ConceptNet’s 25-27%, a >30 pp gap that dwarfs all gating strategies ($\leq$2 pp). We derive five structure-aware mitigation strategies from the framework, ranging from zero-cost prompt modifications to training-time regularisation; format flattening (S3) is validated by both accuracy and attention-level evidence from a verbalized-triple control, while structural dispersal (S1) yields mixed results that illuminate the challenges of format-level intervention.

{% hideToggle 中文摘要 %} 摘要:检索增强生成(RAG)系统注入外部知识以提升LLM输出,但注入内容的格式——与其语义相关性不同——可能独立扭曲模型的注意力分布。我们识别并形式化了一个现象,称之为结构性注意力税:知识图(KG)三元组,由于其关系分隔符和重复的槽位模式,每个标记捕获的注意力是语义等效的自然语言文本($\hat{o}$(KG) $\约0.70 vs. $\hat{o}$(neutral) $\约0.25),无论三元组是相关还是噪声,都能将演示注意力压缩多达42%。我们开发了一个将注意力分数分解为语义和结构成分的形式框架(式2),推导出一个压缩界限(命题1),将代币级格式偏差与注意力流失的演示联系起来,并证明结构项决定注意力转移的程度,而语义项决定这是否有益或有害。这种解耦揭示了两个正交轴来改进检索增强ICL:优化检索质量(语义轴)和减少格式驱动的注意力捕获(结构轴)。通过实证,在两个模型家族(Mistral-7B、LLaMA-3-8B)和三个质量保证基准中,我们观察到源任务对齐占主导地位:任务匹配的BM25检索在HotpotQA中达到了58-62%,而ConceptNet为25-27%,差距为>30页,远远超过所有门槛策略($\leq$2pp)。我们从该框架推导出五种结构感知缓解策略,范围从零成本的即时修改到训练时间正则化;格式平坦化(S3)通过语言三重控制的准确性和注意力水平证据得到验证,而结构性扩散(S1)则呈现出混合结果,揭示了格式层面干预的挑战。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**检索增强生成(RAG)系统中知识表示格式对模型注意力的独立影响机制**问题,具体而言: 核心问题识别 - **结构注意力税的忽略**:现有RAG研究主要关注"检索什么"(语义相关性),但忽视了"如何呈现"(格式结构)对Transformer注意力机制的独立干扰。知识图谱(KG)三元组因其关系分隔符(如"|")和重复槽位模式,会捕获2–3倍于自然语言文本的注意力( σ(KG) ≈ 0.70 vs. σ(neutral) ≈ 0.25 ),导致演示(demonstration)注意力被压缩高达42%。 - **格式与内容的解耦**:论文指出当前文献未能将格式驱动的注意力扭曲(结构成分)与内容驱动的效用(语义成分)分离,导致无法区分性能下降是由于检索内容不相关,还是由于结构化格式本身劫持了注意力。 理论框架构建 论文建立了一个形式化分解框架,将注意力分数解耦为: s_(ij)^((l)) = s_(ij)^((l),sem)_(内容驱动) + b_j^((l))_(格式偏见) 对应的有效注意力分解为: A_K^((l,h))(i) = A_K^((l,h),sem)(i)_(语义相关性) + λ^((lh)) · σ(K)_(结构注意力税) 其中: - λ · σ(K) 决定**多少**注意力被转移(结构轴) - s_K^(sem) 决定转移的注意力**是否有益**(语义轴) 实证验证目标 通过跨模型(Mistral-7B、LLaMA3-8B)和跨任务(CommonsenseQA、HotpotQA、TriviaQA)的实验,验证: 1. 噪声三元组与相关三元组表现出相似的注意力捕获模式(格式不变性) 2. 源-任务对齐(语义轴)的影响远超门控策略( ≤ 2 pp vs. >30 pp) 3. 结构税在高置信度任务中表现为有害干扰,在低置信度任务中可能中性或有益 mitigation 策略设计 基于框架推导五种结构感知缓解策略(S1–S5),从**零成本的提示修改**(格式扁平化)到**训练时正则化**(对抗性结构惩罚 {% endhideToggle %}

Authors: Yuqi Zhang, Di Zhang

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11198.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11198

Published: 2026-06-11T02:03:51.890Z


3. NightFeats @ MMU-RAGent NeurIPS 2025: A Context-Optimized Multi-Agent RAG System for the Text-to-Text Track

Abstract:We present NightFeats, a structured multi-agent retrieval-augmented generation (RAG) system submitted to the MMU-RAGent competition at NeurIPS 2025, where it was awarded Best Dynamic Evaluation in the text-to-text track. Rather than targeting benchmark maximization, this work proposes a principled pipeline that decomposes knowledge synthesis into three coordinated phases: retrieval, curation, and composition, each governed by explicit intermediate representations and handoff contracts. Inspired by Agentic Context Engineering (ACE), the system introduces temporal-semantic reranking, bounded contradiction reconciliation, and citation-preserving composition as core architectural primitives. Competition results show that NightFeats surpasses proprietary baselines including Claude-SonnetV2 and Nova-Pro on LLM-as-a-Judge and Human Likert evaluations, confirming that architectural transparency and verifiable evidence grounding are better aligned with human preferences than systems optimizing narrowly for automatic similarity metrics.

{% hideToggle 中文摘要 %} 摘要:我们提出了 NightFeats,一种结构化的多智能体检索增强生成(RAG)系统,并将其提交到 NeurIPS 2025 的 MMU-RAGent 比赛中,该系统在文本到文本赛道中获得了最佳动态评估奖。这项工作并非旨在最大化基准测试结果,而是提出了一个原则性流程,将知识综合分解为三个协调阶段:检索、策展和组合,每个阶段由明确的中间表示和交接协议管理。受智能体上下文工程(Agentic Context Engineering, ACE)的启发,该系统引入了时序语义重排序、有限矛盾协调以及保留引用的组合作为核心架构原语。比赛结果显示,NightFeats 超越了包括 Claude-SonnetV2 和 Nova-Pro 在内的专有基线,在 LLM 作为评审和人工李克特量表评估中表现优异,验证了与人工偏好相比,架构透明性和可验证证据支撑的系统优于仅针对自动相似性指标进行优化的系统。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

该论文旨在解决**多智能体检索增强生成(RAG)系统中复杂知识合成的可靠性、可追溯性和时效性问题**。具体而言,论文针对现有RAG架构在复杂推理任务中的结构性缺陷,提出了系统性的工程解决方案。 现有系统面临的三个结构性限制 论文指出传统RAG流水线存在以下核心缺陷: - **检索近视与多跳脆弱性(Retrieval Myopia and Multi-Hop Brittleness)**:现有机制无法有效挖掘或正确链式关联因果相关信息,导致领域暴露浅薄并产生幻觉结论。 - **来源漂移与状态崩溃(Provenance Drift and State Collapse)**:在迭代推理过程中,已验证的事实可能被覆盖,冲突证据被静默合并,导致来源归因丢失,侵蚀可追溯性和内部一致性。 - **可扩展性与领域适应瓶颈(Scalability and Domain-Adaptation Bottlenecks)**:单体RAG流水线在面对异构数据源、时间漂移和领域转移时难以扩展,缺乏原则性的回退机制,导致可靠性和延迟下降。 核心问题陈述 论文将目标形式化为以下问题: > 给定一个问题,构建一个多智能体工作流,该工作流能够检索可验证的证据、提取事实断言、解决矛盾,并构成一个连贯的、完全引用的答案,同时保持时间相关性、事实严谨性,以及智能体之间的高效协调,且无需集中式上下文重写。 论文提出的解决路径 为应对上述挑战,论文提出了三个架构性贡献: 1. **结构化中间表示(Structured Intermediate Representations)**:每个流水线阶段输出标准化的数据模型,包含来源元数据、矛盾注释和规范化引用,实现透明且可审计的推理链。 2. **混合时间-语义检索与自适应过滤(Hybrid Temporal-Semantic Retrieval with Adaptive Filtering)**:融合语义相关性与基于时效性的衰减评分,通过自适应截断过滤保持主题准确性和时间新鲜度。其中重排序公式为: s_i = (1 - w) · s_i + w · (1) / (1 + d_i/365), quad w = 0.3 其中 s_i 为语义重排序分数, d_i 为文档年龄(天数)。 3. **有界迭代策展与针对性调和(Bounded Iterative Curation with Targeted Reconciliation)**:策展智能体执行受控的精化循环,对 {% endhideToggle %}

Authors: Quentin Fever, Naziha Aslam

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11199.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11199

Published: 2026-06-11T02:03:51.890Z


4. Detecting AI-Generated Content on Social Media with Multi-modal Language Models

Abstract:Generative AI has enabled the creation of photorealistic images and videos that are increasingly disseminated on social media, often used for spam, misinformation, manipulation, and fraud. Existing AI-generated content (AIGC) detection methods face challenges including poor generalization to new generation models, reliance on single modalities, and lack of interpretable explanations. We present our pipeline that mitigates these issues by continuously curating diverse multi-modal social media data and training a compact vision-language model for detection and explanation. Our model achieves state-of-the-art detection performance on public benchmarks and demonstrates robust detection and explanation capabilities on internal social media datasets across multiple platforms. We deployed our model for post recommendation on social media platforms and observed positive downstream impacts on user engagement, demonstrating that it is feasible to perform effective AIGC detection in dynamic, real-world social media environments.

{% hideToggle 中文摘要 %} 摘要:生成式人工智能使得逼真的图像和视频创作成为可能,这些内容越来越多地在社交媒体上传播,常用于垃圾信息、虚假信息、操控和欺诈。现有的人工智能生成内容(AIGC)检测方法面临诸多挑战,包括对新一代模型的泛化能力差、依赖单一模态以及缺乏可解释性说明。我们提出了一个管道,通过持续策划多样化的多模态社交媒体数据,并训练紧凑的视觉-语言模型以进行检测和解释,从而缓解这些问题。我们的模型在公共基准测试中实现了最先进的检测性能,并在多个平台的内部社交媒体数据集上展示了稳健的检测和解释能力。我们将模型部署于社交媒体平台的帖子推荐中,并观察到对用户参与度的积极下游影响,表明在动态的、真实的社交媒体环境中执行有效的AIGC检测是可行的。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决现有AI生成内容(AIGC)检测方法在社交媒体应用中面临的三个核心问题: **1\. 对新型生成模型的泛化能力不足** 现有检测器通常在静态数据集上训练,难以泛化到由新型生成模型(如不断迭代的扩散模型)生成的图像。随着生成技术的快速演进,检测器面临严重的分布偏移问题,导致在实际应用中性能显著下降。 **2\. 单模态检测的局限性** 传统方法主要依赖单一模态(如仅视觉或仅文本)进行判断,忽略了社交媒体帖子中丰富的多模态信号。社交媒体内容通常包含图像、视频、文本、评论、OCR文本等多源信息,单模态方法无法充分利用这些互补的上下文线索进行检测。 **3\. 缺乏可解释性** 现有检测器大多仅输出二元判断结果(真/假),缺乏人类可读的解释机制。这种"黑盒"特性使得平台运营者和终端用户难以理解判断依据,降低了系统的可信度和实用性,也阻碍了人工审核和错误分析。 针对上述问题,论文提出了一个统一的多模态检测框架,通过持续数据策划管道收集多样化的社交媒体数据,并训练紧凑的视觉语言模型(IFM-AIGCSPOTTER-3B),实现同时检测AI生成内容并提供语义层面的可解释分析。

Q: 有哪些相关研究?

根据论文第2节及相关引用,现有研究主要涵盖以下三个方向: 1\. AI生成内容检测的传统方法 **基于低级伪影的方法** - 早期研究利用空间域或频率域的细微伪影进行检测,如颜色线索分析(McCloskey and Albright, 2018)和频率分析(Frank et al., 2020) - 针对GAN生成图像的轻量级CNN检测器(Wang et al., 2020; Rossler et al., 2019) **面向扩散模型的检测技术** - CLIP-based检测方法,通过跨模态表示提升跨生成器泛化能力(Cozzolino et al., 2024) - 持续学习方法,将检测框架定为在线或连续适应问题,以应对快速演进的生成技术(Epstein et al., 2023; Tassone et al., 2024) 2\. 视觉语言模型在AIGC检测中的应用 **参数高效适应方法** - 在冻结CLIP骨干网络上进行线性探测或提示调优(Ojha et al., 2023; Keita et al., 2024) **上下文学习与推理** - 利用多模态大语言模型的上下文提示能力进行检测(Jia et al., 2024; Ye et al., 2024) - 微调多模态大语言模型以进行视觉语义推理和可解释检测(Liu et al., 2024; Wen {% endhideToggle %}

Authors: Chenyang Yang, Shen Yan, Yibo Yang, Litao Hu, Yuchen Liu, Yuan Zeng, Hanchao Yu, Yinan Zhu, Sumedha Singla, Brian Vanover, Huijun Qian, Zihao Wang, Fujun Liu, Aashu Singh, Jianyu Wang, Xuewen Zhang

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11200.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11200

Published: 2026-06-11T02:03:51.890Z


5. One Jailbreak, Many Tongues: Learning Language-Insensitive Intention Representations for Multilingual Jailbreak Detection

Abstract:Large language models (LLMs) are increasingly deployed in applications for global multilingual users, yet safety training remains concentrated in dominant languages and has not progressed in parallel with multilingual capability, creating exploitable gaps for jailbreak attacks. Current jailbreak defenses are largely developed and evaluated in dominant languages, and their effectiveness is limited by the scarcity of aligned multilingual supervision and representations dispersion caused by language variation. To address this issue, we propose MLJailDe, a multilingual jailbreak detection framework designed to improve both multilingual robustness and cross-lingual generalization. MLJailDe first introduces a multilingual back-translation data augmentation algorithm to construct a semantically consistent and functionally effective dataset spanning 11 languages, consisting of 2,232 benign and 1,239 jailbreak samples. On this basis, MLJailDe employs relative-distance constraints to reduce cross-lingual representation dispersion and encourage jailbreak prompts with similar intent to form consistent clusters across languages, while an imbalance-aware classification objective is further used to alleviate class imbalance and learn more reliable multilingual decision boundaries. Experimental results show that MLJailDe outperforms state-of-the-art baselines across multiple languages, achieving an F1 score of 98.5\%, and obtains an average F1 score of 97.1\% on unseen languages, demonstrating strong effectiveness and cross-lingual generalization.

{% hideToggle 中文摘要 %} 摘要:大型语言模型(LLMs)正越来越多地应用于全球多语言用户的场景,但安全训练仍主要集中在主流语言上,且其发展速度未能与多语言能力同步,从而产生了可被利用的越狱攻击漏洞。现有的越狱防御大多在主流语言中开发和评估,其有效性受限于对齐的多语言监督稀缺以及语言差异导致的表示分散。为了解决这一问题,我们提出了 MLJailDe,一种多语言越狱检测框架,旨在提高多语言鲁棒性和跨语言泛化能力。MLJailDe 首先引入多语言反向翻译数据增强算法,构建了一个语义一致且功能有效的数据集,涵盖 11 种语言,包括 2,232 个正常样本和 1,239 个越狱样本。在此基础上,MLJailDe 采用相对距离约束以减少跨语言表示分散,并鼓励具有相似意图的越狱提示在各语言间形成一致的簇,同时进一步使用不平衡感知分类目标,以缓解类别不平衡并学习更可靠的多语言决策边界。实验结果表明,MLJailDe 在多种语言上优于最先进的基线方法,F1 分数达到 98.5%,在未见过的语言上平均 F1 分数达 97.1%,展示了强大的有效性和跨语言泛化能力。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

该论文旨在解决**多语言环境下大型语言模型(LLMs)的越狱攻击检测难题**,具体包括以下核心问题: 1\. 安全训练与多语言能力发展的非对称性 当前LLM的安全对齐训练主要集中在英语等高资源主导语言,而模型的多语言处理能力已扩展至全球多种语言。这种不对称性导致**低资源语言的安全覆盖不足**,形成可利用的防御缺口。攻击者能够将恶意查询翻译成低资源语言,绕过模型在高资源语言中建立的安全防护机制。 2\. 现有防御方法的多语言局限性 现有越狱防御方法主要在主导语言(如英语)中开发和评估,面临两大局限: - **监督信号稀缺**:缺乏高质量、跨语言对齐的多语言越狱样本,难以提供充分的跨语言监督; - **表示空间分散(Representation Dispersion)**:由于词汇选择、句法形式和话语风格的跨语言差异,相同越狱意图的提示在不同语言中往往形成**分散的、语言特定的聚类**,而非统一的意图中心表示,导致决策边界不稳定。 3\. 跨语言泛化能力不足 现有安全决策机制过度依赖特定语言的表面攻击模式,难以学习**以越狱意图本身为中心、对语言变化不敏感(language-insensitive)的稳定表示**。这导致模型在未见语言(unseen languages)上的检测性能显著下降,特别是在低资源语言环境中。 4\. 数据增强带来的类别不平衡 通过多语言数据增强扩展训练集时,会引入**类别分布偏移**( benign 样本远多于 jailbreak 样本),导致分类器偏向多数类,影响对少数类(越狱提示)的检测鲁棒性。 为应对上述挑战,论文提出 **MLJailDe** 框架,通过多语言回译数据增强(MBT-DA)构建语义一致的多语言监督数据,并引入相对距离约束和类别不平衡感知分类目标,以学习跨语言一致的越狱意图表示,实现有效的多语言越狱检测与跨语言泛化。

Q: 有哪些相关研究?

根据论文内容,相关研究主要集中在**多语言安全漏洞**与**越狱防御机制**两大领域,具体如下: 一、LLM中的多语言漏洞与防御 1\. 多语言越狱攻击类型 - **机器语言攻击**:利用符号编码规避安全检测,如 **CipherChat** 34 ,通过处理密码输入和生成密码输出来绕过安全对齐。 - **自然语言攻击**:利用LLM在低资源语言中的防御覆盖不足,将恶意查询翻译成多种语言实施攻击。代表性工作包括: - **Deng et al.** 7 :创建了首个多语言越狱数据集 **MultiJail**,揭示LLM中的多语言越狱挑战。 - **Li et al.** 12 :发现恶意问题可被 {% endhideToggle %}

Authors: Shuyu Jiang, Kaiyu Xu, Xingshu Chen, Hao Ren, Rui Tang, Yi Zhang, Tianwei Zhang, Hongwei Li

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11202.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11202

Published: 2026-06-11T02:03:51.890Z


6. LatticeBridge: Rare-Event Sequential Inference for Faithful Structured Sequence Synthesis

Abstract:Structured sequence generation often requires a model to satisfy several input-derived constraints in a single output. Standard decoding methods may assign high probability to fluent continuations while placing low mass on continuations that realize all required anchors jointly. We study this regime as a rare-event sequential inference problem. LatticeBridge combines a compact prefix language model, instance-compiled surface automata, and a twisted sequential Monte Carlo (SMC) decoder with resampling, multilevel splitting, and a source-support proposal term derived from instance-provided phrases. The constraint representation is compiled from each input instance and does not rely on manually curated lexical classes. On 2,610 attainable validation tasks spanning CommonGen, E2E NLG, and WikiBio, the particle decoder improves exact anchor satisfaction and mean anchor coverage over greedy, beam-filtered, and best-of-k ancestral baselines under a shared proposal model. Since exact anchor satisfaction alone does not rule out unsupported attribute substitutions, the evaluation reports required-anchor coverage, source coverage, source-intrusion diagnostics, overlap, runtime, and particle statistics jointly. The benchmark characterizes the faithfulness-overlap-latency frontier under a fixed proposal model.

{% hideToggle 中文摘要 %} 摘要:结构化序列生成通常要求模型在单个输出中满足多个由输入派生的约束。标准解码方法可能会为流畅的延续分配高概率,同时对能够联合实现所有必需锚点的延续给予较低概率。我们将这种情形视为罕见事件序列推断问题。LatticeBridge结合了紧凑的前缀语言模型、实例编译的表面自动机,以及一个带有重采样、多级分裂和源支持提议项(由实例提供的短语得出)的扭曲序列蒙特卡罗(SMC)解码器。约束表示是从每个输入实例编译而来,不依赖人工整理的词汇类。在涵盖CommonGen、E2E NLG和WikiBio的2,610个可达验证任务上,粒子解码器在共享提议模型下,相较于贪心、束筛选和最优祖先基线,提高了精确锚点满足度和平均锚点覆盖率。由于仅靠精确锚点满足度无法排除不支持的属性替换,评估报告同时包括所需锚点覆盖率、源覆盖率、源入侵诊断、重叠度、运行时间和粒子统计数据。该基准在固定提议模型下刻画了忠实度-重叠度-延迟的前沿。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

该论文旨在解决**结构化序列生成中的多约束联合满足问题**,具体而言,是将 faithful structured sequence synthesis 形式化为一个\*\*罕见事件序列推断(rare-event sequential inference)\*\*问题。核心问题可分解如下: **1\. 约束联合满足的罕见性** - 结构化生成任务(如数据到文本生成)要求模型在单个输出中同时实现多个输入派生的约束(称为 _anchors_,即表面短语集合 C(x) = c_1, ..., c_M )。 - 标准自回归模型 p_θ(y_(1:T) | x) 虽能提供强局部延续模型,但完全满足所有约束的序列集合 y_(1:T) : A(y_(1:T); C) = 1 (其中 A 为接受指标函数)在基础模型下可能具有极低概率质量,构成**罕见事件**: A(y_(1:T); C) = 1∀ m, c_m appears in y_(1:T) - 直接采样自目标分布 π_T(y_(1:T) | x, C) propto p_θ(y_(1:T) | x) A(y_(1:T); C) 通常不可行,因为 A=1 的事件罕见且约束具有合取性质(conjunctive requirements)。 **2\. 标准解码方法的局限性** - **贪婪解码与束搜索**:倾向于优化局部似然,可能生成流畅但仅满足部分锚点的文本,无法可靠地联合实现所有必需锚点。 - **硬约束解码器**:虽能满足约束,但可能导致搜索行为不稳定(unstable search behavior)。 - **Best-of- k 采样**:通过重复采样选取最优者,但在低接受概率区域效率低下,且难以处理约束间的复杂交互。 **3\. 忠实性与流畅性的权衡** - 高似然延续往往只满足锚点子集,而完全满足约束的延续可能在基础模型下概率极低。该问题被建模为**分布失配(distributional mismatch)**:即使单个锚点熟悉,其合取在模型分布下仍属罕见。 **4\. 提出的解决框架** 论文提出 **LatticeBridge** 框架,通过以下机制解决上述问题: - 将约束编译为**表面自动机(surface automata)**,跟踪每个锚点短语的实现进度,定义距离接受状态的剩余距离 $d(s {% endhideToggle %}

Authors: Faruk Alpay, Bugra Kilictas

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11203.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11203

Published: 2026-06-11T02:03:51.890Z


7. Benchmarking Large Language Models for Safety Data Extraction

Abstract:Accurate extraction of structured information from Safety Data Sheets (SDS) remains challenging in industrial safety due to heterogeneous document formats and the limitations of traditional rule-based methods. This study benchmarks state-of-the-art Large Language Models (LLMs) for automated SDS data extraction, comparing text-based and multimodal processing pipelines. We systematically evaluate four models: Gemini 1.5 Pro, GPT-4o, Claude 3.7 Sonnet, and Llama 3.1-70B, across three prompting strategies: zero-shot, few-shot, and chain-of-thought. The evaluation framework assessed accuracy, latency, and cost across more than 50,000 extracted data fields. Results show that text-based extraction consistently outperforms multimodal processing across all metrics. Gemini 1.5 Pro combined with a Chain-of-Thought prompt achieved the highest accuracy (84%), outperforming GPT-4o (81%) and Claude 3.7 Sonnet (79%). However, no model surpassed the 90% accuracy threshold commonly required for reliable real-world deployment. These findings indicate that general-purpose LLMs are not yet robust enough for unsupervised industrial use, though performance suggests strong potential with task-specific fine-tuning. Future research should focus on domain-adapted training, model calibration, and the integration of Human-in-the-Loop verification to ensure safety-critical reliability.

{% hideToggle 中文摘要 %} 摘要:由于文档格式异质性和传统基于规则的方法的局限性,从安全数据表(SDS)中准确提取结构化信息在工业安全中仍然具有挑战性。本研究对最先进的大语言模型(LLM)在自动SDS数据提取中的表现进行了基准测试,比较了基于文本和多模态处理流程。我们系统评估了四个模型:Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet 和 Llama 3.1-70B,使用三种提示策略:零样本、少量样本和思维链。评估框架衡量了超过50,000个提取数据字段的准确性、延迟和成本。结果显示,在所有指标上,基于文本的提取始终优于多模态处理。Gemini 1.5 Pro 结合思维链提示达到了最高准确率(84%),超过了 GPT-4o(81%)和 Claude 3.7 Sonnet(79%)。然而,没有模型超过通常要求的90%准确率门槛,以确保可靠的实际部署。这些发现表明,通用大语言模型尚未足够稳健,无法在无监督的工业环境中使用,但性能显示出通过任务特定微调具有较大潜力。未来的研究应集中于领域适应训练、模型校准以及人机循环验证的整合,以确保关键安全的可靠性。 {% endhideToggle %} {% hideToggle LLM Analysis %} LLM Analysis Failed: Error: 抓取失败(已重试2次): Navigation timeout of 10000 ms exceeded {% endhideToggle %}

Authors: Jonas Grill, Thomas Bayer, Sören Berlinger

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11204.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11204

Published: 2026-06-11T02:03:51.890Z


8. Compatibility-Aware Dynamic Fine-Tuning for Large Language Models

Abstract:Supervised Fine-Tuning (SFT) is the predominant paradigm for aligning large language models (LLMs), yet it suffers from optimization instability and limited generalization. Recent work attributes this issue to pathological gradient scaling and proposes Dynamic Fine-Tuning (DFT) to correct it at the token level. However, DFT assumes all demonstrations are equally suitable learning targets, an assumption violated by the strong heterogeneity of large-scale instruction data, where demonstration-policy mismatch induces high-variance updates at the sample level. We introduce Compatibility-Aware Dynamic Fine-Tuning (CADFT), a principled extension of DFT that controls sample-level optimization variance. CADFT derives a dynamic, policy-dependent compatibility signal from model likelihoods to modulate supervised updates, suppressing high-variance gradients from incompatible demonstrations. We further propose a delayed, low-frequency compatibility-guided rewriting strategy to transform persistently incompatible demonstrations into learnable targets. We show that CADFT can be interpreted as a variance-controlled estimator that generalizes token-level stabilization in DFT to the sample level. Extensive experiments demonstrate improved stability, generalization, and cold-start reinforcement learning initialization, while remaining fully supervised and independent of explicit reward modeling.

{% hideToggle 中文摘要 %} 摘要:监督微调(Supervised Fine-Tuning,SFT)是对齐大型语言模型(LLM)的主要范式,但其存在优化不稳定和泛化能力有限的问题。近期研究将这一问题归因于病态梯度缩放,并提出了动态微调(Dynamic Fine-Tuning,DFT)在标记级别进行修正。然而,DFT 假设所有示例都是同样适合作为学习目标,而这一假设在大规模指令数据的强异质性下被违背,其中示例-策略不匹配会在样本层面引发高方差更新。我们提出了兼容性感知动态微调(Compatibility-Aware Dynamic Fine-Tuning,CADFT),这是对 DFT 的一种原则性扩展,用于控制样本级优化方差。CADFT 从模型似然中导出动态、依赖策略的兼容性信号来调节监督更新,从而抑制来自不兼容示例的高方差梯度。我们进一步提出了一种延迟、低频兼容性引导重写策略,将持续不兼容的示例转化为可学习的目标。我们展示了 CADFT 可以被解释为一种方差控制估计器,将 DFT 中的标记级稳定性推广到样本层级。大量实验表明,其在稳定性、泛化能力和冷启动强化学习初始化方面均有改进,同时仍保持完全监督,并且独立于显式奖励建模。 {% endhideToggle %} {% hideToggle LLM Analysis %} LLM Analysis Failed: Error: 抓取失败(已重试2次): Navigation timeout of 10000 ms exceeded {% endhideToggle %}

Authors: Yucheng Zhou, Junwei Sheng, Qianning Wang, Jianbing Shen

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11206.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11206

Published: 2026-06-11T02:03:51.890Z


9. BioDivergence: A Benchmark and Evaluation Framework for Hidden Contextual Contradictions in Biomedical Abstracts

Abstract:Biomedical findings often seem to conflict across studies, but many of these differences are context-dependent rather than true contradictions. Variations in cohort, geography, assay protocol, disease subtype, and clinical setting can make both claims locally valid. Existing NLI and scientific claim-verification benchmarks reduce such cases to entailment, contradiction, or neutral, failing to capture the contextual structure behind divergence. To address this, we introduce BioDivergence, an evaluation framework with a six-class conflict taxonomy, a 13-axis divergence ontology, and four structured outputs per claim pair: conflict type, divergence axes, dominant confounder, and reconciliation explanation. We release BioDivergence-Silver-v1.0, an article-disjoint silver benchmark of 11,865 claim pairs across five biomedical domains, alongside a legacy deduplicated variant for comparison. Results show notable ranking differences between the two variants, with the fine-tuned reference model dropping about 12 points under the article-disjoint setting, while Mistral-7B-Instruct-v0.3 achieves 0.5523 accuracy and 0.3894 contextual-F1 on the 842-example primary test set. BioDivergence offers a more faithful way to distinguish contextual divergence from direct contradiction and to separate article-level memorization from genuine task learning.

{% hideToggle 中文摘要 %} 摘要:生物医学研究结果在不同研究中常常看似相互矛盾,但其中许多差异是依赖于特定情境的,而非真正的矛盾。队列、地理位置、检测方案、疾病亚型和临床环境的差异都可能使两种主张在局部范围内成立。现有的自然语言推理(NLI)和科学主张验证基准通常将此类情况归为蕴含、矛盾或中性,未能捕捉背后分歧的情境结构。为了解决这一问题,我们引入了BioDivergence,一个评估框架,其拥有六类冲突分类、13轴分歧本体,以及每对主张的四个结构化输出:冲突类型、分歧轴、主要混杂因子和调和解释。我们发布了BioDivergence-Silver-v1.0,这是一个涵盖五个生物医学领域、包含11,865对主张的文章不重叠银标准基准,并提供一个去重的传统版本以供对比。结果显示两个版本之间存在显著的排序差异,经过微调的参考模型在文章不重叠设置下表现下降约12个百分点,而Mistral-7B-Instruct-v0.3在包含842个样本的主要测试集上达到0.5523的准确率和0.3894的上下文F1分数。BioDivergence提供了一种更可信的方法来区分情境分歧与直接矛盾,并将文章级记忆与真实任务学习分开。 {% endhideToggle %} {% hideToggle LLM Analysis %} LLM Analysis Failed: Error: 抓取失败(已重试2次): Navigation timeout of 10000 ms exceeded {% endhideToggle %}

Authors: Elias Hossain, Sanjeda Sara Jennifer, Sabera Akter Bushra, Niloofar Yousefi

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11208.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11208

Published: 2026-06-11T02:03:51.890Z


10. ProcessThinker: Enhancing Multi-modal Large Language Models Reasoning via Rollout-based Process Reward

Abstract:Visual question answering increasingly requires multi-step reasoning. Recent post-training with reinforcement learning under verifiable rewards (RLVR) and Group Relative Policy Optimization (GRPO) can improve multimodal reasoning, but most approaches rely on sparse outcome-only rewards. As a result, they struggle to tell whether an incorrect answer comes from a small mistake late in the reasoning or from an unhelpful trajectory from the start. A common solution is to train a process reward model (PRM) for step-level supervision, but this typically requires large-scale high-quality chain-of-thought annotations and additional training cost. We propose ProcessThinker, a practical post-training pipeline that provides step-level process rewards without training an explicit PRM. ProcessThinker first rewrites reasoning traces into a step-tagged format for cold-start supervised fine-tuning, then applies GRPO with a standard format reward and our rollout-based process reward. Concretely, for each intermediate step, we sample multiple continuations from that step and use the empirical success rate (final-answer verification) as the step reward. This gives dense credit assignment and encourages reasoning steps that more reliably support a correct conclusion, helping reduce inconsistent or self-contradictory progress across steps — a key issue in logical reasoning. Across four challenging video benchmarks (Video-MMMU, MMVU, VideoMathQA, and LongVideoBench), ProcessThinker consistently improves over the baseline model Qwen3-VL-8B-Instruct

{% hideToggle 中文摘要 %} 摘要:视觉问答越来越需要多步推理。最近基于可验证奖励(RLVR)的强化学习后训练和群体相对策略优化(GRPO)可以提升多模态推理,但大多数方法依赖于稀疏的仅结果奖励。因此,它们难以判断错误答案是由于推理后期的一个小错误,还是从一开始就走上了无助的轨迹。一个常见的解决方案是训练一个过程奖励模型(PRM)以获得步骤级监督,但这通常需要大规模高质量的思维链注释和额外的训练成本。我们提出了ProcessThinker,一种实用的后训练管道,在无需训练显式PRM的情况下提供步骤级过程奖励。ProcessThinker首先将推理轨迹重写为带步骤标签的格式,用于冷启动监督微调,然后应用具有标准格式奖励和基于回滚的过程奖励的GRPO。具体来说,对于每个中间步骤,我们从该步骤采样多个后续路径,并使用经验成功率(最终答案验证)作为步骤奖励。这提供了密集的信用分配,并鼓励更可靠地支持正确结论的推理步骤,有助于减少跨步骤的不一致或自相矛盾的进展——这是逻辑推理中的一个关键问题。在四个具有挑战性的视频基准(Video-MMMU、MMVU、VideoMathQA 和 LongVideoBench)上,ProcessThinker 在基线模型 Qwen3-VL-8B-Instruct 上持续取得改进。 {% endhideToggle %} {% hideToggle LLM Analysis %} LLM Analysis Failed: Error: 抓取失败(已重试2次): Navigation timeout of 10000 ms exceeded {% endhideToggle %}

Authors: Jingpei Wu, Xiao Han, Weixiang Shen, Boer Zhang, Zifeng Ding, Volker Tresp

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2606.11209.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11209

Published: 2026-06-11T02:03:51.890Z


Agent Domain Papers

1. From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference

Abstract:We present SemantiClean, a modular framework for extracting structured semantic signals from e-commerce session data and driving pluggable inference targets including purchase intent, customer segmentation, and product affinity through a shared element library. Unlike conventional end-to-end predictors that optimise solely for accuracy, SemantiClean prioritises auditability, structural governance, and sigma=0 reproducibility, explicitly trading marginal predictive gains for element-level transparency and defensible decision trails. Built upon the Online Shoppers Purchasing Intention (OSPI) dataset, the framework organises twenty-four behavioural elements into a four-layer architecture (Functional, Interaction, Systemic, Contextual) and enforces signal quality through three anti-inflation mechanisms: RedundancyGroup contribution caps, TieredPenaltyCalculator bias penalties, and AdaptiveConstraintMode cold-start this http URL report introduces the LLM-Integrated Semantic Inference Engine, a fully implemented two-phase LLM-driven inference architecture that leverages complete element metadata at inference time. All quantitative results reported herein are produced by this engine. Deterministic engine outputs remain fully reproducible (sigma=0); LLM-dependent results (E8, E10) are subject to controlled output variability under fixed provider/model/temperature settings. The gender inference target remains non-functional in the current implementation and is excluded from all quantitative results.

{% hideToggle 中文摘要 %} 摘要:我们提出了 SemantiClean,这是一个模块化框架,用于从电子商务会话数据中提取结构化语义信号,并通过共享元素库驱动可插拔的推理目标,包括购买意图、客户细分和产品关联性。与仅优化准确率的传统端到端预测器不同,SemantiClean 优先考虑可审计性、结构治理和 sigma=0 可复现性,并明确以元素级透明度和可辩护决策路径为代价,放弃边际预测收益。该框架基于在线购物者购买意图(OSPI)数据集构建,将二十四个行为元素组织成四层架构(功能层、交互层、系统层、上下文层),并通过三种反膨胀机制来保证信号质量:RedundancyGroup 贡献上限、TieredPenaltyCalculator 偏差惩罚以及 AdaptiveConstraintMode 冷启动。本文介绍了 LLM 集成语义推理引擎,这是一个完全实现的两阶段 LLM 驱动推理架构,在推理时利用完整的元素元数据。本文中报告的所有量化结果均由该引擎生成。确定性引擎输出保持完全可复现(sigma=0);依赖 LLM 的结果(E8,E10)在固定提供者/模型/温度设置下存在受控的输出可变性。目前实现中的性别推理目标尚不可用,且未纳入所有量化结果。 {% endhideToggle %} {% hideToggle LLM Analysis %} LLM Analysis Failed: Error: 抓取失败(已重试2次): Navigation timeout of 10000 ms exceeded {% endhideToggle %}

Authors: Liu hung ming

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11207.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11207

Published: 2026-06-11T02:11:11.517Z


2. Position: Hippocampal Explicit Memory Is the Cornerstone for AGI

Abstract:Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks, raising expectations for Artificial General Intelligence (AGI). This position paper argues that integrating explicit memory is the cornerstone for advancing LLMs toward AGI. The key reason is that the underlying learning mechanism of LLMs is highly analogous to human implicit memory. However, higher-order cognitive functions necessary for AGI, such as long-term strategic planning, metacognition, and symbolic reasoning, heavily rely on hippocampal explicit memory and cannot arise solely from implicit statistical learning. Drawing on findings from neuroscience, I advance this perspective and complement it with computational requirements for artificial explicit memory systems, hoping to foster further research and lay the groundwork for explicit memory integration.

{% hideToggle 中文摘要 %} 摘要:大型语言模型(LLMs)在各种任务中展示了卓越的能力,引发了人们对人工通用智能(AGI)的期待。本文观点认为,整合显性记忆是推动LLMs向AGI发展的基石。其主要原因在于,LLMs的基础学习机制与人类的隐性记忆高度相似。然而,实现AGI所需的高阶认知功能,如长期战略规划、元认知和符号推理,严重依赖于海马体的显性记忆,而单靠隐性统计学习无法产生这些能力。借鉴神经科学的研究结果,我提出了这一观点,并补充了人工显性记忆系统的计算需求,期望促进进一步研究,并为显性记忆的整合奠定基础。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决的核心问题是:**当前大型语言模型(LLMs)因缺乏显式记忆(explicit memory)系统而无法实现通用人工智能(AGI)的根本性局限,以及如何通过构建人工显式记忆系统来突破这一瓶颈。** 具体而言,论文围绕以下几个关键维度展开: 1\. 诊断LLMs的根本局限 论文指出,尽管LLMs在模式识别、语言生成等任务上表现卓越,但其根本学习机制类似于人类的**隐性记忆(implicit memory)**——依赖渐进式、错误驱动的统计学习,缺乏快速、情境丰富的编码能力。这导致LLMs在以下高阶认知功能上存在固有缺陷: - **动态学习**:无法实现单次接触后的即时记忆形成(one-shot learning) - **元认知(Metacognition)**:缺乏对自身知识边界和来源的觉察,导致幻觉(hallucination)和一致性缺失 - **逻辑推理与规划**:难以进行基于抽象规则的长期战略规划和符号推理 - **情景记忆(Episodic Memory)**:无法在长时间跨度上维持连贯的自主叙事和目标追踪 2\. 论证显式记忆的必要性 通过神经科学证据,论文论证**海马体显式记忆**是支撑人类高阶认知的基石: - 显式记忆通过稀疏编码(sparse coding)和模式分离(pattern separation)实现快速、去噪的信息存储 - 支持模式补全(pattern completion),允许从部分线索重建完整记忆 - 为执行功能(executive function)、心理模拟(mental simulation)和自我反思提供神经基础 论文的核心论点是:仅依靠隐性统计学习无法涌现AGI所需的认知能力,必须显式集成类似海马体的记忆系统。 3\. 构建人工显式记忆的理论框架 论文形式化了人工显式记忆系统应满足的**八项计算要求**: 1. **稀疏索引(Sparse Indexing)**:从密集表征生成稀疏激活模式 2. **误差无关更新(Error-Independent Update)**:记忆更新不依赖预测误差梯度 3. **联想建构(Associative Construction)**:通过"fire together, wire together"原则建立记忆间关联 4. **模式分离(Pattern Separation)**:确保相似输入产生可区分的稀疏编码 5. **模式补全(Pattern Completion)**:从部分输入恢复完整记忆 6. **动态性(Dynamicity)**:支持随时间演化的记忆状态更新 7. **高即时可塑性(High and Instant Plasticity)**:单次经验即可形成稳定记忆 {% endhideToggle %}

Authors: Sangjun Park

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11245.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11245

Published: 2026-06-11T02:11:11.517Z


3. Can AI Agents Synthesize Scientific Conclusions?

Abstract:Scientific AI agents increasingly retrieve evidence, reason across sources, and synthesize conclusions used in consequential decisions. Yet, their ability to do so in high-stakes domains such as health remains unclear. We introduce SciConBench, a large-scale live benchmark of 9.11K questions and expert-written conclusions from systematic reviews to evaluate open-domain scientific conclusion synthesis. The benchmark draws on an expert-validated automated evaluation pipeline that decomposes conclusions into atomic facts and measures correctness and comprehensiveness via factual precision and recall. To mitigate data leakage, we further introduce SciConHarness, a clean-room evaluation harness that equips agents with controlled web interaction to ensure valid measurement. Evaluating 8 frontier models and deep research agents, we find that factual quality remains low: under clean-room settings, the best agent achieves only a factual F1 of 0.337. Our clean-room setting consistently reduces performance relative to unconstrained evaluation, suggesting that leakage inflates estimates of models’ true synthesis capabilities. Finally, we audit consumer-facing agents (e.g., Google AI Overview, OpenEvidence) and find they frequently generate incomplete and sometimes contradictory conclusions, even when the ground-truth answer is available. Overall, our results show that reliable synthesis of scientific conclusions remains an open challenge, and that clean-room evaluation is essential for assessing open-domain AI agents.

{% hideToggle 中文摘要 %} 摘要:科学 AI 代理越来越多地检索证据、跨来源推理,并综合用于重大决策的结论。然而,它们在高风险领域(如健康)中执行这些任务的能力仍不明确。我们引入了 SciConBench,这是一个大规模实时基准,包含来自系统综述的 9.11K 个问题及专家撰写的结论,用于评估开放领域的科学结论综合能力。该基准依托专家验证的自动评估流程,将结论分解为原子事实,通过事实精确度和召回率衡量正确性和全面性。为了降低数据泄露风险,我们进一步推出了 SciConHarness,这是一个洁净室评估工具,为代理提供受控的网页交互,以确保测量的有效性。在评估 8 个前沿模型和深度研究代理时,我们发现事实质量仍然较低:在洁净室设置下,最佳代理仅实现事实 F1 0.337。我们的洁净室设置相比无限制评估持续降低性能,表明泄露会夸大模型真实综合能力的估计。最后,我们审查了面向消费者的代理(例如 Google AI Overview、OpenEvidence),发现即便在存在真实答案的情况下,它们也经常生成不完整甚至有时自相矛盾的结论。总体而言,我们的结果显示,可靠的科学结论综合仍然是一个未解决的挑战,而洁净室评估对于评估开放领域的 AI 代理至关重要。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**开放域科学结论合成任务中AI代理能力的有效评估问题**,特别是在高风险领域(如医疗健康)中确保评估的真实性和可靠性。具体而言,论文针对以下核心挑战: 1\. 现有评估范式的局限性 现有研究多集中于评估中间产物(如检索准确性、引用 grounding、短文摘要、短形式事实性或多选题问答),而非**长程、开放域的科学结论合成**本身。这导致无法捕捉真实世界中科学合成的核心挑战——包括从开放网络检索证据、筛选无关来源、调和冲突发现、评估证据质量,并生成长篇专家级结论的完整流程。 2\. 基准测试的规模、时效性与泄露问题 现有专家策划的基准测试存在三个关键缺陷: - **规模受限**:由于专家策划成本高昂,样本量通常很小( N ≤ 100 ); - **静态过时**:无法随新证据涌现而更新,导致结论时效性不足; - **基准泄露(Benchmark Leakage)**:模型可能通过预训练记忆或在开放网络中直接检索到真实答案(如Cochrane综述原文),从而将复杂的"合成"任务简化为"检索"任务,虚假地抬高性能指标。 3\. 清洁室评估(Clean-Room Evaluation)的缺失 现有评估缺乏对**数据泄露**的严格控制。模型可能通过访问包含真实结论的原始文献(如Cochrane数据库)来"作弊",而非真正基于检索到的证据进行推理和综合。这导致评估结果无法反映模型的真实合成能力,而是混合了检索记忆与 genuine synthesis。 4\. 消费者级AI系统的可靠性风险 针对日益普及的面向消费者的AI代理(如Google AI Overview、OpenEvidence),论文发现即使这些系统能够访问真实答案,仍频繁生成**不完整**且**有时相互矛盾**的科学结论。这凸显了在高风险医疗健康决策中部署此类系统的潜在安全隐患。 解决方案概述 为应对上述挑战,论文提出了三项核心贡献: - **SCICONBENCH**:一个包含9.11K问题对的大规模、实时更新的基准测试,基于Cochrane系统综述的专家撰写结论构建; - **SCICONHARNESS**:一个清洁室评估框架,通过控制网络交互工具(搜索、浏览、论文检索)并过滤真实答案来源,确保评估隔离性; - **事实性评估流程**:将结论分解为原子事实(atomic facts),通过专家验证的LLM评判器测量**事实性精确率(precision)**、**召回率(recall)**和**F1分数**,从而量化合成结论的正确性与全面性。 实验结果表明 {% endhideToggle %}

Authors: Hayoung Jung, Pedro Viana Diniz, José Reinaldo Corrêa Roveda, Abner Fernandes da Silva, Haeun Jung, Enoch Tsai, Aleksandra Korolova, Manoel Horta Ribeiro

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11337.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11337

Published: 2026-06-11T02:11:11.517Z


4. Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents

Abstract:In hierarchical reasoning, failures often originate at intermediate decision points where the agent commits to a wrong branch without recognizing that it lacks critical information. Rather than treating clarification as an external uncertainty trigger, we propose ACTION-RATING, a formulation that places it inside the agent’s action space on a shared ordinal scale with navigation, so that asking competes directly with acting at every decision point and help-seeking becomes observable at intermediate states. Two structurally distinct information-seeking modes emerge from the agent’s own ratings: mandatory (no viable branch) and opportunistic (residual uncertainty despite a leading candidate). On Harmonized Tariff Schedule classification (30,000-node taxonomy, three benchmarks, 9~LLMs across 4 families), we observe a regime shift from mandatory to opportunistic clarification, with Information-Seeking Effectiveness (ISE), a local diagnostic defined as the fraction of help interactions followed by a correct next navigation step (not a final-task metric), rising from 50% to 74%. Three diagnostic contrasts fail to reproduce this structure. A separability test shows that the information-seeking pattern (mode split, ISE ranking) persists when answer quality is degraded (-18.8% accuracy), supporting an empirical separation between where an agent seeks help and the quality of the help it receives. Under the controlled answer channel, accuracy gains reach +16.2% at 10-digit; we read this as an upper bound on what better localization could unlock, not a deployment estimate.

{% hideToggle 中文摘要 %} 摘要:在分层推理中,失败通常源于中间决策点,即智能体在没有意识到缺少关键信息的情况下选择了错误的分支。我们提出ACTION-RATING方法,将澄清问题置于智能体的动作空间内,并与导航在同一序数尺度上进行比较,而不是将澄清视为外部不确定性触发器,从而使得在每个决策点上,询问与行动直接竞争,并使寻求帮助在中间状态中可观察。基于智能体自身评定,出现了两种结构上不同的信息寻求模式:强制型(无可行分支)和机会型(尽管存在主要候选分支,但仍有剩余不确定性)。在《协调关税表》分类任务(30,000节点分类、三个基准测试、来自四大家族的9个大语言模型)中,我们观察到澄清模式从强制型向机会型的转变,信息寻求有效性(ISE,一种局部诊断指标,定义为帮助交互之后正确执行下一导航步骤的比例,而非最终任务指标)从50%上升到74%。三种诊断对比未能再现这一结构。可分离性测试显示,即使答案质量下降(准确率降低18.8%),信息寻求模式(模式划分、ISE排序)仍然存在,这支持了智能体寻求帮助的位置与其所获得帮助质量之间的经验性区分。在受控答案通道下,准确率在十位数字上提升16.2%;我们将其解读为更好定位能力可能释放的上限,而非部署时的估计值。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**层次化推理(hierarchical reasoning)中语言智能体的中间决策错误问题**——即智能体在缺乏关键信息的情况下盲目提交到错误的中间分支,导致后续推理在错误路径上不断深化,且现有方法无法有效识别和干预这种"过早承诺"(premature commitment)现象。 具体而言,论文针对以下三个核心缺陷提出解决方案: 1\. 信息需求的位置不可观测 在深度分类体系(如海关税则、医学编码)中,现有方法将澄清(clarification)视为外部触发机制(如置信度阈值、采样不一致性或提示指令),导致**无法区分两种本质上不同的信息缺失状态**: - **强制性澄清**(mandatory):当前无可行分支,智能体完全阻塞 - **机会性澄清**(opportunistic):存在领先候选分支,但残余不确定性需要针对性消除 2\. 帮助定位与答案质量的混淆 现有设计将"是否询问"与"如何行动"解耦,导致无法分离两个独立因素: - **定位能力**(where to ask):智能体识别需要外部信息的状态的能力 - **答案质量**(what is received):实际获得的澄清信息的质量 这使得无法判断性能提升究竟是来自更精准地识别需要帮助的状态,还是仅仅因为获得了更好的外部信息。 3\. 中间决策点的自我纠错缺失 传统方法仅在最终答案层面评估不确定性,而层次化推理的关键风险在于**中间步骤的不可逆承诺**。一旦智能体在早期层级(如2位或4位编码)选择错误分支,后续所有导航都只是在错误路径上的无效细化。 解决方案框架 论文提出**ACTIONRATING**机制,将澄清动作纳入智能体的动作空间,与导航动作在共享的 $ 0,100 $ 序数尺度上直接竞争: (a_i, s_i, r_i)_(i=1)^K, quad a^* = argmax_i s_i 其中 a_i 包括所有候选导航动作和专门的 need_clarify 动作, s_i 为序数分数。这种设计使得: - 澄清请求成为与"向下遍历"、"回溯"等并列的可选动作 - 通过阈值 τ 实现自我门控(self-gated),无需外部不确定性估计器 - 产生可观测的行为模式转移(从强制性到机会性澄清),并通过**信息寻求有效性**(ISE, Information-Seeking Effectiveness)指标量化局部决策质量: $$ISE = frac{# QA followed by correct {% endhideToggle %}

Authors: Aijing Gao, Yiming Kang, Mengdie Flora Wang, Jae Oh Woo

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11349.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11349

Published: 2026-06-11T02:11:11.517Z


5. Automated Mediator for Human Negotiation: Pre-Mediation via a Structured LLM Pipeline

Abstract:Pre-mediation, the preparatory phase preceding direct human negotiation, plays a critical role in achieving mutually beneficial agreements, yet is often omitted due to cost, time, and limited access to trained mediators. We introduce an automated mediator for human negotiation, implemented as a structured pipeline of LLM modules, that supports pre-mediation in integrative negotiation settings. The pipeline decomposes preparation into specialized modules for dialogue, preference prediction, response-level critique, and structured summarization, separating inference, generation, and evaluation to address limitations of monolithic single-prompt approaches. We use the term “agent” for each module following common LLM-systems terminology, but the components are not autonomous and do not interact peer-to-peer; outputs are passed forward in a fixed sequence. We evaluate the system in two controlled human-subject experiments comparing AI-based pre-mediation with professional human mediators in a multi-issue negotiation scenario. On short-term self-reported measures, the automated mediator achieves preparation outcomes broadly comparable to human mediators, including trust in the mediator and confidence in reaching mutually beneficial agreements, while achieving substantially lower error on the preference-inference task under our scenario and prompts (36% lower RMSE). A second study shows that targeted prompt refinements reduce excessive affirmation patterns from 36.6% to 16.8%, matching human mediator baselines. Our findings suggest that structured LLM pipelines can provide scalable, low-effort pre-mediation support broadly comparable to human mediators on short-term self-reported preparation outcomes. The pipeline’s single-party design mirrors how human mediators run pre-mediation today and enables parallel deployment across all parties to a dispute, supporting scalability.

{% hideToggle 中文摘要 %} 摘要:预调解,即直接人类谈判之前的准备阶段,在达成互利协议中起着关键作用,但由于成本、时间以及受过训练的调解员的获取有限,这一环节常常被省略。我们介绍了一种用于人类谈判的自动调解工具,实现为一套结构化的LLM模块流水线,在整合型谈判环境中支持预调解。该流水线将准备阶段分解为专门用于对话、偏好预测、回应级别批评和结构化总结的模块,区分推理、生成和评估,以解决单一提示整体方法的局限性。我们沿用常见LLM系统术语,将每个模块称为“代理”,但这些组件并非自治,也不进行点对点交互;输出以固定顺序向前传递。我们在两项对照人类实验中评估该系统,将基于AI的预调解与多议题谈判场景中的专业人类调解员进行比较。在短期自我报告指标上,自动化调解工具实现的准备结果在总体上可与人类调解员相媲美,包括对调解员的信任和达成互利协议的信心,同时在偏好推断任务中在我们的场景和提示下实现了显著较低的误差(RMSE降低36%)。第二项研究显示,针对性的提示优化将过度肯定模式从36.6%降至16.8%,与人类调解员基准相匹配。我们的研究结果表明,结构化LLM流水线可以提供可扩展、低成本的预调解支持,其短期自我报告的准备结果在总体上可与人类调解员相媲美。该流水线的单方设计反映了当前人类调解员运行预调解的方式,并能支持对争议各方的并行部署,从而实现可扩展性。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**预调解(pre-mediation)阶段的可及性与可扩展性缺口**问题。 具体而言,论文针对以下核心挑战: - **资源约束导致的预调解缺失**:预调解(即冲突各方直接谈判前的准备阶段)被实证研究证明对达成互利协议至关重要,但由于时间限制、成本高昂以及训练有素的调解员数量有限,该阶段在实践中经常被省略或大幅压缩。调查显示,34%的调解员在民事案件中跳过实质性预会谈沟通,在家庭案件中这一比例高达61%。 - **规模化支持的缺失**:在数字时代,大规模、异步的谈判需求日益增长,但人类调解员的供给能力远远无法满足这一需求,导致调解服务存在严重的可及性障碍。 - **传统单提示LLM方法的局限性**:预调解涉及心理理解、共情、策略指导和伦理考量等复杂人际任务,其复杂性超出了传统单一提示(monolithic single-prompt)大语言模型方法所能提供的支持范围。 为解决上述问题,论文提出了一种**结构化的LLM管道架构**,将预调解准备分解为专门的模块(用户预测、对话、批评和总结生成),旨在以低成本、可扩展的方式提供自动化预调解支持,同时生成可供人类调解员审查的结构化报告,从而在扩大服务覆盖面的同时保持专业 oversight。

Q: 有哪些相关研究?

该论文的相关研究可分为以下三个主要领域: 1\. 预调解与冲突准备研究 该领域聚焦于预调解阶段的理论功能与实践缺口: - **Moore (2014)** 确立了预调解的核心功能,包括帮助各方识别潜在利益、管理情绪和发展现实预期,同时指出这是调解员了解各方偏好并建立 rapport 的关键机会。 - **Fisher et al. (1991)** 提出的原则性谈判(Principled Negotiation)模型强调区分立场(positions)与利益(interests),这一认知转变正是准备阶段所促进的。 - **Bush and Folger (2005)** 的变革型调解理论(Transformative Mediation)阐明了准备如何促进赋权(恢复当事人的主体感)和认可(承认对方视角)。 - **Wissler and Hinshaw (2022)** 通过对1,000余名调解员的实证调查发现,34%的调解员在民事案件中跳过实质性预会谈沟通,在家庭案件中这一比例升至61%,揭示了预调解因资源约束而被严重压缩的现状。 - **Thompson (2010)** 与 **Olekalns and Adair (2014)** 的研究表明,充分的结构化准备 {% endhideToggle %}

Authors: Jamie Bergen, Sarit Kraus

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11379.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11379

Published: 2026-06-11T02:11:11.517Z


6. INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration

Abstract:Existing multi-agent LLM orchestration methods, ranging from brute-force ensembles to learned routers, select models and topologies based on task and model features. However, these methods do not consider the runtime state of the serving infrastructure. On shared GPU clusters under concurrent load, this infrastructure blindness causes systematic resource underutilization: preferred models accumulate deep request queues while equally capable alternatives sit idle. In multi-agent pipelines, where each query triggers multiple sequential model calls, these delays then compound across every downstream step. Closing this gap is challenging because the relevant infrastructure signals (queue depths, KV-cache pressure, latencies) are dynamic and noisy, and they must drive three different decisions: planning, per-step routing, and scheduling. We introduce INFRAMIND, a framework that makes the entire multi-agent stack infrastructure-aware. An infra-aware planner conditions topology and role selection on real-time system load and remaining budget, biasing toward simpler graphs under congestion and richer ones at low load. An infra-aware executor then observes per-model queue depths, cache utilization, and response latencies at each agent step to decide which model to call and how deeply to reason; a budget-aware scheduler further reorders each model’s queue so that urgent requests are served first. Cast as a hierarchical constrained MDP and solved end-to-end via reinforcement learning, the system learns to balance quality against latency automatically. Across five benchmarks, INFRAMIND delivers up to +7.6 pp accuracy over the prior baseline at low load with up to 7x lower latency, and sustains up to 99.9% SLO compliance under high load where every baseline drops below 50%.

{% hideToggle 中文摘要 %} 摘要:现有的多智能体大语言模型(LLM)编排方法,从蛮力集成到学习路由器,都是基于任务和模型特征来选择模型和拓扑。然而,这些方法并未考虑服务基础设施的运行时状态。在共享GPU集群上,在并发负载下,这种对基础设施的忽视会导致系统性资源未充分利用:首选模型会积累深度请求队列,而同样有能力的备选模型则闲置。在多智能体流水线中,每个查询都会触发多个连续的模型调用,这些延迟会在每个下游步骤上叠加。弥补这一差距具有挑战性,因为相关的基础设施信号(队列深度、KV缓存压力、延迟)是动态且噪声大的,并且必须驱动三个不同的决策:规划、每步路由和调度。我们引入了INFRAMIND,一个使整个多智能体堆栈具备基础设施感知的框架。基础设施感知的规划器根据实时系统负载和剩余预算来决定拓扑和角色选择,在拥堵时偏向于简单的图,在低负载时偏向于复杂的图。基础设施感知的执行器在每个智能体步骤中观察每个模型的队列深度、缓存利用率和响应延迟,以决定调用哪个模型以及推理深度;预算感知调度器进一步重新排序每个模型的队列,以确保紧急请求优先处理。通过将其建模为分层约束马尔可夫决策过程(MDP),并通过强化学习进行端到端求解,系统可以自动学习在质量和延迟之间进行平衡。在五个基准测试中,INFRAMIND在低负载下的准确率相比以前的基线提高了最多7.6个百分点,同时延迟降低了最多7倍;在高负载下,它的服务水平目标(SLO)遵从率可达99.9%,而所有基线均低于50%。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文旨在解决\*\*多智能体大语言模型(LLM)系统中的基础设施盲目性(infrastructure blindness)\*\*问题。 具体而言,现有方法(从暴力集成到学习路由器)在编排多智能体系统时,仅基于静态任务特征和模型能力选择拓扑结构与模型,完全忽视了服务基础设施的运行时状态(如GPU集群上的队列深度、KV缓存压力、端到端延迟等)。这种盲目性在共享GPU集群的并发负载下导致以下系统性故障: - **资源利用严重失衡**:首选模型(通常是高质量的小模型)积累深达上百个请求的队列,而同等能力的大模型却几乎空闲; - **延迟爆炸与累积**:在多智能体流水线中,单个步骤的排队延迟会在下游每个步骤复合放大,导致端到端延迟激增(高负载下达30秒以上); - **低负载下的容量浪费**:在负载较低时,大模型GPU利用率不足70%,系统未能利用闲置容量进行更深度的推理(如DeepThink)以提升质量。 解决该问题的核心难点在于: 1. **动态性与噪声**:基础设施信号(队列深度、缓存利用率、延迟)实时变化且带有噪声; 2. **多层面耦合决策**:需在规划层(拓扑结构)、执行层(每步模型与推理深度选择)和调度层(请求优先级)同时做出适应性决策,且各层决策相互影响; 3. **质量-延迟权衡**:必须在严格的预算约束下动态平衡推理质量与响应延迟。 为此,论文提出**INFRAMIND**框架,通过分层约束马尔可夫决策过程(CMDP)将基础设施感知嵌入到多智能体编排的每一层:基础设施感知规划器根据系统负载选择拓扑复杂度,基础设施感知执行器根据实时队列状态选择模型与推理策略,预算感知调度器则通过最早截止时间优先(EDF)算法防止紧急请求被阻塞。

Q: 有哪些相关研究?

根据论文第2节,相关研究可分为以下三类: 1\. 多智能体LLM编排(Multi-agent LLM Orchestration) 这类研究 progressively 在多智能体系统的编排层引入更多智能,但均未考虑运行时基础设施状态: - **MoA (Mixture-of-Agents)** Wang et al., 2024a - 采用暴力集成策略:并行运行池中的所有模型,通过固定聚合器合成输出 - **局限性**:零路由智能;最慢的模型成为整个系统的瓶颈,单模型队列拥堵会降级整体性能 - **GPTSwarm** Zhuge et al., 2024 - 将多智能体协作建模为带权有向图,使用 REINFORCE 学习边权重 - **局限性**:图结构在测试时冻结( {% endhideToggle %}

Authors: Ahasan Kabir, Jiaqi Xue, Mengxin Zheng, Qian Lou

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11440.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11440

Published: 2026-06-11T02:11:11.517Z


7. Forecasting Future Behavior as a Learning Task

Abstract:Trust in an AI system is often anchored by explanations of how it works, which one then uses to forecast its behavior on new inputs. For large reasoning models (LRMs), this conventional route is particularly difficult to follow: explanation methods for single token generations do not naturally generalize to long trajectories, and the trajectories themselves are often not faithful when read as natural language. We propose an alternative that bypasses the explanation step: treat behavior forecasting as a learnable task and train Behavior Forecasters that operates on a single reasoning trajectory to make the same forecasts one would typically seek from an explanation. The forecaster’s training data is obtained by querying the LRM with no human annotation, and its inference is done in a single forward pass. We instantiate this approach on two tasks: how likely the LRM is to repeat its answer on re-runs, and how removing parts of the input changes its answer. We evaluate this approach on both tasks across three diverse reasoning datasets and find that trained Behavior Forecasters are more accurate than GPT-5.4 and Claude Opus-4.6 reading the same trajectories as naive readers, at a small fraction of their inference cost. We find that fine-tuning the backbone end-to-end and initializing it from the target LRM are each necessary for strong performance. These results show that the reasoning trajectory carries information about the LRM’s future behavior that goes beyond what naive reading conveys.

{% hideToggle 中文摘要 %} 摘要:对 AI 系统的信任通常依赖于对其工作原理的解释,人们随后据此来预测其在新输入上的行为。对于大型推理模型(LRM)来说,这种传统途径尤其难以遵循:用于单个 token 生成的解释方法无法自然地推广到长轨迹,而且这些轨迹本身在以自然语言阅读时通常不具有真实性。我们提出了一种绕过解释步骤的替代方法:将行为预测视为可学习的任务,并训练行为预测器,该预测器在单一推理轨迹上操作,以做出通常人们希望通过解释获得的相同预测。预测器的训练数据通过查询 LRM 获得,无需人工注释,其推断在一次前向传播中完成。我们在两个任务上实例化了这一方法:LRM 在重新运行时重复其答案的可能性,以及移除部分输入会如何改变其答案。我们在三个不同推理数据集上评估了这一方法,并发现训练好的行为预测器在读取相同轨迹时,比作为普通读者的 GPT-5.4 和 Claude Opus-4.6 更准确,同时推理成本仅为其一小部分。我们发现,对主干进行端到端微调并从目标 LRM 初始化都是实现强性能的必要条件。这些结果表明,推理轨迹包含的信息关于 LRM 的未来行为,超出了普通阅读所能传达的范围。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**大型推理模型(Large Reasoning Models, LRMs)的行为预测难题**,具体表现为以下核心矛盾: 1\. 传统解释方法的失效 - **解释与预测的脱节**:传统上,用户对AI系统的信任建立在"解释"基础上——通过理解模型如何工作来预测其未来行为。然而,对于LRMs(如OpenAI的O1、DeepSeek的R1等),这种路径面临双重障碍: - **粒度不匹配**:现有解释方法多针对单token生成设计,难以自然扩展到LRMs产生的长推理轨迹(long reasoning trajectories) - **忠实性缺失**:LRMs的推理轨迹(reasoning tokens)虽以自然语言形式呈现,但往往**不是**产生答案的真实计算过程的忠实记录(faithful account)。研究表明,LRMs经常: - **遗漏关键因素**(如位置偏见、用户提示、刻板印象信号)而不在推理文本中体现 - **语义错配**:表面推理步骤与实际计算过程存在差异,导致"朴素阅读"(naive reading)产生错误预测 2\. 标准行为预测工具的局限性 - **重采样成本过高**:通过多次重运行(reruns)或输入扰动来估计行为统计量(如答案一致性、反事实敏感性)在部署时计算成本过高,每次查询需要数千个token的自回归生成 - **单位置探测的盲区**:基于梯度或注意力机制的标准归因方法只能解释单个固定位置的生成,无法捕捉在漫长推理轨迹内部展开的实际计算过程 3\. 核心解决方案 论文提出**将行为预测重新框架为一个监督学习任务**: - 训练专门的**行为预测器(Behavior Forecasters)**,使其能够从**单个观察到的推理轨迹**中直接预测LRM的未来行为属性 - 通过查询目标LRM自动生成训练标签,无需人工标注 - 推理时仅需单次前向传播(single forward pass),计算成本远低于重采样或大型朴素阅读器 具体 instantiated 的两个预测任务包括: - **重跑一致性(Rerun Consistency)**:预测模型在相同输入上重新运行时重复当前答案的概率 - **反事实敏感性(Counterfactual Sensitivity)**:预测移除输入特定部分对答案产生概率的影响程度 论文验证表明,训练后的行为预测器在准确性上超越GPT-5.4和Claude Opus 4.6等前沿模型作为"朴素阅读器"的表现,同时推理成本不足其万分之一,证明推理轨迹中蕴含的关于模型未来行为的信息远超表面文本所传达的内容。

Q: 有哪些相关研究?

{% endhideToggle %}

Authors: Mosh Levy, Yoav Goldberg, Asa Cooper Stickland

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11445.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11445

Published: 2026-06-11T02:11:11.517Z


8. Search Discipline for Long-Horizon Research Agents

Abstract:Autoresearch agents now propose, evaluate, and select scientific candidates against a metric, and that metric is usually an aggregate reduced over a heterogeneous space of regions, slices, or cohorts. We show that when scientific validity lives in that disaggregated structure, the aggregate can rank the wrong candidate first. The headline number improves while the structure underneath inverts, so a decision made on the number accepts a candidate that quietly breaks the model. The failure is not domain-specific. It appears wherever a candidate’s validity is multi-dimensional but its verifier is a single reduction. We demonstrate the inversion on a fire-model task in the Ecosystem Demography model. The highest-scoring candidate and a slightly lower one are within noise of each other on global score, yet the top-scoring one collapses the protected boreal regions while the other preserves them. What separates them is the per-region behavior, not the headline number. This decision should not be left to the agent that produced the candidates. The agent optimizing the score is the last party likely to catch the score being wrong, and a prompt has no remaining turn once the agent has stopped. We move the decision to an external control loop that audits each candidate on its disaggregated behavior and acts after the agent has decided. It can demote a candidate the agent would have accepted, and it can reopen a run the agent had declared finished. Our contribution is the inversion finding itself, and a search-discipline protocol that decides on reviewable candidate-effect evidence instead of the score.

{% hideToggle 中文摘要 %} 摘要:自主研究代理现在可以根据指标提出、评估和选择科学候选者,而该指标通常是在异质区域、切片或队列的空间上聚合缩减得出的。我们表明,当科学有效性存在于这种离散结构中时,聚合可能会错误地将不合适的候选者排在第一位。头条数字可能有所改善,而其下的结构却发生了反转,因此基于数字做出的决策会接受一个悄悄破坏模型的候选者。这种失败并不是特定领域的问题。它出现在任何候选者的有效性是多维的,但其验证者是单一缩减的情况下。我们在生态系统人口模型中的火灾模型任务上演示了这种反转。得分最高的候选者与稍低的候选者在总体得分上差异在噪声范围内,但得分最高的候选者却会让受保护的北方森林区崩溃,而另一位候选者则保护了这些区域。区分它们的是每个区域的行为,而不是头条数字。这个决策不应该留给生成候选者的代理来做。优化得分的代理是最不可能发现得分错误的一方,一旦代理停止,提示也没有剩余的轮次。我们将决策权移交给外部控制循环,在代理做出决定后审核每个候选者的离散行为并采取行动。它可以降级代理本可能接受的候选者,也可以重新开启代理已经宣布完成的运行。我们的贡献在于发现了这种反转现象,并提出了一种搜索纪律协议,该协议依据可复核的候选者影响证据而非得分来做出决策。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**自主研究智能体(autoresearch agents)在长周期研究任务中的聚合验证器反转(aggregate-verifier inversion)问题**。 具体而言,该问题包含以下核心维度: 1\. 聚合指标与科学有效性的背离 当候选方案的科学有效性存在于**异质空间的分解结构**(如不同区域、切片或队列)中时,用于优化的\*\*聚合评分(aggregate score)\*\*可能会产生误导: - 候选方案可能在整体分数上表现更优,却在某些关键子区域造成严重损害 - 这种"反转"现象使得 headline number(标题数字)改善的同时,底层结构实际上在恶化 - 在生态系统动力学模型等任务中,高分候选方案可能修复了低火险区域却破坏了 boreal forest( boreal 森林)等关键区域 2\. 智能体自我验证的结构性缺陷 论文指出,将决策权保留在生成候选方案的智能体内部存在根本性缺陷: - 优化聚合分数的智能体恰恰是**最不可能发现分数错误**的参与方 - 提示词(prompt)在运行开始时即被消耗,无法在评估完成后唤醒,也无法在智能体停止后采取进一步行动 - 智能体在自身语境和日程下评判自己的工作,继承了导致反转的偏见 3\. 搜索过早终止的风险 智能体倾向于在找到第一个看似可辩护的结果后就停止搜索,而未能充分探索解空间: - 在 baseline 附近,候选方案间的聚合分数差异往往处于评估噪声范围内 - 智能体可能在未充分验证分解行为的情况下就接受某个候选方案并撰写报告 解决方案框架 论文提出\*\*搜索纪律(search discipline)**机制,通过**外部控制循环(external control loop)\*\*将决策权移出智能体: - 对每个候选方案进行**分解行为审计(disaggregated behavior audit)**,而非仅依赖聚合分数 - 允许在外部拒绝智能体已接受的高分候选方案(demote) - 允许在智能体宣布结束后重新打开搜索(reopen) - 基于可审查的候选方案效应证据(candidate-effect evidence)而非单纯分数做出决策 该框架适用于任何在异质空间上优化聚合指标的自主研究场景,包括科学建模、机器学习模型改进和代码生成等任务。

Q: 有哪些相关研究?

根据论文的文献综述与参考文献,相关研究可分为以下几个类别 {% endhideToggle %}

Authors: Adithya Srinivasan, Devesh Paragiri

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11522.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11522

Published: 2026-06-11T02:11:11.517Z


9. MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

Abstract:Financial and tabular question answering requires more than fluent reasoning: answers must be grounded in the exact facts, formulas, units, signs, and scales that support them. A single misread cell or incorrect operation can silently produce a plausible but wrong result. We introduce \textsc{MOCA-Agent}, a market-of-claims code agent that replaces free-form multi-agent debate with claim-level verification. The system decomposes each question into typed atomic claims, asks specialist trader agents to buy or sell those claims, clears their orders into confidence-weighted accept/reject decisions, and synthesizes an executable Python program from market-supported evidence. A code-aware verifier then checks the program for execution, structural consistency, and common financial reasoning errors, with at most one market-aware repair round. Across ten public benchmarks spanning financial numerical reasoning, general tabular reasoning, ESG question answering, and multimodal chart reasoning, \textsc{MOCA-Agent} achieves strong performance using a fixed Qwen3.6-27B backbone, including $78.3\%$ on FinQA, $76.0\%$ on FinanceMath, $71.2\%$ on MultiHiertt, $86.9\%$ on ESGenius, and $85.6\%$ average on FinChart-Bench. These results show that aggregating evidence at the level of atomic claims, rather than whole answers, improves robustness in high-stakes numerical reasoning.\footnote{The code and data are available: this https URL.

{% hideToggle 中文摘要 %} 摘要:金融和表格问答不仅需要流畅的推理:答案必须基于支持它们的准确事实、公式、单位、符号和量级。一个单一的单元格读取错误或操作错误都可能默默地产生看似合理但错误的结果。我们提出了\textsc{MOCA-Agent},一种索赔市场代码代理,它用索赔级验证替代了自由形式的多代理辩论。该系统将每个问题分解为类型化的原子索赔,要求专门的交易代理买入或卖出这些索赔,将他们的订单清算为带权重的接受/拒绝决策,并从市场支持的证据中合成可执行的Python程序。然后,一个代码感知的验证器检查程序的执行、结构一致性以及常见的金融推理错误,并最多进行一次市场感知的修复循环。在涵盖金融数值推理、一般表格推理、ESG问答和多模态图表推理的十个公共基准测试中,\textsc{MOCA-Agent}使用固定的Qwen3.6-27B骨干网络取得了强劲的表现,包括FinQA上$78.3\%$,FinanceMath上$76.0\%$,MultiHiertt上$71.2\%$,ESGenius上$86.9\%$,以及FinChart-Bench上的平均$85.6\%$。这些结果表明,在高风险数值推理中,在原子索赔级别聚合证据,而不是在整个答案级别,可以提高稳健性。\footnote{代码和数据可获得:此https URL。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文针对**金融与表格数值问答系统中的高静默错误率**问题,提出了一种基于声明市场(Market-of-Claims)的新型代码智能体框架。具体而言,论文试图解决以下三个核心痛点: 1\. 静默错误计算(Silent Miscomputation) 现有程序思维(Program-of-Thought, PoT)方法在生成可执行代码后往往直接提交结果,但即使语法正确的程序也可能: - 读取错误的表格单元格 - 使用错误的分母或分子 - 在运算中混淆符号或数量级 这些错误不会导致执行崩溃,而是静默产生看似合理但数值错误的结果。例如,在MultiHiertt基准测试中,即使提供完整表格内容,OpenAI o1的准确率也仅为38%(文本推理)或49%(符号推理)。 2\. 不透明聚合(Opaque Aggregation) 现有自由形式的多智能体辩论或批判-执行循环方法通常对整个答案或完整批判进行聚合: - 若多个智能体独立地推导出相同的错误数值,共识机制会赋予该错误结果高置信度 - 智能体的输出被视为"黑箱投票",无法暴露其依赖的具体事实、公式或单位假设 - 缺乏对**原子级声明**(如单个单元格数值、特定公式、单位符号)的细粒度验证 3\. 结构性验证不足(Insufficient Structural Verification) 自修复与代码修复框架主要依赖执行失败信号或自由形式批判: - 无法检测执行成功但语义错误的金融常见错误(如将比率错误缩放100倍、税前税后符号翻转、汇总错误行) - 缺乏针对算术、会计惯例和数量级约束的**操作感知型结构检查** - 反馈机制难以定位具体缺陷(如缺少公式声明、百分比缩放错误) 解决方案概述 论文提出**MOCA-Agent**(Market-of-Claims Code Agent),通过以下机制解决上述问题: - **声明级验证**:将问题分解为类型化的原子声明(事实、公式、单位、符号、方向),而非直接生成完整答案 - **市场交易机制**:由四个专业角色(提取器、公式专家、会计师、怀疑者)对声明进行加权买卖,通过市场清算确定接受/拒绝/不确定状态 - **代码感知验证**:基于问题类型(百分比变化、比率、求和等)执行针对性的结构检查,触发最多一轮市场感知修复 该方法在10个公共基准测试(包括FinQA、MultiHiertt、FinanceMath、ESGenius等)上 {% endhideToggle %}

Authors: Abdelrahman Abdallah, AbdelRahim A. Elmadany, Sameh Al Natour, Hasan Cavusoglu, Adam Jatowt, Muhammad Abdul-Mageed

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11537.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11537

Published: 2026-06-11T02:11:11.517Z


10. SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior

Abstract:Agent Skills augment large language model (LLM) agents with procedural knowledge at inference time, but current benchmarks rarely distinguish what a Skill says from how it is organized. We study this distinction through Progressive Disclosure, where a concise root file points agents to supporting resources on demand, and compare it with a normalized flat baseline. We present SkillJuror, a framework for evaluating Skill writing paradigms through semantically controlled variants, matched multi-trial evaluations, and trajectory evidence while holding task knowledge fixed. In an 82-task SkillsBench study, Progressive Disclosure changes runtime behavior before aggregate outcomes: distinct Skill resources touched per trajectory rise from 1.18 to 3.85, and effective uptake events rise from 1.33 to 3.92. It also yields 17 additional verifier-passing trials out of 410 matched trials (+4.1%) over the normalized flat baseline. The benefit is task-dependent. Progressive Disclosure helps when supporting resources guide implementation, checking, or repair, but is weaker when success hinges on exact output conventions, numerical thresholds, or long artifact-generation pipelines. These results show that Skill organization is not mere presentation: it can change how agents search and apply procedural knowledge, while outcome gains depend on whether the exposed resources are actionable for the task. Code is available at this https URL.

{% hideToggle 中文摘要 %} 摘要:代理技能在推理时增强大型语言模型(LLM)代理的程序性知识,但当前的基准很少区分技能的内容和其组织方式。我们通过渐进式披露(Progressive Disclosure)研究这一区别,其中一个简明的根文件在需要时指引代理访问支持资源,并将其与标准化的平面基线进行比较。我们提出了SkillJuror,一个通过语义控制的变体、匹配的多次评估和轨迹证据在任务知识固定的情况下评估技能写作范式的框架。在一项包含82个任务的SkillsBench研究中,渐进式披露在汇总结果之前改变了运行时行为:每条轨迹接触的不同技能资源从1.18增加到3.85,有效采纳事件从1.33增加到3.92。与标准化平面基线相比,它在410次匹配试验中额外产生了17次验证器通过的试验(+4.1%)。其益处依赖于任务。当支持资源指导实现、检查或修复时,渐进式披露有帮助;但在成功依赖于精确输出约定、数值阈值或长的工件生成流程时,效果较弱。这些结果表明,技能的组织方式不仅仅是展示:它可以改变代理搜索和应用程序性知识的方式,同时结果的提升取决于暴露的资源是否可用于任务。代码可在此https URL获得。 {% endhideToggle %} {% hideToggle LLM Analysis %} LLM Analysis Failed: Error: 抓取失败(已重试2次): Waiting failed: 30000ms exceeded {% endhideToggle %}

Authors: Zhiyu Chen, Zihan Guo, Bo Huang, Bingwei Lu, Jianghao Lin, Yuanjian Zhou, Weinan Zhang

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11543.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11543

Published: 2026-06-11T02:11:11.517Z


Evaluation Domain Papers

1. From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference

Abstract:We present SemantiClean, a modular framework for extracting structured semantic signals from e-commerce session data and driving pluggable inference targets including purchase intent, customer segmentation, and product affinity through a shared element library. Unlike conventional end-to-end predictors that optimise solely for accuracy, SemantiClean prioritises auditability, structural governance, and sigma=0 reproducibility, explicitly trading marginal predictive gains for element-level transparency and defensible decision trails. Built upon the Online Shoppers Purchasing Intention (OSPI) dataset, the framework organises twenty-four behavioural elements into a four-layer architecture (Functional, Interaction, Systemic, Contextual) and enforces signal quality through three anti-inflation mechanisms: RedundancyGroup contribution caps, TieredPenaltyCalculator bias penalties, and AdaptiveConstraintMode cold-start this http URL report introduces the LLM-Integrated Semantic Inference Engine, a fully implemented two-phase LLM-driven inference architecture that leverages complete element metadata at inference time. All quantitative results reported herein are produced by this engine. Deterministic engine outputs remain fully reproducible (sigma=0); LLM-dependent results (E8, E10) are subject to controlled output variability under fixed provider/model/temperature settings. The gender inference target remains non-functional in the current implementation and is excluded from all quantitative results.

{% hideToggle 中文摘要 %} 摘要:我们提出了 SemantiClean,这是一种模块化框架,用于从电子商务会话数据中提取结构化语义信号,并通过共享元素库驱动可插拔的推理目标,包括购买意图、客户细分和产品关联。与仅优化准确率的传统端到端预测器不同,SemantiClean 优先考虑可审计性、结构治理和 sigma=0 可复现性,并明确以元素级透明度和可辩护决策路径为代价,放弃边际预测收益。该框架基于在线购物者购买意图(OSPI)数据集构建,将二十四个行为元素组织成四层架构(功能层、交互层、系统层、上下文层),并通过三种反膨胀机制来保证信号质量:RedundancyGroup 贡献上限、TieredPenaltyCalculator 偏差惩罚以及 AdaptiveConstraintMode 冷启动。本文介绍了 LLM 集成语义推理引擎,这是一种完全实现的两阶段 LLM 驱动推理架构,在推理时利用完整的元素元数据。本文报告的所有量化结果均由该引擎生成。确定性引擎输出保持完全可复现(sigma=0);依赖 LLM 的结果(E8,E10)在固定提供者/模型/温度设置下存在受控的输出可变性。目前实现中性别推理目标尚不可用,且未纳入所有量化结果。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**电商行为预测中准确性与可审计性(透明度)之间的结构性张力**问题。 具体而言,论文针对以下三个核心痛点: 1\. 语义混淆问题(Semantic Conflation) 传统电商分析依赖聚合指标(如跳出率、页面浏览量),这些指标将**异质的行为信号**混为一谈。例如,浏览12个产品页面的用户可能是研究员、比价者或忠诚买家——这些身份具有截然不同的语义权重和下游处理需求,但传统方法无法区分。 2\. 黑盒不可审计问题(Black-Box Opacity) 现有端到端机器学习模型(如LSTM、XGBoost、GNN)仅优化预测准确性,形成"输入-输出"黑盒。这在合规敏感场景中不可接受,因为: - 无法提供可防御的决策轨迹(defensible decision trails) - 缺乏元素级透明度(element-level transparency) - 无法满足监管对可解释性的要求 3\. 信号膨胀与治理缺失(Signal Inflation) 现有框架缺乏对行为信号强度的结构性治理机制,导致某些信号(如促销期间的页面价值)可能过度影响推断结果,而系统无法识别或纠正这种偏差。 解决方案的核心权衡 论文明确拒绝"准确性至上"的范式,提出**SemantiClean框架**,通过以下设计实现**σ = 0完全可重现**的可审计推断: - **模块化元素库**:将24个行为元素组织为四层架构(功能层→交互层→系统层→情境层),每个元素捕获 narrowly scoped 的语义信号 - **解耦架构**:确定性信号提取(元素库)与任务特定聚合(可插拔推断目标)分离 - **三层反通胀机制**:通过冗余组上限(RedundancyGroup Caps)、分层惩罚计算器(TieredPenaltyCalculator)和自适应约束模式(AdaptiveConstraintMode)治理信号质量 - **LLM集成推理引擎**:在保持结构透明度的前提下,利用大语言模型进行语义推断,但严格限制其作用于"补充机制"而非核心决策 简言之,论文试图证明:在合规敏感应用中,**可审计性、结构治理和完全可重现性**可以优先于边际预测性能的提升,通过显式元素(Explicit Elements)的结构化组合来推断隐式意图(Implicit Intent)。

Q: 有哪些相关研究?

论文的相关研究可分为**端到端机器学习分类器**与**大语言模型(LLM)架构**两大脉络,SemantiClean明确区别于前者而借鉴后者的结构化推理方法。 1 {% endhideToggle %}

Authors: Liu hung ming

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11207.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11207

Published: 2026-06-11T02:20:05.764Z


2. Position: Hippocampal Explicit Memory Is the Cornerstone for AGI

Abstract:Large Language Models (LLMs) have demonstrated remarkable capabilities across various tasks, raising expectations for Artificial General Intelligence (AGI). This position paper argues that integrating explicit memory is the cornerstone for advancing LLMs toward AGI. The key reason is that the underlying learning mechanism of LLMs is highly analogous to human implicit memory. However, higher-order cognitive functions necessary for AGI, such as long-term strategic planning, metacognition, and symbolic reasoning, heavily rely on hippocampal explicit memory and cannot arise solely from implicit statistical learning. Drawing on findings from neuroscience, I advance this perspective and complement it with computational requirements for artificial explicit memory systems, hoping to foster further research and lay the groundwork for explicit memory integration.

{% hideToggle 中文摘要 %} 摘要:大型语言模型(LLMs)在各种任务中展示了卓越的能力,提高了人们对人工通用智能(AGI)的期待。本文立场认为,整合显性记忆是推动LLMs向AGI发展的基石。其主要原因在于,LLMs的基础学习机制与人类的隐性记忆高度相似。然而,AGI所需的高阶认知功能,如长期战略规划、元认知和符号推理,严重依赖于海马体的显性记忆,而单靠隐性统计学习无法产生这些能力。借鉴神经科学的研究结果,我提出这一观点,并辅以人工显性记忆系统的计算需求,希望推动进一步研究,并为显性记忆的整合奠定基础。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决的核心问题是:**当前大型语言模型(LLMs)因缺乏显式记忆(explicit memory)系统而无法实现通用人工智能(AGI)的根本性局限,以及如何通过构建人工显式记忆系统来突破这一瓶颈。** 具体而言,论文围绕以下几个关键维度展开: 1\. 诊断LLMs的根本局限 论文指出,尽管LLMs在模式识别、语言生成等任务上表现卓越,但其根本学习机制类似于人类的**隐性记忆(implicit memory)**——依赖渐进式、错误驱动的统计学习,缺乏快速、情境丰富的编码能力。这导致LLMs在以下高阶认知功能上存在固有缺陷: - **动态学习**:无法实现单次接触后的即时记忆形成(one-shot learning) - **元认知(Metacognition)**:缺乏对自身知识边界和来源的觉察,导致幻觉(hallucination)和一致性缺失 - **逻辑推理与规划**:难以进行基于抽象规则的长期战略规划和符号推理 - **情景记忆(Episodic Memory)**:无法在长时间跨度上维持连贯的自主叙事和目标追踪 2\. 论证显式记忆的必要性 通过神经科学证据,论文论证**海马体显式记忆**是支撑人类高阶认知的基石: - 显式记忆通过稀疏编码(sparse coding)和模式分离(pattern separation)实现快速、去噪的信息存储 - 支持模式补全(pattern completion),允许从部分线索重建完整记忆 - 为执行功能(executive function)、心理模拟(mental simulation)和自我反思提供神经基础 论文的核心论点是:仅依靠隐性统计学习无法涌现AGI所需的认知能力,必须显式集成类似海马体的记忆系统。 3\. 构建人工显式记忆的理论框架 论文形式化了人工显式记忆系统应满足的**八项计算要求**: 1. **稀疏索引(Sparse Indexing)**:从密集表征生成稀疏激活模式 2. **误差无关更新(Error-Independent Update)**:记忆更新不依赖预测误差梯度 3. **联想建构(Associative Construction)**:通过"fire together, wire together"原则建立记忆间关联 4. **模式分离(Pattern Separation)**:确保相似输入产生可区分的稀疏编码 5. **模式补全(Pattern Completion)**:从部分输入恢复完整记忆 6. **动态性(Dynamicity)**:支持随时间演化的记忆状态更新 7. **高即时可塑性(High and Instant Plasticity)**:单次经验即可形成稳定记忆 8. **适应性遗忘(Adaptive Forgetting)**:通过异突触弱化(heterosynaptic weakening)管理有限容量 4\. 实证检验与路径规划 论文通过对照实验展示当前LLMs在需要显式记忆的任务(如规则遵循、逻辑运算、抗干扰的事实检索)上的系统性失败,证明其仅依赖隐性权重关联而非显式知识表征。最终目标是推动**NeuroAI**研究议程,将经过神经科学验证的记忆机制转化为可计算架构,从而弥合统计学习与真正理解之间的鸿沟。

Q: 有哪些相关研究?

基于论文内容,相关研究可归纳为以下五大类别: 1\. 互补学习系统理论(Complementary Learning Systems) 该理论构成论文核心理论基础,解释海马体与新皮层在记忆形成中的分工: - **McClelland et al. (1995)**:提出海马体-新皮层互补学习系统,解释快速学习与缓慢整合的分离机制 - **Kumaran et al. (2016)**:更新CLS理论,强调智能体需要整合快速 episodic 学习与慢速统计学习 - **Schacter & Addis (2007)**:论证情景记忆作为"心理时间旅行"的基础,支持未来规划与模拟功能 2\. 显式记忆的神经科学基础 支撑论文中关于人类记忆机制的讨论: - **Scoville & Milner (1957)**:H.M.病人研究,确立海马体对陈述性记忆的必要性 - **Squire & Zola-Morgan (1991)**:内侧颞叶记忆系统的结构功能研究 - **Tulving (1972, 1985, 2002)**:情景记忆与语义记忆的分类理论 - **Yassa & Stark (2011)**;**Leutgeb et al. (2007)**:海马齿状回的模式分离(pattern separation)机制 - **Nakazawa et al. (2002)**:CA3区的模式补全(pattern completion)与NMDA受体作用 - **Graybiel (2008)**;**Packard & Knowlton (2002)**:基底神经节与程序性/习惯性学习 3\. LLM记忆增强架构(近期前沿工作) 论文在附录A中详细评述的显式记忆实现尝试: - **Yin et al. (2024)**:通过期望最大化(EM)算法实现显式记忆学习,动态更新输入-输出映射 - **Wang et al. (2024) MemoryLLM**:分离动态参数与静态参数,引入可自我更新的显式记忆模块 - **Das et al. (2024) Larimar**:受海马体启发的快速记忆更新机制,强调单样本学习能力 - **Park & Bak (2024) Memoria**:基于关联的独立记忆建构,无需依赖预测误差,引入效用驱动的遗忘机制 - **Behrouz et al. (2024) Titans**:专注于测试时记忆(test-time memorization)的关联记忆架构,使用基于惊讶度的记忆编码 - **Yang et al. (2024) Memory3**:显式记忆语言建模架构 - **Xiao et al. (2024) InfLLM**:无需训练的长上下文外推方法 4\. LLM局限性与AGI评估 支持论文关于当前LLM本质为隐性记忆系统的论断: - **Bubeck et al. (2023)**:微软研究院对GPT-4作为早期AGI的评估(论文用于对比的观点) - **Goertzel (2023)**:区分生成式AI与AGI的认知能力差异 - **Feng et al. (2024)**:系统评估LLM距离AGI的差距 - **Valmeekam et al. (2022)**;**Song et al. (2025)**:LLM在规划与推理任务上的失败案例 - **Huang et al. (2024)**:证明LLM无法仅依靠内在能力自我纠正推理错误 - **Turpin et al. (2023)**:揭示思维链(Chain-of-Thought)中的不忠实解释问题,区分真实元认知与习得模式 5\. 实用记忆增强方案(RAG与长期上下文) 论文在第B.4节讨论但认为不足以替代显式记忆的工程方法: - **Wang et al. (2023)**:增强语言模型的长期记忆架构 - **Zhong et al. (2024) MemoryBank**:为LLM引入长期记忆的外部存储系统 - **Shang et al. (2024)**:AI原生记忆架构,提出从自然语言记忆到神经压缩的AGI路径 这些研究共同构成从**理论神经科学**到**工程实现**的完整谱系,支撑论文关于必须通过显式记忆机制突破当前LLM隐性学习局限的核心论点。

Q: 论文如何解决这个问题?

论文通过**构建人工显式记忆系统的理论框架**来解决LLM缺乏高阶认知能力的问题。具体解决方案包括形式化的系统架构定义和八项核心计算要求,旨在复制海马体显式记忆的功能特性。 1\. 系统架构的形式化定义 论文将显式记忆系统定义为一个独立于主网络的模块函数 f_(memory) ,其接收上游表征过程的密集嵌入,并执行记忆存储与检索: f_(memory) : I arrow O 其中输入 I = (E, M) 包含当前密集嵌入 E ∈ R^d 和当前记忆状态 M ;输出 O = (Delta M, Y) 包含记忆更新量 Delta M 和检索到的密集嵌入 Y ∈ R^d 。 2\. 八项计算要求 为实现类海马体的显式记忆功能,论文规定了以下必须满足的计算特性: 稀疏索引(Sparse Indexing) 系统必须将密集输入转换为稀疏索引,其中绝大多数元素为零: S = sparsify(E) ∈ R^n, quad |S|_0 = ∑_(i=1)^n 1[S_i ≠ 0] ll n 这种稀疏编码通过模式分离(pattern separation)确保相似输入产生可区分的记忆表征,避免不同概念间的干扰。 误差无关更新(Error-Independent Update) 记忆更新不得由预测误差驱动,而应主要依赖于输入 E 和当前记忆状态 M : ∇_(p,e) Delta M = 0 这区别于LLM基于梯度下降的隐性学习,允许单次经验即形成稳定记忆,而非需要大量重复训练。 联想建构(Associative Construction) 记忆状态包含关联矩阵 A ∈ R^(n × n) ,通过"fire together, wire together"原则建立稀疏索引间的连接: Delta A_(i,j) > 0, quad ∀ i, j ∈ F_S 其中 F_S 为激活维度集合,确保新信息融入现有知识结构而非孤立存储。 模式分离(Pattern Separation) 稀疏化函数必须满足非扩展性,使稀疏编码的相似度低于原始密集输入: sim(S_1, S_2) < sim(E_1, E_2) 防止不同输入坍缩为重叠表征,保证后续检索的准确性。 模式补全(Pattern Completion) 系统能从部分输入恢复完整记忆: S_(∂) &= sparsify(E_(∂)), S_(retrieved) &= σ(A S_(∂)), quad F_(S_∂) ⊂ F_(S_retrieved), Y &= P^top S_(retrieved) ≈ E_(learned) 通过CA3-like的递归连接实现从线索到完整情景的重建,支撑基于部分提示的推理。 动态性(Dynamicity) 记忆状态随时间演化,更新依赖于时序输入: M_(t+1) = M_t + Delta M_t = (A_t + Delta A_t, P_t + Delta P_t) 支持持续学习(continual learning)和实时知识更新。 高即时可塑性(High and Instant Plasticity) 单次经验后即刻形成可检索记忆: f_(memory)(E_(∂), M_(t+1)) = (Delta M_(t+1), Y_(t+1)), quad Y_(t+1) ≈ E_t 实现one-shot learning,克服LLM需要大规模数据重复训练的局限。 适应性遗忘(Adaptive Forgetting) 通过异突触弱化(heterosynaptic weakening)管理有限容量: i ∈ F_S, j ∉ F_S implies Delta A_(i,j) ≤ 0 仅激活维度参与可塑性,未激活连接逐渐弱化,实现基于记忆效用的选择性巩固与遗忘。 3\. 解决LLM核心局限的机制映射 这些计算要求针对性解决第5节识别的LLM缺陷: | LLM局限 | 显式记忆解决方案 | | --- | --- | | 无法动态学习 | 高即时可塑性允许单次经验编码;动态性支持实时更新 | | 元认知缺失 | 稀疏索引与联想建构创建情景元数据(来源、上下文),支持"知道感"(feeling of knowing) | | 逻辑推理脆弱 | 模式分离与补全支持基于规则的符号操作,而非统计近似 | | 长期规划困难 | 关联矩阵 A 构建结构化关系图,支持多步推理和目标导向行为 | | 幻觉与不一致 | 误差无关更新确保事实稳定性,不受后续训练数据分布漂移影响 | 4\. 实施路径与理论边界 论文明确指出,这些要求**识别的是必要条件而非完整生物复制品**,允许在实现时进行简化(如使用统一的双向映射矩阵 P 替代分离的编码/解码路径)。同时强调: - **上游显式化依赖**:记忆系统的有效性取决于上游LLM内部推理是否以显式方式操作(而非仅作为隐式特征的提取器) - **多模态扩展**:需进一步确定输入信息的精确性质(情景片段、自主行为、长期时间依赖) - **与现有架构的整合**:显式记忆应作为LLM的互补模块,而非替代隐性学习系统,形成类似人脑互补学习系统的架构 该理论框架旨在为NeuroAI研究提供明确的技术路线图,通过Validated的生物原理指导人工记忆系统的设计,从而弥合当前统计学习机器与真正通用智能之间的鸿沟。

Q: 论文做了哪些实验?

该论文作为一篇**立场论文(Position Paper)**,并未进行传统意义上的大规模定量实验或模型训练,而是通过**定性行为实验(Qualitative Behavioral Experiments)**来验证核心假设。这些实验集中在**附录C**中,旨在提供当前LLMs缺乏显式记忆的实证证据。 具体实验内容包括: 1\. 事实稳定性与抗干扰测试(图2) 通过设计对抗性提示词,测试LLM(ChatGPT-5)对基础事实的表征是否稳定: - **实验A(太阳升起方向)**:先询问"太阳从哪个方向升起",模型正确回答"东方";随后引入"地球自转逆转假说"的干扰语境,再次询问时模型改为回答"西方"。**证明**:LLM的事实知识受语境暗示影响,缺乏显式记忆中稳定、去情境化的语义表征。 - **实验B(知识一致性检验)**:先询问《星际争霸1》中"圣堂档案馆(Templar Archives)的价格",模型正确回答"200瓦斯";随后基于错误前提提问"为什么价格是150?",模型未纠正错误前提,反而编造解释。**证明**:知识以隐性权重形式存储,而非可显式检索、可校验的事实节点。 2\. 基础逻辑运算测试(图3A) - **任务**:计算108个"1"相加的和( 1+1+·s+1 ,共108项) - **结果**:模型错误回答为120 - **对照**:当项数减半时模型能正确计算 - **结论**:LLM无法通过显式语义记忆应用"加法结合律"等抽象规则,而是依赖序列位置的统计模式,导致在长序列上出现计数错误。 3\. 执行功能与规则遵循测试(图3B) - **任务**:首次遇到"将回答中的字母a和e互换"的指令 - **结果**:模型仅在部分词汇中执行替换(如将"can"变为"cen"),但在其他位置失败(如"like"未变为"liki") - **对照**:人类可立即完美执行此类符号替换规则 - **结论**:LLM缺乏显式记忆支持的执行控制,无法即时编译并严格执行新规则,而是依赖训练分布中的隐性模式。 4\. 结构化推理测试(图3C) - **任务**:求解一个标准9×9数独谜题(难度适中,人类初学者可在数小时内通过逻辑规则解决) - **结果**:模型(声称具备奥林匹克级数学能力)给出了错误的解答网格,且未识别出自身错误 - **结论**:LLM在处理需要显式规则应用(排除法、唯一候选数等逻辑策略)和长期状态跟踪的任务时失败,其"推理"实质是基于训练语料中数独模式的隐性联想,而非显式的符号操作。 实验性质说明 这些实验属于**概念验证(Proof-of-Concept)**性质的**故障案例研究(Failure Case Studies)**,其目的并非建立新的基准测试,而是: 1. **证伪**:证明当前LLMs在需要显式记忆核心功能(模式分离、规则稳定性、即时可塑性)的任务上系统性失败 2. **归因**:将这些失败归因于隐性统计学习的本质局限,而非数据不足或模型规模限制 3. **需求验证**:为第6节提出的显式记忆系统计算要求提供行为层面的必要性证据 论文明确强调,这些实验**不构成**对第6节所提人工显式记忆系统的验证(因该系统尚未实现),而是用于确立"当前系统确实缺失这些能力"的诊断性证据。

Q: 有什么可以进一步探索的点?

基于论文第6-9节及附录的讨论,以下方向值得深入探索: 1\. 完整生物启发的记忆架构实现 当前计算要求存在简化空间,需进一步细化: - **皮质巩固机制**:第6节提及目前省略了海马体向新皮层的记忆巩固过程。未来需建模 Delta M 如何逐步整合到基础模型的静态参数中,实现长期稳定存储与快速编码的权衡。 - **微环路级别的CA1-CA3实现**:当前框架将海马体简化为稀疏索引与关联矩阵,未来可探索更精细的生物学细节,如齿状回(DG)的稀疏编码算法、CA3的递归 collateral 电路的具体实现方式。 2\. 上游推理的显式化验证 第8节指出关键开放问题:显式记忆系统的有效性依赖于上游LLM的内部推理是否以显式方式操作。 - 需研究如何修改Transformer架构,使其内部计算产生适合被显式记忆系统索引的**结构化表征**(而非分布式隐性特征) - 探索显式记忆与隐性网络在推理过程中的**双向交互机制**,确保检索到的记忆能真正影响符号层面的推理步骤 3\. 多模态实时记忆系统 附录B.4指出RAG在处理连续视觉/听觉流时的计算不可行性。 - 开发能够处理**原始感知流**(而非文本摘要)的显式记忆编码器,实现跨模态的稀疏索引 - 设计适用于边缘设备(如手机)的**在线记忆更新协议**,解决"存储所有原始输入 vs. 即时决策"的权衡问题 4\. 严格的可测试性框架 第8节强调需设计实验区分真正的显式学习与扩展的统计覆盖: - 构建**训练数据有意的遗漏测试**:如训练时排除所有乘法问题,仅提供加法定义和乘法规则,测试模型能否通过显式规则组合解决复合乘法 - 开发**长程状态追踪基准**:设计需要跟踪快速变化状态超过上下文窗口的复杂实体追踪任务,且状态不直接写入token序列 5\. 自适应遗忘与记忆管理 第6节的Adaptive Forgetting要求仅提供基础框架: - 研究基于**记忆效用**(utility-based)的异突触弱化机制,如何量化记忆的未来访问概率 - 探索**情境依赖性遗忘**:如何在保留语义知识的同时,有选择地遗忘特定情景细节以保护隐私或管理容量 6\. 记忆系统的层级交互 第8节提及需探索显式记忆与其他记忆形式的交互: - 构建包含**工作记忆(Working Memory)**、**显式长期记忆**和**隐性程序记忆**的三层架构 - 研究不同记忆系统间的**竞争与协作机制**,如执行功能如何协调显式检索与隐性自动响应 7\. 因果干预研究 附录B.2讨论了显式记忆的因果证据,未来可在人工系统中复制: - 使用**消融研究**(ablation studies)验证移除显式记忆模块是否特异性地损害规划/元认知能力,同时保持模式识别能力 - 开发**光遗传学启发的机制**(如特定记忆 engram 的精确激活/抑制),测试人工显式记忆的因果作用 这些方向共同指向一个目标:将第6节的形式化计算要求转化为可运行的神经架构,并通过严格的实验验证其是否确实赋予了系统超越隐性统计学习的高阶认知能力。

Q: 总结一下论文的主要内容

这篇论文的核心论点是:**实现通用人工智能(AGI)的关键在于为大型语言模型(LLMs)集成显式记忆(explicit memory)系统,因为当前LLMs仅依赖类似生物隐性记忆的统计学习机制,无法支撑高阶认知功能。** 核心问题与理论基础 论文指出,LLMs的学习机制在本质上是**隐性记忆(implicit memory)**的模拟:通过大量数据的渐进式、错误驱动(error-driven)训练,形成自动化的刺激-反应映射。这种机制虽然擅长模式识别和语言生成,但缺乏**海马体显式记忆**的关键特征——快速、稀疏编码的情景形成能力和基于规则的知识表征。 通过对比人类记忆系统,论文论证了以下认知功能必须依赖显式记忆: - **动态学习**:单次经验编码(one-shot learning) - **元认知**:知识来源追踪与"知道感"(feeling of knowing) - **逻辑推理**:基于抽象符号规则的运算,而非统计近似 - **执行功能**:长期规划、任务切换与目标导向行为 - **心理模拟**:情景重构与未来想象 人工显式记忆的形式化框架 论文提出了显式记忆系统的形式化定义 f_(memory) : (E, M) arrow (Delta M, Y) ,并规定了八项计算要求: 1. **稀疏索引**:将密集表征转换为稀疏激活向量,实现模式分离(pattern separation) 2. **误差无关更新**:记忆形成不依赖预测误差梯度,支持即时编码 3. **联想建构**:通过"fire together, wire together"机制建立记忆间关联 4. **模式补全**:从部分线索恢复完整记忆(pattern completion) 5. **动态性**:支持随时间演化的记忆状态更新 6. **高即时可塑性**:单次经验后即刻可检索 7. **适应性遗忘**:通过异突触弱化管理容量,保留高效用记忆 实证验证 通过定性行为实验,论文展示了当前LLMs(如ChatGPT-5)在需要显式记忆功能时的系统性失败: - **事实不稳定性**:基础事实(如"太阳从东方升起")易受语境干扰而改变 - **逻辑运算错误**:无法正确计算长序列的加法(如108个1相加) - **规则执行缺陷**:无法即时遵循"交换字母a和e"的新规则 - **结构化解题失败**:无法通过逻辑规则解决数独,而依赖统计猜测 这些失败表明LLMs缺乏稳定的、可显式检索和操作的符号知识表征。 结论与展望 论文认为,LLMs在特定领域的成功源于**规模效应**和**优化优势**(访问远超人类生命周期的数据、利用梯度下降进行精细参数调整),但这并未改变其隐性学习的本质。实现AGI需要: - 将显式记忆作为核心模块集成到AI架构中,而非仅作为外部存储(RAG)或上下文扩展 - 开发能够产生显式结构化表征的上游推理机制 - 建立严格的测试框架,区分真正的显式学习与扩展的统计覆盖 该研究为**NeuroAI**议程提供了具体的技术路线图,主张通过复制经神经科学验证的记忆原理,弥补当前统计学习系统与通用智能之间的鸿沟。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 [**这里**](http://kimi.com/_prefill_chat?prefill_prompt=我们要讨论的论文是Position%3A%20Hippocampal%20Explicit%20Memory%20Is%20the%20Cornerstone%20for%20AGI,链接是https://arxiv.org/pdf/2606.11245,已有的FAQ链接是https://papers.cool/arxiv/kimi?paper=2606.11245。请以此为基础,继续回答我后面的问题。&system_prompt=你是一个学术助手,后面的对话将围绕着以下论文内容进行,已经通过链接给出了论文的PDF和论文已有的FAQ。用户将继续向你咨询论文的相关问题,请你作出专业的回答,不要出现第一人称,当涉及到分点回答时,鼓励你以markdown格式输出。&send_immediately=true) 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。 {% endhideToggle %}

Authors: Sangjun Park

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11245.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11245

Published: 2026-06-11T02:20:05.764Z


3. Can AI Agents Synthesize Scientific Conclusions?

Abstract:Scientific AI agents increasingly retrieve evidence, reason across sources, and synthesize conclusions used in consequential decisions. Yet, their ability to do so in high-stakes domains such as health remains unclear. We introduce SciConBench, a large-scale live benchmark of 9.11K questions and expert-written conclusions from systematic reviews to evaluate open-domain scientific conclusion synthesis. The benchmark draws on an expert-validated automated evaluation pipeline that decomposes conclusions into atomic facts and measures correctness and comprehensiveness via factual precision and recall. To mitigate data leakage, we further introduce SciConHarness, a clean-room evaluation harness that equips agents with controlled web interaction to ensure valid measurement. Evaluating 8 frontier models and deep research agents, we find that factual quality remains low: under clean-room settings, the best agent achieves only a factual F1 of 0.337. Our clean-room setting consistently reduces performance relative to unconstrained evaluation, suggesting that leakage inflates estimates of models’ true synthesis capabilities. Finally, we audit consumer-facing agents (e.g., Google AI Overview, OpenEvidence) and find they frequently generate incomplete and sometimes contradictory conclusions, even when the ground-truth answer is available. Overall, our results show that reliable synthesis of scientific conclusions remains an open challenge, and that clean-room evaluation is essential for assessing open-domain AI agents.

{% hideToggle 中文摘要 %} 摘要:科学 AI 代理越来越多地检索证据、跨来源推理,并综合用于重大决策的结论。然而,它们在高风险领域(如健康)中执行这些任务的能力仍不明确。我们引入了 SciConBench,这是一个大规模实时基准,包含来自系统综述的 9.11K 个问题及专家撰写的结论,用于评估开放领域的科学结论综合能力。该基准依托专家验证的自动评估流程,将结论分解为原子事实,通过事实精确度和召回率衡量正确性和全面性。为减轻数据泄漏,我们进一步推出了 SciConHarness,这是一个洁净室评估工具,为代理提供受控的网页交互,以确保测量的有效性。在评估 8 个前沿模型和深度研究代理时,我们发现事实质量仍然较低:在洁净室设置下,最佳代理仅实现事实 F1 0.337。我们的洁净室设置相比无限制评估持续降低性能,表明泄漏会夸大模型真实综合能力的估计。最后,我们审查了面向消费者的代理(例如 Google AI Overview、OpenEvidence),发现即便在存在真实答案的情况下,它们也经常生成不完整甚至有时自相矛盾的结论。总体而言,我们的结果显示,可靠的科学结论综合仍然是一个未解决的挑战,而洁净室评估对于评估开放领域的 AI 代理至关重要。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**开放域科学结论合成任务中AI代理能力的有效评估问题**,特别是在高风险领域(如医疗健康)中确保评估的真实性和可靠性。具体而言,论文针对以下核心挑战: 1\. 现有评估范式的局限性 现有研究多集中于评估中间产物(如检索准确性、引用 grounding、短文摘要、短形式事实性或多选题问答),而非**长程、开放域的科学结论合成**本身。这导致无法捕捉真实世界中科学合成的核心挑战——包括从开放网络检索证据、筛选无关来源、调和冲突发现、评估证据质量,并生成长篇专家级结论的完整流程。 2\. 基准测试的规模、时效性与泄露问题 现有专家策划的基准测试存在三个关键缺陷: - **规模受限**:由于专家策划成本高昂,样本量通常很小( N ≤ 100 ); - **静态过时**:无法随新证据涌现而更新,导致结论时效性不足; - **基准泄露(Benchmark Leakage)**:模型可能通过预训练记忆或在开放网络中直接检索到真实答案(如Cochrane综述原文),从而将复杂的"合成"任务简化为"检索"任务,虚假地抬高性能指标。 3\. 清洁室评估(Clean-Room Evaluation)的缺失 现有评估缺乏对**数据泄露**的严格控制。模型可能通过访问包含真实结论的原始文献(如Cochrane数据库)来"作弊",而非真正基于检索到的证据进行推理和综合。这导致评估结果无法反映模型的真实合成能力,而是混合了检索记忆与 genuine synthesis。 4\. 消费者级AI系统的可靠性风险 针对日益普及的面向消费者的AI代理(如Google AI Overview、OpenEvidence),论文发现即使这些系统能够访问真实答案,仍频繁生成**不完整**且**有时相互矛盾**的科学结论。这凸显了在高风险医疗健康决策中部署此类系统的潜在安全隐患。 解决方案概述 为应对上述挑战,论文提出了三项核心贡献: - **SCICONBENCH**:一个包含9.11K问题对的大规模、实时更新的基准测试,基于Cochrane系统综述的专家撰写结论构建; - **SCICONHARNESS**:一个清洁室评估框架,通过控制网络交互工具(搜索、浏览、论文检索)并过滤真实答案来源,确保评估隔离性; - **事实性评估流程**:将结论分解为原子事实(atomic facts),通过专家验证的LLM评判器测量**事实性精确率(precision)**、**召回率(recall)**和**F1分数**,从而量化合成结论的正确性与全面性。 实验结果表明,在清洁室设置下,即使是最先进的深度研究代理(如o3-deep-research)的事实性F1分数也仅为0.337,揭示了可靠科学结论合成仍是一个未解决的开放挑战。

Q: 有哪些相关研究?

根据论文第7节(Related Work)及相关引用,该研究的主要学术脉络可分为以下两大方向: 1\. 科学、健康与事实性评估(Evaluations for Science, Health, and Factuality) **生物医学与科学问答基准** - **PubMedQA** 53 、**MedQA** 52 :针对生物医学研究问题的问答数据集 - **SciFact** 115, 116 :科学声明验证基准,评估模型对科学文献中声明的事实性判断能力 - **emrQA** 90 :基于电子病历的大规模问答语料库 **临床与科学推理** - **QASA** 61 :面向科学论文的高级问答基准 - **MedIQ** 64 :针对可靠交互式临床推理的基准测试 **科学文本摘要与简化** - **ACLSum** 107 :基于方面的科学出版物摘要数据集 - **Cochrane-auto** 16 :生物医学摘要简化的对齐数据集 - **FactPICO** 54 :医学证据摘要的事实性评估 **事实性与引用验证** - **FActScore** 73 、**VeriFact** 69 :长文本生成中的细粒度原子事实精确率评估 - **CiteBench** 37 :科学引用文本生成基准 - **LitSearch** 2 :科学文献检索基准 **风险偏倚评估** - **ROBOTO2** 46 、**RoBBR** 118 :评估模型在临床试验风险偏倚评估中的能力 2\. 长程合成与AI代理基准(Long-Horizon Synthesis Benchmarks for AI Agents) **深度研究代理(Deep Research Agents)** - **OpenScholar** 15 :检索增强型文献合成系统 - **DR Tulu** 100 :基于强化学习的深度研究代理 - **OpenResearcher** 132 、**WebThinker** 65 :开放式研究推理系统 **长形式问答与事实性** - **ELI5** 35 :长形式问答基准 - **ASQA** 105 :事实型问题 meets 长形式答案 - **QAMPARI** 3 :多答案开放域问答 **代理式开放域基准** - **GAIA** 71 :通用AI助手基准,测试工具使用与多步推理 - **Humanity's Last Exam** 96 :专家级知识评估 - **HealthBench** 13 :面向人类健康改善的评估 - **ExpertLongBench** 99 :专家级长形式生成任务 **文献综述与研究报告合成** - **ScholarQABench** 15 :文献综述生成评估 - **ResearcherBench** 127 、**ReportBench** 62 、**DeepResearch Bench** 34 :针对深度研究代理的学术综述任务评估 - **DeepScholar-Bench** 92 :实时更新的生成式研究合成基准 **工具使用与网络代理** - **Self-RAG** 14 :学习检索、生成与自我反思 - **WebWeaver** 66 、**WebExplorer** 67 、**WebWalker** 125 :长程网络代理与结构化证据检索 - **BrowseComp** 122 :浏览代理的简单但具有挑战性的基准 **科学发现与研究构思** - 评估LLM在生成新颖研究想法、支持科学发现流程中的能力 45, 102, 103 与现有工作的关键区别 论文明确指出,尽管上述工作在各自领域取得了进展,但**SCICONBENCH**在以下方面填补了空白: - **规模与实时性**:9.11K样本的大规模数据集,每月更新以缓解数据泄露(vs. 现有基准通常 N ≤ 100 且静态) - **清洁室评估(Clean-Room Evaluation)**:通过**SCICONHARNESS**强制隔离真实答案来源,防止模型通过检索 ground-truth artifacts 来"作弊"(vs. 现有开放域基准未控制此类泄露) - **端到端科学合成**:评估从证据检索、质量评估到长篇结论合成的完整长程任务(vs. 仅评估中间产物如引用质量或风险偏倚)

Q: 论文如何解决这个问题?

该论文通过构建一个**三位一体的评估体系**来解决开放域科学结论合成的有效评估问题,具体包括:**大规模实时基准(SCICONBENCH)**、**清洁室评估框架(SCICONHARNESS)**和**专家验证的事实性评估流程**。 1\. 构建大规模实时基准:SCICONBENCH **解决核心问题**:现有基准规模小( N ≤ 100 )、静态易过时、且集中于中间产物而非最终结论。 **具体方法**: - **数据来源**:利用**Cochrane系统综述数据库(CDSR)**——循证医学领域的"金标准",包含经过同行评审的专家撰写结论。 - **规模与更新**:构建包含**9,107个问答对**的大规模数据集,并设计为**实时基准**(live benchmark),每月随新发布的CDSR综述自动更新,以缓解预训练数据泄露和结论时效性问题。 - **任务定义**:将综述的"Objectives"(目标)转化为基于PICO框架(人群、干预、对照、结局)的临床问题,以"Authors' Conclusions"(作者结论)作为参考答案,形成端到端的科学问答对。 - **质量控制**:通过医学领域专家(两名医学生)验证问题质量,确保**忠实性(Faithfulness)**(92%)、**PICO完整性**(92%)和**清晰可答性**(96%)。 2\. 实施清洁室评估:SCICONHARNESS **解决核心问题**:开放域评估中的**基准泄露(Benchmark Leakage)**——模型可能通过检索直接获取真实答案(如Cochrane原文),将"合成"任务简化为"检索"任务,导致性能虚高。 **具体方法**: - **工具控制环境**:基于MCP(Model Context Protocol)构建评估框架,统一提供三种工具: - `google_search`:网络搜索(Serper API) - `web_browse`:网页浏览(Jina API) - `paper_search`:论文检索(Semantic Scholar API) - **清洁室协议(Clean-Room Protocol)**: - **URL过滤**:拦截所有来自Cochrane域名(如cochrane.org)的搜索结果 - **内容过滤**:过滤包含"cochrane"关键词或真实综述标题的内容 - **时间过滤**:拦截综述发表日期之后的文献(防止通过后续引用间接泄露) - **浏览过滤**:对网页内容进行实时扫描,移除包含真实结论的片段 - **验证有效性**:人工验证显示,该协议对真实CDSR文章的**过滤召回率达100%**,精确率达0.933,确保评估测量的是**真实合成能力**而非**记忆或捷径检索**。 3\. 建立专家验证的事实性评估流程 **解决核心问题**:长篇科学结论的主观评估困难,以及如何量化"正确性"与"全面性"。 **具体方法**: - **原子事实分解(Atomic Fact Decomposition)**: 将模型生成的结论和专家参考答案均分解为**原子事实**(包含单一信息点的自包含陈述)。流程包括: 1. 句子切分与预处理 2. 使用GPT-5.1分解为原子事实 3. 去上下文化(Decontextualization):补全指代和省略内容 4. 相关性过滤与冗余消除 专家验证显示,生成的原子事实**忠实度达96.4%**,**完整度达96.0%**。 - **双维度事实性指标**: - **事实性精确率(Factual Precision)**:衡量生成结论的正确性 Precision = (1) / (|varepsilon_x|) ∑_(e ∈ varepsilon_x) 1[e is SUPPORTED] · (1 - (1) / (|varepsilon_x|) ∑_(e ∈ varepsilon_x) 1[e is CONTRADICTED]) 惩罚与参考综述矛盾的事实。 - **事实性召回率(Factual Recall)**:衡量生成结论的覆盖度 Recall = (1) / (|varepsilon'_A|) ∑_(e' ∈ varepsilon'_A) 1[e' is SUPPORTED BY x] 测量参考答案中的事实被生成结论支持的比例。 - **事实性F1(Factual F1)**:精确率与召回率的调和平均,作为总体质量指标。 - **LLM评判器验证**: 使用GPT-5.4-mini作为评判器,通过**专家标注的金标准数据集**(129个精确率标签,119个召回率标签)验证。结果显示LLM评判器与医学专家的一致性(Cohen's kappa = 0.512-0.695 )**达到甚至超过专家间一致性**,且通过"替代标注者测试"(Alternative Annotator Test),证明其可作为可靠的人工替代。 4\. 系统性评估与审计 **解决核心问题**:缺乏对前沿模型和消费者级代理在实际高风险场景(如医疗健康)中性能的客观审计。 **具体方法**: - **多设置对比评估**: - **Base**:仅使用参数知识(无工具) - **SCICONHARNESS(无清洁室)**:允许工具使用,但可访问真实答案 - **SCICONHARNESS + Clean-Room**:工具使用+清洁室隔离 实验显示,清洁室设置使所有模型的F1分数降低**0.02–0.172**,证明先前 unconstrained 评估高估了真实合成能力。 - **消费者代理审计**: 对部署中的**Google AI Overview**、**Google AI Mode**和**OpenEvidence**进行审计。发现即使这些系统可访问真实答案,仍有\*\*44.8%–59%\*\*的生成结论包含至少一个与参考综述矛盾的事实,且召回率仅36.1%–52.2%,揭示其在高风险医疗决策中的可靠性隐患。 总结 论文通过**SCICONBENCH**提供大规模、实时、专家级的评估数据;通过**SCICONHARNESS**强制实施清洁室隔离,确保评估建构效度(construct validity);通过**原子事实分解与双维度事实性指标**实现可扩展的客观评估。这一体系首次系统性地揭示了当前AI代理在科学结论合成任务中的真实能力边界——即使在最佳条件下,最先进代理的F1分数也仅为0.337(清洁室)至0.508(无清洁室),证明可靠科学合成仍是未解决的开放挑战。

Q: 论文做了哪些实验?

该论文开展了系统性的实验评估,涵盖**前沿模型与深度研究代理的基准测试**、**消费者级AI系统的公开审计**,以及**多维度附加分析**。以下是主要实验内容: 1\. 基准性能评估(Benchmark Performance Evaluation) 在 **SCICONBENCH**( N=268 样本,选取自模型知识截止日期后发布的CDSR综述)上评估了8个前沿模型和深度研究代理,对比三种评估设置: | 设置 | 说明 | | --- | --- | | Base | 仅使用参数知识,无工具访问 | | SCICONHARNESS | 配备工具(搜索、浏览、论文检索),允许访问真实答案(无清洁室) | | SCICONHARNESS + Clean-Room | 配备工具,但强制隔离真实CDSR综述(清洁室协议) | **评估对象**: - **基础模型**:gpt-5.1、claude-sonnet-4.5、gemini-3-pro - **推理模型**:sonar-reasoning-pro - **深度研究代理**:DR Tulu(开源)、sonar-deep-research、o4-mini-deep-research、o3-deep-research **关键指标**: - **Factual Precision**:生成事实被参考综述支持的比例,惩罚矛盾 - **Factual Recall**:参考事实被生成结论覆盖的比例 - **Factual F1**:精确率与召回率的调和平均 **主要发现**: - **清洁室显著降低性能**:所有系统在清洁室设置下F1降低 0.02-0.172 。例如,o3-deep-research 的F1从 0.508 (无清洁室)降至 0.337 (清洁室),表明先前 unconstrained 评估高估了真实合成能力。 - **工具使用的异质性**:Claude-sonnet-4.5 通过工具获得最大提升(F1 +0.091 ),而Gemini-3-pro 性能下降,显示工具整合能力差异显著。 - **深度研究代理优势与局限**:o3-deep-research 在所有设置中表现最佳,但清洁室下仍仅达 0.337 的F1;DR Tulu 作为开源代理成本最低但性能最弱。 2\. 消费者级AI系统审计(Auditing Consumer-Facing Agents) 对实际部署的、面向公众和临床医生的AI系统进行独立审计,评估其在相同 N=268 样本上的事实性质量(无清洁室限制,允许系统访问网络全文): | 系统 | Factual Precision | Factual Recall | Factual F1 | 矛盾率(≥1 Contr.) | | --- | --- | --- | --- | --- | | Google AI Mode | 0.443 | 0.380 | 0.361 | 59.0% | | Google AI Overview | 0.508 | 0.367 | 0.384 | 56.3% | | OpenEvidence | 0.580 | 0.541 | 0.522 | 50.8% | **关键发现**: - **高矛盾率**:即使可访问真实答案, 50.8%-59.0% 的生成结论仍包含至少一个与Cochrane综述矛盾的事实。 - **覆盖不足**:召回率仅 36.7%-54.1% ,大量关键证据被遗漏。 - **临床风险**:OpenEvidence 作为专门面向医生的平台,仍有超过半数结论存在事实矛盾或严重遗漏。 3\. 工具使用模式分析(SCICONHARNESS Tool Usage Patterns) 量化分析不同模型在 **SCICONHARNESS** 中的工具调用行为(表S17): - **工具选择偏好**: - OpenAI 代理(gpt-5.1、o3/o4-deep-research)重度依赖 `google_search` 和 `web_browse`(平均 6.5-9.1 次/查询)。 - Claude 和 Gemini 更依赖 `paper_search`(学术文献检索),调用 `google_search` 较少。 - **清洁室过滤率**: - `google_search` 的过滤率高达 49.6%-81.8% (Claude-sonnet-4.5 最高),证实网络搜索是基准泄露的主要渠道。 - `web_browse` 和 `paper_search` 过滤率较低( 0-11.9% ),但仍存在泄露风险。 4\. 失败模式分析(Failure Mode Analysis) 人工抽样分析 N=30 个生成结论,识别三类主要错误模式(附录§I.3): - **效应方向错误(Direction-of-Effect Errors)**:模型颠倒治疗效应的方向(如将"无显著改善"表述为"显著降低死亡率"),这对临床决策最具危害性。 - **证据质量误表征(Evidence Quality Mischaracterization)**:将"低/极低确定性"证据描述为"高质量",或反之,误导用户对证据可信度的判断。 - **特异性缺失(Lack of Specificity)**:将不同结局(outcomes)的效应混为一谈,忽略次要结局(如生活质量),仅关注主要终点(如死亡率),导致结论过于笼统。 5\. 结论长度影响分析(Impact of Conclusion Length) 分析生成结论长度(词数)与事实性指标的关系(图S27): - **精确率-长度负相关**:更长结论伴随更低的事实性精确率(新增内容更易出错)。 - **召回率-长度正相关**:更长结论覆盖更多参考事实。 - **F1 对长度稳健**:F1 分数作为调和平均,不会因单纯增加长度而虚高,确保评估聚焦于生成质量而非 verbosity。 6\. 成本-性能帕累托前沿分析(Pareto Frontier Analysis) 评估性能与资源消耗的权衡(附录§I.5): - **性能-成本**(图S28-S30):清洁室约束使帕累托前沿扁平化(性能下降)。DR Tulu 位于成本效率前沿(低成本低性能),o3-deep-research 位于高性能高成本端。 - **性能-时间**(图S31-S33):清洁室设置不仅降低性能,还增加生成时间( +20%-50% ),反映模型需进行更深入的 genuine synthesis 而非快速检索。 7\. 标签分布与错误率统计(Label Distribution Analysis) 统计生成结论中各类事实标签的分布(表S15、S16): - **矛盾事实普遍性**: 44.8%-84.0% 的生成结论包含至少一个与参考综述矛盾的事实(清洁室下更高)。 - **不支持事实普遍性**:几乎所有结论( 94%-100% )都包含至少一个未被参考综述支持的事实。 - **召回缺口**:清洁室下,模型仅支持 15.3%-38.2% 的参考事实,大量关键信息缺失。 这些实验共同证明:**在受控清洁室环境下,当前AI代理的科学结论合成能力远低于先前估计,且面向消费者的系统在高风险医疗场景中仍存在显著安全隐患。**

Q: 有什么可以进一步探索的点?

基于论文的局限性讨论(§A.1)及实验发现,以下方向值得进一步探索: 1\. 跨领域扩展与泛化 当前基准主要基于循证医学的Cochrane综述,未来可扩展至**社会科学、法学、环境科学**等领域的系统性综述。需验证清洁室评估协议(如基于不同领域数据库的泄露过滤)的可迁移性,并探索不同学科在证据整合逻辑(如定量meta分析 vs. 定性证据合成)上的差异对AI代理能力的挑战。 2\. 中间推理过程的显式评估 现有工作聚焦于最终结论的事实性,未解构**多跳推理、证据筛选、冲突消解、证据质量评估**等中间环节。未来可构建细粒度评估框架,分析代理在以下方面的能力边界: - 识别高风险偏倚研究并降权的能力 - 处理效应量异质性(heterogeneity)的统计推理 - 时间维度上的证据更新策略(如何处理相互矛盾的新旧研究) 3\. 下游决策影响与决策损失建模 当前指标(Factual Precision/Recall)未直接量化错误合成对**临床决策、政策制定**的实际影响。需开发\*\*决策损失(Decision Loss)\*\*指标,评估: - 遗漏关键不良反应信息对治疗选择的影响 - 效应方向错误导致的危害(如将"无效"误判为"有效") - 不同用户群体(专家vs.公众)对合成错误的敏感性差异 4\. 真实世界查询复杂性 现有基准使用结构化PICO问题,而实际用户查询常呈现\*\* underspecified、对话式、多轮交互\*\*特征。未来工作应评估代理在以下场景的表现: - 基于不完整症状描述的病因推断 - 多轮澄清后的动态证据检索 - 跨语言、跨文化的健康信息寻求(非英语Cochrane综述及本地证据整合) 5\. 鲁棒性泄露防护与对抗性评估 尽管SCICONHARNESS实现了对直接泄露的100%过滤,**间接泄露**(如新闻改写、博客摘要)仍可能存在。未来可: - 构建对抗性测试集,评估代理对"改写版ground truth"的抵抗力 - 开发基于语义的泄露检测(而非关键词匹配),识别释义后的结论泄露 - 研究预训练数据污染对合成能力的长期影响 6\. 人机协作式科学合成 探索**人类专家与AI代理的混合架构**,如: - 代理辅助的半自动化综述更新(人类审核关键决策节点) - 可解释的合成路径展示(证据如何被加权、冲突如何解决) - 交互式证据探索(允许用户质疑并请求代理提供支撑文献) 7\. 动态证据整合与实时更新 Cochrane综述每两年更新一次,但科学证据持续涌现。需研究: - 代理如何识别并整合**发表后新证据**(post-publication evidence) - 自动监测证据确定性变化(如从"低确定性"升至"高确定性")的机制 - 处理预印本(preprints)与正式发表文献的可靠性差异 8\. 多模态科学证据合成 当前仅处理文本证据,未来可扩展至: - 整合**图表、森林图(forest plots)、患者影像**的多模态推理 - 结构化数据(如IPD-Individual Patient Data)的聚合分析能力 - 临床试验注册库(ClinicalTrials.gov)与发表文献的交叉验证 9\. 校准与不确定性沟通 实验显示代理常过度自信(生成矛盾结论)。需改进: - 证据确定性(certainty of evidence)的校准表达 - 当证据不足时的\*\*知情放弃(known unknowns)\*\*声明机制 - 对冲突证据的透明呈现(而非强行达成虚假共识) 10\. 成本-效益优化的合成策略 基于帕累托前沿分析(§I.5),研究如何在有限预算下最大化合成质量: - 自适应工具使用(何时停止检索?) - 小模型与大模型的级联架构(初步筛选→深度合成) - 针对特定查询复杂度的计算资源分配策略

Q: 总结一下论文的主要内容

这篇论文针对**AI代理在开放域科学结论合成任务中的能力评估**这一核心问题,提出了系统性的解决方案并揭示了当前技术的显著局限。 核心问题 随着AI代理(如ChatGPT、Perplexity、OpenEvidence)越来越多地被用于 synthesize 科学证据以支持医疗、政策和科学决策,现有评估存在三大缺陷:基准规模小且静态、集中于中间产物(如检索或摘要)而非完整结论、以及**基准泄露(benchmark leakage)**——模型可通过检索直接获取真实答案(如Cochrane综述原文),将复杂的"合成"任务简化为"检索"任务,导致性能虚高。 主要贡献 1\. SCICONBENCH:大规模实时基准 - 基于**Cochrane系统综述数据库**(循证医学金标准)构建,包含**9,107个问答对** - 每月自动更新,纳入新发布的综述,缓解预训练数据泄露和时效性问题 - 将综述目标转化为基于PICO框架的临床问题,以专家撰写的"作者结论"作为参考答案 2\. SCICONHARNESS:清洁室评估框架 - 通过MCP协议提供受控的网络工具(搜索、浏览、论文检索) - 实施**清洁室协议(clean-room protocol)**:过滤所有指向Cochrane真实综述的URL、包含特定关键词的内容,以及综述发表日期之后的文献,确保模型无法直接获取 ground truth - 验证显示对真实综述的**过滤召回率达100%**,确保评估测量的是**真实证据综合能力**而非记忆或捷径检索 3\. 专家验证的事实性评估流程 - **原子事实分解**:将长文本结论拆解为自包含的单一信息单元(atomic facts),经专家验证忠实度达96.4% - **双维度指标**: - **事实性精确率(Precision)**:生成事实被参考综述支持的比例(惩罚矛盾) - **事实性召回率(Recall)**:参考事实被生成结论覆盖的比例 - **事实性F1**:调和平均,综合衡量正确性与全面性 - **LLM评判器验证**:使用GPT-5.4-mini作为评判器,经医学专家验证,其判断与专家一致性达到甚至超过专家间一致性(Cohen's κ = 0.51-0.70) 关键实验发现 基准测试结果( N=268 ) - **清洁室显著降低性能**:8个前沿模型和深度研究代理(包括o3-deep-research、Claude、Gemini)在清洁室设置下F1分数降低**0.02–0.172** - **最佳性能仍不理想**:即使是最先进的o3-deep-research,在清洁室下F1仅为**0.337**(无清洁室时为0.508),表明可靠科学合成仍是未解决的挑战 - **工具使用差异**:Claude通过工具获得显著提升(F1 +0.091),而Gemini性能下降,显示工具整合能力存在显著差异 消费者级代理审计 对实际部署的**Google AI Overview**、**Google AI Mode**和**OpenEvidence**(面向医生的临床AI平台)进行审计发现: - **高矛盾率**:即使可访问网络全文,\*\*50.8%–59.0%\*\*的生成结论仍包含至少一个与Cochrane综述矛盾的事实 - **覆盖不足**:事实性召回率仅36.7%–54.1%,大量关键证据被遗漏 - **临床风险**:OpenEvidence虽有最高F1(0.522),但仍有半数以上结论存在事实错误或严重遗漏,在高风险医疗决策中隐患显著 错误模式分析 人工审计识别出三类主要失败模式: 1. **效应方向错误**:颠倒治疗效应方向(如将"无效"说成"显著改善") 2. **证据质量误表征**:将低确定性证据描述为高质量,或反之 3. **特异性缺失**:混淆不同结局的效应,忽略次要但重要的临床指标 结论与意义 论文首次系统性地证明:**在受控清洁室环境下,当前AI代理的科学结论合成能力远低于先前估计**。清洁室评估是测量开放域AI代理真实能力的必要条件,可防止将"检索记忆"误判为"genuine synthesis"。研究呼吁在将此类系统部署于高风险健康决策场景前,必须建立更可靠的事实性保障机制,并强调了开发能够真正整合、权衡和综合异质科学证据的AI系统的紧迫性。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 [**这里**](http://kimi.com/_prefill_chat?prefill_prompt=我们要讨论的论文是Can%20AI%20Agents%20Synthesize%20Scientific%20Conclusions%3F,链接是https://arxiv.org/pdf/2606.11337,已有的FAQ链接是https://papers.cool/arxiv/kimi?paper=2606.11337。请以此为基础,继续回答我后面的问题。&system_prompt=你是一个学术助手,后面的对话将围绕着以下论文内容进行,已经通过链接给出了论文的PDF和论文已有的FAQ。用户将继续向你咨询论文的相关问题,请你作出专业的回答,不要出现第一人称,当涉及到分点回答时,鼓励你以markdown格式输出。&send_immediately=true) 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。 {% endhideToggle %}

Authors: Hayoung Jung, Pedro Viana Diniz, José Reinaldo Corrêa Roveda, Abner Fernandes da Silva, Haeun Jung, Enoch Tsai, Aleksandra Korolova, Manoel Horta Ribeiro

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11337.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11337

Published: 2026-06-11T02:20:05.764Z


4. Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents

Abstract:In hierarchical reasoning, failures often originate at intermediate decision points where the agent commits to a wrong branch without recognizing that it lacks critical information. Rather than treating clarification as an external uncertainty trigger, we propose ACTION-RATING, a formulation that places it inside the agent’s action space on a shared ordinal scale with navigation, so that asking competes directly with acting at every decision point and help-seeking becomes observable at intermediate states. Two structurally distinct information-seeking modes emerge from the agent’s own ratings: mandatory (no viable branch) and opportunistic (residual uncertainty despite a leading candidate). On Harmonized Tariff Schedule classification (30,000-node taxonomy, three benchmarks, 9~LLMs across 4 families), we observe a regime shift from mandatory to opportunistic clarification, with Information-Seeking Effectiveness (ISE), a local diagnostic defined as the fraction of help interactions followed by a correct next navigation step (not a final-task metric), rising from 50% to 74%. Three diagnostic contrasts fail to reproduce this structure. A separability test shows that the information-seeking pattern (mode split, ISE ranking) persists when answer quality is degraded (-18.8% accuracy), supporting an empirical separation between where an agent seeks help and the quality of the help it receives. Under the controlled answer channel, accuracy gains reach +16.2% at 10-digit; we read this as an upper bound on what better localization could unlock, not a deployment estimate.

{% hideToggle 中文摘要 %} 摘要:在分层推理中,失败通常源于中间决策点,即智能体在没有意识到缺少关键信息的情况下选择了错误的分支。我们提出ACTION-RATING方法,将澄清问题置于智能体的动作空间内,并与导航在同一序数尺度上进行比较,这样在每个决策点提问就能直接与行动竞争,并且在中间状态下寻求帮助变得可观察。通过智能体自身评分,出现了两种结构上不同的信息寻求模式:强制型(没有可行分支)和机会型(即使有领先候选分支仍存在剩余不确定性)。在《协调关税表》分类中(30,000节点分类法、三个基准、4个系列共9个大语言模型),我们观察到澄清模式从强制型向机会型转变,信息寻求有效性(ISE,一种局部诊断指标,定义为帮助交互后跟随正确下一导航步骤的比例,而非最终任务指标)从50%提升至74%。三种诊断对比未能重现该结构。可分性测试显示,当答案质量下降(准确率下降18.8%)时,信息寻求模式(模式划分、ISE排序)仍然存在,支持了智能体寻求帮助的场景与所获得帮助质量之间的经验分离。在受控答案通道下,准确率提升可达10位数+16.2%;我们将其解读为更好定位能力可能释放的上限,而非部署估计。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**层次化推理(hierarchical reasoning)中语言智能体的中间决策错误问题**——即智能体在缺乏关键信息的情况下盲目提交到错误的中间分支,导致后续推理在错误路径上不断深化,且现有方法无法有效识别和干预这种"过早承诺"(premature commitment)现象。 具体而言,论文针对以下三个核心缺陷提出解决方案: 1\. 信息需求的位置不可观测 在深度分类体系(如海关税则、医学编码)中,现有方法将澄清(clarification)视为外部触发机制(如置信度阈值、采样不一致性或提示指令),导致**无法区分两种本质上不同的信息缺失状态**: - **强制性澄清**(mandatory):当前无可行分支,智能体完全阻塞 - **机会性澄清**(opportunistic):存在领先候选分支,但残余不确定性需要针对性消除 2\. 帮助定位与答案质量的混淆 现有设计将"是否询问"与"如何行动"解耦,导致无法分离两个独立因素: - **定位能力**(where to ask):智能体识别需要外部信息的状态的能力 - **答案质量**(what is received):实际获得的澄清信息的质量 这使得无法判断性能提升究竟是来自更精准地识别需要帮助的状态,还是仅仅因为获得了更好的外部信息。 3\. 中间决策点的自我纠错缺失 传统方法仅在最终答案层面评估不确定性,而层次化推理的关键风险在于**中间步骤的不可逆承诺**。一旦智能体在早期层级(如2位或4位编码)选择错误分支,后续所有导航都只是在错误路径上的无效细化。 解决方案框架 论文提出**ACTIONRATING**机制,将澄清动作纳入智能体的动作空间,与导航动作在共享的 $ 0,100 $ 序数尺度上直接竞争: (a_i, s_i, r_i)_(i=1)^K, quad a^* = argmax_i s_i 其中 a_i 包括所有候选导航动作和专门的 need_clarify 动作, s_i 为序数分数。这种设计使得: - 澄清请求成为与"向下遍历"、"回溯"等并列的可选动作 - 通过阈值 τ 实现自我门控(self-gated),无需外部不确定性估计器 - 产生可观测的行为模式转移(从强制性到机会性澄清),并通过**信息寻求有效性**(ISE, Information-Seeking Effectiveness)指标量化局部决策质量: ISE = (# QA followed by correct traverse) / (# total QA interactions) 在Harmonized Tariff Schedule(HTS,30,000+节点的层次分类体系)上的实验表明,该框架实现了从强制性(35.2%)到机会性(88.7%)澄清的制度转变,ISE从50%提升至74%,并在控制答案质量的条件下实现+16.2%的10位编码准确率提升。

Q: 有哪些相关研究?

该论文与以下六个研究方向密切相关,并在每一点上提出了结构性区别: 1\. 结构化推理的LLM智能体 相关工作包括ReAct(交错推理与工具调用)、Tree-of-Thoughts与LATS(分支式思维搜索)、Reflexion(言语自我反思)、Toolformer(API调用学习)以及Cognitive Architectures(认知架构统一框架)。 **区别**:现有方法主要在**扁平或轻结构化动作空间**中操作,而本文针对**深度层次化分类体系**(如海关税则、医学编码),其中每一步都会不可逆地收缩搜索空间。 2\. 自我评估与不确定性估计 涵盖Self-Consistency(基于采样一致性的置信度代理)、Self-Refine(通过自我批评迭代优化)、过程奖励模型(训练验证器评分中间步骤)、LLM-as-Judge(通过提示比较评估输出),以及关于LLM校准性的研究(考察模型表达的置信度是否与正确性相关)。 **区别**:现有方法对**最终答案**进行评分或测量**采样间的一致性**;本文则对**候选动作(包括澄清)在共享序数尺度上进行评分**,使得澄清与导航直接竞争,而非由最终答案置信度或采样分歧触发。 3\. 信息寻求与澄清 包括主动学习(选择查询以最大化模型改进)、交互式NLP、对话式搜索(研究何时询问及询问什么),以及询问澄清问题的数据集研究。 **区别**:先前工作假设存在**外部不确定性估计器**或**人类对话者**;本文机制完全基于智能体自身的动作评分实现**自门控(self-gated)**,无需外部触发器。 4\. 选择性预测与弃权 涉及选择性预测(允许模型在不确定时弃权,以覆盖率换取准确率)和相关理论框架。 **区别**:与弃权(abstention)不同,本文机制不是拒绝预测,而是**主动寻求信息**——通过执行澄清动作来获取外部知识,然后继续推理。 5\. 层次化分类 包括层次化文本分类方法(如HDLTex、HFT-CNN、层次化标签分配等),这些方法通常在taxonomy树上训练端到端分类器。 **区别**:本文研究的是**LLM智能体在taxonomy树中的交互式导航**,具备在任意节点寻求帮助的能力,而非训练固定分类器。 6\. 多步推理 涵盖思维链(Chain-of-Thought)、least-to-most提示、分解式提示(Decomposed Prompting)、PAL(程序辅助语言模型)、scratchpads(中间计算草稿纸)、STaR(通过推理自举)、Graph-of-Thoughts等。 **区别**:这些方法专注于**提升推理本身的质量**;本文专注于**测量推理何时需要外部帮助**(help localization),通过将澄清纳入动作空间来定位需要干预的中间决策点。 关键差异化总结 | 维度 | 现有研究 | 本文工作 | | --- | --- | --- | | 动作空间 | 扁平或浅层结构 | 深度层次化taxonomy(30,000+节点) | | 不确定性处理 | 最终答案置信度或采样一致性 | 候选动作间共享序数评分 s_i ∈ [0,100] | | 澄清触发 | 外部阈值或人类指令 | 自门控: need_clarify 在 argmax 中与导航竞争 | | 评估对象 | 最终任务准确率 | 信息寻求有效性(ISE):局部决策效用 ISE = (# QA followed by correct traverse) / (# total QA interactions) |

Q: 论文如何解决这个问题?

论文通过提出 **ACTIONRATING** 框架解决上述问题,核心在于将澄清请求内化为智能体动作空间中的原生竞争选项,而非外部触发的辅助机制。具体实现路径如下: 1\. 动作空间重构:澄清作为竞争性选项 将层次化导航建模为马尔可夫决策过程 M = (S, A, T, R) ,其中动作集 A 包含五种类型: - traverse_child (向下遍历) - backtrack (回溯) - need_clarify(q) (发起澄清) - jump(c) (跨分支跳转) - confirm (确认叶节点) 关键创新在于:** need_clarify 与导航动作在同一决策步骤中竞争**。在每一步 t ,智能体生成候选动作集合的评分: (a_i, s_i, r_i)_(i=1)^K, quad a^* = argmax_(i) s_i 其中 a_i 为候选动作(包括 need_clarify ),$s_i ∈ 0,100 为序数相关性分数, r\_i$ 为理由陈述。澄清动作与遍历动作共享同一评分尺度,使得"询问"与"行动"的权衡显式可观测。 2\. 自我门控机制(Self-Gated Trigger) 无需外部置信度估计器,通过阈值 τ 实现自我门控: Clarify fires iff ∃ i ≤ K: a_i = need_clarify land s_i ≥ τ 触发后执行四阶段循环: 1. **Detect**:识别 need_clarify 在 top-K 中且 s_i ≥ τ 2. **Clarify**:调用子智能体 a = ClarifyAgent(q, item) 生成问题 3. **Inject**:将 langle Q, A rangle 注入观察 o_t 4. **Re-select**:在丰富后的观察上重新执行动作选择(reentry) 该过程完全内嵌于单步导航循环,无需修改外部控制流。 3\. 双模式信息需求结构 基于 need_clarify 的排名位置,从智能体自身评分中衍生出两种可观测模式: - **强制性澄清(Mandatory)**: need_clarify 排名为 1(最高分),无可行导航分支 - **机会性澄清(Opportunistic)**:导航动作排名为 1,但 need_clarify 位于 2–K 位且 s_i ≥ τ 这两种模式对应不同的信息价值: - 强制性:解决"阻塞状态"(no viable branch) - 机会性:解决"残余不确定性"(residual uncertainty despite leading candidate) 4\. 控制答案通道(Controlled Answer Channel) 为分离"帮助定位"(where to ask)与"答案质量"(what is received),论文设计了控制实验条件: - **控制条件**:固定高质量答案(模拟知识渊博的产品负责人),仅提供领域/技术规格知识(材料成分、用途、制造方法),显式屏蔽分类代码 - **降级条件**:用自动生成答案替换控制通道,作为可分离性测试 该设计使得行为分析能够隔离定位能力的影响,避免与答案源质量混淆。 5\. 信息寻求有效性指标(ISE) 定义局部诊断指标 ISE 量化澄清的即时效用: ISE = #QA interactions followed by correct traverse{#total QA interactions} ISE 测量的是**下一步导航正确率**而非最终任务准确率,从而敏感地捕捉智能体是否在"正确的状态点"寻求帮助,而不受后续答案质量波动的影响。 6\. 实现架构分层 采用两层架构确保可移植性: - **Layer 1(领域实例化)**:知识图谱、GRI(General Rules of Interpretation)协议、答案通道(HTS特定,需按领域重新实现) - **Layer 2(测量协议)**:动作空间公式化、强制/机会模式分析、ISE计算、阈值扫描(可移植到任何树状推理任务) 效果验证 在Harmonized Tariff Schedule(30,000+节点)上的实验显示: - **制度转移**:强制性比例从 35.2% 降至 13.9%,机会性比例从 0% 升至 88.7% - **局部效用提升**:ISE 从 50% 提升至 74% - **准确率增益**:在控制答案条件下,10位编码准确率从 50.8% 提升至 67.0%(+16.2%) - **可分离性验证**:降级答案导致准确率崩溃(-18.8%),但信息寻求模式(模式分割、ISE排名)保持不变,证实定位能力与答案质量可经验分离

Q: 论文做了哪些实验?

论文围绕 **ACTIONRATING** 机制设计了系统性实验,涵盖**行为分析**、**诊断对比**、**可分离性验证**和**跨域泛化**四个维度。以下是实验设计的完整梳理: 1\. 实验任务与数据集 **任务定义**:Harmonized Tariff Schedule (HTS) 层次化分类,将自由文本产品描述映射到10位数字海关编码,涉及30,000+节点的5层分类体系(Chapter → Heading → Subheading → Tariff Item → Statistical Suffix)。 **三个基准数据集**: | 数据集 | 样本量 | 来源 | 特性 | | --- | --- | --- | --- | | CBP-NY | 1,181 | 美国海关公开裁定(CROSS) | 主要实验与调参数据集 | | ATLAS | 200 | 独立基准(Yuvraj & Devarakonda, 2025) | 跨数据集泛化测试(零样本) | | HSCodeComp | 632 | 专家标注(Yang et al., 2025) | 专家级难度泛化测试 | 2\. 评估模型与基线 **9个LLM(4个家族)作为导航器**: - **Claude家族**:Opus 4.6, Sonnet 4.5, Haiku 4.5 - **DeepSeek**:V3 (671B) - **开源模型**:Kimi K2 (1T), Mistral Large 3 (123B), GPT-OSS 120B, Minimax M2 (230B), Qwen3 (235B) **核心对比条件**(表1): - **Baseline**:贪婪动作选择(无评分/无澄清) - **ACTIONRATING (τ=10)**:自门控澄清(主要提案) - **诊断对比**(测试替代触发机制): - _CoT-Ask-if-Unsure_:提示级指令("不确定时询问") - _Self-Consistency (N=3)_:基于采样不一致性的触发(~19 LLM调用/样本) - _Rating-only (τ=101)_:消融实验(保留评分但禁用门控) 3\. 核心实验结果 (1) 信息寻求行为分析(§5.1, 表1) **行为制度转移**(Claude Opus 4.6): | 指标 | Baseline | ACTIONRATING (τ=10) | 变化 | | --- | --- | --- | --- | | 强制澄清比例 | 35.2% | 13.9% | ↓ 21.3 pp | | 机会澄清比例 | 0.0% | 88.7% | ↑ 88.7 pp | | ISE(信息寻求有效性) | 50% | 74% | ↑ 24 pp | | 10位准确率 | 50.8% | 67.0% | +16.2% | **关键发现**:三个诊断对比(CoT-Ask-if-Unsure、Self-Consistency、Rating-only)均**无法复现**该制度转移结构,证明共享尺度竞争的必要性。 (2) 阈值敏感性分析(§5.3, 附录L表10) 扫描 τ ∈ 1, 10, 30, 50, 101 绘制行为相图: - ** τ=1 **(几乎总询问):ISE降至62%,准确率72.5%但成本过高(5.9 QA/样本) - ** τ=10 **(最佳平衡点):ISE峰值74%,准确率67.0%,成本适中(2.4 QA/样本) - ** τ=101 **(从不询问):等价于Rating-only,准确率与基线持平(-0.9%) **相变点**: τ=50 to 30 时机会性澄清从9.7%跃升至51.9%,标志广泛激活 opportunistic 模式的临界阈值。 (3) 可分离性测试(§5.4, 附录C表2) **实验设计**:固定智能体,替换答案源(控制通道 → 自动生成答案) | 条件 | 10位准确率 | ISE | 模式分割(强制/机会) | | --- | --- | --- | --- | | 控制答案 | 67.0% | 73.7% | 14% / 89% | | 降级答案 | 48.2% | 56.2% | 保留相同排名 | **结论**:答案质量降级导致准确率崩溃(-18.8%),但**信息寻求模式(ISE排名、模式分割)保持稳定**,支持"定位能力"与"答案质量"的经验可分离性。 (4) 知识通道审计(§5.4, 附录D表3-5) 对2,875个Q/A对进行人工审计: - **仅0.8%**(23对)的回答包含分类标准(CC)直接确认 - \*\*80%\*\*为纯产品属性(PA)回答 - **CC回答的ISE(62.5%)低于PA回答(76.2%)**,反驳"Oracle泄漏"假设 (5) 跨模型与跨基准泛化(附录J-K) - **跨模型**(表8):τ=10锁定后应用于4个LLM家族(Claude, DeepSeek, GPT-OSS, Qwen3),所有模型均表现出强制→机会的制度转移和ISE提升,证实行为特征的可迁移性。 - **跨基准**(表9):在ATLAS和HSCodeComp上使用CBP-NY锁定的τ=10,准确率分别提升+22.1%和+22.5%,证明无需数据集特定调参。 4\. 消融与机制分析 | 实验 | 目的 | 关键结果 | | --- | --- | --- | | MDP组件消融(附录E表6) | 验证框架设计 | 移除clarify(-3.9%)和jump(-3.8%)导致最大性能下降,验证跨树导航与信息寻求的必要性 | | Rating-only消融(附录I表7) | 分离评分与门控效应 | τ=101时准确率-0.9%,无机会性澄清事件,证明**门控(gating)而非评分(scoring)**驱动制度转移 | | 轨迹分析(附录M表11-12) | 验证澄清的纠正功能 | 当智能体已偏离正确路径时,机会性澄清仍有67.3%的ISE,证实其主动纠错能力 | 5\. 成本-准确率权衡(§6, 图3) - **基线**:6.0 LLM调用/样本 - **ACTIONRATING (τ=10)**:10.4调用/样本(+73%开销),准确率+16.2% - **Self-Consistency (N=3)**:~19调用/样本(3.2×成本),准确率+8.7% **结论**:ACTIONRATING位于帕累托前沿,以更低成本实现更高准确率提升。

Q: 有什么可以进一步探索的点?

基于论文的Discussion(§6)与Limitations部分,以下方向值得进一步探索: 1\. 答案源质量的阶梯式降级研究(Answer-Source Ladder) 当前工作通过**控制答案通道**(模拟知识渊博的产品负责人)与**完全自动生成的降级答案**建立了质量两极。未来应系统性地探索中间状态: - 检索增强生成(RAG)从非权威文档检索 - 能力较弱的LLM作为回答者 - 带噪声的人类-like响应 **目标**:绘制定位收益(localization benefit)随答案质量下降的衰减曲线,验证论文提出的"信息寻求模式保持稳定,准确率随答案质量变化"这一可分离性假设在更广泛条件下的成立性。 2\. 跨领域架构验证(Cross-Domain Portability) 论文的Layer 2(测量协议)理论上可移植到任何树状推理任务,但当前仅在HTS(海关税则)上验证。需在以下领域复现: - **医学编码**:ICD-10/11 的层次化诊断分类 - **产品分类**:CPC(Central Product Classification)或UNSPSC - **法律条文导航**:成文法体系中的条款层级 **关键问题**:不同领域的分支因子(branching factor)与信息缺口分布是否影响最优阈值 τ 的选择? 3\. 帮助寻求的三因素完整分解(Three-Factor Decomposition) 论文初步分解了帮助寻求的三个因素,但仅隔离了**定位(localization)**: Help-Seeking Utility = f(Localization, Question Quality, Answer-Source Quality) 剩余两个因素需独立研究: - **问题质量(Question Quality)**:如何优化澄清问题的信息增益(information gain)?当前子智能体采用启发式生成,未来可引入基于分类体系结构熵的问题选择策略。 - **答案源质量(Answer-Source Quality)**:当答案源不可控时,如何通过元认知(metacognition)评估答案可靠性? 4\. 延迟敏感场景的优化(Latency-Critical Deployment) 机会性澄清模式每决策点可能触发**多轮内联QA**(平均2.3 QA/记录,峰值可达6+),导致推理延迟显著增加。需探索: - **异步澄清**:允许智能体在等待答案时进行推测性导航,或缓存常见问题 - **提前终止策略**:基于部分答案动态调整重评分(reentry)的必要性 5\. 动作评分的校准与自适应(Calibration & Adaptive Thresholding) 论文明确假设LLM发出的序数评分 s_i **无需校准**(uncalibrated),但阈值 τ 可能需要针对不同模型重新调整。未来可研究: - **在线校准**:利用轨迹级反馈(如ISE信号)动态调整 τ - **模型特定的阈值映射**:为不同LLM家族(Claude、GPT、DeepSeek等)建立 τ 的迁移函数,减少领域特定调参需求 6\. 多语言与跨文化扩展(Multilingual Generalization) 当前评估仅限于**英语产品描述**。HTS作为全球贸易标准,实际涉及多语言申报。需验证: - 动作评分机制在非英语(如中文、西班牙语)描述中的稳定性 - 澄清问题生成在跨语言场景下的文化适应性(如不同国家对"用途"描述的惯例差异) 7\. 人类专家在回路中的实际效用验证(Human-in-the-Loop Validation) 论文定位为**决策支持工具**(decision-support tool),但当前评估使用模拟Oracle。实际部署需验证: - 真实海关经纪人或产品负责人回答ACTIONRATING生成问题的负担与准确性 - 人机协作界面设计:如何呈现 mandatory vs. opportunistic 模式以辅助专家判断? 8\. 机会性澄清的深度机制解释(Opportunistic Mode Mechanism) 虽然识别出机会性澄清(opportunistic clarification)的行为特征,但其内在机制可进一步解构: - **语言学分析**:机会性问题是否针对分类体系的特定结构特征(如近义词区分、阈值边界值)? - **价值信息理论(VOI)验证**:机会性澄清是否严格对应 $E Value of Information > Cost of Delay$ 的状态? 9\. 强化学习优化策略(RL-Based Optimization) 当前采用固定阈值 τ 的贪婪策略。可将ACTIONRATING形式化为部分可观察马尔可夫决策过程(POMDP),用强化学习优化: - **状态**:当前节点、历史评分分布、剩余预算 - **动作**:选择 τ 或主动终止澄清循环 - **奖励**:正确分类的最终奖励与每步澄清成本的折衷 这些方向共同指向一个核心目标:将当前作为**测量协议**(measurement protocol)的框架,转化为可部署于真实噪声环境的**鲁棒决策支持系统**。

Q: 总结一下论文的主要内容

本文提出 **ACTIONRATING** 框架,用于解决层次化语言智能体(如海关税则、医学编码等深度分类体系)中的**中间决策错误**问题——即智能体在缺乏关键信息时盲目提交至错误分支,导致后续推理在错误路径上不可逆地深化。 核心问题 现有方法将澄清(clarification)视为外部触发机制(如置信度阈值或提示指令),存在三方面缺陷: 1. **行为不可观测**:无法区分"无可行分支"(强制性)与"有领先候选但存在残余不确定性"(机会性)两种本质不同的信息需求状态; 2. **因素混淆**:将"在何处寻求帮助"(localization)与"获得何种质量的帮助"(answer quality)混为一谈; 3. **中间步骤失控**:仅在最终答案层面评估不确定性,无法识别早期层级的过早承诺。 方法框架 **ACTIONRATING** 将澄清请求 need_clarify 纳入智能体的原生动作空间,与导航动作( traverse_child 、 backtrack 等)在共享的 $ 0,100 $ 序数尺度上竞争: (a_i, s_i, r_i)_(i=1)^K, quad a^* = argmax_(i) s_i 通过阈值 τ 实现**自我门控**(self-gated):当 need_clarify 的评分 s_i ≥ τ 时触发澄清循环(生成问题→注入答案→重新评分)。由此衍生出两种可观测模式: - **强制性澄清**(Mandatory): need_clarify 排名第1,无可行导航分支; - **机会性澄清**(Opportunistic):导航动作排名第1,但 need_clarify 位列2–K位且超过阈值。 为分离定位能力与答案质量,论文设计**控制答案通道**(模拟知识渊博的产品负责人,屏蔽分类代码)与**降级答案通道**(完全自动生成)进行对比。 实验发现 在Harmonized Tariff Schedule(HTS,30,000+节点)的三项基准(CBP-NY、ATLAS、HSCodeComp)及9个LLM(4个家族)上的实验表明: 1. **制度转移**:从强制性(35.2%)向机会性(88.7%)澄清的结构转变,**信息寻求有效性**(ISE,即澄清后下一步导航正确的比例)从50%提升至74%; 2. **准确率增益**:在控制答案条件下,10位编码准确率从50.8%提升至67.0%(+16.2%),且收益随层级加深而增大; 3. **可分离性验证**:降级答案导致准确率崩溃(-18.8%),但信息寻求模式(强制/机会比例、ISE排名)保持稳定,证实智能体能够**定位需要帮助的推理状态**,即使答案质量不足以兑现该收益; 4. **诊断对比**:提示级指令(CoT-Ask-if-Unsure)与采样一致性(Self-Consistency)均无法复现该行为结构,证明共享尺度竞争的必要性。 主要贡献 - **框架层面**:首次将澄清作为与导航共享序数尺度的可选动作,实现无需外部不确定性估计器的自我门控; - **行为分析**:识别并量化从强制性到机会性澄清的制度转移,提出ISE作为局部决策效用指标; - **方法论**:通过控制答案通道与降级测试,建立帮助定位与答案质量的经验可分离性; - **实证边界**:报告+16.2%准确率为"更好定位能力所能释放的上界",而非部署估计,强调系统应作为决策支持工具而非独立分类器。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 [**这里**](http://kimi.com/_prefill_chat?prefill_prompt=我们要讨论的论文是Knowing%20When%20to%20Ask%3A%20Self-Gated%20Clarification%20for%20Hierarchical%20Language%20Agents,链接是https://arxiv.org/pdf/2606.11349,已有的FAQ链接是https://papers.cool/arxiv/kimi?paper=2606.11349。请以此为基础,继续回答我后面的问题。&system_prompt=你是一个学术助手,后面的对话将围绕着以下论文内容进行,已经通过链接给出了论文的PDF和论文已有的FAQ。用户将继续向你咨询论文的相关问题,请你作出专业的回答,不要出现第一人称,当涉及到分点回答时,鼓励你以markdown格式输出。&send_immediately=true) 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。 {% endhideToggle %}

Authors: Aijing Gao, Yiming Kang, Mengdie Flora Wang, Jae Oh Woo

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11349.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11349

Published: 2026-06-11T02:20:05.764Z


5. Automated Mediator for Human Negotiation: Pre-Mediation via a Structured LLM Pipeline

Abstract:Pre-mediation, the preparatory phase preceding direct human negotiation, plays a critical role in achieving mutually beneficial agreements, yet is often omitted due to cost, time, and limited access to trained mediators. We introduce an automated mediator for human negotiation, implemented as a structured pipeline of LLM modules, that supports pre-mediation in integrative negotiation settings. The pipeline decomposes preparation into specialized modules for dialogue, preference prediction, response-level critique, and structured summarization, separating inference, generation, and evaluation to address limitations of monolithic single-prompt approaches. We use the term “agent” for each module following common LLM-systems terminology, but the components are not autonomous and do not interact peer-to-peer; outputs are passed forward in a fixed sequence. We evaluate the system in two controlled human-subject experiments comparing AI-based pre-mediation with professional human mediators in a multi-issue negotiation scenario. On short-term self-reported measures, the automated mediator achieves preparation outcomes broadly comparable to human mediators, including trust in the mediator and confidence in reaching mutually beneficial agreements, while achieving substantially lower error on the preference-inference task under our scenario and prompts (36% lower RMSE). A second study shows that targeted prompt refinements reduce excessive affirmation patterns from 36.6% to 16.8%, matching human mediator baselines. Our findings suggest that structured LLM pipelines can provide scalable, low-effort pre-mediation support broadly comparable to human mediators on short-term self-reported preparation outcomes. The pipeline’s single-party design mirrors how human mediators run pre-mediation today and enables parallel deployment across all parties to a dispute, supporting scalability.

{% hideToggle 中文摘要 %} 摘要:预调解,即直接人类谈判之前的准备阶段,在达成互惠协议中起着关键作用,但由于成本、时间以及受过训练的调解员的获取有限,这一环节常常被省略。我们介绍了一种用于人类谈判的自动调解工具,实现为一套结构化的LLM模块流水线,在整合型谈判环境中支持预调解。该流水线将准备阶段分解为专门用于对话、偏好预测、回应级别批评和结构化总结的模块,区分推理、生成和评估,以解决单一提示整体方法的局限性。我们沿用常见LLM系统术语,将每个模块称为“代理”,但这些组件并非自治,也不进行点对点交互;输出以固定顺序向前传递。我们在两项对照人类实验中评估该系统,将基于AI的预调解与多议题谈判场景中的专业人类调解员进行比较。在短期自我报告指标上,自动化调解工具实现的准备结果在总体上可与人类调解员相媲美,包括对调解员的信任以及对达成互惠协议的信心,同时在我们的场景和提示下,偏好推断任务的误差明显较低(均方根误差降低36%)。第二项研究表明,针对性的提示优化将过度肯定模式从36.6%降低至16.8%,达到了人类调解员的基线水平。我们的研究结果表明,结构化LLM流水线可以提供可扩展、低成本的预调解支持,其短期自我报告的准备结果在总体上可与人类调解员相媲美。该流水线的单方设计反映了当前人类调解员开展预调解的方式,并使得可对争议各方并行部署,从而支持可扩展性。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**预调解(pre-mediation)阶段的可及性与可扩展性缺口**问题。 具体而言,论文针对以下核心挑战: - **资源约束导致的预调解缺失**:预调解(即冲突各方直接谈判前的准备阶段)被实证研究证明对达成互利协议至关重要,但由于时间限制、成本高昂以及训练有素的调解员数量有限,该阶段在实践中经常被省略或大幅压缩。调查显示,34%的调解员在民事案件中跳过实质性预会谈沟通,在家庭案件中这一比例高达61%。 - **规模化支持的缺失**:在数字时代,大规模、异步的谈判需求日益增长,但人类调解员的供给能力远远无法满足这一需求,导致调解服务存在严重的可及性障碍。 - **传统单提示LLM方法的局限性**:预调解涉及心理理解、共情、策略指导和伦理考量等复杂人际任务,其复杂性超出了传统单一提示(monolithic single-prompt)大语言模型方法所能提供的支持范围。 为解决上述问题,论文提出了一种**结构化的LLM管道架构**,将预调解准备分解为专门的模块(用户预测、对话、批评和总结生成),旨在以低成本、可扩展的方式提供自动化预调解支持,同时生成可供人类调解员审查的结构化报告,从而在扩大服务覆盖面的同时保持专业 oversight。

Q: 有哪些相关研究?

该论文的相关研究可分为以下三个主要领域: 1\. 预调解与冲突准备研究 该领域聚焦于预调解阶段的理论功能与实践缺口: - **Moore (2014)** 确立了预调解的核心功能,包括帮助各方识别潜在利益、管理情绪和发展现实预期,同时指出这是调解员了解各方偏好并建立 rapport 的关键机会。 - **Fisher et al. (1991)** 提出的原则性谈判(Principled Negotiation)模型强调区分立场(positions)与利益(interests),这一认知转变正是准备阶段所促进的。 - **Bush and Folger (2005)** 的变革型调解理论(Transformative Mediation)阐明了准备如何促进赋权(恢复当事人的主体感)和认可(承认对方视角)。 - **Wissler and Hinshaw (2022)** 通过对1,000余名调解员的实证调查发现,34%的调解员在民事案件中跳过实质性预会谈沟通,在家庭案件中这一比例升至61%,揭示了预调解因资源约束而被严重压缩的现状。 - **Thompson (2010)** 与 **Olekalns and Adair (2014)** 的研究表明,充分的结构化准备能显著提高联合收益并提升对协议的满意度。 2\. 基于LLM的谈判与调解支持 该领域探索大语言模型在谈判辅助中的应用: - **Westermann et al. (2023)** 与 **Tan et al. (2024)** 开发了协助人类调解员的LLM系统,功能包括重写敌对信息、建议干预策略及按需提出解决方案,但人类仍保持控制权。 - **Hua et al. (2024)** 引入了基于"价值影响"(value impact)的语境学习框架,用于重写违反规范的谈判话语。 - **Zhou et al. (2019)** 开发了基于人类对话训练的实时谈判教练,推荐卖家策略,实证显示其将利润提升了近60%,突显了情境感知策略建模的潜力。 - **Tessler et al. (2024)** 提出的"哈贝马斯机器"(The Habermas Machine)利用LLM在讨论社会或政治议题的个体间寻找共同点,通过基于预测偏好的个性化奖励模型生成候选群体声明并排序。 - **Triantafyllopoulos and Kalles (2025)** 对LLM驱动的实时共识构建促进进行了实证评估,发现ChatGPT 4.0在使参与者意见与生成提案保持一致方面最为有效。 - **Lin et al. (2014)** 证明与自动化代理训练可改善人们在谈判和协调任务中的行为表现。 3\. 面向复杂任务的分解式LLM架构 该领域关注多模块LLM系统的设计与优化: - **Guo et al. (2024)** 与 **Tran et al. (2025)** 对LLM多智能体系统(LLM-MAS)的进展与挑战进行了综述,涵盖任务分解、角色定义与智能体协调等核心问题。 - **Madaan et al. (2023)** 的Self-Refine研究表明,跨领域的迭代反馈可提升性能。 - **McAleese et al. (2024)** 的CriticGPT发现,经过训练的LLM批评者在63%的比较中优于人类评审者,且专用批评者能避免自我批评模型中出现的"思维退化"(degeneration-of-thought)现象。 - **Liang et al. (2023)** 指出,将批评者与生成器分离可避免模型强化错误推理的问题。 - **Bai et al. (2022)** 的宪法AI(Constitutional AI)证明了显式原则可指导AI自我监督。 - 在特定应用领域,**Zhu et al. (2024)** 探索了城市规划,**Li et al. (2024)** 与 **Sun et al. (2025)** 研究了个人助手,**Mushtaq et al. (2025)** 关注教育场景,而 **Hong et al. (2023)**、**Dong et al. (2023)**、**Qian et al. (2023)** 及 **Tao et al. (2024)** 则聚焦于软件开发中的多智能体协作。

Q: 论文如何解决这个问题?

该研究通过构建\*\*结构化LLM管道(structured LLM pipeline)\*\*解决预调解的可扩展性问题,具体实现方式如下: 1\. 模块化架构设计 系统将预调解分解为四个专门的LLM模块,各模块基于GPT-4o构建,按固定顺序传递输出: - **用户预测代理(User Prediction Agent)**:基于SVI(Subjective Value Inventory)框架的11个维度(包括偏好优先级、情绪状态、合作vs竞争导向等),分析对话历史并输出结构化JSON预测(含置信度分数),为对话策略提供个性化依据。 - **预调解对话代理(Pre-mediation Dialogue Agent)**:作为主要交互界面,遵循**八阶段协议**引导用户: 1. 建立 rapport 2. 深入探索跨议题偏好 3. 优先级排序与权衡分析 4. 视角采择(perspective-taking) 5. 情绪觉察 6. 信心建设 7. 关系维护 8. 结束与总结 - **批评代理(Critic Agent)**:架构上与生成模块分离,在每条回复发送前进行审查。根据研究阶段采用不同标准: - Study 1:二元输出(APPROVED/REJECTED) - Study 2:增加WARNING层级,强化对过度肯定(sycophancy)的检测 审查标准包括:非重复性、逻辑连贯、实质性推进对话、建设性挑战、伦理边界维护等。 - **总结生成代理(Summary Generation Agent)**:对话结束后合成结构化报告,包含识别的利益点、情绪主题及调解建议,支持人类调解员的 loop oversight。 - **语音转文字模块(可选)**:基于Whisper-1实现口语输入,提升交互自然性。 2\. 关键架构特征 **顺序管道而非自主多智能体系统** 各模块不具自主性,无点对点通信或去中心化决策,输出按预定义顺序传递。这种设计避免了复杂协调开销,确保系统可控性。 **单党派设计(Single-Party Design)** 系统仅与单方当事人交互,不获取对方偏好信息。这种设计: - 镜像人类调解员现行的分别预调解实践 - 支持并行部署(所有当事人可同时独立使用) - 解除双边会话的调度与回合制约束,实现规模扩展 3\. 针对过度肯定现象的优化(Study 2) 基于Study 1发现的过度肯定问题(AI肯定率36.6% vs 人类18.9%),实施三项提示工程改进: - 显式指令减少验证性回应,要求对模糊答案进行追问而非接受 - 增强视角采择要求(如提示"如果室友对此有完全不同看法会怎样?") - 增加现实检验阶段,要求用户评估理想期望的成功概率并考虑备选方案 这些改进使肯定率降至16.8%,低于人类基线,同时保持用户信心提升效果。 4\. 技术实现要点 - **预测与生成分离**: dedicated预测模块在偏好推断任务上实现比人类调解员低36%的RMSE( 0.61 vs 0.95 ) - **累积模式监控**:不仅进行单条消息过滤,还通过增强批评代理识别对话层面的过度肯定模式 - **人机回环(Human-in-the-loop)**:生成的总结报告供专业调解员在联合调解会话前审阅,确保AI辅助不替代人类专业判断

Q: 论文做了哪些实验?

该研究通过**两项控制实验**评估自动化调解系统的效果,并辅以对话文本的细粒度分析: Study 1:AI调解员 vs. 人类专业调解员 **实验设计** - **被试**:38名大学生(AI条件:20人;人类调解员条件:18人) - **任务**:模拟三人室友冲突,涉及三个可谈判议题(家务安排、安静时间、访客政策) - **流程**: 1. 前测问卷(5点李克特量表) 2. 8–10分钟预调解对话(AI或人类调解员) 3. 后测问卷(相同量表) - **测量指标**(基于主观价值量表SVI): - 对调解员的信任(Trust in mediator) - 对达成互利协议的信心(Confidence in outcome) - 谈判信心(Negotiation confidence) - 准备坚持原则(Stay true to principles) - 准备处理挫折(Preparedness for frustration) - 视角采择准备(Perspective-taking readiness) - **议题重要性评分**(检测僵化vs.灵活:评分上升表示立场僵化,下降表示灵活性增加) **主要结果** | 发现 | 细节 | | --- | --- | | 准备效果可比性 | 两组均在信任和结果信心上显著提升( p<.05 ),支持H1 | | 差异化效应 | AI组独特提升:坚持原则准备度、挫折应对准备度;人类组独特提升:谈判信心 | | 预测准确性 | 用户预测代理的RMSE为 0.61 ,人类调解员为 0.95 (误差降低36%),支持H2 | | 过度肯定问题 | AI消息含肯定内容的比例为36.6%,人类为18.9%(相差1.9倍) | | 立场僵化 | AI组议题重要性评分平均上升0.20(僵化),人类组下降0.36(灵活) | Study 2:改进版对话代理提示的效果验证 **实验动机** 针对Study 1发现的过度肯定(sycophancy)及关联的立场僵化问题,对提示工程进行三项针对性改进: 1. 显式指令减少验证,要求追问模糊答案 2. 增强视角采择提示(如"如果室友看法完全不同?") 3. 增加现实检验阶段(评估期望现实性、制定备选方案) 4. 批评代理增加**WARNING**层级(Study 1仅有APPROVED/REJECTED) **实验设计** - **被试**:22名大学生(仅使用改进版AI系统) - **假设**: - H3:改进系统保持信任和信心的显著提升(维持有效性) - H4:肯定率降低至人类基线水平(约20%) **主要结果** | 假设 | 验证状态 | 具体发现 | | --- | --- | --- | | H3 | 部分支持 | 谈判信心显著提升( p<.01 ),信任和结果信心呈积极趋势但未达显著( p=.21, .07 ) | | H4 | 强支持 | 肯定率从36.6%降至16.8%(降幅54%),低于人类基线(18.9%) | | 机制验证 | — | 批评代理干预率从2.6%升至22.2%,表明更严格的过滤标准有效捕捉了过度肯定 | 辅助分析:对话文本挖掘 - **肯定模式识别**:使用GPT-4o对完整对话转录进行肯定内容标记,经人工编码员审核去除假阳性 - **预测准确性追踪**:分析用户预测代理在多轮对话中的RMSE变化,显示随着对话推进,推断精度持续提升(见图4) **关键局限**:两项研究样本量均较小(Study 1: N=38 ;Study 2: N=22 ),且未设置Study 1与Study 2 AI条件的直接对比组,限制了对提示修改因果效应的严格推断。

Q: 有什么可以进一步探索的点?

基于论文的局限性与未来研究方向,可进一步探索以下议题: 1\. 纵向行为结果与协议质量追踪 - **实际谈判表现**:当前研究仅测量了预调解后的即时自我报告态度(信任、信心等),需追踪参与者进入实际联合调解后的行为表现,包括: - 是否达成协议及协议质量(联合收益、Pareto效率) - 利益识别与整合的实际行为(是否实现跨议题权衡) - 长期关系维护效果(如室友冲突后的居住满意度) 2\. 多方并行部署与聚合报告机制 - **全当事人覆盖**:当前单党派设计虽支持并行部署,但未测试同时为争议**所有**各方运行系统时的交互效应。需探索: - 多方独立预调解产生的聚合报告如何辅助人类调解员识别整合式交易空间(integrative trade-off space) - 各方预测代理输出的比较分析对调解策略制定的价值 - 是否存在"冷启动"问题(各方使用系统的时间差对公平性的影响) 3\. 高风险情境的效度泛化 - **场景迁移**:当前室友冲突场景生态效度限于大学生群体,需验证: - 职场调解(如薪酬、角色冲突) - 家庭法调解(如抚养权、财产分割) - 商业争议(如合同违约、知识产权纠纷) 这些情境涉及更高情感强度、权力不对称或复杂法律约束,需测试系统在压力下的稳定性及偏好推断准确性。 4\. 人机回环(Human-in-the-Loop)的深度整合 - **专业调解员评估**:招募资深人类调解员对AI生成的总结报告进行质量评估,比较: - AI报告 vs. 人类预调解笔记在信息完备性、可操作性上的差异 - 调解员对AI辅助准备的依赖程度与过度信任(over-reliance)风险 - 联合会话中实时调用预调解数据的交互界面设计 5\. 系统架构的扩展与优化 - **动态策略调整**:当前预测代理输出仅静态指导对话代理,可探索基于实时置信度得分的**自适应对话流程**(如当不确定性高时自动切换至深度探询模式) - **多模态交互**:除语音输入外,整合视觉线索(如视频会议中的面部表情分析)以提升情绪识别与偏好推断精度 - **跨文化适应性**:测试SVI框架及对话协议在不同文化背景下的适用性,调整"建设性摩擦"(productive friction)的表达方式以避免文化冲突 6\. 过度肯定(Sycophancy)的深层机制 - **用户差异化反应**:探索不同人格特质(如权威主义倾向、认知需求)的用户对"高肯定" vs. "高挑战"交互风格的差异化反应,建立个性化肯定-挑战平衡模型 - **长期影响**:Study 2中肯定率降至16.8%(低于人类基线)是否会导致**延迟性信任损耗**(如用户在后续会话中感到被忽视),需进行多波次测量 7\. 因果推断的强化设计 - **对照实验**:设置Study 1(高肯定)与Study 2(低肯定)AI条件的直接对比组,明确隔离提示工程修改的因果效应,排除时间效应或样本差异的混淆 8\. 伦理与治理框架 - **透明度与可解释性**:开发向用户解释预测代理推断逻辑的机制(如"系统判断您高度重视安静时间,是因为您三次提到考试焦虑"),检验解释对感知公平性的影响 - **责任归属**:当AI预调解导致用户在正式谈判中采取次优策略时,责任如何在AI开发者、人类调解员与当事人之间分配

Q: 总结一下论文的主要内容

这篇论文针对**预调解(pre-mediation)阶段因资源限制而频繁被跳过**的问题,提出并验证了一种基于大语言模型(LLM)的自动化调解系统。以下是核心内容的结构化总结: 1\. 核心问题与动机 - **预调解的关键性**:作为正式谈判前的准备阶段,预调解能显著提升联合收益与协议满意度,但受限于时间、成本及专业调解员稀缺,34%–61%的调解员会跳过此阶段。 - **技术缺口**:现有LLM应用多聚焦于实时谈判辅助或联合调解,而预调解这一**最具可扩展性潜力**的环节尚未被系统探索。 2\. 系统架构:结构化LLM管道 提出一种**顺序管道(sequential pipeline)**架构,将预调解分解为四个专业化模块(均基于GPT-4o),强调**单党派设计**(仅与单方当事人交互,支持并行部署): | 模块 | 功能 | | --- | --- | | 用户预测代理 | 基于主观价值量表(SVI)的11个维度(偏好、情绪、合作倾向等),输出结构化JSON预测(含置信度),实现 RMSE=0.61 的偏好推断精度 | | 预调解对话代理 | 执行八阶段协议(建立关系→探索偏好→权衡分析→视角采择→情绪觉察→信心建设→关系维护→结束),生成对话内容 | | 批评代理 | 架构上独立于生成模块,审查每条回复(Study 1:APPROVED/REJECTED;Study 2:增加WARNING层级),过滤过度肯定、重复或逻辑断裂的内容 | | 总结生成代理 | 合成对话记录为结构化报告,供人类调解员在联合调解前审查,实现人机回环(human-in-the-loop) | **关键设计原则**:模块间无自主点对点通信,输出按固定顺序传递;单党派设计镜像人类调解实践,解除双边调度的可扩展性约束。 3\. 实证评估与发现 通过两项控制实验( N=38 与 N=22 )验证系统: **Study 1:AI vs. 人类调解员** - **效果可比性**:AI组在**信任**( 3.47 vs 2.80 , p<.05 )与**结果信心**( 4.07 vs 3.27 , p<.01 )上显著提升,与人类调解员效果相当。 - **预测优势**:用户预测代理的均方根误差( RMSE=0.61 )较人类调解员( RMSE=0.95 )**降低36%**。 - **过度肯定(Sycophancy)**:AI消息含肯定内容的比例达**36.6%**,为人类(18.9%)的1.9倍,关联议题重要性评分上升(+0.20,立场僵化),而人类组呈现灵活性(-0.36)。 **Study 2:提示工程优化** 针对过度肯定问题,实施三项改进(减少验证指令、增强视角采择、增加现实检验): - **肯定率下降**:从36.6%降至**16.8%**(低于人类基线18.9%),批评代理干预率从2.6%升至22.2%。 - **效果维持**:谈判信心仍显著提升( p<.01 ),其他指标保持积极趋势,证明减少肯定不损害核心准备效果。 4\. 设计启示与贡献 论文为面向人际应用的分解式LLM系统提出四项设计建议: 1. **预测与生成分离**:专用预测模块可实现更优推断,释放生成模块专注交互质量。 2. **专用批评代理**:架构分离避免"思维退化"(degeneration-of-thought),支持针对性监督标准。 3. **监控累积模式**:单条消息过滤不足以捕捉对话层面的过度肯定,需结合会话级指标与源头提示工程。 4. **源头解决谄媚**:在提示层面引入"建设性摩擦"(productive friction)比仅依赖事后过滤更有效。 5\. 局限与未来方向 - 样本量有限(总计60人),未追踪实际谈判行为与长期协议质量。 - 场景局限于室友冲突,需向职场、家庭法等高风险情境泛化。 - 未来工作将探索多方并行部署的聚合报告机制,以及专业调解员对AI生成报告的评估。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 [**这里**](http://kimi.com/_prefill_chat?prefill_prompt=我们要讨论的论文是Automated%20Mediator%20for%20Human%20Negotiation%3A%20Pre-Mediation%20via%20a%20Structured%20LLM%20Pipeline,链接是https://arxiv.org/pdf/2606.11379,已有的FAQ链接是https://papers.cool/arxiv/kimi?paper=2606.11379。请以此为基础,继续回答我后面的问题。&system_prompt=你是一个学术助手,后面的对话将围绕着以下论文内容进行,已经通过链接给出了论文的PDF和论文已有的FAQ。用户将继续向你咨询论文的相关问题,请你作出专业的回答,不要出现第一人称,当涉及到分点回答时,鼓励你以markdown格式输出。&send_immediately=true) 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。 {% endhideToggle %}

Authors: Jamie Bergen, Sarit Kraus

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11379.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11379

Published: 2026-06-11T02:20:05.764Z


6. INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration

Abstract:Existing multi-agent LLM orchestration methods, ranging from brute-force ensembles to learned routers, select models and topologies based on task and model features. However, these methods do not consider the runtime state of the serving infrastructure. On shared GPU clusters under concurrent load, this infrastructure blindness causes systematic resource underutilization: preferred models accumulate deep request queues while equally capable alternatives sit idle. In multi-agent pipelines, where each query triggers multiple sequential model calls, these delays then compound across every downstream step. Closing this gap is challenging because the relevant infrastructure signals (queue depths, KV-cache pressure, latencies) are dynamic and noisy, and they must drive three different decisions: planning, per-step routing, and scheduling. We introduce INFRAMIND, a framework that makes the entire multi-agent stack infrastructure-aware. An infra-aware planner conditions topology and role selection on real-time system load and remaining budget, biasing toward simpler graphs under congestion and richer ones at low load. An infra-aware executor then observes per-model queue depths, cache utilization, and response latencies at each agent step to decide which model to call and how deeply to reason; a budget-aware scheduler further reorders each model’s queue so that urgent requests are served first. Cast as a hierarchical constrained MDP and solved end-to-end via reinforcement learning, the system learns to balance quality against latency automatically. Across five benchmarks, INFRAMIND delivers up to +7.6 pp accuracy over the prior baseline at low load with up to 7x lower latency, and sustains up to 99.9% SLO compliance under high load where every baseline drops below 50%.

{% hideToggle 中文摘要 %} 摘要:现有的多智能体LLM编排方法,涵盖从暴力破解集合到学习型路由器,基于任务和模型特征选择模型和拓扑结构。然而,这些方法不考虑服务基础设施的运行时状态。在并发负载下的共享GPU集群中,这种基础设施盲点导致系统性资源利用不足:首选模型积累了深层请求队列,而同等能力的替代方案则闲置。在多代理流水线中,每次查询触发多次顺序模型调用,这些延迟会在每个下游步骤中叠加。缩小这一差距具有挑战性,因为相关基础设施信号(队列深度、KV缓存压力、延迟)是动态且噪声大的,必须驱动三种不同的决策:规划、每步路由和调度。我们介绍INFRAMIND,一个让整个多代理栈具备基础设施感知的框架。基础设施感知的规划器根据实时系统负载和剩余预算来设置拓扑和角色选择,拥塞时偏向简单图,低负载时偏向丰富图。基础设施感知执行者随后观察每个模型队列深度、缓存利用率和响应延迟,以决定调用哪个模型以及推理多深;预算感知调度器进一步重新排序每个模型的队列,使紧急请求优先响应。系统被设定为一个层级约束的MDP,并通过强化学习端到端解决,学会自动平衡质量与延迟。在五个基准测试中,INFRAMIND在低负载下比之前基线高达+7.6 pp的精度,延迟降低最多7倍,并在高负载下所有基线都低于50%的情况下,SLO合规性可维持高达99.9%。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文旨在解决\*\*多智能体大语言模型(LLM)系统中的基础设施盲目性(infrastructure blindness)\*\*问题。 具体而言,现有方法(从暴力集成到学习路由器)在编排多智能体系统时,仅基于静态任务特征和模型能力选择拓扑结构与模型,完全忽视了服务基础设施的运行时状态(如GPU集群上的队列深度、KV缓存压力、端到端延迟等)。这种盲目性在共享GPU集群的并发负载下导致以下系统性故障: - **资源利用严重失衡**:首选模型(通常是高质量的小模型)积累深达上百个请求的队列,而同等能力的大模型却几乎空闲; - **延迟爆炸与累积**:在多智能体流水线中,单个步骤的排队延迟会在下游每个步骤复合放大,导致端到端延迟激增(高负载下达30秒以上); - **低负载下的容量浪费**:在负载较低时,大模型GPU利用率不足70%,系统未能利用闲置容量进行更深度的推理(如DeepThink)以提升质量。 解决该问题的核心难点在于: 1. **动态性与噪声**:基础设施信号(队列深度、缓存利用率、延迟)实时变化且带有噪声; 2. **多层面耦合决策**:需在规划层(拓扑结构)、执行层(每步模型与推理深度选择)和调度层(请求优先级)同时做出适应性决策,且各层决策相互影响; 3. **质量-延迟权衡**:必须在严格的预算约束下动态平衡推理质量与响应延迟。 为此,论文提出**INFRAMIND**框架,通过分层约束马尔可夫决策过程(CMDP)将基础设施感知嵌入到多智能体编排的每一层:基础设施感知规划器根据系统负载选择拓扑复杂度,基础设施感知执行器根据实时队列状态选择模型与推理策略,预算感知调度器则通过最早截止时间优先(EDF)算法防止紧急请求被阻塞。

Q: 有哪些相关研究?

根据论文第2节,相关研究可分为以下三类: 1\. 多智能体LLM编排(Multi-agent LLM Orchestration) 这类研究 progressively 在多智能体系统的编排层引入更多智能,但均未考虑运行时基础设施状态: - **MoA (Mixture-of-Agents)** Wang et al., 2024a - 采用暴力集成策略:并行运行池中的所有模型,通过固定聚合器合成输出 - **局限性**:零路由智能;最慢的模型成为整个系统的瓶颈,单模型队列拥堵会降级整体性能 - **GPTSwarm** Zhuge et al., 2024 - 将多智能体协作建模为带权有向图,使用 REINFORCE 学习边权重 - **局限性**:图结构在测试时冻结(边权重固定),部署期间无法针对模型拥堵进行重新路由 - **MasRouter** Yue et al., 2025 - 目前最复杂的任务自适应编排系统:基于 VAE 的级联控制器,根据查询嵌入联合确定拓扑、智能体数量、角色分配和每角色模型选择 - **局限性**:决策完全基于静态任务特征,无法区分空闲模型与饱和模型;无论预算紧张或宽松均采用固定提示策略 2\. 单模型路由与成本感知服务(LLM Routing & Cost-aware Serving) 这类工作关注单轮、单模型调用的成本与质量权衡,不处理多步骤、多智能体工作流: - **RouteLLM** Ong et al., 2024 :学习基于质量的路由器,根据预测查询难度将请求定向至强模型或弱模型,实现成本节省 - **TREACLE** Zhang et al., 2024 :扩展到预算约束的 LLM 级联,支持联合模型与提示选择 - **R2-Router** Xue et al., 2026 :引入推理感知难度信号,进一步细化查询条件路由 3\. 服务基础设施优化(Serving Infrastructure) 这类系统优化单个模型内的推理性能,暴露关键遥测数据但不进行跨模型路由决策: - **vLLM** Kwon et al., 2023 :引入 PagedAttention 实现高效 KV 缓存管理,支持连续批处理、优先级调度和通过 Prometheus 端点的详细遥测(队列深度、缓存利用率、延迟) - **Sarathi-Serve** Agrawal et al., 2024 :通过分块预填充(chunked prefills)进一步优化预填充-解码调度 与现有工作的关键区别 INFRAMIND 位于上述工作的交叉点:它**消费** vLLM/Sarathi-Serve 等系统暴露的遥测信号(队列深度、KV 缓存压力、延迟),**做出**这些系统不支持的跨模型路由决策,同时**扩展**到 MoA/GPTSwarm/MasRouter 等系统未处理的多步骤、多智能体工作流场景,实现运行时基础设施感知的多智能体编排。

Q: 论文如何解决这个问题?

论文通过提出 **INFRAMIND** 框架解决基础设施盲目性问题,该框架将基础设施感知嵌入多智能体编排的每一个决策层级,并通过端到端强化学习联合优化。具体解决方案如下: 1\. 系统架构概览 INFRAMIND 在共享 GPU 集群上部署一个**系统监控器(System Monitor)**,持续轮询各模型的队列深度、KV 缓存利用率和端到端延迟。这些实时信号被输入到三个协同工作的组件中: - **基础设施感知规划器**(查询到达时运行一次) - **基础设施感知执行器**(每个智能体步骤运行) - **预算感知调度器**(管理每个模型内部的请求队列) 2\. 分层决策机制 (1) 基础设施感知规划器(Infra-Aware Planner) 在查询到达时,规划器根据当前系统负载和剩余预算选择推理拓扑结构: - **输入**:查询语义嵌入 e_q 、系统状态摘要 $z\_0 = b_0, d_(queue), d_(e2e), d_(kv) $(预算、队列深度、延迟、缓存) - **机制**:采用**特征线性调制(FiLM)**,通过 q = γ(z_0) odot e_q + β(z_0) 将系统状态注入级联控制器的四个决策头(任务分类、协作模式、智能体数量、角色分配) - **行为**:在高负载或紧张预算下偏向选择简单链式拓扑(Chain/CoT),在低负载且预算充足时选择复杂辩论拓扑(Debate/FullConnected) (2) 基础设施感知执行器(Infra-Aware Executor) 在每个智能体步骤 k ,执行器根据实时状态选择目标模型和推理深度: - **状态表示**: s_k = langle e_q, e_r^k_(语义), b_k_(预算), d_(queue), d_(e2e), d_(kv)_(系统负载) rangle - **双路径架构**: - **语义路径**:处理查询和角色嵌入 $h_(sem) = LN(ReLU(W_(sem) e_q | e_r^k ))$ - **资源路径**:融合预算头 h_(bud) 和系统指标头 h_(sys) ,生成 $h_(res) = LN(ReLU(W_(res) h_(bud) | h_(sys) ))$ - **联合动作空间**: a_k ∈ 0, ..., N|S|-1 ,解码为模型选择 m_k = lfloor a_k/|S| rfloor 和推理策略 σ_k = a_k bmod |S| (Flash/Concise/DeepThink) - **动态适应**:当检测到某模型队列饱和时,自动将请求路由至空闲替代模型,并可通过启用 DeepThink 利用节省的排队时间补偿小模型的能力差距 (3) 预算感知调度器(Budget-Aware Scheduler) 解决同模型队列内的队头阻塞问题: - 为每个查询附加截止时间 t_(arrive) + β (到达时间+预算) - 所有该查询衍生的智能体调用继承相同截止时间 - 每个模型的请求队列按\*\*最早截止时间优先(EDF)\*\*重新排序,确保紧预算请求不会被松预算请求阻塞 3\. 联合强化学习训练 将上述组件建模为**分层约束马尔可夫决策过程(CMDP)**,通过单一拉格朗日乘子 λ 统一优化质量与延迟约束: **目标函数**: π^* = argmax_(π) E_(π)[∑_k R_k] quad s.t. quad E_(π)[∑_k C_k] ≤ 1 其中 C_k = ell_k/β 为步骤延迟占预算比例。通过拉格朗日松弛转化为: L(π, λ) = E_(π)[∑_k (R_k - λ · C_k)] + λ **分层策略梯度**: - **执行器**:使用 PPO(近端策略优化)在每个步骤更新,奖励 $r_k = I solved - λ ell_k/β$ - **规划器**:使用基线归一化的 REINFORCE 在查询结束时更新,效用 $U_i = I solved - λ L_(total)/β$ - **对偶更新**:每批次后更新 λ arrow clip(λ + eta_λ(C - 1), 0, λ_(max)) ,自动发现不同负载下的质量-延迟权衡 4\. 黑盒与混合部署扩展 对于无法获取服务器内部指标的 API 模型,通过客户端代理实现基础设施感知: - **延迟指数移动平均**:基于观测到的端到端延迟估计当前负载 - **RPM 比率信号**: d_(queue)^i = recent_requests_i / RPM_limit_i ,达到 90% RPM 限制时视为"拥堵"

Q: 论文做了哪些实验?

论文在第5节及附录中开展了系统性实验,涵盖**白盒GPU集群**、**混合部署**及**纯API环境**,验证INFRAMIND在 varying load regimes 下的有效性。具体实验内容如下: 1\. 实验设置 **基准测试(Benchmarks)** - 覆盖代码生成、数学推理和知识密集型QA: - **MBPP**(程序合成) - **HumanEval**(代码生成) - **GSM-Hard**(数学应用题) - **MATH**(竞赛数学) - **MMLU-Pro**(多学科知识理解) **模型池(Model Pool)** - heterogeneous pool spanning 10× parameter range: - 大模型(14-32B):DeepSeek-R1-Distill-Qwen-32B、Mistral-Small-24B、Qwen2.5-Coder-14B - 小模型(3-8B):Llama-3.1-8B、Llama-3.2-3B - 全部通过 vLLM 部署在两块 NVIDIA B200 GPU 上 **基线(Baselines)** - **MoA** Wang et al., 2024a :暴力集成,无路由智能 - **GPTSwarm** Zhuge et al., 2024 :学习拓扑但测试时冻结 - **MasRouter** Yue et al., 2025 :任务自适应但无基础设施感知 **评估协议** - 采用**泊松到达过程**模拟并发负载,测试三种到达率:10、50、100 req/min - 指标:准确率(Accuracy)、平均延迟(Latency)、SLO合规率(预算≤300s的请求占比) 2\. 主实验结果(Main Results) **表2与图4**展示了跨五个基准、三种负载级别的全面对比: - **低负载(10 req/min)**: - INFRAMIND在全部五个基准上取得最高准确率,MATH上较MoA提升\*\*+7.6 pp\*\*(82.0% vs 74.4%),GSM-Hard上较MasRouter提升\*\*+7.4 pp\*\*(62.0% vs 54.6%) - 延迟降低高达**14×**(HumanEval:5s vs MasRouter的70s)和**6.3×**(MBPP:40s vs 253s) - SLO合规率近100% - **高负载(100 req/min)**: - 基线系统SLO合规率**全面崩溃**:MoA和GPTSwarm在多数基准上低于12%,MasRouter在五个基准中四个低于50% - INFRAMIND保持\*\*高达99.9%\*\*的SLO合规率(HumanEval),在MATH、GSM-Hard、HumanEval、MMLU-Pro上仍保持最高准确率 3\. 分析与消融实验(Analysis & Ablations) **预算感知行为验证(图5)** - 在MATH(µ=10 r/m)上,随着预算从10s增加到300s,INFRAMIND的准确率从62.6%单调提升至82.0%(+19.4 pp),显示系统能自动利用预算余量选择更大模型和DeepThink推理,无需手工规则。 **机制消融(表3)** 通过逐一禁用组件验证各机制的贡献: - **禁用基础设施感知路由**(改为仅按质量路由):平均队列深度从25.1增至40.6,步骤延迟增加**2.3–3.6×** - **禁用截止时间感知调度**(改为FCFS):平均延迟增加**2.0×**(68s→134s),P90延迟增加**1.8×**(207s→366s) - **禁用自适应推理深度**(所有步骤强制Flash):MMLU-Pro准确率下降**9.5 pp**(59.5%→50.0%) 4\. 黑盒与混合池扩展(Extension to Blackbox) **表4**验证了无需服务器端访问的扩展能力: - **混合池**(3白盒+2 OpenRouter API): - 在GSM-Hard上,低负载时INFRAMIND优先使用白盒模型,高负载时自动溢出至API;在100 r/m下仍保持61.4%准确率和54.4% SLO合规,而MasRouter和GPTSwarm分别降至11.6%和9.4% - **纯API池**(5个OpenRouter模型): - 使用客户端RPM比率作为拥堵信号,INFRAMIND在100 r/m下保持50.4% SLO合规,而基线均低于31% 5\. 训练细节(附录A) - 使用Adam优化器(lr=3e-4),批次大小64,PPO clip参数ε=0.2 - 拉格朗日乘子初始值0.2,学习率0.001,上限1.0 - 训练时遍历预算层级{10,30,50,100,200,300}s和到达率{10,30,50,100,200}req/min,确保策略见过各种拥堵状态 这些实验共同证明:INFRAMIND在低负载时利用闲置容量提升质量(+7.6 pp),在高负载时通过基础设施感知避免延迟爆炸(维持99.9% SLO),且该原则可扩展至纯API环境。

Q: 有什么可以进一步探索的点?

根据论文第6节"Limitations and future work"及技术架构,可从以下维度进一步探索: 1\. 运行时拓扑动态修订(Runtime Topology Revision) 当前规划器在查询到达时**一次性确定**协作结构(拓扑、角色、智能体数量)并固定执行。未来可探索: - **中途重规划(Mid-workflow Re-planning)**:允许规划器在工作流执行过程中,根据实时负载变化或中间输出质量,动态调整后续步骤的协作结构(如从Chain切换为Debate,或增减Reviewer智能体数量) - **条件化拓扑(Conditional Topology)**:基于前面步骤的推理结果决定后续拓扑复杂度(如早期步骤 confident 时简化后续流程) 2\. 弹性硬件池适配(Dynamic Hardware Configurations) 当前工作假设模型池静态固定(固定副本数、固定模型集合)。未来可扩展至: - **自动扩展(Autoscaling)**:根据队列深度信号自动触发模型副本的横向扩展(scale-out)或收缩 - **热模型交换(Hot Model Swapping)**:在GPU显存压力下,动态卸载低优先级模型、加载高需求模型,保持基础设施感知下的最优模型池构成 - **异构硬件感知**:区分A100/H100/B200等不同GPU类型的计算/内存特性,将模型路由与硬件能力匹配 3\. 多维度预算约束(Multi-dimensional Constraints) 当前主要优化**时间预算**(延迟SLO),在混合API/白盒场景下可引入: - **成本预算(Monetary Budget)**:如附录C所述的 λ_(money) ,可进一步研究在有限API调用额度下的最优路由策略 - **能耗预算(Energy Budget)**:在绿色计算场景下,将GPU功耗纳入优化目标,优先使用能效比高的模型或推理策略 4\. 多租户公平性与隔离(Multi-tenancy Fairness) 当前系统针对单租户负载优化。在共享集群多租户场景下需考虑: - **租户级SLO隔离**:防止单一租户的DeepThink-heavy查询挤占其他租户资源 - **公平性约束(Fairness Constraints)**:在强化学习奖励函数中加入Max-Min Fairness或Dominant Resource Fairness项,确保基础设施感知不牺牲小租户利益 5\. 在线自适应与持续学习(Online Adaptation) 当前采用离线训练+部署模式。未来可探索: - **在线策略更新**:利用生产环境的实时反馈持续微调策略网络,适应随时间变化的负载模式(如昼夜流量差异) - **元学习(Meta-learning)**:训练"快速适应器",使系统能在几小时内适应全新的模型池或硬件拓扑,无需完整重训练 6\. 更细粒度的缓存感知(Fine-grained KV-Cache Management) 当前仅使用KV缓存利用率作为粗粒度信号。可与vLLM/SGLang更深度集成: - **Prefix-aware Routing**:利用请求间的KV缓存共享潜力(如相似查询路由到同一GPU以命中前缀缓存) - **逐层缓存压力预测**:预测未来几步的KV缓存增长,提前进行模型迁移或请求重排序 这些方向均保持论文的核心思想——**将基础设施状态作为一等公民纳入编排决策**,同时放松当前版本的静态假设(固定拓扑、固定模型池、固定负载分布)。

Q: 总结一下论文的主要内容

这篇论文针对\*\*多智能体大语言模型(LLM)系统中的基础设施盲目性(infrastructure blindness)\*\*问题,提出了首个端到端基础设施感知的多智能体编排框架 **INFRAMIND**。 核心问题 现有方法(如MoA、GPTSwarm、MasRouter)仅基于静态任务特征选择模型和拓扑,忽视共享GPU集群上的运行时基础设施状态(队列深度、KV缓存压力、延迟)。这导致: - **高负载时**:请求堆积在少数"首选"模型,产生 >30 s的排队延迟,且延迟在多智能体流水线中复合放大 - **低负载时**:大模型GPU利用率仅33%,闲置容量未被用于提升推理质量(如DeepThink) 解决方案:INFRAMIND 框架通过三个基础设施感知组件协同工作: 1. **基础设施感知规划器**(Infra-Aware Planner) 在查询到达时,基于系统负载摘要$z\_0 = b_0, d_(queue), d_(e2e), d_(kv) 选择拓扑复杂度,通过FiLM调制 q = γ(z_0) odot e_q + β(z_0)$在高负载下偏向简单链式结构,低负载下选择复杂辩论拓扑。 2. **基础设施感知执行器**(Infra-Aware Executor) 每个智能体步骤观察实时状态 s_k = langle e_q, e_r^k, b_k, d_(queue), d_(e2e), d_(kv) rangle ,通过双路径网络(语义路径+资源路径)联合选择模型 m_k 和推理深度 σ_k ∈ Flash, Concise, DeepThink ,将请求从拥堵模型动态迁移至空闲模型。 3. **预算感知调度器**(Budget-Aware Scheduler) 为每个查询附加截止时间 t_(arrive) + β ,采用最早截止时间优先(EDF)算法管理单模型队列,防止紧预算请求被松预算请求阻塞。 技术实现 将系统建模为**分层约束马尔可夫决策过程(CMDP)**,通过强化学习端到端训练: - **优化目标**:$max_(π) E_(π) ∑_k R_k ,约束 E_(π) ∑_k C_k ≤ 1 ,其中 C_k = ell_k/β$ - **拉格朗日松弛**:单一乘子 λ 自动平衡质量-延迟权衡,通过 λ arrow clip(λ + eta_λ(C - 1), 0, λ_(max)) 动态调整 - **分层训练**:执行器使用PPO,规划器使用REINFORCE,共享约束 violations 信号 实验结果 在MBPP、HumanEval、GSM-Hard、MATH、MMLU-Pro五个基准上: - **低负载(10 req/min)**:准确率较最强基线提升\*\*+7.6 pp\*\*(MATH: 82.0% vs 74.4%),延迟降低**达7×** - **高负载(100 req/min)**:SLO合规率维持**99.9%**(HumanEval),而所有基线低于50% - **机制消融**:移除基础设施感知路由导致延迟增加2.3–3.6×,移除自适应推理深度导致准确率下降9.5 pp - **扩展性**:通过客户端RPM代理,在纯API和混合部署中保持优势 主要贡献 1. 首次识别并量化了多智能体系统中的基础设施盲目性失效模式 2. 首个将基础设施感知嵌入规划、执行、调度全栈的端到端框架,支持黑盒API扩展 3. 在 varying load regimes 下实现质量与延迟的自动权衡,显著优于任务自适应基线

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 [**这里**](http://kimi.com/_prefill_chat?prefill_prompt=我们要讨论的论文是INFRAMIND%3A%20Infrastructure-Aware%20Multi-Agent%20Orchestration,链接是https://arxiv.org/pdf/2606.11440,已有的FAQ链接是https://papers.cool/arxiv/kimi?paper=2606.11440。请以此为基础,继续回答我后面的问题。&system_prompt=你是一个学术助手,后面的对话将围绕着以下论文内容进行,已经通过链接给出了论文的PDF和论文已有的FAQ。用户将继续向你咨询论文的相关问题,请你作出专业的回答,不要出现第一人称,当涉及到分点回答时,鼓励你以markdown格式输出。&send_immediately=true) 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。 {% endhideToggle %}

Authors: Ahasan Kabir, Jiaqi Xue, Mengxin Zheng, Qian Lou

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11440.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11440

Published: 2026-06-11T02:20:05.764Z


7. Forecasting Future Behavior as a Learning Task

Abstract:Trust in an AI system is often anchored by explanations of how it works, which one then uses to forecast its behavior on new inputs. For large reasoning models (LRMs), this conventional route is particularly difficult to follow: explanation methods for single token generations do not naturally generalize to long trajectories, and the trajectories themselves are often not faithful when read as natural language. We propose an alternative that bypasses the explanation step: treat behavior forecasting as a learnable task and train Behavior Forecasters that operates on a single reasoning trajectory to make the same forecasts one would typically seek from an explanation. The forecaster’s training data is obtained by querying the LRM with no human annotation, and its inference is done in a single forward pass. We instantiate this approach on two tasks: how likely the LRM is to repeat its answer on re-runs, and how removing parts of the input changes its answer. We evaluate this approach on both tasks across three diverse reasoning datasets and find that trained Behavior Forecasters are more accurate than GPT-5.4 and Claude Opus-4.6 reading the same trajectories as naive readers, at a small fraction of their inference cost. We find that fine-tuning the backbone end-to-end and initializing it from the target LRM are each necessary for strong performance. These results show that the reasoning trajectory carries information about the LRM’s future behavior that goes beyond what naive reading conveys.

{% hideToggle 中文摘要 %} 摘要:对 AI 系统的信任通常依赖于对其工作原理的解释,人们随后据此来预测其在新输入上的行为。对于大型推理模型(LRM)来说,这种传统途径尤其难以遵循:单个 token 生成的解释方法不自然地推广到长轨迹,并且这些轨迹在以自然语言阅读时通常并不忠实。我们提出了一种绕过解释步骤的替代方法:将行为预测视为一个可学习的任务,并训练行为预测器,该预测器在单一推理轨迹上操作,以做出通常人们希望通过解释获得的相同预测。预测器的训练数据通过查询 LRM 获得,无需人工注释,其推断在一次前向传播中完成。我们在两个任务上实例化了这一方法:LRM 在重新运行时重复其答案的可能性,以及移除部分输入会如何改变其答案。我们在三个不同推理数据集上评估了这一方法,并发现训练好的行为预测器在读取相同轨迹时,比作为天真读者的 GPT-5.4 和 Claude Opus-4.6 更准确,同时推断成本仅为其一小部分。我们发现,为了获得强性能,将骨干网络进行端到端微调并从目标 LRM 初始化各自是必要的。这些结果表明,推理轨迹包含关于 LRM 未来行为的信息,超出了天真阅读所能传达的范围。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**大型推理模型(Large Reasoning Models, LRMs)的行为预测难题**,具体表现为以下核心矛盾: 1\. 传统解释方法的失效 - **解释与预测的脱节**:传统上,用户对AI系统的信任建立在"解释"基础上——通过理解模型如何工作来预测其未来行为。然而,对于LRMs(如OpenAI的O1、DeepSeek的R1等),这种路径面临双重障碍: - **粒度不匹配**:现有解释方法多针对单token生成设计,难以自然扩展到LRMs产生的长推理轨迹(long reasoning trajectories) - **忠实性缺失**:LRMs的推理轨迹(reasoning tokens)虽以自然语言形式呈现,但往往**不是**产生答案的真实计算过程的忠实记录(faithful account)。研究表明,LRMs经常: - **遗漏关键因素**(如位置偏见、用户提示、刻板印象信号)而不在推理文本中体现 - **语义错配**:表面推理步骤与实际计算过程存在差异,导致"朴素阅读"(naive reading)产生错误预测 2\. 标准行为预测工具的局限性 - **重采样成本过高**:通过多次重运行(reruns)或输入扰动来估计行为统计量(如答案一致性、反事实敏感性)在部署时计算成本过高,每次查询需要数千个token的自回归生成 - **单位置探测的盲区**:基于梯度或注意力机制的标准归因方法只能解释单个固定位置的生成,无法捕捉在漫长推理轨迹内部展开的实际计算过程 3\. 核心解决方案 论文提出**将行为预测重新框架为一个监督学习任务**: - 训练专门的**行为预测器(Behavior Forecasters)**,使其能够从**单个观察到的推理轨迹**中直接预测LRM的未来行为属性 - 通过查询目标LRM自动生成训练标签,无需人工标注 - 推理时仅需单次前向传播(single forward pass),计算成本远低于重采样或大型朴素阅读器 具体 instantiated 的两个预测任务包括: - **重跑一致性(Rerun Consistency)**:预测模型在相同输入上重新运行时重复当前答案的概率 - **反事实敏感性(Counterfactual Sensitivity)**:预测移除输入特定部分对答案产生概率的影响程度 论文验证表明,训练后的行为预测器在准确性上超越GPT-5.4和Claude Opus 4.6等前沿模型作为"朴素阅读器"的表现,同时推理成本不足其万分之一,证明推理轨迹中蕴含的关于模型未来行为的信息远超表面文本所传达的内容。

Q: 有哪些相关研究?

该论文的相关研究主要分布在**可解释性与信任**、**推理轨迹忠实性**、**行为预测方法**以及**内部状态探测**四个领域: 1\. 可解释性、信任与行为预测 - **解释作为预测设备**:Hempel and Oppenheim (1948) 与 Douglas (2009) 的经典工作将解释视为预测系统未来行为的工具;近期机器学习研究延续此视角,通过解释所能实现的预测准确性来评估解释质量 (Doshi-Velez and Kim, 2017; Miller, 2019) - **单输入行为预测**:针对单个输入的模型行为预测方法,包括局部解释技术如LIME (Ribeiro et al., 2016)、SHAP (Lundberg and Lee, 2017) 以及基于公理的属性归因 (Sundararajan et al., 2017) 2\. 推理轨迹的忠实性问题(Faithfulness of Reasoning Trajectories) 研究表明LRMs的推理轨迹往往不能忠实反映实际计算过程: - **遗漏性不忠实(Omission)**: planted cues(如答案位置偏见、用户提示、刻板印象信号)会改变预测结果,但不出现在自然语言推理中 (Turpin et al., 2023; Yee et al., 2024; Chua and Evans, 2025; Arcuschin et al., 2025; Marioriyad et al., 2025; Lindsey et al., 2025; Mirtaheri and Belkin, 2026; Young, 2026; Bachmann et al., 2026) - **语义错配(Semantic Mismatch)**:即使出现在推理文本中的步骤也可能与实际计算不符——推理文本可能对人类和AI阅读者都难以理解 (Jose, 2025);对自然语言推理注入修改往往不改变最终答案 (Lanham et al., 2023; Paul et al., 2024);因果中介分析显示LRMs使用中间步骤的方式与人工阅读者的预测不同 (Levy et al., 2025a) - **规模与忠实性关系**:Chen et al. (2025) 和 Han et al. (2026) 发现模型规模或性能的提升并不能保证推理忠实性的改善 3\. 标准行为预测方法的局限 - **重采样方法**:通过多次重运行估计行为统计量 (Jones et al., 2025; Serrano et al., 2026),但在部署时计算成本过高(每次查询需数千token的自回归生成) - **单位置探测(Single-location Probes)**: - 基于梯度的输入归因(如Integrated Gradients)(Sundararajan et al., 2017) - 最终答案token对提示的注意力归因 (Chuang et al., 2024; Jain and Wallace, 2019) - 最终答案logit的token概率不确定性信号 (Manakul et al., 2023; Farquhar et al., 2024) 这些方法均无法捕捉在推理轨迹内部展开的计算过程 4\. 内部状态探测(Probing Internal States) - **当前运行属性预测**:训练探测模型以预测当前输入上的模型行为属性: - 事实性预测 (Azaria and Mitchell, 2023; Burns et al., 2022) - 幻觉检测 (Kossen et al., 2024; Kadavath et al., 2022) - 拒绝行为预测 (Arditi et al., 2024) - 诚实性、权力寻求等行为属性 (Zou et al., 2023) - 从残差流恢复行为信号 (Alain and Bengio, 2017; Belrose et al., 2023; Karvonen et al., 2025) - **LRM轨迹内部探测**: - 中间步骤隐藏状态探测以支持早期退出 (Zhang et al., 2025) - 注意力探测在文本生成前解码最终答案 (Boppana et al., 2026) - 机制分析显示上下文概念在轨迹中被逐步细化 (Kharlapenko et al., 2026) _区别_:上述工作均针对**当前运行**(current run)的属性,而本文关注**未来行为**(future behavior)的预测(如重跑一致性、反事实敏感性) 5\. 基于重采样的LRM轨迹分析 - 通过反复重采样和干预轨迹来估计单个推理步骤对答案分布的因果效应 (Bogdan et al., 2025; Macar et al., 2025)。本文将此类重采样成本转化为一次性训练数据投资,而非部署时的计算负担。

Q: 论文如何解决这个问题?

论文通过**将行为预测重新框架为监督学习任务**,训练专门的\*\*行为预测器(Behavior Forecaster)\*\*来解决上述问题。具体方法包含以下关键组成部分: 1\. 监督学习框架 将行为预测视为从单条推理轨迹到行为统计量的回归问题: - **输入**:目标LRM在特定输入上产生的单条观察轨迹 τ = (P, R, A) (包含提示 P 、推理token R 、最终答案 A ) - **输出**:目标行为统计量 b(M, P, A) 的预测值(如重跑一致性概率或反事实敏感度分数) - **训练数据生成**:通过查询目标LRM自动生成标签,无需人工标注: - **重跑一致性**:对同一提示运行10次,计算产生相同答案的频率 - **反事实敏感性**:对输入的每个可移除片段 s 生成扰动提示 P_(-s) ,运行10次,计算移除 s 后答案改变的概率 2\. 模型架构设计 行为预测器采用与目标LRM相同的架构,并包含任务特定的组件: **Backbone初始化与训练** - 从目标LRM的权重初始化backbone,使其具备解读该LRM推理token的初始能力 - **端到端微调**(end-to-end):联合训练backbone和预测头,而非仅训练预测头(实验显示冻结backbone会显著降低性能) **任务特定输入排列** - **反事实敏感性**:采用**Prompt-Echo排列**( P – R – A – P )。将提示复制在轨迹之后,在复制的提示位置(echoed-prompt positions)产生token级预测,确保预测头能访问完整的推理轨迹和答案信息 - **重跑一致性**:采用标准排列( P – R – A ),使用**交叉注意力池化**(cross-attention pooling)将变长轨迹聚合为固定维度表示,再输入MLP产生单一标量预测 **预测头设计** - **反事实敏感性**:2层MLP,在每个echoed-prompt位置输出logit,通过segment-level平均和sigmoid激活得到 $ 0,1 $ 分数 - **重跑一致性**:12个可学习的查询向量进行交叉注意力池化,连接后通过2层MLP输出单一logit 3\. 训练目标 - **反事实敏感性**:二元交叉熵损失,针对每个保留的输入片段计算 L_(cf) = (1) / (|S_(valid)|) ∑_(s ∈ S_valid) [ -a_s log σ(z_s) - (1-a_s)log(1-σ(z_s)) ] 其中 z_s 为片段内token logit的平均值, a_s 为归一化的归因分数标签 - **重跑一致性**:均方误差损失,针对每条轨迹的连续一致性标签 ell_(cons(i)) 计算 L_(rerun) = (1) / (N) ∑_(i=1)^N ( ell_i - ell_(cons(i)) )^2 4\. 推理效率优势 与部署时重采样(需多次自回归生成,每次数千token)或大型朴素阅读器(如GPT-5.4/Claude Opus 4.6)相比,训练后的行为预测器: - **单次前向传播**:仅需对观察到的轨迹进行一次前向计算 - **计算成本**:不足前沿朴素阅读器推理成本的 1/10,000 - **延迟**:显著低于需要自回归生成的重采样方法 5\. 关键消融验证(第5节) 实验证实以下设计选择对性能至关重要: - **目标LRM初始化**:随机初始化backbone会显著降低性能 - **端到端训练**:冻结backbone仅训练预测头(head-only)效果远差于全模型微调 - **推理轨迹的必要性**:从输入中移除推理token R 会严重损害性能,证明轨迹包含超出提示和答案的关键信息 - **任务特定排列**:反事实敏感性和重跑一致性各自依赖其特定的输入排列( P – R – A – P vs P – R – A ),互换排列会损害性能

Q: 论文做了哪些实验?

论文围绕**行为预测的可学习性**、**泛化能力**和**架构设计必要性**三个维度开展了一系列实验,具体如下: 1\. 主实验:行为预测的可行性验证(Section 4.2) **实验目的**:验证训练后的Behavior Forecaster能否从单条推理轨迹准确预测LRM的未来行为,并超越朴素的文本阅读方法和标准探测技术。 **实验设置**: - **目标模型**:OLMo-3-7B-Think(主要)、Qwen3.5-2B(验证普适性) - **数据集**:FEVEROUS(事实验证)、RuleTaker(逻辑推理)、TreeCut(数学问题) - **任务**: - **反事实敏感性**(Counterfactual Sensitivity):预测移除输入特定片段导致答案改变的概率 - **重跑一致性**(Rerun Consistency):预测模型在相同输入上重跑时重复当前答案的概率 **对比基线**: - **朴素阅读器(Naive Readers)**:GPT-5.4和Claude Opus 4.6直接阅读推理轨迹并预测目标属性 - **单位置探测(Single-location Probes)**: - 反事实敏感性:最终答案token对输入片段的注意力权重(Attention Attribution) - 重跑一致性:最终答案的log-likelihood(Answer Prediction Likelihood) - **随机预测基线** **关键结果**(见Figure 2和Table 9): - **准确性优势**:在OLMo-3-7B-Think上,Behavior Forecaster的反事实敏感性Spearman相关系数达**0.731**,显著优于GPT-5.4(0.672)和Claude Opus 4.6(0.690);重跑一致性达**0.571**,远超GPT-5.4(0.305)和Claude Opus 4.6(0.308) - **计算效率**:Behavior Forecaster的推理成本不足朴素阅读器的**1/10,000** - **单位置探测失效**:注意力归因和答案概率的方法几乎等同于随机猜测(Spearman约0.13-0.16) 2\. 泛化能力实验(Section 4.3) 2.1 同族泛化(Same-family Check) - **设置**:在FEVEROUS的非数值子集(实体、多跳、表格/文本)上训练,直接在**FEVEROUS数值子集**上测试,**无需微调** - **结果**(Table 1):Behavior Forecaster在零样本设置下仍优于GPT-5.4和Claude Opus 4.6(反事实敏感性Spearman:0.565 vs 0.322/0.463) 2.2 跨数据集迁移(Transfer Across Datasets) - **设置**:在三个数据集中的**两个**上训练源模型,在**第三个 held-out 数据集**上测试: - **零样本**:直接测试源模型 - **适配**:在目标数据集上进行最多约**600步**的微调 - **结果**(Table 2): - 微调后的模型在所有held-out数据集上均优于零样本源模型 - 反事实敏感性迁移效果优异(如TreeCut上从0.650提升至0.846) - 重跑一致性在TreeCut上迁移较弱(从0.118仅提升至0.193),但在FEVEROUS和RuleTaker上提升显著 3\. 跨行为目标迁移(Section 4.4) **实验目的**:验证为一个行为任务训练的Forecaster能否迁移到相关的新行为任务。 **设置**: - **源任务**:反事实敏感性(Counterfactual Sensitivity) - **目标任务**:提示敏感性(Hint-Sensitivity)——预测给定带提示的轨迹中,模型在无提示时是否会给出不同答案 - **对比**:迁移初始化(Transferred)vs 从目标LRM直接训练(Direct)vs 朴素阅读器 **结果**(Table 3): - **迁移模型表现最佳**:Spearman达**0.800**,优于直接训练的模型(0.732)和Claude Opus 4.6(0.768) - 证明反事实敏感性任务学习到的表示可有效迁移到相关的忠实性检测任务 4\. 架构与训练消融实验(Section 5) 通过系统性消融验证关键设计选择(Table 4): | 实验变体 | 反事实敏感性(Spearman/Pearson) | 重跑一致性(Spearman/Pearson) | 结论 | | --- | --- | --- | --- | | 标准配置 (OLMo init, 端到端) | 0.723 / 0.925 | 0.568 / 0.649 | 最优配置 | | 输入排列消融 | | - 移除推理token (P-A-P) | 0.714 / 0.909 | 0.316 / 0.251 | 推理token R 对重跑一致性至关重要 | | - 仅提示 (Prompt only) | 0.567 / 0.602 | 0.348 / 0.279 | 推理轨迹携带关键信息 | | - 标准排列 (P-R-A) | 0.578 / 0.620 | - | 反事实敏感性需要P-R-A-P的echo排列 | | 初始化与训练消融 | | - 随机初始化backbone | 0.534 / 0.553 | 0.477 / 0.504 | 目标LRM预训练权重显著帮助 | | - 冻结backbone(仅训练head) | 0.245 / 0.251 | 0.475 / 0.552 | 端到端微调至关重要 | | - 随机预测 | 0.000 / 0.000 | 0.000 / 0.000 | 基线 | **关键发现**: - **任务特定排列**:反事实敏感性依赖**P-R-A-P**(提示-推理-答案-提示复制)排列以访问完整上下文;重跑一致性在**P-R-A**排列下最优 - **推理token的必要性**:移除 R 导致重跑一致性性能暴跌(0.568→0.316),证明轨迹包含超出提示和答案的深层信息 - **预训练与微调**:从目标LRM初始化并端到端训练,显著优于随机初始化或冻结backbone 5\. 附加诊断实验(Appendix) - **目标LRM作为朴素阅读器**:测试OLMo-3-7B-Think阅读自身轨迹的能力,发现其表现显著差于训练后的Forecaster和前沿朴素阅读器(Table 12),证明训练专门Forecaster的必要性 - **统计显著性验证**:通过聚类自助法(cluster bootstrapping)和置换检验确认Behavior Forecaster相对于朴素阅读器的优势具有统计显著性(Table 13)

Q: 有什么可以进一步探索的点?

基于论文的局限性与结论,以下几个方面值得进一步探索: 1\. 更广泛的行为预测目标与跨任务泛化 论文仅针对**重跑一致性**和**反事实敏感性**两个任务进行了验证,且跨数据集迁移实验局限于相同类型的推理任务(事实验证、逻辑推理、数学问题)。未来可探索: - **扩展到其他可自动标注的行为属性**:如论文结论所述,任何可通过查询目标LRM自动标注的行为统计量(如幻觉概率、拒绝率、特定偏见表现、工具使用倾向等)都可作为预测目标 - **异构任务间的泛化**:测试在数学任务上训练的预测器能否直接泛化到代码生成或长文本摘要等\*\*分布外(OOD)\*\*任务,而无需微调 - **组合行为预测**:同时预测多个相关行为属性(多任务学习),探索行为属性之间的关联性 2\. 架构与训练方法的改进 - **轻量化架构**:当前方法需端到端微调backbone(尽管参数量小于目标LRM),探索\*\*参数高效微调(PEFT)\*\*方法(如LoRA、Adapter)是否能在保持性能的同时进一步降低训练成本 - **跨模型迁移**:探索在不同架构的LRM之间迁移(如从OLMo训练预测器应用于DeepSeek-R1),而不仅限于同一模型家族 - **动态输入选择**:研究是否可以通过注意力机制自动选择推理轨迹中的关键片段,而非使用完整的轨迹,以处理极长推理链 3\. 与忠实推理链(Faithful CoT)的结合 论文指出,若未来LRM通过专门训练(如Swaroop et al., 2025; Baker et al., 2025的方法)产生更忠实的推理链,朴素阅读与训练预测器的差距可能缩小。可探索: - **联合训练框架**:同时优化目标LRM的推理忠实性和行为预测器的预测能力,形成"可预测且可解释"的闭环系统 - **忠实性检测的自动化**:利用行为预测器作为监控工具,实时检测当前推理轨迹是否忠实反映了模型的实际计算过程 4\. 理论分析与机制解释 - **预测器的内部机制**:通过机制可解释性(mechanistic interpretability)方法分析行为预测器从推理轨迹中提取了哪些特征(例如,它是否学会了识别模型在"猜测"vs"确定"的模式) - **信息论界限**:量化推理轨迹中关于未来行为的信息量,理论分析单次前向传播能达到的预测精度上限 5\. 实际部署与系统整合 - **实时决策集成**:将行为预测器集成到LRM的推理过程中,实现**早期退出**(当预测器判断答案极不稳定时触发重试或人工接管)或**计算资源动态分配** - **人在回路中的交互界面**:开发可视化工具,将预测器的数值输出(如各片段的重要性分数)转化为人类可理解的解释,辅助人工审核决策 6\. 对抗鲁棒性与安全性 - **对抗攻击下的稳定性**:测试当目标LRM的推理轨迹被恶意构造(如通过提示注入产生误导性推理文本)时,行为预测器是否仍能保持准确,或是否会被"欺骗"而产生错误的安全保证 - **预测器的校准**:当前使用Spearman/Pearson相关性评估,未来需研究预测器输出的**概率校准**(calibration),确保预测概率真实反映实际行为频率,这对高风险部署场景至关重要

Q: 总结一下论文的主要内容

这篇论文针对\*\*大型推理模型(LRMs)\*\*的行为预测难题,提出了一种绕过传统"解释-预测"路径的新方法。以下是核心内容的系统总结: 1\. 研究背景与问题 - **信任危机**:对AI系统的信任依赖于预测其未来行为的能力,但LRMs(如OpenAI O1、DeepSeek R1)产生的长推理轨迹(reasoning trajectories)使传统方法失效 - **双重障碍**: - **解释不可信**:推理轨迹常遗漏关键因素(如偏见、提示),且表面语义与实际计算不匹配(unfaithful) - **成本过高**:通过重采样(reruns)估计行为统计量计算成本极高;标准归因方法(如注意力机制)只能探测单一生成位置,无法捕捉长轨迹内部的计算过程 2\. 核心方法:行为预测器(Behavior Forecaster) 将行为预测重新框架为**监督学习任务**: - **输入**:目标LRM的单条观察轨迹 τ = (P, R, A) (提示、推理token、答案) - **输出**:行为统计量的预测值(如答案重复概率、输入片段重要性) - **训练数据**:通过查询目标LRM自动生成标签,无需人工标注 - **推理**:单次前向传播,计算成本远低于重采样或大型语言模型阅读(<1/10,000) 3\. 实例化任务 在三个推理数据集(FEVEROUS、RuleTaker、TreeCut)上验证两个具体任务: - **重跑一致性(Rerun Consistency)**:预测模型在相同输入上重新运行时重复当前答案的概率 - **反事实敏感性(Counterfactual Sensitivity)**:预测移除输入特定片段对答案产生概率的影响程度 4\. 关键实验发现 准确性优势 - 在OLMo-3-7B-Think上,行为预测器的Spearman相关性显著超越前沿朴素阅读器: - 反事实敏感性:**0.731** vs GPT-5.4 (0.672) vs Claude Opus 4.6 (0.690) - 重跑一致性:**0.571** vs GPT-5.4 (0.305) vs Claude Opus 4.6 (0.308) - 标准单位置探测(注意力权重、答案概率)几乎等同于随机猜测 泛化能力 - **同族泛化**:在FEVEROUS非数值子集训练,直接在数值子集测试仍优于朴素阅读器 - **跨数据集迁移**:在两个数据集上训练,在第三个数据集上经约600步微调后性能显著提升 - **跨行为目标迁移**:反事实敏感性模型经微调后在提示敏感性(hint-sensitivity)任务上表现优于直接训练(Spearman 0.800 vs 0.732) 架构必要性(消融实验) - **端到端训练必需**:冻结backbone仅训练预测头会严重损害性能 - **目标LRM初始化关键**:从目标模型权重初始化显著优于随机初始化 - **任务特定输入排列**: - 反事实敏感性需**Prompt-Echo排列**( P – R – A – P )以访问完整上下文 - 重跑一致性适用标准排列( P – R – A ) - **推理token的必要性**:移除推理轨迹( R )会显著降低性能,证明其携带超越表面文本的信息 5\. 理论贡献与启示 - **轨迹的信息价值**:证明LRM的推理轨迹蕴含关于未来行为的**可学习模式**,这些信息远超自然语言表面阅读所能提取的内容 - **研究范式转变**:倡导将推理轨迹视为"带有可学习模式的数据"而非"需要阅读的自然语言",为可解释性研究开辟新路径 6\. 局限与未来方向 - **OOD任务泛化**:未在异构任务(如从数学到代码生成)间验证泛化能力 - **忠实性改进的交互**:若未来LRM通过专门训练产生更忠实的推理链,朴素阅读与训练预测器的差距可能变化 - **部署扩展**:实际应用需要更广泛的任务覆盖和概率校准(calibration) **结论**:该研究确立了行为预测作为独立学习任务的可行性,为在计算资源受限场景下理解LRM行为提供了实用且高效的解决方案。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 [**这里**](http://kimi.com/_prefill_chat?prefill_prompt=我们要讨论的论文是Forecasting%20Future%20Behavior%20as%20a%20Learning%20Task,链接是https://arxiv.org/pdf/2606.11445,已有的FAQ链接是https://papers.cool/arxiv/kimi?paper=2606.11445。请以此为基础,继续回答我后面的问题。&system_prompt=你是一个学术助手,后面的对话将围绕着以下论文内容进行,已经通过链接给出了论文的PDF和论文已有的FAQ。用户将继续向你咨询论文的相关问题,请你作出专业的回答,不要出现第一人称,当涉及到分点回答时,鼓励你以markdown格式输出。&send_immediately=true) 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。 {% endhideToggle %}

Authors: Mosh Levy, Yoav Goldberg, Asa Cooper Stickland

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11445.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11445

Published: 2026-06-11T02:20:05.764Z


8. Search Discipline for Long-Horizon Research Agents

Abstract:Autoresearch agents now propose, evaluate, and select scientific candidates against a metric, and that metric is usually an aggregate reduced over a heterogeneous space of regions, slices, or cohorts. We show that when scientific validity lives in that disaggregated structure, the aggregate can rank the wrong candidate first. The headline number improves while the structure underneath inverts, so a decision made on the number accepts a candidate that quietly breaks the model. The failure is not domain-specific. It appears wherever a candidate’s validity is multi-dimensional but its verifier is a single reduction. We demonstrate the inversion on a fire-model task in the Ecosystem Demography model. The highest-scoring candidate and a slightly lower one are within noise of each other on global score, yet the top-scoring one collapses the protected boreal regions while the other preserves them. What separates them is the per-region behavior, not the headline number. This decision should not be left to the agent that produced the candidates. The agent optimizing the score is the last party likely to catch the score being wrong, and a prompt has no remaining turn once the agent has stopped. We move the decision to an external control loop that audits each candidate on its disaggregated behavior and acts after the agent has decided. It can demote a candidate the agent would have accepted, and it can reopen a run the agent had declared finished. Our contribution is the inversion finding itself, and a search-discipline protocol that decides on reviewable candidate-effect evidence instead of the score.

{% hideToggle 中文摘要 %} 摘要:自主研究代理现在可以根据指标提出、评估和选择科学候选者,而该指标通常是在异质区域、切片或队列的空间上聚合缩减得出的。我们表明,当科学有效性存在于这种离散结构中时,聚合可能会错误地将不合适的候选者排在第一位。头条数字可能有所提高,而其下的结构却发生了反转,因此基于该数字做出的决策可能会接受一个悄悄破坏模型的候选者。这种失败并非特定领域。在任何候选者的有效性是多维的,而其验证者仅是单一缩减的情况下都会出现。我们在生态系统人口模型的火灾模型任务中演示了这种反转。全球得分中得分最高的候选者与略低的候选者在噪声范围内相差无几,但得分最高的一个却会让受保护的北方森林区崩溃,而另一个则保持它们的完整。区分它们的是每个区域的行为,而不是头条数字。这个决策不应该由产生候选者的代理来做。优化得分的代理最不可能发现分数错误,而一旦代理停止运作,提示也没有剩余的回合。我们将决策移至外部控制循环,由其对每个候选者的离散行为进行审核,并在代理做出决定后采取行动。它可以降级代理原本会接受的候选者,也可以重新开启代理已经宣布完成的运行。我们的贡献在于发现了这种反转现象,并提出了一种搜索纪律协议,该协议依据可复核的候选者影响证据而非得分来做出决策。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**自主研究智能体(autoresearch agents)在长周期研究任务中的聚合验证器反转(aggregate-verifier inversion)问题**。 具体而言,该问题包含以下核心维度: 1\. 聚合指标与科学有效性的背离 当候选方案的科学有效性存在于**异质空间的分解结构**(如不同区域、切片或队列)中时,用于优化的\*\*聚合评分(aggregate score)\*\*可能会产生误导: - 候选方案可能在整体分数上表现更优,却在某些关键子区域造成严重损害 - 这种"反转"现象使得 headline number(标题数字)改善的同时,底层结构实际上在恶化 - 在生态系统动力学模型等任务中,高分候选方案可能修复了低火险区域却破坏了 boreal forest( boreal 森林)等关键区域 2\. 智能体自我验证的结构性缺陷 论文指出,将决策权保留在生成候选方案的智能体内部存在根本性缺陷: - 优化聚合分数的智能体恰恰是**最不可能发现分数错误**的参与方 - 提示词(prompt)在运行开始时即被消耗,无法在评估完成后唤醒,也无法在智能体停止后采取进一步行动 - 智能体在自身语境和日程下评判自己的工作,继承了导致反转的偏见 3\. 搜索过早终止的风险 智能体倾向于在找到第一个看似可辩护的结果后就停止搜索,而未能充分探索解空间: - 在 baseline 附近,候选方案间的聚合分数差异往往处于评估噪声范围内 - 智能体可能在未充分验证分解行为的情况下就接受某个候选方案并撰写报告 解决方案框架 论文提出\*\*搜索纪律(search discipline)**机制,通过**外部控制循环(external control loop)\*\*将决策权移出智能体: - 对每个候选方案进行**分解行为审计(disaggregated behavior audit)**,而非仅依赖聚合分数 - 允许在外部拒绝智能体已接受的高分候选方案(demote) - 允许在智能体宣布结束后重新打开搜索(reopen) - 基于可审查的候选方案效应证据(candidate-effect evidence)而非单纯分数做出决策 该框架适用于任何在异质空间上优化聚合指标的自主研究场景,包括科学建模、机器学习模型改进和代码生成等任务。

Q: 有哪些相关研究?

根据论文的文献综述与参考文献,相关研究可分为以下几个类别: 1\. 长周期智能体评估基准(Long-horizon Agent Evaluation) - **SWE-bench** 3 :评估语言模型解决真实 GitHub 问题的能力,衡量智能体完成现实软件工程任务的表现。 - **MLE-bench** 1 :评估机器学习智能体在机器学习工程任务上的表现,与 SWE-bench 共同构成长周期智能体能力评估的基础。 2\. 科学智能体系统(Scientific-Agent Systems) - **AlphaEvolve** 9 :用于科学和算法发现的编程智能体,展示智能体在生成实验、代码和算法方面的能力。 - **The AI Scientist-v2** 14 :通过智能体树搜索实现研讨会级别的自动化科学发现,展示智能体生成实验、代码和书面报告的能力。 - **Physics is all you need?** 7 :物理学家监督的 AI 科学软件开发案例研究,展示人类监督下的科学智能体开发流程。 3\. 自我批评与迭代优化(Self-Critique & Refinement) - **Self-Refine** 5 :通过自我反馈进行迭代优化,允许智能体评估并改进自己的输出。 - **Reflexion** 13 :使用语言强化学习的智能体,通过言语反馈实现自我改进。 - **局限性**:论文指出这些方法将评估保留在生成候选方案的智能体内部,无法解决聚合验证器反转问题。 4\. 聚合指标的隐藏分层问题(Hidden Stratification) - **Oakden-Rayner et al.** 10 :揭示机器学习医学影像中隐藏分层导致临床意义上的失败,证明聚合指标可能遗漏子群体的失败——这与本文提出的"反转"问题在结构上同源。 5\. 语言模型作为评判者(LLM-as-a-Judge) - **MT-bench & Chatbot Arena** 15 :评估使用语言模型作为评判者的方法,为本文控制循环中的外部评判者(judge)提供方法论基础。 6\. 领域特定模型与工具 - **Ecosystem Demography (ED) Model** 2, 4, 6 :本文用于演示反转问题的陆地生态系统模型,特别是其火灾预测组件。 - **Hermes Agent** 8 :本文使用的开源自主智能体框架,用于执行实际的搜索和实验。 - **GPT-5.5** 11 :驱动研究智能体和监控循环评判者的基础模型。 7\. 自主研究范式扩展 - **Extending the Autoresearch Loop** 12 :关于扩展自主研究循环的相关工作,为本文的审计和验证框架提供背景。 **与本文的关系**:现有研究主要关注智能体是否能完成任务(如 SWE-bench、MLE-bench)或如何生成更好的候选方案(如 Self-Refine、AlphaEvolve),而本文聚焦于**决策时刻**——当候选方案在聚合指标上表现良好但在分解结构上存在缺陷时,如何防止智能体接受错误的候选方案。这是现有提示工程和自我批评方法无法解决的结构性问题。

Q: 论文如何解决这个问题?

论文通过建立\*\*搜索纪律(search discipline)**框架解决该问题,其核心是将候选方案的决策权从生成它的智能体内部移出,交由一个**外部控制循环(external control loop)\*\*执行基于分解行为的审计。具体解决路径如下: 1\. 候选效应审计(Candidate-Effect Audit) 取代单一的聚合分数,该方法要求对每个严肃候选方案生成一份结构化证据报告,记录: - 候选方案在空间中各部分的**帮助与损害分布** - 未发生变化的部分 - 验证器各组成部分的变动情况 - 区分受益部分与受损部分的**合法输入派生状态** - 针对该分隔器的有界诊断测试 基于该审计,候选方案被归类为五种\*\*角色(roles)\*\*之一: 1. **分数优胜者(Score winner)**:聚合分数最高但分解测试失败 2. **可辩护候选(Defended candidate)**:在聚合与分解层面均通过验证 3. **权衡方案(Tradeoff)**:修复空间某部分同时损害另一部分 4. **信息性失败(Informative failure)**:排除某个搜索方向 5. **被拒绝的捷径(Rejected shortcut)**:利用评估漏洞的投机方案 2\. 外部控制循环(Control Loop) 该循环包裹在标准智能体运行之外,由**监控器(monitor)**、**评判者(judge)**和**干预机制**构成: 架构组件 - **监控器(Monitor)**:拥有智能体的终端,观测运行状态,检测**决策边界(decision boundary)** - **评判者(Judge)**:独立的语言模型(LLM-as-a-judge),作为咨询方审查证据摘要,返回结构化决策(合同是否满足、候选角色、是否干预) - **干预执行**:监控器负责渲染并传递干预消息,确保评判错误不会未经滤波直达智能体 关键干预能力 与一次性提示词(prompt)相比,外部循环具备两项核心能力: - **降级(Demote)**:拒绝智能体已接受的高分候选方案(基于分解证据) - **重新打开(Reopen)**:在智能体宣告结束并返回空闲状态后,强制继续搜索 3\. 可靠性设计保障 为确保循环不破坏被治理的运行,论文实施以下机制: - **终端所有权**:监控器启动智能体并拥有其终端,确保指令传递、继续或停止的可靠通道 - **完成证据判断**:以进程完成作为信号,要求结果文件存在且稳定后才行动,确保评判者看到已完成的工作 - **文件化长指令**:将长指令写入文件并指向智能体,避免部分读取,并留下审计痕迹 - **终端状态认证**:运行仅当循环记录终端状态后才算完成;智能体自行撰写的最终报告不结束运行,捕获"智能体空闲但合同未满足"的常见停滞状态 4\. 实际解决效果演示 在生态系统动力学(ED)模型的火灾预测任务中: - **聚合层面的困境**:两个候选方案全局分数差异仅 0.0007 (在噪声范围内),但 boreal 森林区域忠诚度差异达 0.082 (结构性失败) - **审计干预**:循环识别出高分候选方案( 0.6774 )在 boreal 区域造成 -0.086 的损害,将其**降级**;接受分数略低( 0.6767 )但 boreal 区域仅变化 -0.004 的候选方案 - **防止过早停止**:在智能体完成单次浅层搜索并试图撰写报告时,循环拒绝该完成状态,强制尝试未探索的组合,或在分数处于噪声范围内时阻止停止,要求更多工作 5\. 与提示工程的差异 论文特别指出,仅靠提示词无法解决该问题: - **结构重述提示(Structural reframing prompt)**:实验显示,即使添加要求跨领域借鉴机制的段落,智能体仍会在单次浅层通过后停止,最终边界未改变 - **自我批评局限**:如 Self-Refine 和 Reflexion 等方法将评估保留在生成候选方案的智能体内部,该智能体在优化已反转的聚合指标时,其自我评估共享导致问题的偏见 通过将决策置于**未生成候选方案且对其无利害关系的第三方**位置,并在智能体决策后保留行动能力,搜索纪律确保候选方案的选择基于**可审查的分解效应证据**而非单一聚合分数。

Q: 论文做了哪些实验?

论文在\*\*第4节(Evaluation)\*\*中报告了针对生态系统动力学(ED)模型火灾预测改进任务的实验,具体包括以下实验设计与发现: 1\. 实验任务与设置 **任务定义**:改进陆地生态系统模型(Ecosystem Demography model)的火灾预测组件,预测燃烧面积,受限于固定输入合同(fixed input contract)。 **关键约束**: - 仅允许使用模型派生输入(干燥度、降雨量、温度、植被生产力等) - 禁止基于命名区域、经纬度、外部数据、逐位置查找表或直接拟合目标编写规则 - 同时评估全球分数和区域分数,并使用独立公开数据进行交叉验证 **智能体配置**: - 研究智能体:Hermes(开源自主智能体) - 基础模型:GPT-5.5(高推理强度设置) - 监控循环评判者:相同模型(GPT-5.5) 2\. 对比条件 实验比较三种控制条件: | 条件 | 描述 | | --- | --- | | 基础提示 | 已包含基线复现、全球与区域检查、单一合法公式、评估和维护日志等强约束 | | 结构重述提示 | 在基础提示上增加一段结构性重述段落,要求智能体借鉴其他领域机制,以改进搜索先验 | | 控制循环 | 在基础提示基础上叠加外部监控循环,执行候选效应审计 | 3\. 核心实验发现 3.1 聚合验证器反转的实证(Inversion Demonstration) 在表现最清晰的运行中,智能体从同一机制家族生成两个严肃候选方案(激进版与温和版): **聚合分数层面**: - 激进候选: 0.6774 (最高分) - 温和候选: 0.6767 (与最高分相差 0.0007 ) - 差距处于评估噪声范围内(可通过参数调优单独达到) **分解行为层面(区域忠诚度)**: - **激进候选**:在 boreal 森林区域造成 -0.086 和 -0.07 的忠诚度下降(第一小数位的结构性失败) - **温和候选**:在相同 boreal 区域仅变化 -0.004 和 -0.003 (接近基线),同时在其他区域保持相当修复效果 **干预结果**: - 控制循环的评判者基于区域理由**拒绝**高分激进候选,\*\*降级(demote)\*\*该候选 - 运行最终接受分数略低但区域稳健的温和候选 - 记录明确显示:外部参与方基于分解证据拒绝分数优胜者,实现提示词无法提供的覆盖(override) 3.2 防止过早停止(Premature Stopping) 实验记录了控制循环解决搜索过早终止的实例: - **实例一**:循环拒绝看似完成的状态,强制对智能体未尝试的组合进行额外遍历,最终认证保持基线的保守结果 - **实例二**:阻止智能体在候选分数与基线差异处于噪声范围内时停止搜索,要求继续工作直至运行可合法关闭 这些干预均在智能体已返回空闲状态后由外部发起,证明循环能够\*\*重新打开(reopen)\*\*智能体已宣告结束的研究。 3.3 候选角色分布(Candidate Roles) 跨运行分析显示,几乎所有严肃候选的全球分数均处于基线噪声范围内,因此分数本身无法解决选择问题。审计机制识别出以下不可通过分数区分的状态: - **分数优胜者(Score winner)**:聚合最高但区域测试失败 - **可辩护候选(Defended candidate)**:通过双重测试 - **权衡方案(Tradeoff)**:修复空间某部分同时损害另一部分 - **信息性失败(Informative failure)**:排除特定搜索方向 3.4 提示工程 vs. 外部循环 **结构重述提示的失败**: - 假设:改进搜索先验可推动前沿 - 结果:确实促使智能体更早尝试组合多个机制,但运行仍在单次浅层通过后停止,最终前沿未改变 **基础提示的局限**: - 强基础提示(无循环)也能独立发现真实机制,但仍会损害 boreal 区域 - 证明提示可改变搜索起点,但无法解决最终决策的结构性偏见 3.5 输入合同边界分析 实验揭示在固定输入合同下,同时修复低火险区域且不损害真实燃烧区域(如 boreal 森林)极其困难。允许的输入可识别某些分离(如干旱季节燃烧窗口),但缺失人类点火、土地利用、闪电、风和植被结构等因果因素。审计使这一边界可见,记录已尝试的分离及失败原因,为后续研究者提供比停滞数字更有价值的信息。 4\. 实验局限性说明 论文明确当前实验的局限: - 呈现的是**单一认证运行**中最清晰的证据,辅以显示相同解读的其他运行候选效应轨迹(即使这些运行未完全认证) - 未报告大规模平均效应,而是聚焦于审计改变后期决策(降级候选或重新打开搜索)的实例 - 强调合同本身构成真实边界:若允许输入不包含行为缺失原因,审计无法恢复,其职责是暴露而非突破该边界

Q: 有什么可以进一步探索的点?

基于论文的讨论与局限性部分,可进一步探索的研究方向包括: 1\. 大规模统计验证 当前证据主要基于**单一认证运行**及若干辅助运行的候选效应轨迹。未来工作需在**大量运行中系统测量控制循环改变结果的频率**,建立关于循环干预有效性的统计基础,而非仅依赖定性演示。 2\. 跨领域迁移与适配 论文识别出该问题的通用结构(科学建模、机器学习模型改进、代码生成),但实验仅聚焦于生态系统动力学模型。需探索: - 在**软件工程智能体**(如 SWE-bench 场景)中,如何定义"分解行为"(如不同测试子集、代码模块的行为差异) - 在**机器学习工程智能体**(如 MLE-bench 场景)中,如何处理验证准确率与保护子群体(protected subgroups)或数据泄漏(leakage)之间的反转 - 各领域特定的**审计标准形式化**方法 3\. 评判者(Judge)的校准与可靠性 当前循环中的评判者作为咨询方,其错误依赖监控器过滤。未来可探索: - **评判者一致性**:不同模型或提示配置下,对同一候选效应审计的判定稳定性 - **自适应评判**:根据任务进展动态调整评判标准或引入多评判者共识机制 - **人机协同审计**:在关键决策点引入领域专家验证,平衡自动化与专业判断 4\. 合同边界的自动识别与扩展 当固定输入合同不包含解释行为差异的因果因素时,审计仅能暴露边界而非突破。可探索: - **合同缺陷检测**:自动识别当前允许输入无法解释的区域性差异,标记需要扩展输入空间的情形 - **动态合同修订**:在保持"不直接拟合目标"约束的前提下,智能体提议并验证新输入特征的机制 5\. 重新打开(Reopen)冲突的解决协议 论文提及当重新打开与智能体自身关闭冲突时,可能出现"科学上完整但未经认证"(scientifically complete yet uncertified)的状态。需开发: - **状态恢复与合并协议**:如何在不丢失已有进展的前提下继续搜索 - **终止条件的形式化**:更精确地定义"合同已满足"的充要条件,减少智能体与监控器对完成状态的分歧 6\. 候选角色的自动化精细化分类 当前五种角色(分数优胜者、可辩护候选、权衡方案、信息性失败、被拒绝的捷径)为定性分类。可探索: - **量化权衡度量**:在"权衡方案"中,建立跨区域损害与收益的可比性度量,支持帕累托最优选择 - **失败模式的因果归因**:自动诊断"信息性失败"背后的机制缺陷,指导后续搜索方向 7\. 计算成本与审计粒度的权衡 分解行为审计需评估候选方案在多个子区域/切片的表现,可能显著增加评估开销。需研究: - **自适应采样**:仅在聚合分数接近时触发完整的分解审计 - **分层验证**:先进行粗粒度分解筛选,再对通过者进行细粒度审计 8\. 提示工程与控制循环的混合架构 论文显示单纯提示改进(结构重述)不足以解决问题,但未排除**分层提示**与**轻量级监控**结合的中间方案。可探索在循环干预前,通过提示预处理减少需要外部审计的候选数量。

Q: 总结一下论文的主要内容

论文针对自主研究智能体(autoresearch agents)在长周期研究任务中面临的\*\*聚合验证器反转(aggregate-verifier inversion)**问题,提出了**搜索纪律(search discipline)\*\*框架。 核心问题:聚合验证器反转 当候选方案的科学有效性存在于**异质空间的分解结构**(如不同地理区域、数据切片或队列)中时,用于优化的**聚合评分**(单一数字)可能与科学有效性判断相悖。具体表现为: - 候选方案可通过损害关键子区域(如生态系统模型中的boreal森林)来换取整体分数提升 - 在强基线附近,候选方案间的聚合分数差异往往处于评估噪声范围内,无法提供有效区分信号 - 智能体基于聚合分数的优化会**接受破坏模型的候选方案**,因其无法察觉分数背后的结构性损害 现有方法的结构性局限 - **提示工程(Prompting)**:提示词在运行开始时即被消耗,无法在评估完成后唤醒,也无法在智能体停止后采取行动 - **自我批评(Self-critique)**:将评估保留在生成候选方案的智能体内部,该智能体在优化已反转的聚合指标时,其自我评估继承了导致问题的偏见 - **过早停止**:智能体倾向于在找到第一个看似可辩护的结果后即停止搜索,未能充分探索解空间 解决方案:搜索纪律框架 该框架通过\*\*外部控制循环(external control loop)\*\*将决策权移出智能体,包含两个核心组件: **1\. 候选效应审计(Candidate-Effect Audit)** 取代单一分数,要求对每个严肃候选方案生成结构化证据报告,记录: - 在空间各部分的**帮助与损害分布** - 区分受益与受损部分的**合法输入派生状态** - 各子区域的具体行为变化 基于审计,候选方案被归类为五种角色:分数优胜者(聚合最高但分解失败)、可辩护候选(双重通过)、权衡方案、信息性失败或被拒绝的捷径。 **2\. 外部控制循环** - **监控器(Monitor)**:拥有智能体终端,检测决策边界 - **评判者(Judge)**:独立语言模型,审查证据并返回结构化决策 - **干预能力**:具备两项提示词无法实现的操作——\*\*降级(demote)**拒绝智能体已接受的高分候选,以及**重新打开(reopen)\*\*在智能体宣告结束后强制继续搜索 实验验证 在**生态系统动力学(ED)模型**的火灾预测改进任务中: - 两个候选方案的全球分数差异仅 0.0007 (在噪声内),但boreal森林区域忠诚度差异达 0.082 (结构性失败) - 控制循环识别出高分候选( 0.6774 )破坏关键区域,将其**降级**;接受分数略低( 0.6767 )但区域稳健的候选 - 阻止智能体在噪声范围内停止搜索,强制继续探索未尝试的组合 贡献与适用范围 论文的主要贡献在于: 1. **命名并实证了聚合验证器反转现象**:证明该现象出现在真实科学建模任务中,且不仅限于特定领域 2. **提出了搜索纪律协议**:以可审查的分解效应证据取代单一分数作为决策依据 3. **构建了外部控制循环**:实现智能体无法自我执行的降级与重新打开操作 该框架适用于任何在异质空间上优化聚合指标的自主研究场景,包括科学建模、机器学习模型改进(防止子群体损害或数据泄漏)及代码生成(确保未测试行为正确)等任务。

Q: 想要进一步了解论文

以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 [**这里**](http://kimi.com/_prefill_chat?prefill_prompt=我们要讨论的论文是Search%20Discipline%20for%20Long-Horizon%20Research%20Agents,链接是https://arxiv.org/pdf/2606.11522,已有的FAQ链接是https://papers.cool/arxiv/kimi?paper=2606.11522。请以此为基础,继续回答我后面的问题。&system_prompt=你是一个学术助手,后面的对话将围绕着以下论文内容进行,已经通过链接给出了论文的PDF和论文已有的FAQ。用户将继续向你咨询论文的相关问题,请你作出专业的回答,不要出现第一人称,当涉及到分点回答时,鼓励你以markdown格式输出。&send_immediately=true) 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。 {% endhideToggle %}

Authors: Adithya Srinivasan, Devesh Paragiri

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11522.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11522

Published: 2026-06-11T02:20:05.764Z


9. MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

Abstract:Financial and tabular question answering requires more than fluent reasoning: answers must be grounded in the exact facts, formulas, units, signs, and scales that support them. A single misread cell or incorrect operation can silently produce a plausible but wrong result. We introduce \textsc{MOCA-Agent}, a market-of-claims code agent that replaces free-form multi-agent debate with claim-level verification. The system decomposes each question into typed atomic claims, asks specialist trader agents to buy or sell those claims, clears their orders into confidence-weighted accept/reject decisions, and synthesizes an executable Python program from market-supported evidence. A code-aware verifier then checks the program for execution, structural consistency, and common financial reasoning errors, with at most one market-aware repair round. Across ten public benchmarks spanning financial numerical reasoning, general tabular reasoning, ESG question answering, and multimodal chart reasoning, \textsc{MOCA-Agent} achieves strong performance using a fixed Qwen3.6-27B backbone, including $78.3\%$ on FinQA, $76.0\%$ on FinanceMath, $71.2\%$ on MultiHiertt, $86.9\%$ on ESGenius, and $85.6\%$ average on FinChart-Bench. These results show that aggregating evidence at the level of atomic claims, rather than whole answers, improves robustness in high-stakes numerical reasoning.\footnote{The code and data are available: this https URL.

{% hideToggle 中文摘要 %} 摘要:金融和表格问答不仅需要流畅的推理:答案必须基于支持它们的准确事实、公式、单位、符号和量级。一个单一的单元格读取错误或操作错误都可能默默地产生看似合理但错误的结果。我们提出了\textsc{MOCA-Agent},一种索赔市场代码代理,它用索赔级验证替代了自由形式的多代理辩论。系统将每个问题分解为类型化的原子索赔,要求专业交易代理买入或卖出这些索赔,然后将它们的订单清算为带权置信度的接受/拒绝决策,并根据市场支持的证据合成可执行的Python程序。一个代码感知的验证器随后检查程序的执行、结构一致性以及常见的金融推理错误,并最多进行一次面向市场的修复循环。在涵盖金融数值推理、一般表格推理、ESG问答和多模态图表推理的十个公共基准测试中,\textsc{MOCA-Agent}使用固定的Qwen3.6-27B骨干网络取得了强劲的表现,包括FinQA上$78.3\%$,FinanceMath上$76.0\%$,MultiHiertt上$71.2\%$,ESGenius上$86.9\%$,以及FinChart-Bench上的平均$85.6\%$。这些结果表明,在高风险数值推理中,在原子索赔级别聚合证据,而非整答案级别,可以提高鲁棒性。\footnote{代码和数据可用:此https URL。} {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文针对**金融与表格数值问答系统中的高静默错误率**问题,提出了一种基于声明市场(Market-of-Claims)的新型代码智能体框架。具体而言,论文试图解决以下三个核心痛点: 1\. 静默错误计算(Silent Miscomputation) 现有程序思维(Program-of-Thought, PoT)方法在生成可执行代码后往往直接提交结果,但即使语法正确的程序也可能: - 读取错误的表格单元格 - 使用错误的分母或分子 - 在运算中混淆符号或数量级 这些错误不会导致执行崩溃,而是静默产生看似合理但数值错误的结果。例如,在MultiHiertt基准测试中,即使提供完整表格内容,OpenAI o1的准确率也仅为38%(文本推理)或49%(符号推理)。 2\. 不透明聚合(Opaque Aggregation) 现有自由形式的多智能体辩论或批判-执行循环方法通常对整个答案或完整批判进行聚合: - 若多个智能体独立地推导出相同的错误数值,共识机制会赋予该错误结果高置信度 - 智能体的输出被视为"黑箱投票",无法暴露其依赖的具体事实、公式或单位假设 - 缺乏对**原子级声明**(如单个单元格数值、特定公式、单位符号)的细粒度验证 3\. 结构性验证不足(Insufficient Structural Verification) 自修复与代码修复框架主要依赖执行失败信号或自由形式批判: - 无法检测执行成功但语义错误的金融常见错误(如将比率错误缩放100倍、税前税后符号翻转、汇总错误行) - 缺乏针对算术、会计惯例和数量级约束的**操作感知型结构检查** - 反馈机制难以定位具体缺陷(如缺少公式声明、百分比缩放错误) 解决方案概述 论文提出**MOCA-Agent**(Market-of-Claims Code Agent),通过以下机制解决上述问题: - **声明级验证**:将问题分解为类型化的原子声明(事实、公式、单位、符号、方向),而非直接生成完整答案 - **市场交易机制**:由四个专业角色(提取器、公式专家、会计师、怀疑者)对声明进行加权买卖,通过市场清算确定接受/拒绝/不确定状态 - **代码感知验证**:基于问题类型(百分比变化、比率、求和等)执行针对性的结构检查,触发最多一轮市场感知修复 该方法在10个公共基准测试(包括FinQA、MultiHiertt、FinanceMath、ESGenius等)上取得显著提升,尤其在需要多单元格提取与公式组合的长文档层级表格推理任务中表现突出。

Q: 有哪些相关研究?

根据论文第2节(Literature Review),相关研究可归纳为以下四个维度: 1\. 财务与表格推理基准数据集 **早期财务数值推理基准**建立了文本-表格联合推理的基础框架,包括: - **FinQA**、**ConvFinQA**、**TAT-QA**:基于标普500 10-K文件构建,要求从叙事文本和表格中提取证据并执行程序类数值推导 - **MultiHiertt**、**HiTab**:针对层级表格(hierarchical tables)的推理基准,前者需联合多层级表格与文本进行多步符号推理,后者包含细粒度的实体与数量对齐标注 **扩展场景基准**测试更长上下文与更复杂领域知识: - **DocFinQA**、**DocMath-Eval**(Simplong/Complong):针对长文档(平均18k词)的数学推理,包含多表复杂数值计算 - **FinanceMath**、**FinanceReasoning**:大学级别金融数学推理,涵盖量化分析、衍生品、会计等七个子领域 - **ESGenius**:ESG(环境、社会与治理)领域知识多选题基准,需结合权威文档进行推理 - **通用表格基准**:**WikiTableQuestions**(开放域表格问答)、**TabMWP**(表格数学文字题) 2\. 程序与工具增强推理方法 **基础方法**: - **Program-of-Thought (PoT)**:将计算与推理分离,生成可执行程序作为中间表示 - **Chain-of-Table**:通过迭代表格操作实现推理链的显式演化 **近期表格智能体**结合规划与工具使用: - **TableMaster**、**ReAcTable**、**TIDE-Agent**、**ARTEMIS-DA**、**TableMind**:支持迭代表格操作与计划合成 **金融与层级表格专用系统**: - **Fortune**、**TableGPT2**、**TabAF**、**Fino1**:针对金融表格的强基线,部分采用强化学习训练(如Fortune的公式驱动RL) - **多智能体扩展**:近期金融管道(如TradingAgents、FINCON、SheetBrain)通过多智能体辩论或级联推理提升鲁棒性 **与MOCA-Agent的核心区别**:上述方法均在**完整输出层面**操作,将智能体输出视为不透明投票;MOCA-Agent则在**原子声明层面**暴露假设,允许对单个事实、公式或单位进行独立验证。 3\. 多智能体聚合与辩论机制 **基础辩论框架**: - **Multi-Agent Debate (Du et al., 2024)**:通过LLM实例间辩论提升事实准确性 - **ReAct**:推理与工具使用交错进行 **结构化审议**: - **Wu et al. (2025)**、**Ning et al. (2025)**、**Hu et al. (2026)**、**Zhang & Xiong (2025)**:形式化多智能体审议过程,但指出在计算资源匹配时,辩论可能退化为简单集成,除非智能体在**结构化子声明**上存在分歧 **自反思与批判**: - **Self-Refine**、**Reflexion**、**CRITIC**:基于执行信号或LLM评判进行迭代优化 **局限**:这些方法通常聚合**完整答案**或**完整批判**,若多个智能体独立产生相同的错误数值,共识机制会错误地赋予高置信度;且无法细粒度地挑战特定事实或公式假设。 4\. 代码验证与修复机制 **迭代修复框架**: - **Self-Refine**、**Reflexion**、**CRITIC**:基于执行失败或自由形式批判进行代码迭代 - **ReVeal**、**ARCS**:针对代码生成的专门修复系统,结合检索增强 **关键局限**:现有反馈主要基于执行失败或自由形式批判,难以检测**执行成功但语义错误**的金融特定错误模式,如: - 比率错误缩放100倍 - 税前/税后符号翻转 - 汇总错误行项目 MOCA-Agent通过**代码感知验证器**(Code-Aware Verifier)解决此问题,该验证器基于问题类型(百分比变化、比率、求和等)执行操作感知的结构测试,并针对具体缺陷(如`missing_formula_or_unit_claim`、`percent_scaled_by_100`)提供结构化反馈,而非仅依赖运行时错误或自由形式评判。

Q: 论文如何解决这个问题?

论文提出 **MOCA-Agent**(Market-of-Claims Code Agent)框架,通过**声明级市场机制**替代传统的自由形式多智能体辩论,系统性地解决上述三个失败模式。其核心解决方案包含以下六个递进阶段: 1\. 声明目录构建(Claim Catalog Builder) **解决:不透明聚合与静默错误的数据基础** 将输入 langle q, T, C rangle (问题、表格、上下文)分解为类型化的原子声明集合 K = k_1, ..., k_M : - **六类声明标签**:事实(fact)、公式(formula)、单位(unit)、符号(sign)、方向(direction,如增加/减少)、其他 - **显式证据锚定**:每个事实声明必须包含表格中的短证据引用(evidence quote) - **问题类型标注**:标记问题类别 τ (百分比变化、比率、求和、差值、平均值、比较等),供后续验证器选择针对性检查 通过将推理依赖显式化为可独立验证的原子单元,避免了对"完整输出"的黑箱投票。 2\. 专业交易者市场(Specialist Trader Market) **解决:不透明聚合 → 透明、细粒度的假设检验** 四个互补的专业角色独立对声明提交加权订单(买/卖): - **EXTRACTOR(提取器)**:验证单元格选择与证据引用准确性,针对事实声明 - **FORMULA(公式专家)**:验证运算家族、分母选择、百分比变化方向 - **ACCOUNTANT(会计师)**:验证单位一致性、符号处理(如税前/税后)、会计惯例(收入/费用/净值),权重 w=1.10 (最高) - **SKEPTIC(怀疑者)**:主动做空证据不足的声明,检测年份顺序错误、分母错误等,权重 w=0.95 每个订单包含:**规模** n∈1,...,5 、**价格** $p∈ 0.01,0.99 $(置信度)、**理由**。这种设计允许对单个错误声明(如错误的单元格数值)进行"做空",而无需否定整个程序。 3\. 市场清算机制(Claim Market Clearing) **解决:结构化聚合与冲突显式化** 对每个声明 k_m 聚合订单,计算: - **清算价格**: π_m = (B_m) / (B_m + S_m + varepsilon) (买方加权体积占比) - **置信度**: γ_m = (|B_m - S_m|) / (B_m + S_m + varepsilon) (分歧归一化不平衡度) - **状态判定**: zeta_m = accepted & π_m ≥ 0.62 rejected & π_m ≤ 0.38 uncertain & otherwise **关键约束**:合成器被**严格禁止**引用被拒绝的声明。这从机制上阻止了静默错误(如错误读取的单元格)进入最终程序。 4\. 代码感知验证与市场感知修复(Code-Aware Verifier & Repair) **解决:结构性验证不足与静默错误的运行时检测** 验证器执行程序 P 后,应用**操作感知的结构测试**(基于问题类型 τ ): - **事实充足性**:百分比/比率/求和等问题需引用 ≥ 2 个事实声明 - **公式/单位/符号存在性**:当 τ 需要时,必须存在对应类型声明 - **语义一致性**: - 百分比问题未明确标记"percent"时,禁止乘以100(防止缩放错误) - 是/否问题必须输出"yes"/"no"(禁止Python布尔值) - 检查运算是否实际出现在代码中(如"ratio"必须包含除法) **评分函数** Phi(P) : - 每次违规扣 -0.45 - 事实 grounded、操作匹配、市场高置信度程序奖励 +1.00 + 0.20·min(|U_(accepted)|,4) + 0.40Gamma(U) **市场感知修复**:若验证失败,触发**单次**修复轮次,修复提示词接收: - 执行错误(若有) - 验证器的结构化原因列表(如 `missing_formula_or_unit_claim`, `percent_scaled_by_100`) 这使得修复针对具体缺陷(如"缺少公式声明"或"百分比缩放错误"),而非盲目重写。 5\. 混合选择委员会与冲突仲裁(Hybrid Selector & Conflict Arbiter) **解决:市场 grounded 程序结构性薄弱时的恢复** 当市场 grounded 程序得分 Phi(P) < 2.20 或市场置信度 Gamma(U) < 0.78 时: - **基线提案器**(无市场机制的单智能体PoT)生成候选程序 - **四方委员会**(GENERAL, EXTRACTION, FORMULA, SCALE 四个视角)对比两个候选 - **冲突仲裁器**:若委员会投票分裂且两候选输出不一致,仲裁器基于被委员会认可的部分,合成第三个程序 这确保了即使市场机制产生结构性弱的结果,系统仍能通过对比验证和仲裁恢复。 6\. 多模态扩展(Multimodal Extension) 对于图表理解任务(如FinChart-Bench),使用VLM将图表转录为表格文本后,上述文本流程**无需修改**直接适用,保持对提取数值的声明级验证能力。 **总结**:MOCA-Agent 通过\*\*"先验证假设,再合成代码"\*\*的范式转变,将金融数值推理从"生成-祈祷"(generate-and-pray)模式转变为"市场清算-约束生成-结构验证"的鲁棒管道,从根本上抑制了静默错误传播并提供了可审计的推理轨迹。

Q: 论文做了哪些实验?

论文在 **10个公开基准测试** 上进行了系统评估,涵盖金融数值推理、通用表格推理、领域知识问答和多模态图表理解四个类别。实验设计包括与SOTA方法的对比、固定骨干网络的 head-to-head 比较、组件消融实验及内部行为诊断。 1\. 评估数据集(10个基准,12个评测轨道) | 类别 | 数据集 | 样本量 | 任务类型 | 输入模态 | | --- | --- | --- | --- | --- | | C1: 金融数值推理 | FinQA | 1,147 (test) | 执行准确率 | 文本+表格 | | DocMath-Simplong | 100 (testmini) | 执行准确率 | 长文档+多表 | | DocMath-Complong | 300 (testmini) | 执行准确率 | 长文档+多表 | | FinanceMath | 200 (val) | 执行准确率 | 文本+表格 | | C2: 通用表格推理 | HiTab | 1,584 (test) | 精确匹配 | 层级表格 | | MultiHiertt | 1,044 (dev) | 执行准确率 | 文本+层级表 | | TabMWP | 1,000 (test子集) | 准确率 | 半结构化表 | | WikiTableQuestions | 4,344 (test) | 指称准确率 | 开放域表格 | | C3: 领域知识QA | ESGenius | 1,136 (full) | 4-way MCQ准确率 | 文本(RAG) | | C4: 多模态图表 | FinChart-Bench | 7,018 (TF/MC/QA) | TF/MC/开放QA准确率 | 图表图像 | 2\. 主要结果对比 2.1 金融数值推理(表2) 使用 **Qwen3.6-27B** 单一骨干,MOCA-Agent 在四个数据集上均取得SOTA或接近SOTA: - **FinQA**: 78.29%(超越 Fino1-14B 的 74.18%,+4.11) - **DocMath-Simplong**: 70.00%(超越 GPT-4o 的 60.00%,+10.0) - **DocMath-Complong**: 50.67%(超越 DeepSeek-V3 的 42.33%,+8.34) - **FinanceMath**: 76.00%(超越 GPT-4o PoT 的 67.0%,+9.0) 2.2 通用表格推理(表1) - **TabMWP**: 96.00%(超越 CREATOR 的 94.70%,+1.30) - **WikiTableQuestions**: 81.40%(超越 ARTEMIS-DA 的 80.80%,+0.60) - **MultiHiertt**: 71.17%(大幅超越 Fortune RL 的 56.78%,**+14.39**) - **HiTab**: 77.27%(接近SS-CoT的79.10%,差距-1.83) 2.3 领域知识QA(表3) - **ESGenius**: 86.88%(超越最强RAG基线 Gemma-3 12B 的 83.80%,+3.08;超越零样本o3的72.54%,+14.34) 2.4 多模态图表推理(表6) - **FinChart-QA (开放问答)**: 74.65%(超越 Claude Sonnet 4 的 63.59%,**+11.06**) - **FinChart-MC**: 84.85%(超越所有开源基线) - **FinChart-TF**: 97.27%(与 Gemini 2.5 Pro 持平) - **三项平均**: 85.59%(超越所有闭源和开源基线) 3\. 固定骨干网络的 Head-to-Head 比较(表4) 为排除模型能力差异,论文在相同 **Qwen3.6-27B** 骨干上复现了三个近期金融/表格智能体: - **TradingAgents**: 74.50% (FinQA) / 63.70% (MultiHiertt) - **FINCON**: 73.20% / 62.00% - **SheetBrain**: 71.20% / 62.60% MOCA-Agent 分别以 **+3.79** 和 **+7.47** 的绝对优势领先,证明增益来源于代理设计而非骨干模型。 4\. 骨干网络缩放实验(表5) 验证机制在不同模型上的可迁移性: - **Gemma-4 31B**: 平均 74.77%(-1.46),在 HiTab 和 WTQ 上甚至超越 Qwen3.6-27B - **Qwen-3.5 9B**: 平均 71.62%(-4.61),但在 FinQA 上仅下降 2.98 点,证明机制在较小模型上仍保持大部分优势 5\. 组件消融实验(表7) 在 FinQA 和 MultiHiertt 上逐一移除关键组件: | 配置 | FinQA | MultiHiertt | 平均损失 | | --- | --- | --- | --- | | 完整系统 | 78.29 | 71.17 | - | | w/o Trader Market | 73.38 (-4.91) | 68.50 (-2.67) | -3.79 | | w/o Baseline Proposer | 72.00 (-6.29) | 67.20 (-3.97) | -5.13 | | w/o Code Repair | 74.50 (-3.79) | 69.00 (-2.17) | -2.98 | | w/o Conflict Arbiter | 75.50 (-2.79) | 68.30 (-2.87) | -2.83 | **关键发现**: - **Baseline Proposer** 贡献最大(-5.13),说明即使强市场机制也需要"第二意见" - **Trader Market** 在 FinQA 上损失更大(-4.91),因 FinQA 依赖精确单元格提取;在 MultiHiertt 上损失较小,因层级表连接错误已被验证器捕获 6\. 内部行为诊断(表B.9) 追踪系统内部可靠性指标: | 数据集 | 代码执行率 | 代码-答案一致性 | 平均市场置信度 Gamma | | --- | --- | --- | --- | | FinQA | 98.43% | 98.43% | 0.323 | | FinanceMath | 98.00% | 98.00% | 0.220 | | MultiHiertt | 98.37% | 98.37% | 0.257 | | ESGenius | 100.00% | 100.00% | 0.465 | | FinChart-QA | 99.65% | 99.65% | 0.139 | **观察**:高执行率(≥96%)与中等市场置信度(0.1-0.4)是预期运行状态,表明验证器在决定是否接受候选时,依据的是被引用声明的子集置信度,而非完整目录。 7\. 定性分析(附录C) 论文提供了一个 **FinQA 案例研究**("2010年12月31日的追索权债务中,多少百分比在2015年后到期?"): - 目录构建器识别出9个原子声明,包括7个事实声明(各到期年份的债务金额) - **关键纠错**:C3 和 C4(2012年和2013年到期的债务)在原始表格中均显示为"2,014"(列偏移错误) - **交易者行为**:EXTRACTOR、ACCOUNTANT 和 SKEPTIC 三个角色独立对这两个声明发出**卖单**,理由包括"列值与年份不一致"、"数值可疑地相同" - **市场清算**:C3 和 C4 被明确拒绝(价格=0,置信度=1.0),阻止合成器将其纳入计算 - **最终结果**:系统仅使用被接受的 C1(总债务)和 C7(2015年后到期债务)计算,输出正确答案 0.68343 该案例直观展示了市场机制如何捕获并隔离**静默提取错误**,而传统PoT方法会直接将错误数值写入程序。

Q: 有什么可以进一步探索的点?

基于论文第9页的局限性讨论与框架设计特性,以下方向值得进一步探索: 1\. 计算效率优化 当前完整流水线需 **6–10次LLM调用**(目录构建、4个交易者、合成器、可选修复、可选基线提案、可选委员会),成本约为单次PoT智能体的5倍。未来可探索: - **蒸馏与缓存机制**:将清算后的市场共识蒸馏为轻量级验证器,避免对每个样本重复调用完整交易面板 - **早停策略**:当市场在某一轮达到足够高的清算价格(如 π_m > 0.9 )时,跳过剩余角色的评估 - **并行化与模型复用**:在保持角色独立性的前提下,通过共享底层表示减少冗余计算 2\. 分布外表格结构与动态声明扩展 现有目录构建器将问题分解为 **≤10个原子声明**( M_(max)=10 ),这一固定容量限制在以下场景可能成为瓶颈: - **超复杂层级表**:当表格包含深层嵌套标题(如HiTab中的统计报告)时,固定数量的声明可能无法覆盖所有必要的单元格引用 - **动态声明生成**:允许交易者在识别到遗漏时**动态提议新声明**(如"检测到缺失的中间计算步骤"),而非仅对预定义目录进行交易 - **列标题规范化专门化**:针对HiTab等以列标题歧义为主要错误源的基准,设计专门的标题解析角色,与现有的单元格验证角色形成互补 3\. 多模态错误传播的递归验证 当前多模态扩展(FinChart-Bench)采用 **单步VLM转录**:图表→文本表格后,交易者不再质疑转录结果。这导致: - **轴标签误读**:VLM可能将"2023"误读为"2025",此类错误在文本阶段无法被捕获 - **递归视觉验证**:允许交易者对VLM的转录输出发出"卖单",触发视觉验证模块(如"请重新检查图表X轴在 0.2, 0.4 区间的标签") - **像素级证据引用**:将声明的证据引用从文本坐标扩展到图像边界框,实现跨模态的溯源 4\. 跨领域与跨语言迁移 现有角色归纳偏置(ACCOUNTANT的会计惯例、SKEPTIC的百分比/符号检查)和验证器规则针对**英语金融场景**校准。迁移方向包括: - **科学数值推理**:调整验证器规则以适应物理单位换算(如SI单位前缀)、化学计量关系或生物统计显著性检验 - **非英语财务语料**:验证市场机制在处理中文年报、欧洲多语言ESG报告时的鲁棒性,特别是数字格式(如逗号/句点作为小数分隔符)和货币符号差异 - **领域自适应角色**:为医学、法律等领域设计专门的"监管合规角色"或"临床指南角色",替代通用的ACCOUNTANT 5\. 市场机制的强化学习优化 当前交易者权重( w_(ACCOUNTANT)=1.10 , w_(SKEPTIC)=0.95 )和清算阈值( π_↑=0.62 )为**人工设定**。可探索: - **端到端策略学习**:使用强化学习训练交易者角色的出价策略,使清算价格 π_m 更好地关联最终答案的正确性 - **动态角色权重**:根据问题类型 τ 动态调整权重(如比率问题提升FORMULA权重,长文档问题提升EXTRACTOR权重) - **对抗性交易者训练**:通过对抗训练强化SKEPTIC角色,使其更擅长发现训练数据中的系统性偏差 6\. 形式化验证与可证明正确性 现有验证器基于**启发式规则**(如检查是否乘以100)。更深层次的保证可通过: - **符号执行**:对生成的Python程序进行符号执行,验证所有可能输入下的数值范围是否符合声明约束 - **SMT求解器集成**:将单元格数值、公式和单位约束编码为SMT(可满足性模理论)问题,证明程序在所有市场接受声明下的正确性 - **差分隐私验证**:在涉及敏感财务数据的场景中,验证程序是否满足差分隐私约束 7\. 人机协同与交互式澄清 当前系统为**全自动**流水线。人机协同扩展包括: - **交互式声明澄清**:当市场置信度 γ_m 处于中等范围(如 0.3 < γ_m < 0.7 )时,暂停流水线并向人类专家展示冲突的交易理由,请求裁决 - **可解释审计报告**:生成结构化审计日志,不仅显示最终接受的声明,还展示被高置信度拒绝的声明及其理由,供分析师审查潜在的数据质量问题(如案例中的列偏移错误)

Q: 总结一下论文的主要内容

该论文针对**金融与表格数值推理**中普遍存在的高静默错误率问题,提出了一种基于\*\*声明市场(Market-of-Claims)\*\*的新型代码智能体框架。以下是论文的主要内容总结: 1\. 研究背景与核心问题 金融和表格问答系统要求答案必须精确锚定于事实、公式、单位和符号,但现有方法存在三类系统性失败: - **静默错误计算(Silent Miscomputation)**:程序思维(PoT)方法生成的代码虽可执行,但可能基于错误读取的单元格或错误的公式,产生看似合理但数值错误的结果。 - **不透明聚合(Opaque Aggregation)**:多智能体辩论或批判-执行循环通常聚合**完整答案**而非细粒度假设,导致多个智能体对同一错误数值达成"错误共识"。 - **结构性验证不足(Insufficient Structural Verification)**:现有修复框架依赖执行失败或自由形式批判,无法检测执行成功但语义错误的金融特定错误(如比率缩放100倍、符号翻转)。 2\. MOCA-Agent 框架 论文提出 **MOCA-Agent**(Market-of-Claims Code Agent),以\*\*"先验证假设,再合成代码"\*\*的范式替代传统的端到端生成。核心流程包括六个阶段: 2.1 声明目录构建(Claim Catalog Builder) 将输入 langle q, T, C rangle (问题、表格、上下文)分解为类型化的原子声明集合 K = k_m ,类型包括: - **事实(fact)**:具体单元格数值 - **公式(formula)**:运算关系 - **单位(unit)**、**符号(sign)**、**方向(direction)**:变化趋势(增加/减少)或分子/分母取向 2.2 专业交易者市场(Specialist Trader Market) 四个互补角色独立对声明提交加权买/卖订单: - **EXTRACTOR**:验证单元格选择与证据引用 - **FORMULA**:验证运算家族与分母选择 - **ACCOUNTANT**(权重 w=1.10 ):验证单位一致性、会计惯例与符号处理 - **SKEPTIC**(权重 w=0.95 ):主动做空证据不足的声明,检测潜在错误模式 2.3 市场清算(Market Clearing) 对每个声明 k_m 聚合订单,计算: - **清算价格**: π_m = (B_m) / (B_m + S_m + varepsilon) (买方加权体积占比) - **置信度**: γ_m = (|B_m - S_m|) / (B_m + S_m + varepsilon) (分歧归一化不平衡度) - **状态**: zeta_m ∈ accepted, rejected, uncertain (基于阈值 π_↑=0.62, π_↓=0.38 ) 2.4 代码合成(Synthesizer) 严格约束于**非被拒绝**的市场声明( zeta_m ≠ rejected ),生成可执行Python程序。合成器被禁止引用任何被拒绝的声明,从机制上阻断错误数据进入最终程序。 2.5 代码感知验证与修复(Code-Aware Verifier & Repair) 基于问题类型 τ (百分比变化、比率、求和等)执行**操作感知的结构检查**: - 验证事实声明数量充足性(如比率问题需 ≥ 2 个事实) - 检测百分比缩放错误、符号不一致、Python布尔值误用等 - 若验证失败,触发**单次市场感知修复**,针对具体缺陷(如 `missing_formula_or_unit_claim`)定向修正 2.6 混合选择与冲突仲裁(Hybrid Selector & Conflict Arbiter) 当市场 grounded 程序得分 Phi(P) < 2.20 或置信度 Gamma(U) < 0.78 时,引入无市场的基线提案器进行四方委员会(GENERAL/EXTRACTION/FORMULA/SCALE)对比;若投票分裂,由冲突仲裁器合成第三程序。 3\. 实验验证 在 **10个公开基准测试**(涵盖金融数值推理、通用表格推理、ESG领域知识、多模态图表理解)上,使用固定 **Qwen3.6-27B** 骨干进行评估: | 数据集 | MOCA-Agent | 先前最佳 | 提升 | | --- | --- | --- | --- | | FinQA | 78.29% | 74.18% (Fino1-14B) | + | {% endhideToggle %}

Authors: Abdelrahman Abdallah, AbdelRahim A. Elmadany, Sameh Al Natour, Hasan Cavusoglu, Adam Jatowt, Muhammad Abdul-Mageed

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11537.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11537

Published: 2026-06-11T02:20:05.764Z


10. SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior

Abstract:Agent Skills augment large language model (LLM) agents with procedural knowledge at inference time, but current benchmarks rarely distinguish what a Skill says from how it is organized. We study this distinction through Progressive Disclosure, where a concise root file points agents to supporting resources on demand, and compare it with a normalized flat baseline. We present SkillJuror, a framework for evaluating Skill writing paradigms through semantically controlled variants, matched multi-trial evaluations, and trajectory evidence while holding task knowledge fixed. In an 82-task SkillsBench study, Progressive Disclosure changes runtime behavior before aggregate outcomes: distinct Skill resources touched per trajectory rise from 1.18 to 3.85, and effective uptake events rise from 1.33 to 3.92. It also yields 17 additional verifier-passing trials out of 410 matched trials (+4.1%) over the normalized flat baseline. The benefit is task-dependent. Progressive Disclosure helps when supporting resources guide implementation, checking, or repair, but is weaker when success hinges on exact output conventions, numerical thresholds, or long artifact-generation pipelines. These results show that Skill organization is not mere presentation: it can change how agents search and apply procedural knowledge, while outcome gains depend on whether the exposed resources are actionable for the task. Code is available at this https URL.

{% hideToggle 中文摘要 %} 摘要:代理技能在推理时增强大型语言模型(LLM)代理的程序性知识,但当前的基准很少区分技能的内容和其组织方式。我们通过渐进式披露(Progressive Disclosure)研究这一区别,其中一个简明的根文件在需要时指引代理访问支持资源,并将其与标准化的平面基线进行比较。我们提出了SkillJuror,一个通过语义控制的变体、匹配的多次评估和轨迹证据在任务知识固定情况下评估技能编写范式的框架。在82个任务的SkillsBench研究中,渐进式披露在总体结果之前改变了运行时行为:每条轨迹涉及的不同技能资源从1.18增加到3.85,有效采纳事件从1.33增加到3.92。它还在410次匹配试验中比标准化平面基线多17次通过验证的试验(+4.1%)。这一益处依赖于任务。渐进式披露在支持资源能够指导实现、检查或修复时有效,但当成功依赖于精确的输出约定、数值阈值或较长的工件生成流程时效果较弱。这些结果表明,技能的组织不仅仅是呈现方式:它可以改变代理如何搜索和应用程序性知识,而成果提升取决于所暴露资源对于任务是否可操作。代码可在此https URL获取。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**Agent Skill组织方式对大型语言模型(LLM)智能体运行时行为的影响评估问题**,具体聚焦于如何将技能的结构布局与内容覆盖解耦,以孤立地研究组织范式本身的效用。 核心问题可分解为以下三个层面: 1\. **归因困境:组织与内容的混淆** 现有基准测试通常比较"有Skill"与"无Skill"或不同来源的Skill集合,但自然的Skill集合不可避免地将**核心知识覆盖**、**作者个人风格**与**结构组织**纠缠在一起。这导致性能差异难以归因:表现更好的Skill可能源于更优的组织结构,也可能源于更丰富的任务知识,或两者兼而有之。论文旨在建立一种控制评估方法,在**保持任务知识固定**的前提下,单独检验组织结构的作用。 2\. **组织范式的实证验证缺失** 工业界实践(如Anthropic的Agent Skills规范)倡导"渐进式披露"(Progressive Disclosure)等编写范式——即保持根文件简洁,按需指向支持资源——但缺乏严格的实证验证。论文试图回答:**将扁平化的自包含指令重组为按需加载的资源包,是否会改变智能体的运行时行为?** 这种改变是纯粹的表现形式变化,还是会实质影响知识检索、应用和复用的轨迹? 3\. **过程与结果的关联机制** 传统评估多关注最终通过率(pass/fail),但论文指出,组织方式可能首先改变**行为轨迹**(如资源访问广度、有效资源摄取事件、阶段分布),再通过特定任务属性转化为结果差异。论文试图建立从结构干预到过程证据(如Effective Resource Uptake)再到任务级结果的因果链条,识别何种任务类型下组织优化能够转化为可验证的产出增益。 为解决上述问题,论文提出了**SkillJuror框架**,通过"Skill-for-Skill"转换管道构建语义匹配的变体对(扁平基线 vs. 渐进式披露),并在固定运行时环境下进行匹配多试验评估,从而将Skill组织视为可实验隔离的运行时干预变量。

Q: 有哪些相关研究?

这篇论文的相关研究可从以下四个维度梳理: 1\. Agent Skills 作为运行时过程工件 - **Agent Skills 规范**:将 Skill 定义为以 `SKILL.md` 文件为中心的目录结构,包含可选脚本、引用、资产和路由元数据,强调其作为"自主可导航运行时工件"而非静态提示的特性。 - **Anthropic (2025)**:提出渐进式披露(Progressive Disclosure)实践指南,即元数据支持选择、根文件提供入口点、支持资源按需加载。 - **Mi et al. (2026)**:将技能视为具有激活和执行条件的运行时单元,而非被动检索的文本。 2\. 从 Skill 采用基准到受控 Skill 变体比较 现有工作主要评估"是否提供 Skill"而非"如何组织 Skill": - **SkillsBench (Li et al., 2026)**:比较无 Skill、人工策划 Skill 与自生成 Skill 三种条件,发现策划 Skill 可提升通过率但效果异质,自生成 Skill 可能无效甚至有害。 - **SWE-Skills-Bench (Han et al., 2026)**:将 Skill 采用问题扩展至基于仓库的软件工程任务。 - **SkillLearnBench (Zhong et al., 2026)**:评估持续技能学习方法。 - **SkillGenBench (Zhou et al., 2026b)**:评估从仓库或文档蒸馏可执行 Skill 的生成管道。 - **SkillGen (Ma et al., 2026)**:从成功与失败轨迹合成可审计 Skill。 **关键局限**:上述研究关注 Skill 的可用性、获取或生成质量,而 **SkillJuror** 转向"受控 Skill 变体比较",在固定任务范围、辅助工具可用性、工作流义务和输出契约的前提下,比较同一任务 Skill 的不同组织方式。 3\. 轨迹与资源感知的智能体评估 - **结果中心基准的局限 (Luo et al., 2025)**:仅提供可扩展的通过率或奖励信号,常隐藏成功或失败的原因。 - **轨迹感知基准 (He et al., 2025; Kim et al., 2025; Fan et al., 2026)**:评估中间行为,包括工具使用诊断、推理轨迹和步骤级过程质量。 - **成本感知评估 (Erol et al., 2025)**:主张将成功率与资源消耗联合解释。 - **Harness 工程 (Zhou et al., 2026a)**:作为统一运行时层消除未控制的环境变异,使 Skill 组织成为实验隔离的干预变量。 - **LLM-as-a-judge (Gu et al., 2024; Shi et al., 2025)**:用于评估轨迹中的细微资源使用行为(如有效资源摄取 ERU),弥补程序化指标无法捕捉的语义判断需求。 4\. 智能体面向工件的约束优化 - **提示敏感性 (Sclar et al., 2024)**:表明即使保留语义的格式选择也可改变模型行为。 - **提示优化 (Zhou et al., 2022; Yang et al., 2024)**:搜索指令、示例或 LM 程序组件以最大化验证性能。 - **Skill 级优化 (Yang et al., 2026)**:利用 rollout 反馈和 held-out 验证编辑 Skill 文档。 - **工具接口与过程记忆系统 (Schick et al., 2023; Song et al., 2023; Shinn et al., 2023; Zhao et al., 2024; Wang et al., 2023)**:改进智能体调用 API 或积累可复用行为的方式。 **区别**:现有方法搜索更优工件或从经验积累新行为,而 **SkillJuror** 通过构建受控反事实(controlled counterfactuals)进行评估,旨在隔离特定编写范式(如渐进式披露)的运行时效应,而非无约束的工件优化。

Q: 论文如何解决这个问题?

论文通过提出 **SkillJuror** 框架,采用**受控实验方法**将 Skill 组织结构作为可独立操纵的运行时变量,在固定任务知识的前提下系统评估其对智能体行为和结果的影响。具体解决路径如下: 1\. 核心方法论:知识保持的受控变体比较 将 Skill 组织视为实验干预变量,通过构建**语义匹配但结构不同**的 Skill 变体对,消除内容覆盖和作者风格的混淆: - **基线条件(Baseline)**:将源 Skill 扁平化为单一自包含文件,所有知识内联在根 `SKILL.md` 中 - **渐进式披露(Progressive Disclosure, PD)**:将相同知识重组为简洁根文件(约 0.9k tokens)+ 按需加载的支持资源(references/、helpers/ 等),通过显式超链接路由 2\. 三阶段评估流程
1
受控变体构建 → 运行时证据收集 → 多维度评估
(1) Skill-for-Skill 转换管道(Construction) - **两步转换**:源 Skill f_(base) Baseline f_(pd) PD 变体 - **约束条件**:PD 转换必须保持任务范围、辅助工具契约、约束条件、输出要求与 Baseline 完全一致,仅改变信息布局 - **生成环境**:在 Harbor 沙箱中执行转换,确保构造与后续运行时评估使用相同的任务物化和验证边界 (2) 多层验证机制(Validity Audit) 为确保语义等价性,实施三层验证: - **确定性门控**:检查目录布局、文件路径卫生、资源可达性、行为单元差异(behavior-unit diffs) - **基于标准的语义审计**:使用 GPT-5.4 对照结构化标准检查: - PD 结构标准:根文件 ≤300 行、存在独立支持文件、显式命名并解释何时加载各资源 - 语义保持标准:保留源 Skill 的任务范围、功能域、输入输出契约、关键约束和边缘情况处理 - **人工介入策略**:对自动化审计标记的异常(3/968 项)进行基于证据的审查,排除内容漂移 (3) 匹配运行时执行(Runtime) - **固定执行基质**:在 Harbor 沙箱中重建相同的非 Skill 环境(指令、工作空间、验证器),仅替换 Skill 工件 - **匹配试验设计**:每个任务-条件对执行 n=5 次独立试验,控制模型(GPT-5.4)、推理配置、超时预算一致 - **轨迹保全**:记录完整执行轨迹和验证器侧执行记录,支持重放、审计和聚合 3\. 多维度评估体系 将运行时证据映射到四个分析维度,关联宏观结果与微观行为: | 维度 | 关键指标 | 说明 | | --- | --- | --- | | 结果效用 | 严格通过率(strict pass) | 验证器奖励等于 1 的试验比例 | | 效率权衡 | 每通过一次所需分钟/代币/成本 | 总资源消耗除以通过次数的产出归一化指标 | | 范式实现 | Skill 步骤占比、资源扇出(Fanout)、时间分布 | 衡量 PD 结构是否在行为层面被实现(如资源访问从 1.18 提升至 3.85 个/轨迹) | | 资源路由质量 | 有效资源摄取(ERU) | 通过 LLM-as-a-judge 审计,仅当资源信号被转化为可观察的实现、验证、修复或可信阻塞诊断时计数 | 4\. 任务属性分层分析 引入机制层面的任务标签(工作流类型、验证类型),解析组织效应的异质性: - **代码/安全测试类**:ERU 提升转化为通过率提升(+20.0%),资源路由直接支持可执行动作 - **数值容差/科学计算类**:ERU 提升但通过率下降(-11.4%),局部过程与最终数值契约解耦 - **媒体处理类**:出现"扇出税"(Fanout tax),模块化布局在脆弱流水线中引入路径脆弱性而非稳定输出 5\. 关键创新点 - **语义控制**:通过 Baseline 中介转换(而非直接从源生成双变体),避免独立生成带来的措辞、覆盖范围差异 - **过程证据**:提出 **ERU(Effective Resource Uptake)** 指标,区分"访问资源"与"将资源转化为本地工作",捕捉组织干预的行为实现机制 - **归因清晰**:任何下游轨迹差异或通过率变化可严格归因于结构布局(structural layout)而非内容漂移(construction drift) 通过该框架,论文实证证明了 Skill 组织不仅是呈现方式的选择,而是能系统性地重塑智能体搜索和应用过程知识的运行时干预。

Q: 论文做了哪些实验?

论文围绕四个研究问题(RQ1–RQ4)展开系统性实验,核心是在 **82个SkillsBench任务** 上比较三种条件(无Skill、扁平Baseline、渐进式披露PD),每条件执行 **5次独立试验**,总计 **1,230次运行时试验**( 82 × 3 × 5 )。实验配置如下: | 设置项 | 主实验取值 | | --- | --- | | 任务集 | 82个SkillsBench任务(经预运行时筛选) | | 对比条件 | No Skill(无Skill)、Baseline(扁平基线)、PD(渐进式披露) | | 试验规模 | 每任务-条件对5次试验,共1,230次主试验 | | 智能体配置 | GPT-5.4,high reasoning模式,固定跨条件 | | 运行时环境 | Codex runtime + Harbor-backed沙箱物化 | | 验证标准 | 严格通过(verifier reward == 1) | RQ1:构造可靠性实验(Construction Reliability) **目的**:验证能否可靠构建并审计语义受控、仅组织不同的Skill变体。 - **构造规模**:对88个构造合格任务成功生成Baseline和PD双变体 - **三层验证**: 1. **确定性门控**:验证目录布局、文件路径、资源可达性、行为单元差异(behavior-unit diffs)——全部通过 2. **标准语义审计**:使用GPT-5.4对照结构化标准审计968个检查项(结构标准+语义保持),仅3项需人工复核 3. **人工介入裁决**:对3项异常进行基于证据的审查,全部接受,无未解决的有效性问题 - **结果**:所有88任务通过构造有效性协议,确认变体间仅组织不同,任务知识、辅助工具契约、约束条件保持不变。 RQ2:结果效应实验(Outcome Effects) **目的**:测量Skill组织范式对任务成功率(严格通过)和资源效率的影响。 **主要结果**(82任务 × 5试验 = 410试验/条件): | 条件 | 通过数/试验数 | 通过率 | 增量(vs. Baseline) | 分钟/通过 | 代币/通过 | 成本/通过 | | --- | --- | --- | --- | --- | --- | --- | | No Skill | 119/410 | 29.0% | -53 pp | 29.8 | 0.34M | $2.05 | | Baseline | 172/410 | 42.0% | — | 20.1 | 0.22M | $1.28 | | PD | 189/410 | 46.1% | +17次 (+4.1%) | 17.8 | 0.21M | $1.31 | **关键发现**: - PD相较Baseline获得**17次额外严格通过**(410次匹配试验中),绝对提升4.1%,但任务级异质性强(95% CI半宽±6.0%) - **效率权衡**:PD降低产出归一化时间(17.8 vs. 20.1分钟/通过),但成本/通过与Baseline持平( 1.31 vs. 1.28),因单次试验成本略高但通过率提升 - **布局敏感性检查**(56任务子集):验证原始Source布局(Origin)和扁平化原始布局(Origin-flat)均与Baseline通过率持平(112/280),但消耗更多代币/成本,确认PD增益非源自简单的"扁平化"操作 RQ3:过程效应实验(Process Effects) **目的**:验证组织干预是否改变智能体运行时行为(轨迹形状、资源访问模式)。 范式实现(Paradigm Realization) | 指标 | Baseline | PD | 变化 | | --- | --- | --- | --- | | Skill步骤占比 | 5.4% | 10.8% | 2×提升 | | Skill代币占比 | 9.0% | 11.5% | 提升 | | 资源扇出(Fanout,每轨迹访问的不同资源数) | 1.18 | 3.85 | +226% | | 支持文件读取(试验数) | 66/410 | 364/410 | 大幅提升 | | 脚本/辅助工具调用 | 34/410 | 219/410 | 大幅提升 | **时间分布**:PD将Skill使用从轨迹早期(Baseline 69.5%在前1/3)分散至中后期(PD仅59.4%在前1/3,15.5%在后1/3),表明智能体在**实现-验证-修复**循环中重复访问资源。 资源路由质量(Resource Routing Quality)——ERU分析 使用LLM-as-a-judge审计**有效资源摄取(ERU)**: | 指标 | Baseline | PD | | --- | --- | --- | | 提取资源事件总数 | 717 | 1,902 | | 每轨迹平均事件数 | 1.75 | 4.64 | | ERU阳性摄取事件/轨迹 | 1.33 | 3.92 | | ERU阳性轨迹比例 | 76.0% | 84.6% | | ≥2次ERU阳性摄取的轨迹 | 95/410 | 335/410 | | ≥5次ERU阳性摄取的轨迹 | 11/410 | 118/410 | **结论**:PD布局显著改变运行时行为,驱动智能体访问更多资源、在轨迹后期重复访问,并将更多资源信号转化为可观察的本地实施、验证或修复工作,**无论最终是否通过验证**。 RQ4:任务依赖性效应实验(Task-Dependent Effects) **目的**:解析任务属性如何调节组织干预的效果,建立"过程-结果"关联。 **任务分类框架**: - **验证类型**(Validation Type):exact/structural、artifact/file、numeric tolerance、code/security tests、performance threshold - **工作流类型**(Workflow Type):code repair/software、data/doc/office、scientific computation、media processing、security、optimization/control等 **识别的四种经验翻译模式**: | 模式 | 典型任务类型 | 过程指标 | 结果指标 | 机制解读 | | --- | --- | --- | --- | --- | | 目标效率增益 | Code/security tests, Code repair | ERU ↑ | 通过率↑, 时间/通过↓ | 路由资源转化为可执行、验证器可见的动作 | | 摄取无成功 | Numeric tolerance, Scientific computation | ERU ↑ | 通过率↓ | 资源支持本地工作,但数值/输出契约独立约束最终成功 | | 扇出税 | Media processing, Exact artifact/file | Fanout/Helper use ↑ | 通过率↔或↓ | 资源扩展了脆弱的精确制品流水线,引入路径脆弱性而非稳定输出 | | 完成伴随风险 | Performance threshold, Optimization/control | 运行时完成↑ | 通过率(给定运行时成功)↓ | 资源帮助达到可运行完成,但阈值/模式/对齐约束仍独立存在 | **案例研究**(轨迹级分析): - **simpo-code-reproduction**(代码修复):PD通过路由至`references/nlp-reproduction.md`,转化为可执行反馈循环,通过率从0/5提升至5/5 - **exoplanet-detection-period**(科学计算):PD高ERU(有效使用预处理、BLS、Lomb-Scargle参考),但因数值容差严格(要求5.35699 vs. 实际2.79991),通过率从5/5降至3/5 - **video-tutorial-indexer**(媒体处理):PD导致模块化辅助工具路径修复开销,出现"扇出税",通过率从5/5降至2/5,代币消耗激增 - **manufacturing-equipment-maintenance**(优化控制):PD降低认知负荷实现工作流,运行时完成从0/5提升至5/5,但严格通过仅3/5(因舍入值1.91 vs. 要求1.9) 补充实验:布局敏感性验证(Appendix E) 在**56个多Skill任务子集**上验证Source布局的影响: - **Origin**(原始SkillsBench布局)与**Origin-flat**(扁平化原始布局)在严格通过数上均与Baseline持平(112/280),但代币/通过和成本/通过显著更高 - 确认主实验中PD的增益(126/280严格通过)并非源自简单的"扁平化"操作,而是特定的渐进式披露结构(简洁根文件+显式路由+按需资源)所致

Q: 有什么可以进一步探索的点?

{% endhideToggle %}

Authors: Zhiyu Chen, Zihan Guo, Bo Huang, Bingwei Lu, Jianghao Lin, Yuanjian Zhou, Weinan Zhang

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2606.11543.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11543

Published: 2026-06-11T02:20:05.764Z


VLM Domain Papers

1. LAST: Bridging Vision-Language and Action Manifolds via Gromov-Wasserstein Alignment

Abstract:We take a Gromov-Wasserstein perspective on Vision-Language-Action (VLA) learning, where the goal is to make the relational geometry of action representations compatible with the semantic geometry of VL embeddings. However, this alignment is non-trivial due to the mathematical heterogeneity between the domains: the semantic space of vision-language is topologically linear and isotropic, whereas the physical manifold of robotic action is non-Euclidean and anisotropic. Their disjoint metric structures render direct regression ill-posed. To resolve this incompatibility, we introduce LAST (Lie-algebraic Action Space Tokenizer), which reconstructs the action space to establish local metric compatibility with the VL modality via a two-stage transformation: (1) Global Topological Linearization: linearizing the action manifold via Lie-algebraic mapping, converting trajectories into a fixed-length, physically additive representation. (2) Local Metric Discretization: hierarchically discretizing the representation into schemas and whitened residuals, yielding approximately isotropic local charts that are statistically aligned with the semantic metric. By resolving the structural mismatch at both global and local levels, LAST enables VLA models with superior convergence and generalizability.

{% hideToggle 中文摘要 %} 摘要:我们从Gromov-Wasserstein的角度研究视觉-语言-动作(VLA)学习,其目标是使动作表示的关系几何与VL嵌入的语义几何兼容。然而,由于领域之间的数学异质性,这种对齐并非易事:视觉-语言的语义空间在拓扑上是线性且各向同性的,而机器人动作的物理流形是非欧几里得且各向异性的。它们不相交的度量结构使直接回归不适定。为了解决这种不兼容性,我们提出了LAST(李代数动作空间标记器),通过两阶段变换重构动作空间,以建立与VL模态的局部度量兼容性:(1) 全局拓扑线性化:通过李代数映射线性化动作流形,将轨迹转换为固定长度、物理可加的表示。(2) 局部度量离散化:将表示层次化离散为模式和白化残差,得到与语义度量统计上对齐的近似各向同性局部图表。通过在全局和局部层面解决结构不匹配,LAST使VLA模型具备更优的收敛性和泛化能力。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文致力于解决**Vision-Language-Action (VLA) 模型中视觉-语言(VL)模态与动作模态之间的结构异质性(structural heterogeneity)问题**。 具体而言,论文识别了阻碍VLA模型收敛与泛化的**双重度量不匹配**: 1\. 几何不匹配(Geometric Mismatch) - **问题本质**:标准回归方法隐含假设动作空间是凸向量空间,支持欧几里得加性更新(即 ox ≈ oc + cx )。然而,机器人动作位于李群 SE(3) 流形上,该流形具有**非凸性**且**不具备欧几里得加性**。 - **后果**:欧几里得残差计算与线性混合会产生几何无效的旋转,导致\*\*流形外插值(off-manifold mixing)\*\*和跨模态对齐失准。 2\. 统计不匹配(Statistical Mismatch) - **问题本质**:视觉-语言嵌入通过对比学习训练,在 ell_2 归一化特征上表现出**局部各向同性**的超球面几何;而机器人动作模式沿动力学约束方向呈现**强烈的各向异性**(沿主轴的方差远大于短轴)。 - **后果**:使用各向同性的VL度量检索动作邻居时,会沿椭圆短轴选择虚假邻居,同时遗漏沿主轴的真实邻居,导致\*\*邻居漂移(neighbor drift)\*\*和训练不稳定。 解决方案框架 为消解上述异质性,论文引入**LAST (Lie-algebraic Action Space Tokenizer)**,通过Gromov-Wasserstein对齐视角,实现两阶段结构转换: - **全局拓扑线性化**:利用李代数对数映射 xi_t = log(P_1^(-1) · P_t)^vee 将非欧几里得轨迹转换为切空间 se(3) 中的固定长度、物理可加向量表示; - **局部度量离散化**:通过协方差感知白化(covariance-aware whitening) psi_k(a) = Sigma_k^(-1/2)(a - μ_k) 矫正各向异性,将残差分布转换为与语义空间统计兼容的近似各向同性局部坐标。 通过同时在全局和局部层面解决结构失配,LAST使VLA模型获得更优的收敛性和跨域泛化能力。

Q: 有哪些相关研究?

该论文的相关研究主要分为两大类别,分别对应其 {% endhideToggle %}

Authors: Huaihai Lyu, Chaofan Chen, Yuheng Ji, Xiansheng Chen, Pengwei Wang, Shanghang Zhang, Changsheng Xu

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11221.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11221

Published: 2026-06-11T02:22:06.497Z


2. CFCamo: A Counterfactual Detect-or-Abstain Framework for Camouflaged Object Detection

Abstract:Vision-language reinforcement learning has recently shown strong target-present localization for camouflaged object detection (COD). Yet localization is only one side of the decision: when the agent faces an ordinary image with no camouflaged target, will it still claim that a camouflaged object exists? Standard COD training and evaluation data are positive-only, so agents optimized under this setting can acquire an over-detect bias, a task-specific form of object hallucination that standard COD evaluation leaves unmeasured. To quantify this target-absent behavior, we construct Counterfactual COD (CF-COD), a paired benchmark that removes the camouflaged target from each held-out COD evaluation image while preserving a plausible background. CF-COD evaluates whether a model detects the target on the original image and abstains on the target-absent counterfactual, summarized by Pair Accuracy (PA). We further introduce CFCamo, a paired counterfactual framework for COD with abstention. For training, CFCamo optimizes a Qwen3-VL-4B-Instruct agent with Counterfactual Sequence Policy Optimization (CSPO), which samples paired original-counterfactual rollouts and uses a Counterfactual Paired Reward (CPR) to couple original-image detection with counterfactual abstention. On CAMO-test, CFCamo improves S_alpha by +3.7 pp over the prior RL-based COD baseline; across CF-COD, it reaches 80.0-90.8% PA. Ablations show that removing counterfactual coupling reduces PA to 1.4-5.2% despite strong target-present COD scores, showing that target-present evaluation alone does not characterize detect-or-abstain behavior. Overall, these results indicate that CFCamo improves COD agents by coupling target-present detection with target-absent abstention, rather than merely strengthening target-present localization. Code and data are available at this https URL.

{% hideToggle 中文摘要 %} 摘要:视觉-语言强化学习最近在伪装目标检测(COD)的目标存在定位方面表现出强大的能力。然而,定位只是决策的一方面:当智能体面对没有伪装目标的普通图像时,它是否仍会声称存在伪装对象?标准的COD训练和评估数据仅包含正样本,因此在这种设置下优化的智能体可能会产生过度检测偏差,这是一种任务特定的目标幻觉形式,而标准COD评估无法量化。为量化这种目标缺失行为,我们构建了反事实COD(CF-COD),这是一个配对基准,将每个保留的COD评估图像中的伪装目标移除,同时保留合理的背景。CF-COD评估模型是否在原始图像上检测到目标,并在目标缺失的反事实图像上选择放弃,其结果通过配对准确率(PA)总结。我们进一步引入了CFCamo,这是一个带放弃机制的COD配对反事实框架。在训练中,CFCamo使用反事实序列策略优化(CSPO)对Qwen3-VL-4B-Instruct智能体进行优化,CSPO采样配对的原始-反事实回滚,并使用反事实配对奖励(CPR)将原始图像检测与反事实放弃关联起来。在CAMO-test上,CFCamo使S_alpha较之前基于RL的COD基线提高了+3.7个百分点;在CF-COD上,其配对准确率达到80.0-90.8%。消融实验表明,移除反事实关联会将配对准确率降至1.4-5.2%,尽管目标存在的COD得分仍然很高,显示仅通过目标存在的评估无法描述检测或放弃行为。总体而言,这些结果表明,CFCamo通过将目标存在检测与目标缺失放弃关联起来提高了COD智能体的性能,而不仅仅是强化目标存在的定位能力。代码和数据可通过此https URL获取。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文针对\*\*伪装目标检测(Camouflaged Object Detection, COD)中的过度检测偏差(over-detect bias)\*\*问题,具体阐述如下: 核心问题 现有的COD范式存在一个根本性的分布偏差:**训练与评估数据均为"正样本-only"(positive-only)**,即默认每张输入图像都包含至少一个伪装目标。这种设置导致优化后的模型习得一种**过度检测策略**——即使面对普通的目标缺失场景,仍会强制输出检测结果。这是一种特定形式的**物体幻觉(object hallucination)**,表现为在缺乏目标证据时仍声称存在伪装物体(例如,在目标被移除后的背景图像上继续预测边界框)。 问题的具体表现 - **部署场景失配**:实际应用中,输入图像往往包含大量不含伪装目标的普通场景,而正样本-only训练使模型产生"只要接收COD提示就必须检测"的先验偏差 - **评估盲区**:标准COD指标(如 S_α 、 F_β^w )仅衡量目标存在时的定位精度,完全无法刻画模型在目标缺失时的行为(如错误检测率) - **强化学习的副作用**:近期基于视觉-语言模型(VLM)的RL方法(如Seg-R1)虽提升了目标存在时的定位能力,但未约束目标缺失时的输出,导致在目标移除的反事实图像上仍保持高比例误检(例如Seg-R1-7B在COD10K-test上的虚假检测率达37.9%) 解决方案框架 为量化并缓解该偏差,论文构建了两个关键组件: 1. **CF-COD基准**:通过图像修复(inpainting)技术为每个评估图像生成目标缺失的反事实配对(original-counterfactual pair),引入\*\*配对准确率(Pair Accuracy, PA)\*\*指标,要求模型在原始图像上检测( Det(y_o)=1 )且在反事实图像上弃权( Abs(y_c)=1 ): PA = (1) / (N)∑_(i=1)^N Det(y_o^((i))) · Abs(y_c^((i))) 2. **CFCamo训练框架**:提出**反事实序列策略优化(CSPO)**,通过配对采样原始-反事实轨迹,并施加**反事实配对奖励(CPR)**: $$R_(CPR) = underbrace{Det(y_o) - text {% endhideToggle %}

Authors: Suhang Li, Osamu Yoshie, Yuya Ieiri

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11231.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11231

Published: 2026-06-11T02:22:06.497Z


3. OSCS-SupCon: Orthogonal Sigmoid-based Common and Style Supervised Contrastive Learning for Robust Feature Disentanglement

Abstract:Supervised Contrastive Learning (SupCon) has achieved strong performance by explicitly modeling pairwise relationships among samples. However, existing SupCon-based methods suffer from two key limitations: negative-sample dilution induced by the standard InfoNCE loss, and feature-space entanglement caused by the lack of explicit constraints separating category-relevant (common) and category-irrelevant (style) features. These limitations reduce feature discriminability and generalization ability. To address these issues, we propose OSCS-SupCon (Orthogonal Sigmoid-based Common and Style Supervised Contrastive Learning), a unified framework that combines a sigmoid-based pairwise contrastive objective with explicit orthogonality constraints. Specifically, we introduce a sigmoid-based contrastive loss with two learnable parameters, temperature and bias, which adaptively modulate pairwise decision boundaries and alleviate negative-sample dilution. Furthermore, we enforce orthogonality between common and style feature subspaces via a linear projection with ReLU nonlinearity, thereby reducing feature overlap and improving disentanglement of style-irrelevant representations. Extensive experiments on six benchmark datasets demonstrate that OSCS-SupCon consistently outperforms state-of-the-art supervised contrastive learning methods across multiple backbone architectures. In particular, on the fine-grained CUB200-2011 dataset with a ResNet-18 backbone, the proposed method achieves a 3.4% improvement in classification accuracy over CS-SupCon, highlighting its robustness and generalization capability. Ablation studies further confirm the effectiveness of each component.

{% hideToggle 中文摘要 %} 摘要:监督对比学习(Supervised Contrastive Learning, SupCon)通过显式建模样本之间的成对关系,取得了强大的性能。然而,现有基于 SupCon 的方法存在两个关键限制:由标准 InfoNCE 损失引起的负样本稀释,以及由于缺乏明确区分类别相关(共性)和类别无关(风格)特征的约束而导致的特征空间纠结。这些限制降低了特征的可区分性和泛化能力。为了解决这些问题,我们提出了 OSCS-SupCon(基于正交 Sigmoid 的共性与风格监督对比学习),该统一框架将基于 Sigmoid 的成对对比目标与显式正交约束相结合。具体而言,我们引入了具有两个可学习参数(温度和偏置)的基于 Sigmoid 的对比损失,能够自适应地调节成对决策边界,缓解负样本稀释问题。此外,我们通过带 ReLU 非线性的线性投影,在共性和风格特征子空间之间施加正交性约束,从而减少特征重叠并提高风格无关表示的解纠缠能力。在六个基准数据集上的大量实验表明,OSCS-SupCon 在多种主干网络架构中持续优于最先进的监督对比学习方法。尤其是在使用 ResNet-18 主干网络的细粒度 CUB200-2011 数据集上,该方法在分类准确率上比 CS-SupCon 提升了 3.4%,凸显了其鲁棒性和泛化能力。消融实验进一步验证了各组成部分的有效性。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

该论文试图解决\*\*监督对比学习(Supervised Contrastive Learning, SupCon)\*\*中存在的三个关键局限性: 1\. 负样本稀释问题(Negative-Sample Dilution) 传统基于InfoNCE损失的对比学习方法在一次优化步骤中同时将锚点(anchor)与多个负样本进行比较。这种"多对多"的比较机制会**稀释关键负样本的区分性贡献**,导致模型难以学习细微的类别间差异,尤其在细粒度分类任务中表现受限。 2\. 特征空间纠缠(Feature-Space Entanglement) 现有方法缺乏显式约束来严格分离**类别相关特征(common features)**与**类别无关特征(style features)**。这导致两个子空间存在残余耦合(residual coupling),产生模糊且重叠的风格表征,降低了学习特征的可解释性和鲁棒性。 3\. 类内风格变化管理不足(Inadequate Handling of Style Variations) 当前框架未对类内风格变化施加显式约束,无法有效管理由姿势、光照、背景等非类别因素引起的样本差异,导致模型对风格变化的泛化能力受限。 为应对上述挑战,论文提出**OSCS-SupCon**框架,通过以下机制实现鲁棒的特征解耦: - 引入**基于Sigmoid的成对对比损失**(带可学习的温度参数 t 和偏置参数 b ),自适应调整决策边界以缓解负样本稀释 - 施加**显式正交约束**(Orthogonality Constraints),通过线性投影与ReLU非线性变换强制common与style子空间严格正交 - 保留并优化**风格距离约束**(Style-Distance Constraint),增强对类内风格变化的鲁棒性

Q: 有哪些相关研究?

根据论文第2节(Related Work)及引言部分,相关研究可分为以下三类: 2.1 传统对比学习方法(Contrastive Methods) 此类方法奠定了度量学习与对比学习的基础,主要关注类内紧凑性与类间分离性,但未显式解耦类别相关(common)与类别无关(style)特征: - **IE Loss(Include and Exclude Loss)** 13 :通过包含与排除机制增强类间特征分离与类内紧凑性,适用于小批量场景且无需复杂采样策略。 - **N-pair Loss**\[14 {% endhideToggle %}

Authors: Bin Wang, Fadi Dornaika

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11233.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11233

Published: 2026-06-11T02:22:06.497Z


4. Traits Run Deeper: Trait-Specific Asymmetric Fusion for Personality Assessment

Abstract:Personality assessment aims to infer stable personality traits from dynamic behaviors across language, voice, and facial cues. Since different personality dimensions are revealed through distinct behavioral perspectives, modeling trait-specific evidence is challenging. However, most existing approaches adopt a uniform multimodal fusion strategy across all dimensions, assuming identical modality contributions. This overlooks trait-specific modality preferences and introduces cross-modal interference. To address this issue, we propose a novel personality assessment framework called Traits Run Deeper, which consists of three components. Specifically, the Multimodal Foundation Representation (MFR) module constructs personality-oriented multimodal inputs and leverages psychology-informed semantic templates as anchors, enabling foundation models to capture trait-relevant information. Building upon MFR, the Trait-Specific Modality Fusion (TSMF) module acts as an asymmetric fusion mechanism, allowing each dimension to selectively exploit different modality pathways from modality-specific modeling to complementary fusion. Thus, TSMF captures heterogeneous modality preferences while reducing cross-modal contamination. Furthermore, the Distribution-Calibrated Personality Regression (DCPR) module mitigates label imbalance and central tendency bias through target distribution calibration, improving robustness and stability. Experimental results on the AVI Challenge 2026 validation set demonstrate the effectiveness of the proposed framework, reducing mean squared error (MSE) by approximately 25% compared with the baseline. Consistent improvements are observed on the official test set, where our method achieves the best performance and ranks first in the Personality Assessment Track. The source code will be made available at this https URL.

{% hideToggle 中文摘要 %} 摘要:人格评估旨在从语言、声音和面部线索中的动态行为中推断稳定的人格特质。由于不同的人格维度通过不同的行为视角显现,建模特质特定的证据具有挑战性。然而,大多数现有方法在所有维度上采用统一的多模态融合策略,假设各模态贡献相同。这忽视了特质特定的模态偏好,并引入跨模态干扰。为了解决此问题,我们提出了一个新的人格评估框架,称为“Traits Run Deeper”,其包括三个组成部分。具体而言,多模态基础表示(MFR)模块构建面向人格的多模态输入,并利用心理学信息的语义模板作为锚点,使基础模型能够捕捉与特质相关的信息。在此基础上,特质特定模态融合(TSMF)模块作为一种非对称融合机制,让每个维度能够从模态特定建模到互补融合选择性地利用不同的模态路径。因此,TSMF捕捉到异质的模态偏好,同时减少跨模态污染。此外,分布校准人格回归(DCPR)模块通过目标分布校准缓解标签不平衡和中心倾向偏差,提升了稳健性和稳定性。在AVI Challenge 2026验证集上的实验结果表明,所提出的框架有效性显著,与基线相比,均方误差(MSE)降低约25%。在官方测试集上也观察到一致的改进,我们的方法取得了最佳表现,并在人格评估赛道中排名第一。源代码将在此 https URL 发布。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

该论文旨在解决**人格评估中特质特定的多模态行为证据建模**问题,具体针对现有方法在融合策略上的统一性假设与不同人格维度实际模态偏好之间的错位。 核心问题可归纳为以下几个方面: 1\. 统一融合策略与异质特质需求的矛盾 现有多模态人格评估方法通常对所有人格维度(如HEXACO模型的诚实-谦逊、外向性、宜人性、尽责性)采用**统一的融合架构**,隐式假设各模态(视觉、听觉、文本)对不同特质的贡献相同。然而,心理学研究表明,不同人格维度通过**差异化的行为通道**展现: - **社会导向与情感表达性特质**(如外向性、宜人性)主要通过非语言线索(面部表情、身体姿态、声音变化)泄露 - **认知处理与自我组织特质**(如尽责性、神经质)更稳健地体现在语言结构和语义一致性中 2\. 跨模态干扰与污染风险 强制性的统一多模态融合会**忽视特质特定的模态偏好**,引入与特定特质无关的跨模态噪声。在小样本条件下,这种设计可能导致**严重的跨模态污染**(cross-modal contamination),削弱模型对特质相关行为证据的捕捉能力。 3\. 标签分布不平衡与回归偏差 人格评估数据通常呈现**标签不平衡**和**中心趋势偏差**(central tendency bias),即评分集中在中间范围而极端值稀少,且存在自我报告偏差。这种分布特性会阻碍模型优化和泛化,但现有的分布校准策略在人格评估领域探索不足。 解决方案概述 为应对上述挑战,论文提出**Traits Run Deeper**框架,通过三个关键组件实现特质特定的非对称融合: - **多模态基础表示(MFR)**:引入心理学知情的语义模板作为锚点,增强基础模型对特质相关行为的捕捉 - **特质特定模态融合(TSMF)**:允许每个人格维度独立选择最优模态组合(从单模态到跨模态注意力),构建非对称融合路径 - **分布校准人格回归(DCPR)**:采用Yeo-Johnson变换和高斯平滑校准目标分布,缓解标签不平衡问题

Q: 有哪些相关研究?

根据论文第2节内容,相关研究可归纳为以下三个主要方向: 1\. 自动人格评估(Automatic Personality Assessment) **传统评估方法** - 依赖**问卷测评**与特质模型(如五因素模型Five-Factor Model、HEXACO模型),虽具备理论基础,但存在**自报告偏差**、效率低下及可扩展性受限等问题 **计算式人格评估** - **早期基准**:利用短视频进行人格分析(如ChaLearn First Impressions竞赛),UDIVA数据集将任务扩展至**双人交互**与情境感知场景 - **深度学习方法**: {% endhideToggle %}

Authors: Jia Li, Qian Chen, Wei Wang, Xinyu Li, Zhenzhen Hu, Dongsheng Shao, Richang Hong, Meng Wang

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11269.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11269

Published: 2026-06-11T02:22:06.497Z


5. EventRadar: Long-Range Visual UAV Discovery through Spatiotemporal Event Sensing

Abstract:Unauthorized unmanned aerial vehicle (UAV) activity around airports, public venues, and other sensitive sites has made protected-airspace monitoring increasingly important. A practical sensing system must search a wide angular region, find small long-range targets, and return both bearing support and UAV-specific evidence before a restricted perimeter is breached. Existing UAV detection paths often rely on spatially organized evidence, such as body extent, silhouette, or track continuity. At long range, however, these cues become difficult to preserve and verify as the target footprint weakens and its image-plane support shrinks. EventRadar follows a complementary cue: propeller-induced temporal periodicity, which recent event-camera sensing studies have shown can reveal UAV-specific motion after appearance becomes weak. We extend this cue to kilometer-scale active sensing with an event-camera prototype. Scene-Anchored Geometry Evidence (SAGE) fuses scanning events with IMU pose to maintain a bearing-indexed scene memory, separating transient candidate support from persistent background clutter. Comb-guided Harmonic-Group Learned Iterative Shrinkage and Thresholding Algorithm (CHG) then treats each candidate as a weak high-rate timing signal and recovers phase-insensitive harmonic evidence with fixed compute. Compared with related event-camera baselines on 700-1500 m UAV event recordings, EventRadar achieves 0.990 mAP${.3}$ and 0.949 F1${.3}$, reduces FN$_{.3}$ to 0.009, and shows real-time feasibility in prototype profiling.

{% hideToggle 中文摘要 %} 摘要:未经授权的无人机(UAV)在机场、公共场所和其他敏感地点的活动,使受保护空域的监控变得越来越重要。一个实用的感知系统必须在广泛的角度区域内搜索,发现小型远距离目标,并在受限区域被入侵前返回方位信息支持和无人机特定的证据。现有的无人机检测方法通常依赖空间组织的证据,如机体范围、轮廓或轨迹连续性。然而,在远距离时,这些线索由于目标印记减弱和其图像平面支持缩小而变得难以保持和验证。EventRadar采用一种互补线索:螺旋桨引起的时间周期性,最近的事件相机感知研究表明,当外观变弱时,这种线索可以揭示无人机特定的运动。我们将这一线索扩展到具有事件相机原型的公里级主动感知。场景锚定几何证据(SAGE)将扫描事件与IMU姿态融合,以保持一个方位索引的场景记忆,将瞬时候选支持与持续背景杂波分离。梳状引导的谐波组学习迭代收缩与阈值算法(CHG)将每个候选视为弱高频时序信号,并以固定计算量恢复相位无关的谐波证据。与在700-1500米无人机事件记录上的相关事件相机基线相比,EventRadar实现了0.990 mAP$_{.3}$和0.949 F1$_{.3}$,将FN$_{.3}$降至0.009,并在原型测试中展示了实时可行性。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

该研究旨在解决**远距离(700–1500 米)视觉无人机(UAV)检测中空间线索失效导致的识别难题**。 具体而言,现有无人机检测系统主要依赖空间组织证据(如机体轮廓、形状、纹理、轨迹连续性或局部事件密度等)进行目标识别。然而,在远距离保护空域监测场景中,随着无人机物理足迹减弱及其在成像平面上的支持区域缩小(仅占据少量像素),这些空间线索变得难以保留和验证,导致传统检测方法失效。 为克服这一限制,论文提出利用**螺旋桨旋转诱导的时间周期性微运动**作为互补的判别线索。事件相机(event camera)具有微秒级异步时间分辨率,能够捕捉此类高频周期性信号。但将该线索扩展至千米级主动感知场景面临两个核心技术挑战: - **C1(空间层面:在何处观察)**:主动扫描运动引发的环境背景事件会淹没微弱的无人机事件流,导致候选方位难以发现。当传感器主动扫描广阔空域时,相机运动触发密集的背景事件,使得远距离弱目标信号在系统能够隔离候选方位之前就被环境杂波掩盖。 - **C2(时间层面:如何观察)**:无人机周期性微运动在远距离表现为短暂且微弱的信号,仅跨越少数像素,阻碍可靠识别。由于事件生成依赖于动态对比度,捕获的信号 rarely 呈现 clean sinusoid,而是包含空间漂移、缺失驱动周期和非目标瞬态的碎片化事件序列。 针对上述挑战,论文提出 **EventRadar** 系统,通过以下设计实现远距离无人机发现: - **Scene-Anchored Geometry Evidence (SAGE)**:融合异步事件流与实时 IMU/云台姿态数据,构建基于方位索引的场景记忆,在场景锚定的方向空间中分离瞬态候选支持与持续背景杂波,解决主动扫描下的候选方位发现问题。 - **Comb-guided Harmonic-Group Learned Iterative Shrinkage and Thresholding Algorithm (CHG-LISTA)**:将每个候选区域视为弱高频率定时信号,通过固定计算预算恢复相位不敏感的谐波群证据,将碎片化的时间线索转换为候选级别的验证证据。 通过结合空间候选发现与时间谐波验证,该系统旨在将视觉无人机检测的有效识别距离扩展至传统空间方法失效的千米尺度,同时保持宽角空域搜索能力。

Q: 有哪些相关研究?

根据论文第2节(Background and Related Work)的综述 {% endhideToggle %}

Authors: Zhiting Zhou, Xingchen Liu, Xinglin Yu, Jiashen Chen, Haoyang Wang, Jingao Xu, Yunhao Liu, Xinlei Chen

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11285.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11285

Published: 2026-06-11T02:22:06.497Z


6. i1: A Simple and Fully Open Recipe for Strong Text-to-Image Models

Abstract:Diffusion models have consistently driven progress in text-to-image generation. However, it is challenging to attribute recent progress to specific modeling and data choices: state-of-the-art open-weight models provide limited ablations, and do not disclose their training data and full training details. The research community needs fully open (weights, data, and code) models as a foundation for further research; yet existing fully open models still fall significantly short of leading models in performance. In this project, we conduct a systematic investigation of the modeling and data design choices in text-to-image diffusion training and inference with 300+ controlled experiments totaling 700K+ TPU v6e hours. Our experiments highlight several empirical findings (e.g., equal weighting is a strong default for mixing curated datasets) and simple design decisions (e.g., larger text encoder adapters improve performance with minimal added parameters) for training strong models. Guided by these insights, we train i1, a 3B-parameter text-to-image diffusion model using only publicly available datasets. i1 is competitive with leading models on five representative benchmarks (GenEval, DPG, PRISM, CVTG-2K, and LongText), and outperforms the best existing fully open model by 29.5 absolute percentage points on average. We provide the i1 checkpoints, training and inference code, and the data processing pipeline. Together, our findings and the i1 recipe establish a practical foundation for future open research in text-to-image diffusion models. Our code is available at this https URL.

{% hideToggle 中文摘要 %} 摘要:扩散模型一直在推动文本生成图像的进展。然而,将最近的进展归因于具体的建模和数据选择仍具有挑战性:最先进的开源权重模型提供的消融研究有限,并且未披露其训练数据和完整训练细节。研究社区需要完全开放的模型(权重、数据和代码)作为进一步研究的基础;然而,现有的完全开放模型在性能上仍明显落后于领先模型。在本项目中,我们对文本生成图像的扩散训练和推理中的建模与数据设计选择进行了系统调查,进行了300多次控制实验,总计700K+ TPU v6e小时。我们的实验强调了几个经验性发现(例如,对于混合策划数据集,等权重是一个强有力的默认选择)以及简单设计决策(例如,更大的文本编码器适配器在增加极少参数的情况下提升性能),以训练高性能模型。受这些见解的指导,我们训练了i1,这是一种具有30亿参数的文本生成图像扩散模型,仅使用公开可用的数据集。i1在五个代表性基准(GenEval、DPG、PRISM、CVTG-2K和LongText)上与领先模型具有竞争力,并在平均性能上比现有最优完全开放模型高出29.5个百分点。我们提供i1的检查点、训练与推理代码以及数据处理流程。我们的发现和i1方案为未来文本生成图像扩散模型的开放研究奠定了实用基础。我们的代码可通过此https URL获得。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文旨在解决文本到图像(text-to-image)扩散模型研究中的以下核心问题: **1\. 完全开源模型与领先性能之间的差距** 当前最先进的文本到图像模型(如FLUX.1、HiDream-I1等)通常仅公开模型权重,而不披露训练数据、数据配比及完整训练细节,这严重限制了研究的可重复性与后续改进。与此同时,现有的完全开源(权重、数据、代码均公开)模型在性能上显著落后于这些领先的闭源或半开源模型。 **2\. 设计选择对性能贡献的不透明性** 近期模型的进步难以归因于具体的建模或数据决策,原因在于: - 领先模型通常缺乏对设计选择的系统消融实验(ablations); - 多数模型将架构、训练和数据决策捆绑为单一配方,难以分离各因素的独立贡献; - 社区对关键设计(如单编码器vs.多编码器、噪声条件机制等)尚未形成共识。 **3\. 缺乏系统性的设计空间探索** 论文指出,现代文本到图像扩散模型在以下关键维度上缺乏基于控制实验的实证指导: - **建模层面**:文本与噪声条件机制(如AdaLN的必要性、多编码器组合的有效性)、骨干网络架构(如cross-attention、single-stream与dual-stream的权衡); - **数据层面**:合成字幕质量与长度、数据集混合策略(如按样本数加权vs.等量加权)、高分辨率数据必要性等。 为应对上述问题,论文通过**300余个控制实验**(累计消耗700K+ TPU v6e小时),系统性地探索了建模与数据设计空间,并基于实证发现(如"等量加权是混合精选数据集的强默认策略"、"增大文本编码器适配器比使用多编码器更高效")构建了**i1模型**——一个仅3B参数、完全开源(权重、代码、数据流程均公开),却在多项基准(GenEval、DPG-Bench、PRISM、CVTG-2K、LongText-Bench)上超越现有完全开源模型(平均提升29.5个百分点)并与领先半开源模型(如12B FLUX.1 Dev 、17B HiDream-I1)竞争的文本到图像扩散模型。

Q: 有哪些相关研究?

该论文的相关研究主要涵盖以下几个方向: 1\. 文本到图像生成的基础范式 - **早期扩散模型**:DALL-E 2 (Ramesh et al., 2022)、Imagen (Saharia et al., 2022)、Stable Diffusion (Rombach et al., 2022) 奠定了文本到图像生成的基础。 - **扩散Transformer (DiT)**:Pee {% endhideToggle %}

Authors: Boya Zeng, Tianze Luo, Shu Pu, Jucheng Shen, Taiming Lu, Gabriel Sarch, Zhuang Liu

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11289.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11289

Published: 2026-06-11T02:22:06.497Z


7. TRON: Tracing Rays to Orchestrate a Neural Renderer for 3D Gaussian Reconstructions

Abstract:We introduce TRON, a rendering framework that combines 3D Gaussian ray tracing with neural rendering to enable realistic and controllable rendering of real-world 3D scenes under novel lighting, dynamic object motion, object insertion, and material editing. Prior approaches that rely solely on physically based rendering (PBR) of Gaussian representations struggle to achieve realistic relighting due to imperfections in reconstructed geometry, material estimates, and light transport estimation. At the same time, neural rendering methods often lack an explicit scene representation, limiting their ability to support interactive editing with fine-grained manipulation. TRON bridges these two paradigms. We use intrinsic decomposition priors from a learned inverse rendering model to regularize the material properties of a Gaussian field, and repurpose a ray tracer to provide radiometric guidance rather than final pixels. By treating this output as a structured 3D scaffold, we empower a lightweight neural renderer to bridge the domain gap between shading-model constrained estimates and photorealistic output. Our key insight is that the combination of explicit 3D knowledge with robust material priors provides speed and controllability, while neural rendering enables the synthesis of photorealistic images. To support real-world scenarios, we train our neural renderer with a multi-stage strategy consisting of large-scale pretraining and targeted fine-tuning on a newly constructed dataset of 2.1M rendered synthetic and real-world frames from 3D reconstructions. TRON outperforms Gaussian-based relighting methods in realism, and prior neural renderers in editability and speed. To the best of our knowledge, TRON is the first method to enable practical interactive applications in captured 3D environments, offering realistic appearance under dynamic geometric, lighting and material conditions.

{% hideToggle 中文摘要 %} 摘要:我们介绍了 TRON,一个结合了 3D 高斯光线追踪和神经渲染的渲染框架,可以在新的光照、动态物体运动、物体插入和材质编辑下,实现现实且可控的真实世界 3D 场景渲染。仅依赖高斯表示的物理渲染(PBR)的先前方法,由于重建几何形状、材质估计和光传输估计存在不完美之处,很难实现真实的再照明。同时,神经渲染方法通常缺乏显式的场景表示,限制了其支持带有精细操作的交互式编辑的能力。TRON 弥合了这两种范式。我们使用从学习的逆向渲染模型得到的内在分解先验来规范高斯场的材质属性,并重新利用光线追踪器提供辐射测量指导,而不是最终像素。通过将该输出视为结构化的 3D 支架,我们使轻量级神经渲染器能够弥合遮蔽模型受限估计与逼真输出之间的域差距。我们的关键见解是,显式的 3D 知识与稳健的材质先验的结合提供了速度和可控性,而神经渲染则实现了逼真图像的合成。为了支持现实场景,我们对神经渲染器使用多阶段策略训练,包括大规模预训练和在新构建的数据集上进行针对性的微调,该数据集包含来自 3D 重建的 210 万帧合成和真实世界的渲染图像。TRON 在真实感方面优于基于高斯的再照明方法,在可编辑性和速度上优于先前的神经渲染器。据我们所知,TRON 是首个能够在捕获的 3D 环境中实现实用交互应用的方法,可在动态几何、光照和材质条件下提供逼真的外观。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**在真实世界3D场景中实现可控且逼真的重光照(relighting)和渲染**的问题,特别是在需要**动态交互**的应用场景下。 具体而言,论文针对以下关键挑战: 1. **现有基于物理的渲染(PBR)方法的局限性** 传统的3D高斯泼溅(3DGS)和基于PBR的高斯表示方法虽然能够实现一定的编辑功能,但由于重建几何、材质估计和光传输计算的不完美,难以在动态光照或物体运动下产生逼真的渲染结果。这些方法往往将光照效果(如阴影、反射)"烘焙"到固定的场景辐射中,无法支持动态变化。 2. **神经渲染方法的可控性不足** 现有的神经渲染方法(如基于扩散模型的方法)虽然能生成照片级真实感的图像,但通常缺乏显式的3D场景表示。这限制了它们支持**细粒度交互编辑**的能力(如精确控制物体运动、动态阴影、材质编辑和物体插入),并且容易在多视图之间产生不一致性。 3. **交互式应用的实时性要求** 许多现有方法计算成本高,专为离线渲染设计,无法满足交互式应用(如实时预览、动态编辑)对即时反馈(低延迟)的需求。 **TRON的解决方案** 论文提出将**3D高斯光线追踪**(提供显式3D几何结构、物理正确的光照计算和实时性能)与**神经渲染器**(弥补物理模型的缺陷,生成照片级真实感图像)相结合。通过这种混合架构,TRON旨在同时实现: - 对光照、材质和几何的**显式3D控制** - **实时交互性能**(无需预计算) - **逼真的渲染质量**(处理复杂的间接光照、阴影和材质效果) 简而言之,TRON试图弥合**物理精确但视觉不完美**的显式渲染与**视觉逼真但缺乏控制**的神经生成方法之间的鸿沟,首次在捕获的真实世界3D环境中实现了实用的交互式应用(如动态重光照、材质编辑和物体插入)。

Q: 有哪些相关研究?

根据论文第2节(Related Work),相关研究主要分为以下三类: 1\. 可重光照的高斯方法 (Relightable Gaussians) 这类方法扩展3D高斯泼溅(3DGS)以支持物理渲染(PBR)属性,试图通过优化高斯粒子的材质属性(如反照率、金属度、粗糙度)来实现场景分解。 - **代表性工作**:GaussianShader 37 、GS-IR 51 、GI-GS 11 、RNG 22 、GUS-IR 52 等 - **技术路线**:将标准3DGS的烘焙外观分解为材质属性,结合基于物理的着色模型(如Cook-Torrance BRDF)进行渲染 - **局限性**: - 逆渲染问题高度不适定,依赖脆弱的正则化和隐式先验,常导致阴影"烘焙"到基础颜色中 - 动态光照处理能力有限:多采用烘焙阴影或均匀采样阴影光线,无法准确建模长轮廓阴影,且需要为动态几何重新优化 - 应用场景受限:多局限于单光源(OLAT)设置 5, 22 、单一镜面物体 37, 113 或特定室外场景 2, 41 - 基于约束的着色模型固有其表达域限制,难以达到真实照片级效果 近期部分工作(如 GS-ID 19 )开始利用扩散模型的材质先验 97, 20 来改善分解质量,但仍未解决动态光照和几何运动的交互问题。 2\. 图像空间神经渲染 (Image-Space Neural Rendering) 这类方法绕过显式3D表示,直接在图像空间利用生成模型(特别是扩散模型)进行重光照。 - **代表性工作**:DiffusionRenderer 50 、UniRelight 32 、RGB↔X 97 、LightLab 58 、Spotlight 23 等 - **技术路线**:训练配对的前向/逆渲染器(RGB↔X),将渲染图像映射到G-buffer(几何缓冲区)或反之;或利用视频扩散模型 32, 91 进行时间一致的重光照 - **局限性**: - **缺乏显式控制**:生成特性导致难以精确控制3D属性(如物体运动、精确阴影位置),容易出现视图间不一致和幻觉伪影 - **计算成本高**:标准扩散模型需要多步去噪,不适合实时交互(如 UniRelight 首帧延迟可达450秒 \[6 {% endhideToggle %}

Authors: Or Perel, Hassan Abu Alhaija, Zian Wang, Jacob Munkberg, Matan Atzmon, Sanja Fidler, Masha Shugrina

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11314.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11314

Published: 2026-06-11T02:22:06.497Z


8. Semantic Segmentation of Node and Edge Diagrams for Assistive Technology

Abstract:In this paper, we present a novel set of related models for semantic segmentation of node-link diagrams. These diagrams are frequently used to represent mathematical graphs, relationships between concepts, and flowcharts. Such diagrams are difficult to access non-visually; while some assistive interfaces have been designed for node-link diagrams, they rely upon a machine-readable representation of the diagram, whereas such diagrams will generally be made available as bitmap images. Our compact deep learning models show excellent quantitative and qualitative performance on a large synthetic dataset of node-link diagrams, reaching per-pixel accuracy over 93\%.

{% hideToggle 中文摘要 %} 摘要:在本文中,我们提出了一组用于节点-连线图语义分割的新型相关模型。这些图通常用于表示数学图、概念之间的关系以及流程图。这类图难以通过非视觉方式访问;虽然已经为节点-连线图设计了一些辅助界面,但它们依赖于图的机器可读表示,而这些图通常会以位图图像的形式提供。我们紧凑的深度学习模型在大规模合成节点-连线图数据集上显示出优异的定量和定性性能,每像素准确度超过93%。 {% endhideToggle %} {% hideToggle LLM Analysis %} LLM Analysis Failed: Error: 抓取失败(已重试2次): Waiting failed: 30000ms exceeded {% endhideToggle %}

Authors: Michael Cormier, Yichun Zhao, Laura Paul, Cameron Swift, Duc Tri Dang, Miguel Nacenta

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11320.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11320

Published: 2026-06-11T02:22:06.497Z


9. DarkVGGT: Seeing Through Darkness Using Thermal Geometry without Daylight Tax

Abstract:Recent feed-forward 3D reconstruction methods have demonstrated strong performance and flexibility in efficient end-to-end scene geometry estimation from image streams. However, their reliance on visible-light appearance makes them vulnerable in dark and low-visibility environments, where RGB cues are severely degraded and geometric evidence becomes ambiguous. To address this challenge, we propose DarkVGGT, an RGB-T feed-forward geometry framework that uses physics-aware thermal modeling for robust 3D estimation in low-light scenes. DarkVGGT introduces two complementary modules. First, physics-inspired thermal factorization extracts emissive-dominant, geometry-consistent thermal cues while isolating sparse reflective residuals that may introduce geometric ambiguity. Second, geometry-shared thermal routing isolates modality-invariant geometric structures from thermal-specific patterns, selectively injecting reliability-aware structural guidance into the RGB stream. Together, these components enable accurate thermal-informed geometry estimation under degraded RGB conditions while largely preserving performance in well-lit environments. Experiments on low-visibility RGB-T benchmarks demonstrate consistent improvements in both depth and camera pose estimation over existing feed-forward geometry baselines.

{% hideToggle 中文摘要 %} 摘要:近年来,前馈式 3D 重建方法在从图像流中高效端到端地估计场景几何方面表现出强大的性能和灵活性。然而,它们对可见光外观的依赖使其在黑暗和低能见度环境中易受影响,因为 RGB 特征严重退化,几何证据变得模糊。为了解决这一挑战,我们提出了 DarkVGGT,一种基于 RGB-T 的前馈几何框架,利用物理感知的热效应建模在低光场景下实现稳健的 3D 估计。DarkVGGT 引入了两个互补模块。首先,受物理启发的热分解提取以发光为主、几何一致的热特征,同时隔离可能引入几何歧义的稀疏反射残差。其次,共享几何的热路由从热特定模式中隔离出模态不变的几何结构,有选择地将可靠性感知的结构引导注入 RGB 流。通过这些组件的协同作用,DarkVGGT 在 RGB 条件退化的情况下实现了精确的热感知几何估计,同时在光照充足的环境中在很大程度上保持了性能。在低能见度 RGB-T 基准测试上的实验显示,其在深度和相机位姿估计方面均相比现有前馈几何基线实现了持续改进。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

该论文针对**前馈式3D重建模型在黑暗及低能见度环境下的几何估计失效问题**,提出了一种保守式的RGB-热成像(RGB-T)融合框架。具体而言,论文试图解决以下核心挑战: 1\. 现有方法的局限性 基于可见光的前馈几何模型(如DUSt3R、VGGT等)依赖RGB外观线索进行端到端场景几何估计。然而,在夜间道路、黑暗室内等低照度场景中,RGB图像纹理退化、颜色信息缺失,导致几何证据模糊,使得现有模型无法可靠地估计深度和相机位姿。 2\. "日光税"(Daylight Tax)困境 直接引入热成像等额外模态进行多传感器融合虽能改善低光性能,但存在**破坏预训练RGB几何先验**的风险: - 现有低光适应方法(如蒸馏、事件相机融合)可能干扰模型在正常光照下学到的几何能力 - 朴素地将RGB与热成像混合会导致模型在良好光照条件下的性能下降,即提升黑暗场景表现以牺牲日光场景性能为代价 3\. 热成像的物理复杂性 热成像并非干净的几何测量,其辐射强度取决于表面发射率、温度及反射红外辐射。直接融合可能引入: - **反射伪影**:镜面反射或反射红外辐射造成的局部几何歧义 - **模态特定噪声**:与几何无关的热成像特有模式 解决方案概述 为此,论文提出**DarkVGGT**,通过以下策略实现鲁棒的低光3D感知: - **物理启发的热成像分解**:将热成像线索分离为**发射主导**(几何一致)和**反射敏感**(稀疏残差)成分,利用基尔霍夫定律约束( rho^((ell)) = 1 - varepsilon^((ell)) )隔离可能引入歧义的反射分量 - **几何共享热路由**:通过停止梯度蒸馏(stop-gradient distillation)将热成像分解为**几何共享**与**模态私有**子空间,仅将可靠性门控(reliability-gated)的几何一致信息注入RGB流,避免干扰预训练RGB先验 - **RGB先验保留机制**:通过热成像分支随机丢弃(thermal dropout)和冻结基线模型输出的蒸馏损失,确保模型在无热成像输入时仍保持原始VGGT的几何能力 该框架在ViViD++、STheReO、Dark3R等低光基准上实现了深度和位姿估计的显著提升,同时在ETH3D和ScanNet++等正常光照数据集上保持了与原始VGGT相当的性能,有效缓解了"日光税"问题。

Q: 有哪些相关研究?

该论文的相关研究可归纳为以下三个主要方向: 1 {% endhideToggle %}

Authors: Minseong Kweon, Wenyuan Zhao, Nuo Chen, Lulin Liu, Huiwen Han, Zihao Zhu, Srinivas Shakkottai, Chao Tian, Zhiwen Fan

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11326.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11326

Published: 2026-06-11T02:22:06.497Z


10. NSVQ: Mitigating Codebook Collapse by Stabilizing Encoder Drift in Vector Quantization

Abstract:Vector quantization is central to modern generative modeling pipelines, but large-codebook VQ models often suffer from codebook collapse. We identify encoder drift as a key driver of this failure: as the encoder moves the latent distribution, sparsely updated code vectors can lag behind, lose assignments, and increase quantization error, creating a feedback loop through the straight-through estimator. We propose NSVQ, a non-stationary-aware VQ training strategy that combines a dense non-stationary embedding loss, codebook replacement, and stage-wise encoder freezing. NSVQ first helps the codebook track encoder drift during early training, then freezes the encoder to consolidate the codebook under a fixed latent geometry, and finally reintroduces adversarial refinement. Experiments on ImageNet-1k show that NSVQ improves reconstruction quality while maintaining full codebook utilization. On ImageNet-1k at 128$\times$128 with 65,536 codes, NSVQ reduces rFID from 2.39 to 2.10 compared with SimVQ, while both methods maintain 100\% utilization. Additional latent diffusion experiments show that NSVQ also improves downstream ImageNet generation FID.

{% hideToggle 中文摘要 %} 摘要:向量量化在现代生成建模流程中至关重要,但大代码本的VQ模型往往容易出现代码本崩溃。我们确定编码器漂移是这一失败的关键驱动因素:随着编码器移动潜在分布,稀疏更新的代码向量可能滞后、失去分配并增加量化误差,从而通过直接通道估计器形成反馈环。我们提出了NSVQ,一种非平稳感知的VQ训练策略,结合了密集非平稳嵌入损失、代码本替换和分阶段编码器冻结。NSVQ首先在早期训练阶段帮助代码本跟踪编码器漂移,然后冻结编码器以在固定潜在几何中巩固代码本,最后重新引入对抗性微调。在ImageNet-1k上的实验表明,NSVQ在保持代码本完整利用的同时提高了重建质量。在ImageNet-1k 128×128、65,536代码的实验中,NSVQ将rFID从2.39降至2.10,而SimVQ和NSVQ都保持了100%的使用率。额外的潜在扩散实验表明,NSVQ在下游ImageNet生成FID上也具有改进效果。 {% endhideToggle %} {% hideToggle LLM Analysis %}

Q: 这篇论文试图解决什么问题?

这篇论文试图解决**大规模向量量化(Vector Quantization, VQ)模型中的码本崩溃(codebook collapse)问题**,并深入探究了其根本原因——**编码器漂移(encoder drift)**。 具体而言,论文识别并试图解决以下核心问题: 1\. 码本崩溃及其动态机制 传统VQ-VAE训练中大码本(如65,536个码)经常出现大量码本条目 inactive(利用率极低)的现象,导致离散表示的有效容量下降。论文指出,这不仅是静态的初始化或分配问题,而是**由编码器漂移驱动的非平稳优化问题**: - **编码器漂移**:由于直通估计器(STE)的使用,编码器参数在训练过程中持续更新,导致潜在分布 z_e^((t))(x) 随时间不断变化(非平稳) - **码本滞后**:码本仅通过最近邻分配进行稀疏更新(仅获胜码被更新),无法及时跟踪移动的潜在几何结构 - **正反馈循环**:编码器漂移 arrow 码本滞后 arrow 死亡码 arrow 量化残差 |ε| 增大 arrow STE梯度估计偏差增大 arrow 编码器漂移加剧 2\. 非平稳对齐失配 论文强调,即使码本利用率很高,编码器分布与码本之间的**非平稳失配**仍会削弱编码器-码本-解码器三者的一致性,降低重建质量和下游生成性能。 3\. 提出的解决方案 为打破上述反馈循环,论文提出了 **NSVQ(Non-Stationary-aware VQ)** 训练策略,通过三阶段方法解决这些问题: - **Stage 1(非平稳感知学习)**:引入稠密非平稳嵌入损失 L_(NS) ,将辅助更新传播到邻近非获胜码,帮助码本跟踪编码器漂移;结合码本替换机制防止早期崩溃 - **Warm-up阶段(冻结编码器稳定)**:当承诺损失(commitment loss)达到平台期时冻结编码器,在固定潜在几何下稳定量化器-解码器适配,禁用对抗训练以避免不稳定 - **Stage 2(感知精炼)**:在编码器保持冻结的状态下重新引入对抗训练,进行感知质量优化而不重新引入编码器漂移 通过将训练过程与编码器漂移动力学相匹配,NSVQ 旨在实现**全码本利用**与**高质量重建**的统一,而非仅仅追求高利用率这一单一指标。

Q: 有哪些相关研究?

根据论文第3节及附录B的内容,相关研究可分为以下三个主要方向: {% endhideToggle %}

Authors: Hao Lu, Yongxin Guo, Onur Koyun, Zhengjie Zhu, Abbas Alili, Metin N. Gurcan

Categories: cs.CV

PDF URL: https://arxiv.org/pdf/2606.11363.pdf

CoolPaper URL: https://papers.cool/arxiv/2606.11363

Published: 2026-06-11T02:22:06.497Z