ArXiv Domain 2025-08-14

数据来源：ArXiv Domain

LLM Domain Papers

1. OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

Autonomous agents powered by large language models (LLMs) are increasingly deployed in real-world applications requiring complex, long-horizon workflows. However, existing benchmarks predominantly focus on atomic tasks that are self-contained and independent, failing to capture the long-term contextual dependencies and multi-interaction coordination required in realistic scenarios. To address this gap, we introduce OdysseyBench, a comprehensive benchmark for evaluating LLM agents on long-horizon workflows across diverse office applications including Word, Excel, PDF, Email, and Calendar. Our benchmark comprises two complementary splits: OdysseyBench+ with 300 tasks derived from real-world use cases, and OdysseyBench-Neo with 302 newly synthesized complex tasks. Each task requires agent to identify essential information from long-horizon interaction histories and perform multi-step reasoning across various applications. To enable scalable benchmark creation, we propose HomerAgents, a multi-agent framework that automates the generation of long-horizon workflow benchmarks through systematic environment exploration, task generation, and dialogue synthesis. Our extensive evaluation demonstrates that OdysseyBench effectively challenges state-of-the-art LLM agents, providing more accurate assessment of their capabilities in complex, real-world contexts compared to existing atomic task benchmarks. We believe that OdysseyBench will serve as a valuable resource for advancing the development and evaluation of LLM agents in real-world productivity scenarios. In addition, we release OdysseyBench and HomerAgents to foster research along this line.

中文摘要

由大语言模型（LLMs）驱动的自主智能体越来越多地被应用于需要复杂、长期工作流程的真实世界应用中。然而，现有基准测试主要关注于自成一体且相互独立的原子任务，未能捕捉到在现实场景中所需的长期上下文依赖性和多次互动协调。为了解决这一问题，我们引入OdysseyBench，这是一个全面的基准，用于评估LLM智能体在跨越多种办公应用（包括Word、Excel、PDF、电子邮件和日历）的长期工作流程上的表现。我们的基准包括两个互补的分配：OdysseyBench+包含300个来自真实世界用例的任务，以及OdysseyBench-Neo包含302个新合成的复杂任务。每个任务要求智能体从长期互动历史中识别必要信息，并在各种应用程序中执行多步骤推理。为了实现可扩展的基准创建，我们提出了HomerAgents，一个多智能体框架，通过系统环境探索、任务生成和对话合成来自动生成长期工作流程基准。我们广泛的评估表明，OdysseyBench有效地挑战了最先进的LLM智能体，更准确地评估它们在复杂、真实世界环境中的能力，相较于现有的原子任务基准。我们相信，OdysseyBench将成为推动LLM智能体在真实生产力情境中发展和评估的重要资源。此外，我们发布OdysseyBench和HomerAgents，以促进这一领域的研究。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决现有基准测试（benchmarks）在评估基于大型语言模型（LLMs）的自主代理（autonomous agents）时的局限性。具体来说，现有基准主要关注原子任务（atomic tasks），这些任务是自包含且独立的，无法捕捉现实场景中所需的长期上下文依赖性和多交互协调能力。为了填补这一空白，论文提出了一个名为OdysseyBench的综合基准测试，用于评估LLM代理在跨越多种办公应用（如Word、Excel、PDF、Email和Calendar）的长期复杂工作流程中的表现。

Q: 有哪些相关研究？

A: 以下是论文中提到的相关研究：

评估LLMs在行政环境中的研究

WebArena：Zhou等人（2023）提出的WebArena是一个用于评估代理在网页环境中表现的基准，主要关注代理的工具使用能力，但其任务大多是原子性的，缺乏对长期交互和上下文的评估。
AgentBench：Paranjape等人（2023）开发的AgentBench专注于评估代理在各种任务中的表现，但同样主要关注短期的、独立的任务，没有涉及长期复杂工作流的评估。
WindowsAgentArena：Bonatti等人（2024）提出的WindowsAgentArena用于评估多模态操作系统代理的能力，但其任务也主要是原子性的，没有涵盖长期的上下文依赖性。
OfficeBench：Wang等人（2024d）开发的OfficeBench是一个评估代理在办公自动化任务中的基准，但其任务也主要是原子性的，缺乏对长期交互和上下文的评估。

合成基准生成的研究

Synatra：Ou等人（2024）提出的Synatra利用LLMs自动生成代理任务和轨迹，但这些任务大多是原子性的，缺乏长期交互和上下文。
Agentsynth：Xie等人（2025）提出的Agentsynth通过合成任务来扩展代理的评估，但这些任务也主要是原子性的，没有涉及长期复杂工作流的评估。
组成原子任务：Boisvert等人（2024）和Drouin等人（2024）通过组合原子任务来构建更具挑战性的任务，但这些方法通常局限于简单的交互，缺乏多步推理和广泛的工具使用。

Q: 论文如何解决这个问题？

A: 论文通过以下方式解决现有基准测试无法有效评估LLM代理在长期复杂工作流程中的表现的问题：

提出OdysseyBench基准测试

OdysseyBench+：基于OfficeBench中的真实世界用例生成了300个长期任务。这些任务要求代理从长期交互历史中提取关键信息，并在多个应用中进行多步推理。
OdysseyBench-Neo：通过多智能体系统从头开始生成302个全新的复杂任务，这些任务更加多样化且复杂，同样要求代理进行长期的上下文管理和多步推理。

提出HOMERAGENTS框架

HOMERAGENTS+：利用OfficeBench中的任务描述，通过两智能体迭代精化过程，将原子任务转化为富含上下文的多交互场景，从而创建OdysseyBench+。
HOMERAGENTS-Neo：在现实的应用环境中，通过多智能体系统从头开始生成全新的长期任务，产生OdysseyBench-Neo。该框架通过系统化的环境探索、任务生成和对话合成，实现了多样化、基于上下文的基准任务的可扩展生产。

评估和验证

评估OdysseyBench的有效性：通过使用最先进的代理对OdysseyBench进行广泛的评估，证明了这些基准能够有效地挑战当前模型，并提供比现有原子任务基准更准确的评估，以反映它们在复杂现实场景中的能力。
分析对话存储格式的影响：通过在OdysseyBench中分析不同的对话存储格式，证明了语义压缩和连贯聚合对于有效的多步推理和代理性能至关重要。

公开资源

开源OdysseyBench和HOMERAGENTS：为了促进这一领域的研究，作者发布了OdysseyBench和HOMERAGENTS，以便其他研究人员可以使用这些工具来进一步研究和开发LLM代理。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

1. 长期上下文评估（Long-Context Evaluation）

设置：在OdysseyBench上评估代理性能时，提供整个对话历史给代理。
结果：如表4所示，所有模型在OdysseyBench+和OdysseyBench-Neo任务上的表现随着涉及的应用程序数量增加而下降。例如，在OdysseyBench+任务中，o3模型从单应用任务的72.83%下降到三应用任务的30.36%；在OdysseyBench-Neo任务中，GPT-4o模型从单应用任务的75.00%下降到三应用任务的45.61%。这表明协调多个应用之间的信息对当前LLMs来说是一个挑战。

2. 基于检索增强生成（RAG）的评估

设置：在RAG设置下，代理使用嵌入模型从对话历史中检索相关上下文来生成响应。实验中使用了两种类型的存储上下文：原始上下文和总结上下文。每种类型又分为两种粒度级别：会话级（session-level）和话语级（utterance-level）。
结果：
- OdysseyBench+：如表5所示，使用原始上下文时，话语级检索在某些配置下表现优于长上下文基线，但在OdysseyBench-Neo任务中表现下降。总结上下文在性能上优于原始上下文，尤其是块级（chunk-level）总结表现最佳，例如在OdysseyBench-Neo任务中，块级总结在使用不到20%的token时达到了56.29%的性能。
- OdysseyBench-Neo：如表6所示，总结上下文同样表现出色，块级总结在OdysseyBench-Neo任务中达到了54.97%的性能。这表明总结上下文能够有效地捕捉任务的关键信息，同时去除冗余细节，使模型能够专注于与任务相关的必要内容。

3. 人类评估

设置：让两位人类标注者完成OdysseyBench-Neo任务的一个随机子集，并报告人类表现。
结果：如表3所示，人类表现超过90%，表明这些任务是可解的且连贯的。

4. 执行步骤分析

设置：分析在不同配置下完成任务所需的执行步骤数量。
结果：如表7所示，在OdysseyBench+任务中，长上下文配置平均需要10.25步，RAG-话语配置需要11.05步，RAG-块配置需要10.10步；在OdysseyBench-Neo任务中，长上下文配置平均需要10.46步，RAG-话语配置需要10.92步，RAG-块配置需要10.95步。这表明总结上下文不仅提高了性能，还通过有效地提供相关上下文来简化推理过程，减少了完成任务所需的步骤数量。

Q: 有什么可以进一步探索的点？

A: 论文提出了OdysseyBench基准测试和HOMERAGENTS框架，为评估LLM代理在长期复杂工作流程中的表现提供了一个有价值的工具。尽管如此，仍有一些可以进一步探索的点：

1. 更复杂的工作流和多任务协调

研究方向：目前的OdysseyBench主要关注单个长期任务的执行。未来可以探索更复杂的工作流，其中包含多个相互依赖的任务，需要代理在不同任务之间进行协调和切换。
潜在影响：这将更接近现实世界中的工作场景，例如项目管理，其中多个任务需要并行或顺序执行，并且需要根据任务的进展和结果进行动态调整。

2. 跨领域和跨应用的泛化能力

研究方向：目前的基准测试主要集中在办公应用。未来可以扩展到其他领域，如医疗、金融、教育等，以评估代理在不同领域中的泛化能力。
潜在影响：这将帮助研究人员和开发者更好地理解代理在不同领域的适应性和局限性，从而开发出更具通用性的代理。

3. 长期记忆和知识更新

研究方向：在长期工作流中，代理需要维护和更新长期记忆，以适应不断变化的环境和任务要求。未来可以研究如何设计更有效的长期记忆机制，以及如何在代理执行任务时动态更新知识。
潜在影响：这将提高代理在长期任务中的适应性和灵活性，使其能够更好地应对现实世界中的复杂情况。

4. 多模态交互

研究方向：目前的基准测试主要基于文本交互。未来可以探索多模态交互，包括语音、图像、视频等，以评估代理在更丰富的交互环境中的表现。
潜在影响：这将使代理能够更好地理解和处理现实世界中的多种信息源，提高其在复杂任务中的表现。

5. 用户行为和偏好的建模

研究方向：在长期工作流中，用户的行为和偏好可能会发生变化。未来可以研究如何建模用户的行为和偏好，以便代理能够更好地适应用户的个性化需求。
潜在影响：这将提高代理的用户体验和满意度，使其能够更好地满足用户的个性化需求。

6. 自动化基准测试的进一步扩展

研究方向：HOMERAGENTS框架已经展示了自动化基准测试的潜力。未来可以进一步扩展该框架，以生成更多样化和更具挑战性的任务，同时保持生成任务的质量。
潜在影响：这将为研究人员提供更丰富的评估工具，帮助他们更好地评估和改进LLM代理的性能。

7. 实时反馈和动态调整

研究方向：在长期任务中，代理可能需要根据实时反馈进行动态调整。未来可以研究如何设计实时反馈机制，使代理能够根据用户的反馈及时调整其行为和策略。
潜在影响：这将提高代理在动态环境中的适应性和灵活性，使其能够更好地应对不断变化的任务要求。

8. 多代理协作

研究方向：在一些复杂任务中，可能需要多个代理协作完成任务。未来可以研究多代理协作机制，以及如何评估多个代理之间的协调和合作能力。
潜在影响：这将帮助研究人员和开发者更好地理解和设计多代理系统，提高其在复杂任务中的表现。

这些方向不仅可以进一步推动LLM代理的研究和开发，还可以为实际应用提供更有价值的工具和方法。

Q: 总结一下论文的主要内容

A: 本文介绍了一个名为OdysseyBench的基准测试，旨在评估基于大型语言模型（LLMs）的自主代理在长期复杂工作流程中的表现。OdysseyBench包括两个部分：OdysseyBench+和OdysseyBench-Neo，分别包含300个基于真实世界用例的任务和302个新合成的复杂任务。这些任务要求代理从长期交互历史中提取关键信息，并在多种办公应用（如Word、Excel、PDF、Email和Calendar）中进行多步推理。

背景知识

现有的基准测试主要关注原子任务，这些任务是自包含且独立的，无法捕捉现实场景中所需的长期上下文依赖性和多交互协调能力。因此，需要一个能够准确反映现实场景的基准测试，以全面评估代理在复杂、上下文相关任务环境中的表现。

研究方法

为了创建OdysseyBench，作者提出了一个名为HOMERAGENTS的多智能体框架，该框架通过系统化的环境探索、任务生成和对话合成，自动化长期工作流程基准的生成。HOMERAGENTS包括两个部分：

HOMERAGENTS+：基于OfficeBench的任务描述，通过两智能体迭代精化过程，将原子任务转化为富含上下文的多交互场景，从而创建OdysseyBench+。
HOMERAGENTS-Neo：在现实的应用环境中，通过多智能体系统从头开始生成全新的长期任务，产生OdysseyBench-Neo。

实验

作者对OdysseyBench进行了广泛的评估，使用了多种最先进的LLM代理，包括o3、GPT-4o、GPT-4.1、GPT-5等。评估结果显示，这些代理在OdysseyBench上的表现明显低于现有原子任务基准，这表明OdysseyBench能够更准确地评估代理在复杂现实场景中的能力。

关键结论

OdysseyBench有效地挑战了现有的LLM代理，提供了比现有原子任务基准更准确的评估。
代理在涉及多个应用的任务中表现下降，表明协调多个应用之间的信息是一个挑战。
使用总结上下文（尤其是块级总结）可以显著提高代理的性能，同时减少token的使用，这表明语义压缩和连贯聚合对于有效的多步推理至关重要。
人类评估显示，OdysseyBench中的任务是可解的且连贯的，表明该基准测试的质量和实用性。

贡献

提出了OdysseyBench，一个评估代理在长期复杂工作流程中的综合基准测试。
提出了HOMERAGENTS，一个自动化长期工作流程基准生成的多智能体框架。
通过广泛的评估，证明了OdysseyBench在挑战现有LLM代理方面的有效性，并提供了对代理在复杂现实场景中表现的深入见解。
分析了对话存储格式对代理性能的影响，强调了语义压缩和连贯聚合的重要性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Weixuan Wang, Dongge Han, Daniel Madrigal Diaz, Jin Xu, Victor Rühle, Saravan Rajmohan

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.09124v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09124v1

Published: 2025-08-12T17:53:03Z

2. SinLlama — A Large Language Model for Sinhala

Low-resource languages such as Sinhala are often overlooked by open-source Large Language Models (LLMs). In this research, we extend an existing multilingual LLM (Llama-3-8B) to better serve Sinhala. We enhance the LLM tokenizer with Sinhala specific vocabulary and perform continual pre-training on a cleaned 10 million Sinhala corpus, resulting in the SinLlama model. This is the very first decoder-based open-source LLM with explicit Sinhala support. When SinLlama was instruction fine-tuned for three text classification tasks, it outperformed base and instruct variants of Llama-3-8B by a significant margin.

中文摘要

像僧伽罗语这样的低资源语言常常被开源的大型语言模型（LLM）忽视。在这项研究中，我们扩展了一个现有的多语言LLM（Llama-3-8B），以更好地服务于僧伽罗语。我们增强了LLM的分词器，添加了专门针对僧伽罗语的词汇，并在一个清理过的1000万条僧伽罗语语料库上进行了持续的预训练，从而得到了SinLlama模型。这是第一个明确支持僧伽罗语的基于解码器的开源LLM。当SinLlama针对三个文本分类任务进行指令微调时，其表现远超Llama-3-8B的基础和指导变体。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决低资源语言（Low-resource languages, LRLs）在开源大型语言模型（Large Language Models, LLMs）中被忽视的问题，特别是以僧伽罗语（Sinhala）为例。尽管一些多语言 LLMs（如 Llama 和 Gemma）声称支持多种语言，但它们在低资源语言上的表现仍然不佳。僧伽罗语作为一种仅在斯里兰卡使用的语言，拥有约 2000 万使用者，属于低资源语言范畴，且未被主流开源 LLMs 在预训练阶段充分考虑。因此，论文的目标是通过扩展现有的多语言 LLM（Llama-38B），使其更好地支持僧伽罗语，从而缩小数字鸿沟并提升低资源语言在 LLMs 中的表现。

Q: 有哪些相关研究？

A: 论文中提到了多个与大型语言模型（LLMs）和低资源语言（LRLs）相关的研究，以下是主要的相关研究：

大型语言模型（LLMs）

Pre-trained Language Models (PLMs)：使用 Transformer 架构的预训练语言模型，如 ChatGPT 等解码器模型，因其强大的性能而广受欢迎。开源的大型解码器模型（LLMs），如 LLaMA、Mistral 和 Gemma，训练数据量大，性能可与商业系统相媲美。这些模型的训练包括训练分词器和使用无标签原始文本语料库进行自监督训练（即预训练），得到的模型称为基础模型（base model）。这些基础模型缺乏特定任务的能力，因此需要使用特定任务的指令数据进行微调（即指令微调，instruct-tuning）。
Empirical Studies on LLM Performance for LRLs：对多种语言上的 LLMs 性能评估显示，高资源语言和低资源语言之间存在显著的性能差异。例如，Ahuja 等人的 MEGA 框架对 70 种不同语言（包括僧伽罗语）进行了 16 项 NLP 任务的全面基准测试，发现像 GPT-4 这样的模型在高资源语言上表现良好，但在低资源语言上则表现不佳，尤其是那些具有独特形态结构或脚本的语言。Chang 等人的综述强调了预训练语料库的多样性和代表性对模型多语言性能的影响，以及当前多语言基准测试的局限性。
Extending LLMs for New Languages：介绍了多种将 LLM 扩展到新语言的策略，包括持续预训练（continual pre-training）、词汇扩展（vocabulary extension）、微调（fine-tuning）、偏好优化（preference optimization）、上下文学习（in-context learning）和利用词典（leveraging lexicons）等方法。

僧伽罗语（Sinhala）语言计算

Sinhala Language Computing：尽管有研究尝试使用基于规则、统计或早期深度学习技术来实现僧伽罗语计算工具，但这些技术在自然语言处理（NLP）领域已经过时。不过，仍有一些尝试保持僧伽罗语 NLP 的更新，例如 Lakmal 等人提出的 Word2Vec 和 FastText 嵌入，以及 Dhananjaya 等人构建的基于 Transformer 的编码器语言模型 SinBERT。

这些相关研究为本文提出的 SinLlama 模型提供了背景和理论基础，展示了在低资源语言上改进 LLMs 的必要性和可能的方法。

Q: 论文如何解决这个问题？

A: 论文通过以下两个关键阶段来解决低资源语言（如僧伽罗语）在大型语言模型（LLMs）中表现不佳的问题：

1. 词汇扩展（Vocabulary Extension）

增强分词器：通过将僧伽罗语特定的词汇合并到 LLM 的分词器词汇表中，改进了子词分割（subword segmentation）。这一步骤有助于模型更好地理解和生成僧伽罗语文本。

2. 持续预训练（Continual Pre-training）

使用清洗后的僧伽罗语语料库：研究者们创建了一个包含 1000 万句清洗过的僧伽罗语文本的语料库，用于对 Llama-3-8B 模型进行持续预训练。这一步骤确保了模型能够学习到更深入的僧伽罗语语言特征。

模型选择

选择最佳开源多语言 LLM：研究者们首先对现有的开源多语言 LLM 进行了调查和比较，最终选择了 Llama-3-8B 作为基础模型。Llama-3-8B 支持 8 种语言，参数量为 80 亿，且在多个基准测试中表现出色。

数据集

预训练数据：结合了 MADLAD-400 和 CulturaX 数据集，经过清洗和去重后，最终得到包含 1073 万句僧伽罗语句子的语料库，总计 3.04 亿个词元。
微调数据：选择了三个公开的僧伽罗语文本分类任务数据集：新闻分类、情感分析和写作风格分类。这些数据集经过预处理后，被分为训练集、验证集和测试集，用于评估模型性能。

持续预训练构建 SinLlama

分词器训练与合并：使用预训练语料库训练了一个分词器，并将其与 Llama-3 分词器合并。
持续预训练：使用修改后的 Chinese-Llama 代码库进行持续预训练，将 block_size 从 1024 降低到 512，以适应实验中使用的 GPU 内存限制。

任务特定微调（Task-specific Fine-tuning）

提示选择：采用 Alpaca Instruct Template 提供的提示格式，为每个分类任务选择了最合适的提示。
微调：分别对 SinLlama 和 Llama-3-8B 基础模型进行了微调，使用了 LoRA 微调技术，以加快训练速度并降低内存使用。

评估

性能比较：将 SinLlama 与 Llama-3-8B 基础模型和指令微调模型进行了比较。结果显示，经过微调的 SinLlama 在所有任务上都显著优于经过微调的 Llama-3-8B 基础模型和指令微调模型。

通过上述方法，论文成功地构建了 SinLlama，这是第一个专门为僧伽罗语预训练的开源大型语言模型，并在多个文本分类任务上取得了显著的性能提升。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

模型选择实验

模型筛选：根据多语言能力、参数规模（小于 80 亿参数）、僧伽罗语支持情况和性能指标等标准，从众多开源多语言 LLM 中筛选出 Llama-3-8B 作为基础模型进行后续实验。

持续预训练实验

分词器训练与合并：使用预训练语料库训练了一个分词器，并将其与 Llama-3 分词器合并。
持续预训练：使用修改后的 Chinese-Llama 代码库进行持续预训练，将 block_size 从 1024 降低到 512，以适应实验中使用的 GPU 内存限制。

任务特定微调实验

提示选择：采用 Alpaca Instruct Template 提供的提示格式，为每个分类任务选择了最合适的提示。
微调：分别对 SinLlama 和 Llama-3-8B 基础模型进行了微调，使用了 LoRA 微调技术，以加快训练速度并降低内存使用。

性能评估实验

性能比较：将 SinLlama 与 Llama-3-8B 基础模型和指令微调模型进行了比较。结果显示，经过微调的 SinLlama 在所有任务上都显著优于经过微调的 Llama-3-8B 基础模型和指令微调模型。

具体实验设置和结果如下：

实验设置

数据集：
- 预训练数据：结合了 MADLAD-400 和 CulturaX 数据集，经过清洗和去重后，最终得到包含 1073 万句僧伽罗语句子的语料库，总计 3.04 亿个词元。
- 微调数据：选择了三个公开的僧伽罗语文本分类任务数据集：新闻分类、情感分析和写作风格分类。这些数据集经过预处理后，被分为训练集、验证集和测试集，用于评估模型性能。
微调方法：
- 使用 LoRA 微调技术，以加快训练速度并降低内存使用。

实验结果

性能指标：使用精确率（Precision）、召回率（Recall）和 F1 分数来评估模型性能。
结果对比：
- Llama-3-8B 基础模型：在微调后，性能有显著提升，但仍然低于 SinLlama。
- Llama-3-8B 指令微调模型：在微调后，性能也有所提升，但仍然低于 SinLlama。
- SinLlama：在所有任务上都取得了最佳性能，显著优于其他模型。

具体数值结果如下表所示：

模型

写作风格分类

新闻分类

情感分析

Llama-3-8B 基础模型

33.091/20.927/24.504

23.904/18.919/19.031

41.942/38.011/36.285

Llama-3-8B 基础模型 - 微调

71.060/38.179/49.451

64.770/63.664/61.136

61.110/61.215/59.353

Llama-3-8B 指令微调模型

50.782/50.719/48.755

31.866/30.330/29.219

48.451/36.796/31.257

Llama-3-8B 指令微调模型 - 微调

70.996/35.942/42.256

50.883/50.450/47.812

68.856/68.729/68.784

SinLlama

33.315/4.393/7.531

44.166/19.520/15.614

47.153/25.856/22.689

SinLlama - 微调

85.906/52.157/58.893

89.033/86.787/86.402

75.246/70.055/72.471

这些实验结果表明，SinLlama 在经过微调后，在僧伽罗语文本分类任务上取得了显著的性能提升，优于其他模型。

Q: 有什么可以进一步探索的点？

A: 论文中提出了 SinLlama 模型，并在多个文本分类任务上展示了其优越性能。尽管如此，仍有一些可以进一步探索的方向，以进一步提升模型性能、拓展应用场景，并更好地理解模型的行为。以下是一些潜在的研究方向：

1. 微调策略的优化

多任务微调：目前的实验集中在单任务微调上。可以探索多任务微调策略，让模型同时学习多个任务，以提高其泛化能力和跨任务迁移能力。
数据增强：在微调阶段引入数据增强技术，如文本重写、同义词替换等，以增加训练数据的多样性，进一步提升模型的鲁棒性。
自适应学习率：使用自适应学习率调度器，如 ReduceLROnPlateau 或 Cosine Annealing，以优化训练过程中的学习率调整策略，从而提高模型的收敛速度和最终性能。

2. 偏好优化方法的探索

人类偏好数据：虽然僧伽罗语的人类偏好数据可能稀缺，但可以尝试收集少量高质量的偏好数据，并利用这些数据进行偏好优化，以使模型的输出更符合人类的期望。
强化学习：结合强化学习方法，如 Proximal Policy Optimization (PPO)，根据人类的反馈来优化模型的生成行为，从而更好地适应特定的语言风格和任务需求。

3. 模型架构的改进

混合专家模型（Mixture of Experts, MoE）：将 MoE 架构引入 SinLlama，以提高模型在处理不同语言风格和任务时的灵活性和效率。MoE 可以让模型在不同情况下选择最适合的子模型进行处理，从而提升整体性能。
跨语言迁移学习：探索如何将其他语言的预训练模型的知识迁移到僧伽罗语模型中，例如通过跨语言预训练或跨语言微调，以进一步提升模型的性能。

4. 模型评估与分析

深入的错误分析：对模型在不同任务上的错误进行深入分析，以了解模型在哪些方面表现不佳，从而为未来的改进提供方向。例如，分析模型在处理特定类型的文本或特定类别时的困难，以及这些困难的可能原因。
模型可解释性：研究模型的决策过程，提高模型的可解释性。例如，通过可视化模型的注意力机制，了解模型在处理僧伽罗语文本时关注的特征和模式，从而更好地理解模型的行为。

5. 应用场景的拓展

对话系统：将 SinLlama 应用于僧伽罗语的对话系统，探索其在自然语言对话中的表现，并针对对话任务进行进一步的优化和微调。
机器翻译：研究 SinLlama 在僧伽罗语与其他语言之间的机器翻译任务中的应用，评估其在跨语言生成和翻译中的潜力。
情感分析的拓展：除了现有的情感分析任务，可以探索更复杂的情感分析场景，如多标签情感分析、情感强度分析等，以进一步验证模型在情感理解方面的能力。

6. 跨领域应用

医学领域：探索 SinLlama 在僧伽罗语医学文本处理中的应用，如医学文献摘要、疾病诊断辅助等，以验证其在专业领域的适应性和有效性。
教育领域：研究如何利用 SinLlama 支持僧伽罗语的教育应用，如智能辅导系统、语言学习工具等，以促进僧伽罗语教育资源的开发和利用。

7. 计算资源优化

模型压缩：研究模型压缩技术，如量化、剪枝等，以减少模型的大小和计算需求，使其更适合在资源受限的设备上运行，如移动设备或边缘计算设备。
分布式训练：探索分布式训练方法，以加快模型的训练速度，提高训练效率，从而能够处理更大规模的数据集和更复杂的模型架构。

这些方向不仅可以进一步提升 SinLlama 模型的性能和应用范围，还可以为低资源语言的自然语言处理研究提供更深入的见解和方法。

Q: 总结一下论文的主要内容

A: 本文介绍了一种名为 SinLlama 的新型开源大型语言模型（LLM），专门针对僧伽罗语进行了优化。僧伽罗语作为一种低资源语言，通常被现有的多语言 LLM 忽视，导致其在这些模型上的表现不佳。SinLlama 模型通过以下两个关键步骤来解决这一问题：

词汇扩展：将僧伽罗语特定的词汇合并到 LLM 的分词器词汇表中，以改进子词分割，从而提高模型对僧伽罗语的理解和生成能力。
持续预训练：使用一个包含 1000 万句清洗过的僧伽罗语文本的语料库对 Llama-3-8B 模型进行持续预训练，以确保模型能够学习到更深入的僧伽罗语语言特征。

研究背景与动机

大型语言模型（LLMs）在处理高资源语言时表现出色，但在低资源语言（LRLs）上往往表现不佳。僧伽罗语作为一种仅在斯里兰卡使用的语言，拥有约 2000 万使用者，属于低资源语言范畴。尽管一些多语言 LLMs（如 Llama 和 Gemma）声称支持多种语言，但它们在低资源语言上的表现仍然不理想。因此，本文的目标是通过扩展现有的多语言 LLM（Llama-38B），使其更好地支持僧伽罗语。

模型选择

研究者们首先对现有的开源多语言 LLM 进行了调查和比较，最终选择了 Llama-3-8B 作为基础模型。Llama-3-8B 支持 8 种语言，参数量为 80 亿，且在多个基准测试中表现出色。

数据集

预训练数据：结合了 MADLAD-400 和 CulturaX 数据集，经过清洗和去重后，最终得到包含 1073 万句僧伽罗语句子的语料库，总计 3.04 亿个词元。
微调数据：选择了三个公开的僧伽罗语文本分类任务数据集：新闻分类、情感分析和写作风格分类。这些数据集经过预处理后，被分为训练集、验证集和测试集，用于评估模型性能。

持续预训练构建 SinLlama

分词器训练与合并：使用预训练语料库训练了一个分词器，并将其与 Llama-3 分词器合并。
持续预训练：使用修改后的 Chinese-Llama 代码库进行持续预训练，将 block_size 从 1024 降低到 512，以适应实验中使用的 GPU 内存限制。

任务特定微调

提示选择：采用 Alpaca Instruct Template 提供的提示格式，为每个分类任务选择了最合适的提示。
微调：分别对 SinLlama 和 Llama-3-8B 基础模型进行了微调，使用了 LoRA 微调技术，以加快训练速度并降低内存使用。

性能评估

性能比较：将 SinLlama 与 Llama-3-8B 基础模型和指令微调模型进行了比较。结果显示，经过微调的 SinLlama 在所有任务上都显著优于经过微调的 Llama-3-8B 基础模型和指令微调模型。
具体数值结果：
- 写作风格分类：SinLlama 微调后的 F1 分数为 58.893，显著高于 Llama-3-8B 基础模型微调后的 49.451 和指令微调模型微调后的 42.256。
- 新闻分类：SinLlama 微调后的 F1 分数为 86.402，显著高于 Llama-3-8B 基础模型微调后的 61.136 和指令微调模型微调后的 47.812。
- 情感分析：SinLlama 微调后的 F1 分数为 72.471，显著高于 Llama-3-8B 基础模型微调后的 59.353 和指令微调模型微调后的 68.784。

结论

SinLlama 是第一个专门为僧伽罗语预训练的开源大型语言模型。实验结果表明，经过微调的 SinLlama 在多个文本分类任务上取得了显著的性能提升，优于其他模型。未来的工作将集中在探索不同的微调策略和偏好优化方法，以进一步提升模型的性能和适应性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: H. W. K. Aravinda, Rashad Sirajudeen, Samith Karunathilake, Nisansa de Silva, Surangika Ranathunga, Rishemjit Kaur

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.09115v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09115v1

Published: 2025-08-12T17:49:34Z

3. AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains, with code generation emerging as a key area of focus. While numerous benchmarks have been proposed to evaluate their code generation abilities, these benchmarks face several critical limitations. First, they often rely on manual annotations, which are time-consuming and difficult to scale across different programming languages and problem complexities. Second, most existing benchmarks focus primarily on Python, while the few multilingual benchmarks suffer from limited difficulty and uneven language distribution. To address these challenges, we propose AutoCodeGen, an automated method for generating high-difficulty multilingual code generation datasets without manual annotations. AutoCodeGen ensures the correctness and completeness of test cases by generating test inputs with LLMs and obtaining test outputs through a multilingual sandbox, while achieving high data quality through reverse-order problem generation and multiple filtering steps. Using this novel method, we introduce AutoCodeBench, a large-scale code generation benchmark comprising 3,920 problems evenly distributed across 20 programming languages. It is specifically designed to evaluate LLMs on challenging, diverse, and practical multilingual tasks. We evaluate over 30 leading open-source and proprietary LLMs on AutoCodeBench and its simplified version AutoCodeBench-Lite. The results show that even the most advanced LLMs struggle with the complexity, diversity, and multilingual nature of these tasks. Besides, we introduce AutoCodeBench-Complete, specifically designed for base models to assess their few-shot code generation capabilities. We hope the AutoCodeBench series will serve as a valuable resource and inspire the community to focus on more challenging and practical multilingual code generation scenarios.

中文摘要

大型语言模型（LLMs）在各个领域展示了显著的能力，其中代码生成成为一个关键关注点。虽然已经提出了众多基准来评估它们的代码生成能力，但这些基准面临几个关键的局限性。首先，它们通常依赖于人工注释，这既费时又难以在不同编程语言和问题复杂性中扩展。其次，大多数现有基准主要集中在 Python 上，而为数不多的多语言基准则存在难度有限和语言分布不均的问题。为了解决这些挑战，我们提出了 AutoCodeGen，一种自动化的方法，用于生成高难度的多语言代码生成数据集，而无需人工注释。AutoCodeGen通过使用 LLM 生成测试输入并通过多语言沙盒获得测试输出，确保测试用例的正确性和完整性，同时通过反向问题生成和多个过滤步骤实现高数据质量。利用这一新方法，我们推出了 AutoCodeBench，这是一个大规模的代码生成基准，包括 3,920 个问题，均匀分布在 20 种编程语言中。它专门设计用于评估 LLM 在具有挑战性、多样性和实际应用的多语言任务上的表现。我们在 AutoCodeBench 及其简化版本 AutoCodeBench-Lite 上评估了 30 多款领先的开源和专有 LLM。结果表明，即使是最先进的 LLM 在这些任务的复杂性、多样性和多语言性质面前也显得相形见绌。此外，我们推出了 AutoCodeBench-Complete，专门为基模型设计，用于评估它们的少量样本代码生成能力。我们希望 AutoCodeBench 系列能成为一个有价值的资源，并激励社区关注更具挑战性和实际应用的多语言代码生成场景。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在评估大型语言模型（LLMs）代码生成能力时面临的几个关键问题：

手动标注的局限性：现有的代码生成基准测试大多依赖于手动标注，这不仅耗时费力，而且难以在不同编程语言和问题复杂度上进行扩展。
多语言覆盖不足：大多数现有基准主要集中在Python语言，而少数多语言基准则存在难度有限和语言分布不均衡的问题。
缺乏高难度和多样性的基准：社区需要一个能够综合评估LLMs代码生成能力的基准，该基准应结合高难度、实际多样性和平衡的多语言分布。

为了解决这些问题，论文提出了AutoCodeGen，这是一种自动化方法，用于生成高难度的多语言代码生成数据集，无需手动标注。基于这种方法，论文还介绍了AutoCodeBench，这是一个包含3,920个问题的大规模代码生成基准，这些问题均匀分布在20种编程语言中，旨在评估LLMs在具有挑战性、多样性和实用性的多语言任务上的表现。

Q: 有哪些相关研究？

A: 论文中提到了多个与代码生成基准测试和代码数据合成相关的研究工作。以下是主要的相关研究：

代码生成基准测试

HumanEval (Chen et al., 2021): 早期的基准测试，专注于评估LLMs在简短的、以算法为中心的Python问题上的能力。
MBPP (Austin et al., 2021): 评估LLMs在Python编程问题上的能力，主要关注算法问题。
LiveCodeBench (Jain et al., 2025): 专注于更具挑战性的竞赛级Python问题，通过专业手动标注来评估LLMs。
FullStackBench (Bytedance, 2025): 强调更实际的多语言编程场景，但手动构建编程问题和测试用例耗时且劳动密集。
McEval (Chai et al., 2025): 大规模多语言代码评估基准，覆盖40种语言，用于生成、解释和完成任务。
MultiPL-E (Cassano et al., 2022): 多语言代码生成基准，但存在难度有限和语言分布不均衡的问题。

代码数据合成

Evol-Instruct (Luo et al., 2024): 使用启发式提示指导LLMs从现有编程问题中演化出更具多样性和难度的问题。
OSS-Instruct (Wei et al., 2024b): 从原始开源代码片段中生成新的编程问题和解决方案。
KodCode (Xu et al., 2025): 合成广泛的Python编程任务，包括问题、解决方案和测试用例，并通过系统性自验证过程确保正确性。
SelfCodeAlign (Wei et al., 2024a): 通过使用相同的基模型进行数据生成和验证，引入了无需广泛人工标注的代码LLMs自对齐流程。
Inverse-Instruct (Wu et al., 2024a): 通过“反向翻译”LLMs自身训练集中的代码来自我改进，减少对更强大专有模型的依赖。

这些研究工作为代码生成基准测试和数据合成领域提供了重要的基础和方法，而本文提出的AutoCodeGen和AutoCodeBench则进一步推动了这一领域的发展，特别是在自动化、多语言和高难度基准测试方面。

Q: 论文如何解决这个问题？

A: 论文通过提出 AutoCodeGen，一种基于LLM-Sandbox交互的自动化工作流，来解决现有代码生成基准测试的局限性。AutoCodeGen能够生成高质量的多语言代码生成数据集，无需手动标注。以下是其解决方法的关键步骤：

1. 代码解决方案生成（Code Solution Generation）

数据来源：从Stack-Edu（Allal et al., 2025）中提取多语言代码片段作为种子，这些代码片段来自真实的GitHub仓库，确保了多样性和实用性。
LLM优化：使用DeepSeek-V3-0324，通过特定语言的少量样本提示，将这些种子优化为可验证、自包含的代码解决方案。在此过程中，模型会移除非必要的逻辑，并添加适当的注释以提高清晰度。
验证：通过多语言沙盒验证生成的解决方案的正确性。

2. 测试函数生成（Test Function Generation）

测试输入生成：LLM生成测试输入函数，包括公共测试输入函数（用于演示目的，不超过3个基本案例）和私有测试输入函数（包含7个以上的输入，包括边缘案例）。
测试输出生成：将代码解决方案与测试输入函数连接起来，在沙盒中执行以获得相应的测试输出。
输入输出整合：使用DeepSeek-V3-0324将测试输入函数和输出结果整合成完整的测试函数，并通过沙盒验证其正确性。

3. 编程问题生成（Programming Problem Generation）

问题描述规范：定义了一套规范，要求生成的问题必须包含语言规范、问题描述、函数/类命名、输入/输出格式、示例用法，并且不能包含解决方案提示。
LLM生成问题：根据代码解决方案和测试函数，使用DeepSeek-V3-0324生成高质量的编程问题，并将公共测试函数嵌入为示例用法。

4. 数据过滤（Data Filtering）

难度控制：使用DeepSeek-Coder-V2-Lite过滤掉过于简单的问题，通过多次采样确保问题具有一定的难度。
质量控制：使用DeepSeek-R1-0528对问题和测试函数对进行评估，确保测试函数与问题描述的一致性。
多样性采样：通过DeepSeek-V3-0324对问题进行分类，并按类别进行循环采样，确保基准测试覆盖广泛的编程场景。

5. 近似语言翻译（Approximate Language Translation）

低资源语言处理：对于数据资源有限的14种语言，采用近似语言翻译方法，将高资源语言的数据翻译成目标低资源语言，确保数据的多样性和覆盖范围。

通过上述步骤，AutoCodeGen能够生成高质量、高难度、多样化的多语言代码生成基准测试数据集。基于此，论文提出了 AutoCodeBench，一个包含3,920个问题的大规模代码生成基准，这些问题均匀分布在20种编程语言中，并且特别设计了 AutoCodeBench-Lite 和 AutoCodeBench-Complete，分别用于更高效的模型评估和评估基础模型的少样本代码生成能力。

Q: 论文做了哪些实验？

A: 论文中进行了以下几类实验，以评估所提出的AutoCodeBench基准和相关方法的效果：

1. 模型性能评估

实验对象：评估了30多个开源和专有的大型语言模型（LLMs），包括OpenAI的GPT系列、Anthropic的Claude系列、DeepSeek的模型系列、Qwen系列等。
评估指标：使用Pass@1作为默认评估指标，即模型在第一次尝试中生成正确代码的比例。
实验结果：
- AutoCodeBench (ACB)：展示了模型在完整基准上的性能。结果显示，即使是最先进的模型，平均得分也未超过53%，表明ACB的高难度。
- AutoCodeBench-Lite (ACB-Lite)：通过筛选ACB中被多数模型解决的问题，放大了模型之间的性能差异，更有效地比较模型性能。
- 多逻辑问题性能：评估了模型在多逻辑编程问题上的表现，发现所有模型在这些复杂任务上的性能都有显著下降。
- 参数规模和测试时采样对性能的影响：分析了模型参数规模和测试时采样次数对性能的影响，发现参数规模较大的模型在推理模式下表现更好，而测试时采样对所有模型都有一定的提升作用。

2. 多轮精炼与沙盒反馈

实验目的：评估模型如何利用沙盒执行错误信息来迭代改进代码解决方案。
实验结果：结果显示，通过多轮精炼，模型能够显著提高代码生成的质量。例如，DeepSeek-V3-0324在经过三次精炼后，性能从48.1%提升到59.7%。

3. 基础模型评估

实验对象：评估了多个基础模型在AutoCodeBench-Complete（ACB-Complete）上的表现。
实验结果：结果显示，Seed-Coder-8B-Base在8B参数或更少的模型中表现最佳，表明其预训练过程有效地赋予了模型强大的多语言编程能力。

4. 手动验证

实验目的：验证自动生成的AutoCodeBench基准的质量。
实验方法：雇佣了6名专业标注者，使用一个视觉标注界面，对6种编程语言（Python、C++、Java、JavaScript、Go和Shell）的样本进行标注，评估测试函数的正确性及其与问题描述的一致性。
实验结果：AutoCodeBench的准确率达到87.6%，显示出自动化基准构建过程的可靠性和可行性。

5. 模型偏差分析

实验目的：分析在数据生成过程中模型可能产生的偏差。
实验方法：在数据生成的不同阶段（初始阶段、简单问题过滤后、批评者过滤后）跟踪模型性能的变化。
实验结果：发现模型偏差不仅取决于模型家族，还与模型大小和推理模式有关。尽管存在一定的偏差，但影响相对较小。

这些实验全面评估了AutoCodeBench基准的有效性、模型在多语言代码生成任务上的性能，以及自动化工作流在生成高质量基准数据方面的可靠性。

Q: 有什么可以进一步探索的点？

A: 论文提出了一个创新的自动化方法来生成高难度的多语言代码生成基准，并通过广泛的实验验证了其有效性。尽管取得了显著的成果，但仍有一些可以进一步探索的方向：

1. 进一步提高基准的多样性和难度

任务类型扩展：目前AutoCodeBench主要集中在函数级和类级的代码生成任务。可以进一步扩展到更复杂的系统设计、框架集成等高级任务，以更全面地评估LLMs的能力。
跨领域任务：将代码生成任务与特定领域（如机器学习、数据科学、网络安全等）相结合，生成更具挑战性和实用性的任务，以评估LLMs在特定领域的代码生成能力。

2. 多语言支持的改进

低资源语言的优化：虽然论文中已经采用了近似语言翻译的方法来处理低资源语言，但可以进一步研究如何提高这些语言的数据质量和多样性，以更好地支持多语言评估。
跨语言迁移学习：探索如何利用高资源语言的数据来提升低资源语言的代码生成能力，例如通过跨语言迁移学习或零样本学习的方法。

3. 模型性能提升

多逻辑问题的改进：论文中发现，即使是最先进的LLMs在多逻辑问题上也表现不佳。可以研究如何改进模型的推理能力，使其能够更好地处理复杂的多逻辑任务。
多轮精炼策略的优化：虽然多轮精炼已经显示出显著的性能提升，但可以进一步探索更高效的精炼策略，例如通过引入更智能的反馈机制或自适应的精炼步骤。

4. 基准的动态更新和扩展

持续集成新任务：建立一个动态更新的基准，定期从开源代码库、竞赛平台等来源集成新的任务，以保持基准的时效性和挑战性。
社区参与：鼓励社区成员提交新的任务和解决方案，通过众包的方式丰富基准的内容，同时也可以引入社区反馈机制来评估和改进基准的质量。

5. 模型评估的多维度分析

性能的细粒度分析：除了Pass@1指标，还可以引入更多细粒度的评估指标，如代码的可读性、可维护性、性能优化等，以更全面地评估LLMs的代码生成能力。
模型的可解释性：研究如何提高模型在代码生成任务中的可解释性，例如通过可视化模型的推理过程或分析模型生成代码的关键步骤。

6. 实际应用的探索

工业级应用：将AutoCodeBench应用于实际的工业级项目中，评估LLMs在真实编程场景中的表现，并探索如何将这些模型集成到现有的开发流程中。
教育应用：研究如何利用AutoCodeBench来辅助编程教育，例如通过生成个性化的编程练习或自动评估学生的代码作业。

7. 模型偏差的深入研究

偏差的量化和缓解：进一步量化模型在数据生成过程中的偏差，并探索更有效的偏差缓解策略，以确保基准的公正性和客观性。
跨模型学习：研究如何通过模型之间的相互学习和知识共享来减少偏差，提升整体的模型性能。

这些方向不仅可以进一步提升AutoCodeBench的实用性和影响力，还可以推动LLMs在代码生成领域的研究和应用。

Q: 总结一下论文的主要内容

A: 本文提出了 AutoCodeGen，一种基于大型语言模型（LLMs）和沙盒交互的自动化工作流，用于生成高质量、高难度、多样化的多语言代码生成基准测试数据集，无需手动标注。基于此工作流，作者构建了 AutoCodeBench，一个包含3,920个问题的大规模代码生成基准，这些问题均匀分布在20种编程语言中，旨在评估LLMs在具有挑战性、多样性和实用性的多语言任务上的表现。此外，还提供了简化版 AutoCodeBench-Lite 和针对基础模型的 AutoCodeBench-Complete。

背景知识

代码生成基准测试的局限性：现有基准测试大多依赖手动标注，耗时费力，且难以在不同编程语言和问题复杂度上扩展。大多数基准集中在Python，少数多语言基准则存在难度有限和语言分布不均衡的问题。
自动化数据合成的需求：为了克服手动标注的局限性，研究者们开始探索自动数据合成方法，以减少对人工标注的依赖，并能够持续扩展问题空间。

研究方法

AutoCodeGen工作流

代码解决方案生成：从Stack-Edu中提取多语言代码片段作为种子，使用DeepSeek-V3-0324优化这些种子，生成可验证、自包含的代码解决方案，并通过沙盒验证其正确性。
测试函数生成：
- 测试输入生成：LLM生成测试输入函数，包括公共测试输入函数（不超过3个基本案例）和私有测试输入函数（至少7个输入，包括边缘案例）。
- 测试输出生成：将代码解决方案与测试输入函数连接起来，在沙盒中执行以获得测试输出。
- 输入输出整合：使用DeepSeek-V3-0324将测试输入函数和输出结果整合成完整的测试函数，并通过沙盒验证其正确性。
编程问题生成：根据代码解决方案和测试函数，使用DeepSeek-V3-0324生成高质量的编程问题，确保问题描述清晰、准确，并嵌入公共测试函数作为示例用法。
数据过滤：
- 难度控制：使用DeepSeek-Coder-V2-Lite过滤掉过于简单的问题，通过多次采样确保问题具有一定的难度。
- 质量控制：使用DeepSeek-R1-0528对问题和测试函数对进行评估，确保测试函数与问题描述的一致性。
- 多样性采样：通过DeepSeek-V3-0324对问题进行分类，并按类别进行循环采样，确保基准测试覆盖广泛的编程场景。
近似语言翻译：对于数据资源有限的14种语言，采用近似语言翻译方法，将高资源语言的数据翻译成目标低资源语言，确保数据的多样性和覆盖范围。

实验

模型性能评估

评估对象：30多个开源和专有的LLMs，包括OpenAI的GPT系列、Anthropic的Claude系列、DeepSeek的模型系列、Qwen系列等。
评估指标：使用Pass@1作为默认评估指标。
实验结果：
- AutoCodeBench (ACB)：结果显示，即使是最先进的模型，平均得分也未超过53%，表明ACB的高难度。
- AutoCodeBench-Lite (ACB-Lite)：通过筛选ACB中被多数模型解决的问题，放大了模型之间的性能差异，更有效地比较模型性能。
- 多逻辑问题性能：所有模型在多逻辑编程问题上的性能都有显著下降，表明这些复杂任务对模型提出了更高的要求。
- 参数规模和测试时采样对性能的影响：参数规模较大的模型在推理模式下表现更好，而测试时采样对所有模型都有一定的提升作用。

多轮精炼与沙盒反馈

实验目的：评估模型如何利用沙盒执行错误信息来迭代改进代码解决方案。
实验结果：通过多轮精炼，模型能够显著提高代码生成的质量。例如，DeepSeek-V3-0324在经过三次精炼后，性能从48.1%提升到59.7%。

基础模型评估

评估对象：多个基础模型在AutoCodeBench-Complete（ACB-Complete）上的表现。
实验结果：Seed-Coder-8B-Base在8B参数或更少的模型中表现最佳，表明其预训练过程有效地赋予了模型强大的多语言编程能力。

手动验证

实验目的：验证自动生成的AutoCodeBench基准的质量。
实验方法：雇佣了6名专业标注者，对6种编程语言（Python、C++、Java、JavaScript、Go和Shell）的样本进行标注，评估测试函数的正确性及其与问题描述的一致性。
实验结果：AutoCodeBench的准确率达到87.6%，显示出自动化基准构建过程的可靠性和可行性。

模型偏差分析

实验目的：分析在数据生成过程中模型可能产生的偏差。
实验方法：在数据生成的不同阶段（初始阶段、简单问题过滤后、批评者过滤后）跟踪模型性能的变化。
实验结果：发现模型偏差不仅取决于模型家族，还与模型大小和推理模式有关。尽管存在一定的偏差，但影响相对较小。

关键结论

AutoCodeGen的有效性：通过自动化工作流，成功生成了高质量、高难度、多样化的多语言代码生成基准，无需手动标注。
AutoCodeBench的高难度和实用性：即使是最先进的LLMs在AutoCodeBench上也表现出显著的挑战性，特别是在多逻辑问题和低资源语言上。
多轮精炼的有效性：通过多轮精炼和沙盒反馈，模型能够显著提高代码生成的质量。
基础模型的评估：AutoCodeBench-Complete为评估基础模型的代码生成能力提供了一个全面的测试平台。
自动化基准构建的可靠性：通过手动验证，证明了自动化基准构建过程的可靠性和可行性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Jason Chou, Ao Liu, Yuchi Deng, Zhiying Zeng, Tao Zhang, Haotian Zhu, Jianwei Cai, Yue Mao, Chenchen Zhang, Lingyun Tan, Ziyan Xu, Bohui Zhai, Hengyi Liu, Speed Zhu, Wiggin Zhou, Fengzong Lian

Categories: cs.CL, cs.SE

PDF URL: https://arxiv.org/pdf/2508.09101v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09101v1

Published: 2025-08-12T17:29:20Z

4. LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

Existing evaluation of Large Language Models (LLMs) on static benchmarks is vulnerable to data contamination and leaderboard overfitting, critical issues that obscure true model capabilities. To address this, we introduce LLMEval-3, a framework for dynamic evaluation of LLMs. LLMEval-3 is built on a proprietary bank of 220k graduate-level questions, from which it dynamically samples unseen test sets for each evaluation run. Its automated pipeline ensures integrity via contamination-resistant data curation, a novel anti-cheating architecture, and a calibrated LLM-as-a-judge process achieving 90% agreement with human experts, complemented by a relative ranking system for fair comparison. An 20-month longitudinal study of nearly 50 leading models reveals a performance ceiling on knowledge memorization and exposes data contamination vulnerabilities undetectable by static benchmarks. The framework demonstrates exceptional robustness in ranking stability and consistency, providing strong empirical validation for the dynamic evaluation paradigm. LLMEval-3 offers a robust and credible methodology for assessing the true capabilities of LLMs beyond leaderboard scores, promoting the development of more trustworthy evaluation standards.

中文摘要

对大型语言模型（LLMs）在静态基准上的现有评估容易受到数据污染和排行榜过拟合的影响，这些关键问题模糊了模型的真实能力。为了解决这一问题，我们推出了 LLMEval-3，一个用于动态评估 LLM 的框架。LLMEval-3 基于一个独特的 220,000 个研究生级别问题的库，动态抽样每次评估运行中未见过的测试集。其自动化管道通过抗污染数据策划、创新的反作弊架构和经过校准的 LLM 作为评审过程来确保完整性，达到与人类专家 90% 的一致性，辅以相对排名系统以确保公平比较。一项为期 20 个月的近 50 个领先模型的纵向研究揭示了知识记忆的性能天花板，并暴露了静态基准无法检测的数据污染漏洞。该框架在排名稳定性和一致性方面表现出卓越的鲁棒性，为动态评估范式提供了强有力的实证验证。LLMEval-3 提供了一种强大而可信的方法，用于评估 LLM 的真实能力，超越排行榜分数，促进更可靠的评估标准的发展。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决大型语言模型（LLMs）在静态基准测试中存在的数据污染和排行榜过拟合问题。这些问题导致基准分数可能不再可靠地反映模型的真实、泛化能力，从而引发了一个“评估危机”。论文提出了一个名为LLMEval-3的动态评估框架，旨在通过动态评估范式来提供一种更稳健、公平且抗操纵的评估方法，以真实地衡量LLMs的能力。

具体来说，论文识别了三个核心挑战：

如何确保评估数据的完整性：防止数据泄露到模型训练集中，避免因数据污染导致的分数膨胀。
如何设计不可预测的评估协议：防止模型通过固定测试集进行反向工程或利用，确保每次评估都是独特且不可预测的。
如何在动态条件下建立公平且稳定的排名系统：在评估内容不固定的情况下，确保模型比较的公平性和稳定性。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

静态知识密集型基准测试

MMLU (Hendrycks et al. 2021a)：用于评估语言模型在多任务上的理解能力。但其静态问题集显著增加了数据泄露的风险，导致评估分数膨胀，对模型能力的感知产生误导。
C-Eval (Huang et al. 2023)：提供了多学科的中文评估套件，用于基础模型的评估。然而，其固定的数据集容易导致数据污染和模型过拟合。
LLMEval-1和LLMEval-2 (Zhang et al. 2024)：也属于静态评估类别，存在数据泄露和模型过拟合的问题。

动态人类偏好评估

LMSYS (Zheng et al. 2024)：通过人类偏好比较模型输出，有效捕捉对话质量、连贯性和实时性能，但缺乏对特定领域或复杂推理任务的深度评估。
Chatbot Arena (Chiang et al. 2024)：利用人类偏好评估LLMs，但依赖非专家众包工作者可能导致评估偏差，降低对专业知识的可靠性。
AlpacaEval (Lab 2023)：通过人类偏好评估指令遵循能力，但同样可能存在评估偏差和对专业知识评估的不足。

LLM-as-a-Judge

GEval (Liu et al. 2023)：使用GPT-4进行自然语言生成质量评估，展示了与人类偏好的一致性。
MT-Bench-101 (Bai et al. 2024)：通过GPT-4评估多轮对话，但大多数现有研究主要关注更好的评分机制，对评估者的系统验证和校准以及固有偏差的缓解研究不足。

这些相关研究为LLMEval-3的设计提供了背景和动机，促使作者探索更动态、稳健的评估方法，以更好地反映LLMs的真实泛化能力。

Q: 论文如何解决这个问题？

A: 论文通过构建一个名为LLMEval-3的动态评估框架来解决静态基准测试中存在的数据污染和排行榜过拟合问题。LLMEval-3框架通过以下三个核心阶段来确保评估的稳健性、公平性和抗操纵性：

1. 数据构建（Dataset Construction）

构建大规模私有题库：LLMEval-3基于一个包含220k研究生级别问题的私有题库，这些题目覆盖了13个主要学科和超过50个二级学科。题库通过以下步骤构建：
- 数据收集：从中国大学的研究生入学考试和本科期末考试中收集原始考题。
- 专家验证：邀请30多位专家对题目进行质量筛选，去除事实错误或答案不相关的题目，最终得到78,009个高质量原始问题。
- 数据扩充：使用LLM驱动的增强过程，将每个多项选择题转换为多个填空题变体，将材料分析题分解为多个是非题。所有增强后的题目都经过格式验证和元数据丰富，确保质量和可追溯性。
- 持续更新：通过相同的收集和增强流程持续扩充题库，以保持评估的新鲜感并防止数据污染。

2. 评估过程（Evaluation Process）

动态问题抽样：每次评估时，从私有题库中随机抽取1,000个唯一问题，确保每次评估都是独特且不可预测的。模型需要按预分配的顺序回答问题，防止“挑选”策略。
安全防作弊架构：
- 外层（访问控制）：使用JSON Web Tokens (JWT)确保每个API请求的安全性，只有经过身份验证的模型才能参与评估。严格的角色基础访问控制（RBAC）系统防止跨会话或跨用户数据访问，隔离每次评估。
- 内层（过程控制）：多级配额系统跟踪分配、待处理和已完成的问题数量，防止模型尝试获取超出许可的问题数量或重新提交答案。系统自动从传输到模型的数据中剥离所有答案和解释，确保只暴露问题内容，防止通过数据解析泄露答案。

3. 排名系统（Ranking System）

LLM-as-a-Judge评估：使用标准化的评分指标，评分范围为[0,3]，确保对不同模型架构的回答效果进行一致评估。选择GPT-4o作为评分模型，通过严格验证确保其与人类专家的高度一致性（90%的Cohen’s κ系数）。
评估指标：使用相对分数和绝对分数作为评估指标，以减轻随机抽样问题引入的系统偏差。绝对分数( S_{\text{model}} )表示模型在1000个问题上的表现，相对分数( R_{\text{model}}^{\text{SOTA}} )表示模型相对于当前SOTA模型的表现。
- 绝对分数： [ S_{\text{model}} = \frac{\sum_{i=1}^{N} s_i}{N \times s_{\text{max}}} \times 100 ]
- 相对分数： [ R_{\text{model}}^{\text{SOTA}} = \frac{S_{\text{model}}}{S_{\text{SOTA}}} \times 100 ]
相对排名系统：通过比较模型在每次评估中的相对表现来建立排名，而不是依赖于绝对分数，确保在不同问题集上进行评估时的公平性和稳健性。

实验和分析

20个月的纵向研究：从2023年下半年到2025年上半年，对近50种领先的专有和开源模型进行了持续评估，积累了超过150k个评估数据点。
关键发现：
- 所有模型在长期评估中都接近90%的性能上限，但在文学和医学等特定领域存在持续的差距。
- 动态排名与静态基准显著不同，静态基准存在严重数据污染问题。
- LLMEval-3的相对排名系统在多轮重采样和不同样本量下表现出极高的稳定性，与人类专家的Cohen’s κ系数达到0.907，显示出与人类评估的高度一致性。

通过这些方法，LLMEval-3提供了一种稳健、可信的评估方法，能够真实地评估LLMs的能力，超越了排行榜分数，促进了更可靠的评估标准的发展。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证LLMEval-3框架的有效性和可靠性：

1. LLMs在LLMEval-3上的基准测试

模型选择：追踪了从2023年底到2025年上半年的50多个LLMs，重点关注13个代表性模型（包括专有和开源模型）。每个模型在LLMEval-3框架下进行了评估，涵盖了三种提示范式（Zero-Shot、Few-Shot、Chain-of-Thought）和10个学术学科。
评估结果：通过表1展示了每个模型的整体和学科级别的评分情况。结果表明，几乎所有模型在学术知识任务上的表现都接近90%的性能上限，顶级开源模型与专有模型表现相当。

2. 案例研究和错误分析

错误分类：从所有评估模型中采样错误响应，并手动将失败分为五类：学科知识、误解、逻辑推理、事实不准确和格式合规性。
关键发现：学科知识错误（47.7%）和误解错误（39.8%）是最主要的错误类型，占所有错误响应的近90%。这表明当前模型的局限性主要源于知识差距和理解能力不足，而非系统性推理失败。

3. 消融研究

基准比较：
- 相关性分析：计算LLMEval-3与静态基准（AGIEval和C-Eval）之间的Spearman秩相关系数。结果表明，相关性为0.66-0.71，且统计上不显著（p>0.1），证实静态评估与LLMEval-3的动态、抗污染框架产生了显著不同的模型排名。
- 填空重放测试：在AGIEval（EN）、AGIEval（ZH）和C-Eval上进行填空重放测试，每个数据集尝试1000个问题，每次3次尝试，如果至少两次尝试正确则认为问题被成功回忆。结果显示，公共静态基准上的模型成功回忆次数显著高于LLMEval-3的私有数据集，表明公共静态基准存在严重数据泄露风险。
排名验证：
- 多轮重采样：进行多轮重采样（n=1000, 2000, 4000），测试排名系统的稳定性。结果表明，模型排名顺序在不同样本量下保持一致，相对评分表现出极低的方差。
- 人类-机器一致性验证：进行两轮独立的人类评估，涉及13个模型，计算与三个LLM-as-Judge评估器的Cohen’s κ系数。结果显示，GPT-4o与人类判断几乎完全一致（κ=0.907），而其他两个评估器（Doubao和Gemini）的一致性较低且波动较大。
- 相对排名与Elo评分系统比较：通过消融研究比较相对排名系统与传统的Elo评分系统。结果表明，相对排名在不同样本量下表现出更高的Spearman秩相关性和更大的稳定性。

4. 关键研究问题的系统性调查

研究问题I：LLMs在LLMEval-3下表现出的真实能力分布和长期趋势是什么？
- 发现1：所有模型在长期评估中都接近90%的性能上限，顶级开源模型与专有模型表现相当。
- 发现2：模型在不同学科领域的表现存在显著差异，技术与商业领域的表现优于人文学科和专业领域。
- 发现3：在动态知识密集型评估中，提示范式的影响较小，而外部增强（如网络搜索）显著提升性能。
- 发现4：系统性错误分析表明，学科知识差距和理解失败是当前模型的主要限制。
研究问题II：LLMEval-3的动态评估与静态基准在排名准确性和污染问题上有什么不同？
- 发现5：动态排名与静态基准显著不同，静态基准存在严重数据污染问题。
- 发现6：静态基准存在严重数据泄露风险，而LLMEval-3的私有数据集有效缓解了这种风险。
研究问题III：LLMEval-3的相对排名系统在多轮重采样和人类-机器一致性验证下有多稳定和可靠？
- 发现7：相对排名系统表现出极高的稳定性，不同样本量下的方差可以忽略不计。
- 发现8：相对排名系统与人类评估高度一致，并且比传统排名方法（如Elo）更稳健。

通过这些实验，论文验证了LLMEval-3框架在动态评估大型语言模型时的有效性和可靠性，揭示了当前评估实践中的数据污染问题，并展示了动态、抗污染评估框架的优越性。

Q: 有什么可以进一步探索的点？

A: 尽管LLMEval-3框架在动态评估大型语言模型（LLMs）方面取得了显著进展，但仍有一些可以进一步探索的点，以进一步完善评估方法和推动LLMs的发展：

1. 多模态评估

背景：当前的LLMEval-3主要关注文本形式的评估，但随着LLMs在多模态任务中的应用日益增加，评估其在处理图像、音频等多模态数据方面的能力也变得至关重要。
潜在研究方向：
- 开发包含多模态问题的评估题库，例如结合图像识别和文本生成的任务。
- 探索如何在动态评估框架中整合多模态数据，确保评估的公平性和稳健性。
- 研究多模态任务中的数据污染问题及其解决方案。

2. 跨语言评估

背景：LLMs的多语言能力是其重要特性之一，但当前的LLMEval-3主要基于中文和英文数据。扩展到更多语言的评估可以更全面地了解模型的跨语言性能。
潜在研究方向：
- 构建多语言的评估题库，涵盖不同语言和文化背景下的问题。
- 设计跨语言评估的动态抽样和防作弊机制，确保不同语言的评估具有可比性。
- 分析不同语言模型在跨语言任务中的表现差异，探索语言迁移学习的效果。

3. 长期学习和适应性评估

背景：LLMs在长期运行中可能会不断学习和适应新的数据和任务，评估其长期学习能力和适应性对于理解模型的动态行为至关重要。
潜在研究方向：
- 设计长期学习评估框架，评估模型在持续接收新数据和任务时的表现变化。
- 探索模型在不同时间尺度上的学习曲线和适应性变化，分析其对新知识的吸收和遗忘模式。
- 研究如何在动态评估中引入长期学习任务，以评估模型的持续学习能力。

4. 社会和伦理影响评估

背景：LLMs的应用不仅涉及技术性能，还涉及其对社会和伦理的影响。评估模型在生成有害内容、偏见和误导性信息方面的表现对于确保其安全和可靠使用至关重要。
潜在研究方向：
- 构建包含社会和伦理问题的评估题库，例如评估模型在生成歧视性内容或虚假信息方面的表现。
- 设计评估框架以检测和量化模型的偏见和有害内容生成倾向。
- 探索如何在动态评估中引入社会和伦理考量，确保模型的输出符合社会规范和伦理标准。

5. 模型解释性和可解释性评估

背景：理解LLMs的决策过程和生成机制对于提高模型的可信度和可解释性至关重要。当前的评估方法主要关注模型的输出结果，而较少涉及模型的内部机制。
潜在研究方向：
- 开发评估模型解释性的方法，例如通过可视化模型的注意力机制或中间层输出。
- 设计评估框架以量化模型的可解释性，例如通过用户研究评估模型解释的易理解性。
- 探索如何在动态评估中引入解释性任务，以评估模型在不同任务中的解释能力。

6. 对抗性评估

背景：评估LLMs在面对对抗性攻击时的鲁棒性对于确保其在实际应用中的安全性至关重要。对抗性评估可以帮助发现模型的脆弱性并改进其防御机制。
潜在研究方向：
- 构建包含对抗性问题的评估题库，例如设计旨在误导模型的问题或输入。
- 设计对抗性评估框架，评估模型在面对不同类型的对抗性攻击时的表现。
- 探索如何在动态评估中引入对抗性任务，以评估模型的鲁棒性和防御能力。

7. 实时交互评估

背景：LLMs在实时交互中的表现对于其在实际应用中的效果至关重要。评估模型在实时对话和交互任务中的表现可以提供更全面的性能评估。
潜在研究方向：
- 设计实时交互评估框架，评估模型在与用户实时对话中的表现。
- 探索如何在动态评估中引入实时交互任务，以评估模型的响应速度和交互质量。
- 研究模型在实时交互中的学习和适应能力，分析其在动态环境中的表现变化。

8. 模型的能源效率和可持续性评估

背景：随着LLMs的规模和复杂性不断增加，其能源消耗和环境影响也日益受到关注。评估模型的能源效率和可持续性对于推动绿色AI的发展至关重要。
潜在研究方向：
- 设计评估框架以量化模型的能源消耗和碳足迹。
- 探索如何在动态评估中引入能源效率评估，以评估模型在不同任务中的能源利用效率。
- 研究模型的能源效率优化方法，例如通过模型压缩和高效训练算法。

通过进一步探索这些方向，可以更全面地评估LLMs的能力和局限性，推动其在更广泛的应用场景中的可靠和安全使用。

Q: 总结一下论文的主要内容

A: 本文介绍了LLMEval-3，这是一个针对大型语言模型（LLMs）的动态评估框架，旨在解决静态基准测试中存在的数据污染和排行榜过拟合问题。LLMEval-3通过动态评估范式提供了一种更稳健、公平且抗操纵的评估方法，以真实地衡量LLMs的能力。以下是论文的主要内容总结：

背景知识

评估危机：现有的LLMs评估主要依赖于静态基准测试，这些测试存在数据污染和模型过拟合的问题，导致评估分数不再可靠地反映模型的真实能力。
核心挑战：构建一个可信的评估框架需要解决三个核心挑战：数据完整性、评估协议的不可预测性以及动态条件下的公平排名系统。

研究方法

LLMEval-3框架通过以下三个核心阶段来解决上述挑战：

1. 数据构建（Dataset Construction）

私有题库：构建了一个包含220k研究生级别问题的私有题库，涵盖13个主要学科和超过50个二级学科。
数据收集与验证：从中国大学的研究生入学考试和本科期末考试中收集原始考题，并通过专家筛选确保质量。
数据扩充：使用LLM驱动的增强过程，将每个多项选择题转换为多个填空题变体，确保评估的新鲜感和多样性。
持续更新：通过相同的收集和增强流程持续扩充题库，防止数据污染。

2. 评估过程（Evaluation Process）

动态问题抽样：每次评估时，从私有题库中随机抽取1,000个唯一问题，确保每次评估都是独特且不可预测的。
安全防作弊架构：
- 外层（访问控制）：使用JSON Web Tokens (JWT)确保每个API请求的安全性，防止未经授权的访问。
- 内层（过程控制）：多级配额系统跟踪分配、待处理和已完成的问题数量，防止模型尝试获取超出许可的问题数量或重新提交答案。

3. 排名系统（Ranking System）

LLM-as-a-Judge评估：使用标准化的评分指标，评分范围为[0,3]，选择GPT-4o作为评分模型，确保与人类专家的高度一致性（90%的Cohen’s κ系数）。
评估指标：使用相对分数和绝对分数作为评估指标，以减轻随机抽样问题引入的系统偏差。
相对排名系统：通过比较模型在每次评估中的相对表现来建立排名，而不是依赖于绝对分数，确保在不同问题集上进行评估时的公平性和稳健性。

实验

20个月的纵向研究：从2023年下半年到2025年上半年，对近50种领先的专有和开源模型进行了持续评估，积累了超过150k个评估数据点。
关键发现：
- 性能上限：所有模型在长期评估中都接近90%的性能上限，顶级开源模型与专有模型表现相当。
- 学科差异：模型在不同学科领域的表现存在显著差异，技术与商业领域的表现优于人文学科和专业领域。
- 提示范式影响：在动态知识密集型评估中，提示范式的影响较小，而外部增强（如网络搜索）显著提升性能。
- 错误分析：学科知识错误（47.7%）和误解错误（39.8%）是最主要的错误类型，占所有错误响应的近90%。
- 排名差异：动态排名与静态基准显著不同，静态基准存在严重数据污染问题。
- 排名稳定性：LLMEval-3的相对排名系统在多轮重采样和不同样本量下表现出极高的稳定性，与人类评估高度一致。

关键结论

动态评估的优势：LLMEval-3通过动态评估范式有效解决了静态基准测试中的数据污染和模型过拟合问题，提供了更真实、可靠的模型能力评估。
模型性能上限：所有模型在长期评估中都接近90%的性能上限，表明当前模型架构在知识密集型任务上的局限性。
学科差异：模型在不同学科领域的表现存在显著差异，技术与商业领域的表现优于人文学科和专业领域。
提示范式影响：在动态知识密集型评估中，提示范式的影响较小，而外部增强（如网络搜索）显著提升性能。
错误分析：当前模型的主要限制在于学科知识差距和理解能力不足，而非系统性推理失败。
排名稳定性：LLMEval-3的相对排名系统在多轮重采样和不同样本量下表现出极高的稳定性，与人类评估高度一致，优于传统排名方法（如Elo）。

通过这些发现，LLMEval-3为评估LLMs提供了一个稳健、可信的框架，推动了更可靠的评估标准的发展。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Ming Zhang, Yujiong Shen, Jingyi Deng, Yuhui Wang, Yue Zhang, Junzhe Wang, Shichun Liu, Shihan Dou, Huayu Sha, Qiyuan Peng, Changhao Jiang, Jingqi Tong, Yilong Wu, Zhihao Zhang, Mingqi Wu, Zhiheng Xi, Mingxu Chai, Tao Liang, Zhihui Fei, Zhen Wang, Mingyang Wan, Guojun Ma, Tao Gui, Qi Zhang, Xuanjing Huang

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.05452v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.05452v2

Published: 2025-08-07T14:46:30Z

5. Utilizing Multilingual Encoders to Improve Large Language Models for Low-Resource Languages

Large Language Models (LLMs) excel in English, but their performance degrades significantly on low-resource languages (LRLs) due to English-centric training. While methods like LangBridge align LLMs with multilingual encoders such as the Massively Multilingual Text-to-Text Transfer Transformer (mT5), they typically use only the final encoder layer. We propose a novel architecture that fuses all intermediate layers, enriching the linguistic information passed to the LLM. Our approach features two strategies: (1) a Global Softmax weighting for overall layer importance, and (2) a Transformer Softmax model that learns token-specific weights. The fused representations are mapped into the LLM’s embedding space, enabling it to process multilingual inputs. The model is trained only on English data, without using any parallel or multilingual data. Evaluated on XNLI, IndicXNLI, Sinhala News Classification, and Amazon Reviews, our Transformer Softmax model significantly outperforms the LangBridge baseline. We observe strong performance gains in LRLs, improving Sinhala classification accuracy from 71.66% to 75.86% and achieving clear improvements across Indic languages such as Tamil, Bengali, and Malayalam. These specific gains contribute to an overall boost in average XNLI accuracy from 70.36% to 71.50%. This approach offers a scalable, data-efficient path toward more capable and equitable multilingual LLMs.

中文摘要

大型语言模型（LLMs）在英语方面表现出色，但由于以英语为中心的训练，其在低资源语言（LRLs）上的性能明显下降。虽然像LangBridge这样的方法将LLMs与诸如大规模多语言文本到文本迁移转换器（mT5）的多语言编码器对齐，但它们通常只使用最后的编码器层。我们提出了一种新颖的架构，融合所有中间层，丰富传递给LLM的语言信息。我们的方法具有两个策略：（1）用于整体层重要性的全局Softmax加权，和（2）学习特定于标记权重的Transformer Softmax模型。融合的表示被映射到LLM的嵌入空间，使其能够处理多语言输入。该模型仅在英语数据上进行训练，没有使用任何平行或多语言数据。在XNLI、IndicXNLI、僧伽罗语新闻分类和亚马逊评论上的评估中，我们的Transformer Softmax模型显著优于LangBridge基线。我们观察到在LRLs上有强劲的性能提升，僧伽罗语分类准确率从71.66%提高到75.86%，在泰米尔语、孟加拉语和马拉雅拉姆语等Indic语言上也实现了明显的改善。这些具体的提升使XNLI的平均准确率从70.36%提高到71.50%。这种方法为更强大且公平的多语言LLMs提供了一条可扩展、高效的数据路径。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是大型语言模型（LLMs）在低资源语言（Low-Resource Languages, LRLs）上的性能不足问题。尽管LLMs在英语等高资源语言上表现出色，但在低资源语言上由于训练数据的不足，其性能显著下降。论文提出了一种新的方法，通过融合多语言编码器的所有中间层来丰富传递给LLM的语言信息，从而提高LLM在低资源语言上的理解和推理能力。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

A. 对齐预训练表示

LangBridge：通过将多语言编码器的最终层隐藏状态投影到LLM的输入空间，使英语中心的LLM具备多语言能力。但该方法仅使用了多语言编码器的最终层输出，忽略了中间层丰富的语言信息。
MindMerger：通过双阶段过程（映射阶段和增强阶段）将多语言表示与LLM对齐，但依赖于平行指令或双语数据，这在许多低资源语言中是稀缺的，限制了其在零样本场景中的适用性。

B. 使用编码器的所有层

加权求和或基于注意力的融合：在英语分类和神经机器翻译中应用了这些方法。例如，Bapna等人使用可训练的softmax对编码器层进行加权求和，Liu等人引入了每层固定的、可学习的缩放向量。DWAtt进一步通过注意力机制改进了层选择。
多语言指令跟随LLM中的层融合：这些策略在单语言或双语环境中证明是有效的，但尚未扩展到多语言指令跟随LLM，特别是输入是非英语而输出是英语的情况。

Q: 论文如何解决这个问题？

A: 论文提出了一种新的架构，通过融合多语言编码器的所有中间层来增强英语中心的大型语言模型（LLMs）对低资源语言的理解能力。具体方法如下：

1. 融合所有中间层

与以往仅使用多语言编码器的最终层的方法不同，本文提出将所有中间层的表示通过一个学习的加权融合机制整合起来。这样可以动态捕获从低级到高级的语言特征，提高模型对多种语言输入的理解和推理能力，尤其是在零样本、低资源场景中。

2. 两种加权策略

论文提出了两种计算层权重的策略：

全局softmax加权：为每一层分配一个标量权重，这些权重在所有标记和样本中共享，并通过温度缩放的softmax进行归一化。
Transformer softmax模型：为每个标记单独计算一个独特的层注意力分布。这种方法假设不同的标记可能从多语言编码器的不同层中受益，通过Transformer架构中的注意力机制，模型可以学习为每个输入位置动态提取最适合的语义特征。

3. 映射到LLM嵌入空间

由于多语言编码器和LLM可能在不同的向量空间中运行，因此需要应用一个线性投影，将融合后的表示映射到LLM的嵌入空间中，以便LLM能够处理多语言输入。

4. 训练目标

模型仅使用英语指令数据进行训练，采用前缀语言建模目标，即给定非英语语言的输入，模型被训练生成相应的英语输出。通过这种方式，模型能够在零样本设置中进行多语言指令跟随，利用LLM的预训练推理能力和多语言编码器的语言表示。

5. 实验验证

论文在多个多语言基准数据集上进行了实验，包括XNLI、IndicXNLI、Sinhala News Classification和Amazon Reviews，以评估所提方法在自然语言理解、推理和对低资源语言的泛化能力。实验结果表明，所提方法在所有评估数据集上均优于LangBridge基线，并且在低资源语言上取得了显著的性能提升。

Q: 论文做了哪些实验？

A: 论文进行了以下实验，以评估所提出的融合多语言编码器中间层的方法在提升大型语言模型（LLMs）对低资源语言（LRLs）的理解和推理能力方面的有效性：

1. 数据集

XNLI（Cross-lingual Natural Language Inference）：包含15种语言的多语言自然语言推理数据集，用于评估模型在跨语言理解上的能力。
IndicXNLI：专注于印度语言的XNLI扩展，包含12种印度语言，用于评估模型在低资源语言上的表现。
Sinhala News Classification：涉及将僧伽罗语新闻标题进行分类的任务，用于测试模型在单一低资源语言上的分类能力。
Amazon Multilingual Reviews：覆盖多种语言（如英语、西班牙语、法语、德语、中文和日语）的多语言情感分析数据集，用于评估模型在情感分析任务上的跨语言泛化能力。

2. 模型和基线

基线模型：使用LangBridge作为主要基线，它通过将多语言编码器的最终层隐藏状态与英语中心的LLM对齐来增强LLM的多语言能力。
实验模型：提出了两种变体：
- Global Softmax Weighting（全局softmax加权）：为每一层分配一个全局权重，通过softmax归一化。
- Transformer Softmax Weighting（Transformer softmax加权）：为每个标记单独计算层权重，允许模型根据每个标记动态选择最相关的层。

3. 训练细节

训练数据：仅使用英语子集进行训练，以模拟现实世界中非英语语言任务特定指令数据稀缺的情况。
训练参数：每个数据集训练3个epoch，学习率为3e-5，使用余弦学习率调度器。
硬件：所有模型在单个RTX 4090 GPU上训练，该GPU拥有24 GB的显存。

4. 实验结果

整体性能：两种提出的模型（全局softmax和Transformer softmax）在所有评估数据集上均优于LangBridge基线。Transformer softmax在XNLI基准测试中平均准确度最高，显示出在高资源语言（如英语、法语）和非英语语言上的改进。
低资源语言的改进：在低资源语言中观察到最显著的性能提升。例如，在IndicXNLI基准测试中，两种融合策略在几乎所有语言中都优于LangBridge，特别是在阿萨姆语、古吉拉特语和马拉雅拉姆语中。在僧伽罗语新闻分类任务中，Transformer softmax显著提升了性能。
跨任务泛化能力：该架构不仅在自然语言推理任务中表现出色，还在情感分析任务中显示出一致的改进，特别是在西班牙语、法语和日语等非英语语言上。
层权重分布分析：通过可视化学习到的层权重，发现较低层的贡献较小，而中间和上层的权重显著更高，尤其是在第15至19层左右达到峰值。这与先前的研究一致，表明中间编码器层通常编码关键的句法和语义特征。
推理效率分析：与使用NLLB 1.3B翻译模型的基线翻译管道相比，融合方法（LangBridge、全局softmax和Transformer softmax）显示出较低的延迟，尽管它们的显存需求较高，但更适合实时应用。

Q: 有什么可以进一步探索的点？

A: 论文提出了一种通过融合多语言编码器的所有中间层来增强英语中心的大型语言模型（LLMs）对低资源语言的理解能力的方法。尽管实验结果表明该方法在多个数据集上都取得了显著的性能提升，但仍有一些可以进一步探索的点：

1. 模型规模和性能

更大模型的适用性：当前的实验仅限于1B参数的模型。未来可以探索该方法在更大规模的LLMs（如Mistral-MoE）上的应用，以验证其在更大模型上的有效性。
多语言预训练模型的融合：研究该方法是否可以应用于已经经过多语言预训练的模型，以进一步提升其在低资源语言上的性能。

2. 数据效率和资源利用

多语言数据的利用：虽然当前方法仅使用英语数据进行训练，但未来可以探索如何利用少量的多语言数据来进一步提升模型的性能，特别是在低资源语言上。
数据增强技术：研究是否可以通过数据增强技术（如回译、数据合成等）来提高模型在低资源语言上的表现。

3. 模型架构和训练策略

更复杂的融合机制：探索更复杂的层融合机制，如基于Transformer的多头注意力机制，以进一步提高模型对不同语言特征的捕捉能力。
自适应训练策略：研究自适应训练策略，如动态调整学习率、自适应正则化等，以提高模型的训练效率和性能。
跨语言预训练：研究是否可以通过跨语言预训练来进一步提升模型的多语言理解能力，特别是在低资源语言上。

4. 跨领域和跨任务泛化

跨领域泛化：评估该方法在不同领域的数据集上的表现，如医疗、法律、科技等，以验证其在不同领域中的泛化能力。
跨任务泛化：研究该方法在更多任务类型上的应用，如问答、文本生成、机器翻译等，以验证其在不同任务中的有效性。

5. 计算效率和可扩展性

计算效率优化：研究如何优化模型的计算效率，以减少训练和推理时间，同时保持性能。例如，通过模型压缩、量化等技术。
分布式训练：探索分布式训练技术，以提高模型的训练速度和可扩展性，使其能够处理更大的数据集和更复杂的模型。

6. 多语言编码器的选择

不同编码器的比较：研究不同多语言编码器（如XLM-R、mBERT、mT5等）对模型性能的影响，以选择最适合的编码器。
编码器的联合训练：探索是否可以通过联合训练多语言编码器和LLM来进一步提升模型的性能。

7. 多语言理解的深入分析

语言特征分析：深入分析不同语言的特征，如形态学、句法结构等，以更好地理解模型如何利用这些特征进行跨语言推理。
跨语言迁移学习：研究如何通过迁移学习技术将模型在高资源语言上的知识迁移到低资源语言上，以提高模型的泛化能力。

8. 实际应用和部署

实际应用场景：在实际应用场景中评估该方法的有效性，如智能客服、自动翻译、内容推荐等，以验证其在实际应用中的可行性和效果。
用户反馈和迭代：通过用户反馈来不断优化模型，以提高其在实际应用中的性能和用户体验。

这些方向的进一步研究将有助于推动多语言LLMs的发展，使其在更多语言和任务上表现出色，特别是在低资源语言上。

Q: 总结一下论文的主要内容

Authors: Imalsha Puranegedara, Themira Chathumina, Nisal Ranathunga, Nisansa de Silva, Surangika Ranathunga, Mokanarangan Thayaparan

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.09091v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09091v1

Published: 2025-08-12T17:17:13Z

6. Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes?

As Multimodal Large Language Models (MLLMs) continue to evolve, their cognitive and reasoning capabilities have seen remarkable progress. However, challenges in visual fine-grained perception and commonsense causal inference persist. This paper introduces Argus Inspection, a multimodal benchmark with two levels of difficulty, emphasizing detailed visual recognition while incorporating real-world commonsense understanding to evaluate causal reasoning abilities. Expanding on it, we present the Eye of Panoptes framework, which integrates a binary parametric Sigmoid metric with an indicator function, enabling a more holistic evaluation of MLLMs’ responses in opinion-based reasoning tasks. Experiments conducted on 26 mainstream MLLMs reveal that the highest performance in visual fine-grained reasoning reaches only 0.46, highlighting considerable potential for enhancement. Our research offers valuable perspectives for the continued refinement of MLLMs.

中文摘要

随着多模态大型语言模型（MLLMs）的不断发展，它们的认知和推理能力取得了显著进展。然而，在视觉细粒度感知和常识因果推理方面仍然存在挑战。本文介绍了Argus Inspection，这是一个具有两个难度级别的多模态基准，强调详细的视觉识别，同时融入现实世界的常识理解，以评估因果推理能力。在此基础上，我们提出了Panoptes之眼框架，该框架将二元参数Sigmoid度量与指示函数结合起来，使得在基于观点的推理任务中，对MLLMs响应的评价更加全面。在对26个主流MLLMs进行的实验中，视觉细粒度推理的最高性能仅达到0.46，凸显了显著的提升潜力。我们的研究为MLLMs的持续改进提供了宝贵的视角。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决多模态大型语言模型（Multimodal Large Language Models, MLLMs）在视觉细粒度感知和常识因果推理方面存在的挑战。尽管MLLMs在认知和推理能力上取得了显著进展，但在实际应用中，它们需要更有效地整合多模态信息，尤其是视觉细节，以实现更安全、更可信、更可靠的交互。然而，目前缺乏标准化的闭环基准测试来评估MLLMs在捕捉视觉细节、理解常识知识和执行逻辑因果推理方面的能力。

具体来说，论文指出现有主流多模态基准测试存在以下问题：

偏好事实性文本查询：大多数基准测试以文本元素作为关键输入，导致视觉评估高度依赖于目标对象识别或光学字符识别（OCR），而忽视了真正的逻辑过程。
缺乏细粒度视觉感知：现有基准测试主要关注注意力机制，而没有真正检验跨模态的整合推理能力，忽视了低编码相关性的元素，从而遗漏了可能对安全性和可信度产生重大影响的关键因素。
与现实生活逻辑场景脱节：许多基准测试将大型模型训练成特定学科的考试解题机器，而在实际场景中，它们往往默认为简单的对象检测、分类和跟踪模式，无法满足MLLMs与人类中心环境集成的需求。

为了解决这些问题，论文提出了Argus Inspection基准测试和Eye of Panoptes框架，旨在更全面地评估MLLMs在现实世界场景中的细粒度视觉感知、常识知识理解和逻辑因果推理能力。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

多模态大型语言模型（MLLMs）

CLIP：引入对比学习来解决图像-文本对齐问题。
BLIP：通过引导架构优化跨模态生成。
Flamingo：增强视觉-文本交互能力。
GPT-4V：增强图像理解和多模态推理。
LLaVA：引入指令微调以优化视觉问答。
BLIP-2：提出Q-Former架构以改善跨模态信息交互。
InstructBLIP：利用指令学习增强图像-文本交互的可控性。
LLaVA-1.5：优化视觉编码器以增强细粒度理解。
CogVLM：改进高分辨率处理以更好地保留细节。
Qwen-VL：加强多语言适应性。
MobileVLM：实现轻量化设计，使MLLMs能够在移动设备上高效运行。
MoELLaVA：利用混合专家架构提高推理速度和任务泛化能力。
Marco-o1：应用链式思考（CoT）和蒙特卡洛树搜索，实现更复杂的推理和决策制定。

多模态基准测试

通用视觉和关系理解：主要关注自然图像中的目标识别、属性识别和基本空间推理。
基于OCR的视觉理解：关注包含文本和图形元素的结构化视觉信息，如文档和图表。
特定领域的推理：在特定学科中应用专门知识和逻辑过程，如大学入学考试和数学问题。

论文指出，这些基准测试在评估MLLMs的多模态分析能力方面是有效的，但它们通常缺乏深度，无法反映有意义的现实世界交互场景。因此，作者提出了Argus Inspection基准测试，以填补这一空白。

Q: 论文如何解决这个问题？

Authors: Yang Yao, Lingyu Li, Jiaxin Song, Chiyu Chen, Zhenqi He, Yixu Wang, Xin Wang, Tianle Gu, Jie Li, Yan Teng, Yingchun Wang

Categories: cs.CV, cs.AI, cs.CL, cs.LG, cs.MM

PDF URL: https://arxiv.org/pdf/2506.14805v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2506.14805v2

Published: 2025-06-03T13:44:14Z

7. READER: Retrieval-Assisted Drafter for Efficient LLM Inference

Large Language Models (LLMs) generate tokens autoregressively, with each token depending on the preceding context. This sequential nature makes the inference process inherently difficult to accelerate, posing a significant challenge for efficient deployment. In recent years, various methods have been proposed to address this issue, with the most effective approaches often involving the training of additional draft models. In this paper, we introduce READER (Retrieval-Assisted Drafter for Efficient LLM Inference), a novel lossless speculative decoding method that enhances model-based approaches by leveraging self-repetitions in the text. Our algorithm expands the speculative decoding tree using tokens obtained through statistical search. This work focuses on large batch sizes (>= 8), an underexplored yet important area for industrial applications. We also analyze the key-value (KV) cache size during speculative decoding and propose an optimization to improve performance for large batches. As a result, READER outperforms existing speculative decoding methods. Notably, READER requires no additional training and can reuse pre-trained speculator models, increasing the speedup by over 40\%. Our method demonstrates particularly strong performance on search-based tasks, such as retrieval-augmented generation, where we achieve more than 10x speedup.

中文摘要

大型语言模型 (LLM) 以自回归方式生成标记，每个标记依赖于前面的上下文。这种顺序特性使得推理过程固有地难以加速，给高效部署带来了显著挑战。近年来，提出了各种方法来解决这个问题，最有效的方法通常涉及额外草稿模型的训练。在本文中，我们介绍了 READER（检索辅助草拟器，用于高效 LLM 推理），这是一种新颖的无损推测解码方法，通过利用文本中的自我重复来增强基于模型的方法。我们的算法使用通过统计搜索获得的标记扩展推测解码树。本文重点关注大批量 (>= 8) 的情况，这是一个被忽视但对工业应用重要的领域。我们还分析了推测解码期间关键-值 (KV) 缓存的大小，并提出了一种优化以提高大批量的性能。因此，READER 的性能优于现有的推测解码方法。值得注意的是，READER 不需要额外的训练，并且可以重用预训练的推测模型，使加速提高超过 40%。我们的方法在基于搜索的任务（例如检索增强生成）上表现出特别强的性能，速度提升超过 10 倍。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是大型语言模型（LLMs）在推理过程中的效率问题。LLMs通常以自回归的方式生成token，每个token的生成都依赖于前面的上下文。这种顺序生成的方式使得推理过程难以加速，特别是在处理大规模数据时，这成为了高效部署的一个重大挑战。论文中提到，随着模型参数的显著增加，这种限制已经成为LLMs推理的一个瓶颈，尤其是在处理大批次（batch size）数据时，键值（KV）缓存会带来内存和带宽瓶颈，进一步影响推理效率。

为了解决这一问题，论文提出了一种名为READER（Retrieval-Assisted Drafter for Efficient LLM Inference）的新型无损推测解码方法。这种方法通过利用文本中的自重复性来增强基于模型的推测解码方法，从而提高推理效率。READER不需要额外的训练，可以重用预训练的推测模型，并且在大批次数据处理上表现出色，特别是在基于搜索的任务（如检索增强型生成任务）中，能够实现超过10倍的速度提升。

Q: 有哪些相关研究？

A: 以下是与本文相关的研究工作：

1. Speculative Decoding Methods

Blockwise Parallel Decoding：Stern等人在2018年提出了一种块并行解码方法，用于加速深度自回归模型的推理。该方法将解码过程划分为多个块，通过并行处理这些块来提高效率。然而，这种方法在处理长序列时可能会遇到边界问题，导致生成质量下降。
Lookahead：Zhao等人在2024年提出了Lookahead框架，通过使用前缀树（trie）数据结构来存储历史信息，并在解码时搜索最可能的续写。这种方法不需要额外的辅助模型，但其平均接受长度通常较低。
REST：He等人在2024年提出的REST方法，同样利用统计搜索来加速解码。它通过检索历史数据中的常见续写来提高解码速度，但同样面临着接受长度有限的问题。
Medusa：Cai等人在2024年提出了Medusa框架，通过训练额外的输出头来并行生成草稿token。这种方法提高了草稿token的质量，但需要对辅助模型进行额外训练。
EAGLE：Li等人在2024年和2025年提出了EAGLE及其改进版本EAGLE-2和EAGLE-3。这些方法通过使用动态草稿树结构来提高解码效率。EAGLE-3通过训练时的测试来优化草稿树的深度和宽度，从而在保持生成质量的同时提高速度。

2. Quantization

LLMQAT：Liu等人在2024年提出了一种数据无关的量化感知训练方法，用于大型语言模型。该方法通过将浮点权重压缩为低精度整数格式，减少了推理时的内存需求，从而提高了生成速度。然而，量化模型通常会牺牲一定的生成质量。
SmoothQuant：Xiao等人在2023年提出了一种平滑量化方法，用于大型语言模型的后训练量化。这种方法通过优化量化过程，减少了量化误差，从而在保持较高生成质量的同时提高了推理效率。

3. Tree Decoding

SpecInfer：Miao等人在2024年提出了一种基于树的推测解码方法，通过生成多个可能的token序列来提高解码效率。该方法通过构建解码树，并使用二维解码掩码来表示树中的层次关系，从而在验证阶段能够并行处理所有token。
SpecTr：Sun等人在2023年提出了一种基于最优传输的快速推测解码方法。该方法通过优化解码树的结构和验证过程，进一步提高了解码速度。

4. Other Relevant Work

Magpie：Xu等人在2024年提出了Magpie数据集，用于从头开始合成对齐数据。该数据集通过提示对齐的LLMs生成数据，为训练和评估模型提供了丰富的资源。
HAGRID：Kamalloo等人在2023年提出了HAGRID数据集，用于生成性信息检索任务。该数据集通过人类与LLM的合作生成数据，为检索增强型生成任务提供了高质量的训练数据。

这些研究工作为READER的提出提供了理论基础和技术支持。READER通过结合预训练的草稿模型和统计搜索，进一步提高了推测解码的效率，特别是在处理大批次数据时表现出色。

Q: 论文如何解决这个问题？

A: 论文通过提出一种名为READER（Retrieval-Assisted Drafter for Efficient LLM Inference）的方法来解决大型语言模型（LLMs）推理效率问题。READER是一种无损推测解码方法，它通过结合预训练的草稿模型（如EAGLE）和统计搜索来提高解码效率。以下是READER解决该问题的具体方法和步骤：

1. 统计搜索（Statistical Search）

READER利用统计搜索来扩展推测解码树。统计搜索通过在已生成的文本和外部数据存储中查找常见的续写，从而生成额外的token。这种方法不需要额外的模型调用，因此时间开销极小。具体步骤如下：

使用前缀树（trie）或后缀数组（suffix array）来存储历史数据和外部数据。
在解码时，从已生成的token序列中提取后缀，并在数据结构中搜索可能的续写。
将搜索到的续写作为额外的分支添加到解码树中。

2. 树合并（Tree Union）

READER通过将统计搜索得到的分支与草稿模型生成的解码树合并，来扩展解码树。具体方法如下：

单分支合并：为了避免复杂的树结构合并问题，READER只将统计搜索得到的一个分支添加到草稿模型的解码树中。这样可以保持解码树的固定结构，便于在批量处理时高效分布。
深度扩展：通过将统计搜索得到的较深分支添加到草稿模型的解码树中，可以显著提高平均接受长度，从而提高解码速度。

3. 解码树深度扩展（Tree Deepening）

READER还提出了一种解码树深度扩展方法，通过使用草稿模型生成的token作为输入，进一步扩展解码树。具体步骤如下：

从已生成的token序列中提取后缀，并从草稿模型的解码树中提取前缀。
将这两部分组合起来，进行统计搜索，以生成更长的续写。
将搜索到的续写作为新的分支添加到解码树中。

4. KV缓存重排（KV Cache Rearrangement）

对于大批次数据，KV缓存的大小可能会成为性能瓶颈。READER提出了一种KV缓存重排策略，以减少缓存中的零填充，从而提高推理效率。具体方法如下：

每隔一定步数（如25步），对KV缓存进行重排。
重排时，移除内部的零填充，并将非零值连接起来，减少缓存的总大小。

5. 实验验证

论文通过在多个大型语言模型（如Llama2-7B、Vicuna-7B和Llama3.1-8B）上进行实验，验证了READER方法的有效性。实验结果表明，READER在大批次数据上表现出色，能够实现显著的速度提升。具体结果如下：

在GSM和HumanEval数据集上，READER分别实现了最高4.92倍和5.92倍的速度提升。
在检索增强型生成（RAG）任务上，READER实现了超过10倍的速度提升。

6. 总结

通过结合预训练的草稿模型和统计搜索，READER在不牺牲生成质量的前提下，显著提高了LLMs的推理效率。该方法特别适用于大批次数据处理，并且不需要额外训练草稿模型，可以直接重用现有的预训练模型。此外，通过优化KV缓存管理，READER进一步提高了在大批次数据上的性能。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证READER方法的有效性：

1. 不同模型和数据集上的速度提升实验

模型：使用了Llama2-7B、Vicuna-7B和Llama3.1-8B等大型语言模型。
数据集：使用了GSM（数学推理）和HumanEval（代码生成）数据集。
实验内容：在这些模型和数据集上，比较了不同推测解码方法（包括READER）相对于自回归解码的速度提升。
结果：READER在GSM和HumanEval数据集上分别实现了最高4.92倍和5.92倍的速度提升，表现出色。

2. 检索增强型生成（RAG）任务实验

数据集：使用了HAGRID数据集。
实验内容：在RAG任务上，比较了READER与其他推测解码方法的速度提升。
结果：READER在RAG任务上实现了超过10倍的速度提升，显著优于其他方法。

3. 消融研究（Ablation Study）

实验内容：分析了READER中各个组件对性能的影响，包括树结构优化、统计搜索分支、解码树深度扩展和KV缓存重排。
结果：
- 树结构优化：通过优化树结构，实现了约10%到23%的速度提升。
- 统计搜索分支：这一组件提供了最显著的改进，平均速度提升约20%。
- 解码树深度扩展：在小批次数据上提供了约5%的速度提升。
- KV缓存重排：在大批次数据上，通过每25步或50步进行一次缓存重排，减少了总生成时间约7%到8%。

4. 不同批次大小的实验

实验内容：在不同批次大小（8、16、32）下，测试了READER方法的速度提升。
结果：READER在不同批次大小下均表现出色，特别是在大批次数据上，速度提升更为显著。

这些实验结果表明，READER方法在多种任务和不同批次大小下都能显著提高大型语言模型的推理效率，且不需要额外训练草稿模型，可以直接重用现有的预训练模型。

Q: 有什么可以进一步探索的点？

A: 尽管READER在提高大型语言模型（LLMs）的推理效率方面取得了显著成果，但仍有一些可以进一步探索的点，以进一步优化和扩展该方法的应用。以下是一些潜在的研究方向：

1. 多模态数据的扩展

背景：当前的READER方法主要关注文本数据。然而，随着多模态模型的发展，如CLIP、DALL·E等，将READER扩展到多模态数据（如图像、音频等）可能会带来新的挑战和机遇。
研究方向：
- 探索如何在多模态数据中进行有效的统计搜索。
- 研究如何构建和利用多模态数据的存储结构，如多模态trie或后缀数组。
- 评估多模态数据中的自重复性，并探索其对推理效率的影响。

2. 跨语言和跨领域的应用

背景：READER目前主要在英语文本上进行了实验。将其扩展到其他语言或跨语言场景可能会揭示新的问题和解决方案。
研究方向：
- 研究不同语言中的自重复性模式，并优化统计搜索策略以适应这些模式。
- 探索如何在跨语言任务中利用多语言数据存储，以提高推理效率。
- 评估READER在不同领域（如医学、法律、新闻等）的应用效果，并进行针对性的优化。

3. 动态树结构的进一步优化

背景：虽然READER已经提出了动态树结构的概念，但当前的树结构优化方法可能仍有改进空间。
研究方向：
- 探索更先进的树结构优化算法，如基于强化学习的动态树结构调整。
- 研究如何根据实时推理过程中的反馈动态调整树结构，以进一步提高速度和接受长度。
- 评估不同硬件平台（如GPU、TPU、FPGA）上树结构的最优配置。

4. 与其他加速技术的结合

背景：READER可以与量化技术结合以进一步提高推理效率。此外，探索与其他加速技术（如模型压缩、稀疏激活等）的结合可能会带来更大的性能提升。
研究方向：
- 研究如何将READER与量化技术（如SmoothQuant）结合，以在保持生成质量的同时实现更高的速度提升。
- 探索READER与模型压缩技术（如剪枝、知识蒸馏）的结合，以进一步减少模型的计算和存储需求。
- 评估READER在稀疏激活模型（如Mixture of Experts）中的应用效果。

5. 实时数据更新和在线学习

背景：在实际应用中，模型可能需要处理实时更新的数据。如何在不重新训练整个模型的情况下，动态更新READER的数据存储，是一个值得研究的问题。
研究方向：
- 探索在线学习策略，以实时更新数据存储中的内容。
- 研究如何在不显著增加计算开销的情况下，动态调整统计搜索策略以适应新的数据。
- 评估在线学习对推理效率和生成质量的影响。

6. 硬件加速和并行化

背景：虽然READER已经通过多线程实现了统计搜索的并行化，但进一步的硬件加速和并行化可能会带来更大的性能提升。
研究方向：
- 探索如何利用GPU或TPU等硬件加速器来进一步加速统计搜索过程。
- 研究如何在分布式计算环境中实现READER的并行化，以处理大规模数据。
- 评估不同硬件平台上的并行化策略对性能的影响。

7. 生成质量的进一步优化

背景：虽然READER在速度提升方面表现出色，但生成质量的优化同样重要。如何在提高速度的同时，进一步优化生成质量是一个值得研究的问题。
研究方向：
- 探索如何通过改进统计搜索策略来提高生成质量。
- 研究如何结合生成质量评估指标（如BLEU、ROUGE等）来优化READER的参数。
- 评估不同优化策略对生成质量的影响。

这些研究方向不仅可以进一步提升READER的性能，还可以将其应用扩展到更广泛的场景和任务中，为大型语言模型的高效推理提供更全面的解决方案。

Q: 总结一下论文的主要内容

A: 本文介绍了一种名为READER（Retrieval-Assisted Drafter for Efficient LLM Inference）的新型无损推测解码方法，旨在提高大型语言模型（LLMs）的推理效率。READER通过结合预训练的草稿模型（如EAGLE）和统计搜索，利用文本中的自重复性来扩展推测解码树，从而显著提高解码速度。以下是论文的主要内容总结：

研究背景

大型语言模型（LLMs）在推理过程中面临效率问题，因为它们以自回归的方式生成token，每个token的生成都依赖于前面的上下文，这使得推理过程难以加速。
随着模型参数的增加，这种顺序生成方式成为了一个瓶颈，特别是在处理大批次（batch size）数据时，键值（KV）缓存会带来内存和带宽瓶颈，进一步影响推理效率。

研究方法

READER方法：READER通过以下方式提高推理效率：
- 统计搜索（Statistical Search）：利用统计搜索在已生成的文本和外部数据存储中查找常见的续写，生成额外的token，从而扩展推测解码树。
- 树合并（Tree Union）：将统计搜索得到的分支与草稿模型生成的解码树合并，保持解码树的固定结构，便于批量处理。
- 解码树深度扩展（Tree Deepening）：通过使用草稿模型生成的token作为输入，进一步扩展解码树，提高平均接受长度。
- KV缓存重排（KV Cache Rearrangement）：对于大批次数据，通过每隔一定步数重排KV缓存，减少缓存中的零填充，提高推理效率。

实验

模型和数据集：在Llama2-7B、Vicuna-7B和Llama3.1-8B等大型语言模型上，使用GSM（数学推理）和HumanEval（代码生成）数据集进行实验。
速度提升：READER在GSM和HumanEval数据集上分别实现了最高4.92倍和5.92倍的速度提升。
检索增强型生成（RAG）任务：在HAGRID数据集上，READER实现了超过10倍的速度提升。
消融研究：分析了READER中各个组件对性能的影响，包括树结构优化、统计搜索分支、解码树深度扩展和KV缓存重排，结果表明这些组件均对性能提升有显著贡献。

关键结论

READER通过结合预训练的草稿模型和统计搜索，在不牺牲生成质量的前提下，显著提高了LLMs的推理效率。
READER特别适用于大批次数据处理，并且不需要额外训练草稿模型，可以直接重用现有的预训练模型。
通过优化KV缓存管理，READER进一步提高了在大批次数据上的性能。
实验结果表明，READER在多种任务和不同批次大小下都能显著提高推理效率，表现出色。

进一步探索

论文还提出了多个可以进一步探索的研究方向，包括多模态数据的扩展、跨语言和跨领域的应用、动态树结构的进一步优化、与其他加速技术的结合、实时数据更新和在线学习、硬件加速和并行化以及生成质量的进一步优化等。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Maxim Divilkovskiy, Vitaly Malygin, Sergey Zlobin, Sultan Isali, Vasily Kalugin, Stanislav Ilyushin, Nuriza Aitassova, Yi Fei, Zeng Weidi

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.09072v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09072v1

Published: 2025-08-12T16:47:48Z

8. RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

Multi-agent large language model (LLM) systems have shown strong potential in complex reasoning and collaborative decision-making tasks. However, most existing coordination schemes rely on static or full-context routing strategies, which lead to excessive token consumption, redundant memory exposure, and limited adaptability across interaction rounds. We introduce RCR-Router, a modular and role-aware context routing framework designed to enable efficient, adaptive collaboration in multi-agent LLMs. To our knowledge, this is the first routing approach that dynamically selects semantically relevant memory subsets for each agent based on its role and task stage, while adhering to a strict token budget. A lightweight scoring policy guides memory selection, and agent outputs are iteratively integrated into a shared memory store to facilitate progressive context refinement. To better evaluate model behavior, we further propose an Answer Quality Score metric that captures LLM-generated explanations beyond standard QA accuracy. Experiments on three multi-hop QA benchmarks — HotPotQA, MuSiQue, and 2WikiMultihop — demonstrate that RCR-Router reduces token usage (up to 30%) while improving or maintaining answer quality. These results highlight the importance of structured memory routing and output-aware evaluation in advancing scalable multi-agent LLM systems.

中文摘要

多智能体大语言模型（LLM）系统在复杂推理和协作决策任务中展示了强大的潜力。然而，大多数现有的协调方案依赖于静态或全上下文的路由策略，这导致了过度的令牌消耗、冗余的内存暴露以及在交互轮次中的适应性有限。我们引入了RCR-Router，一个模块化且角色感知的上下文路由框架，旨在支持多智能体LLM中的高效和自适应协作。据我们所知，这是第一种根据每个智能体的角色和任务阶段动态选择语义相关内存子集的路由方法，同时遵循严格的令牌预算。一种轻量级评分策略指导内存选择，并且智能体输出被迭代整合到共享内存存储中，以促进逐步的上下文优化。为了更好地评估模型行为，我们进一步提出了一个答案质量评分指标，捕捉LLM生成的解释，超越标准的问答准确性。在三个多跳问答基准上进行的实验——HotPotQA、MuSiQue和2WikiMultihop——表明RCR-Router减少了令牌使用（高达30%），同时提高或维持了答案质量。这些结果突出了结构化内存路由和输出感知评估在推动可扩展多智能体LLM系统中的重要性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决多智能体大型语言模型（LLM）系统在复杂推理和协作决策任务中的上下文管理问题。具体来说，它关注的挑战包括：

现有协调方案的局限性：
- 静态路由：大多数现有的多智能体LLM系统依赖于静态上下文路由策略，即每个智能体根据预定义的模板接收固定的输入。这种策略虽然简单，但缺乏灵活性，无法适应任务需求的变化。
- 全上下文路由：另一种常见方法是全上下文路由，即在每一步都向所有智能体提供完整的内存或交互历史。这种方法虽然保证了信息的完整性，但会导致过多的标记（token）消耗，增加计算成本，并且容易引入冗余或不相关信息，降低系统效率。
资源效率问题：
- 标记消耗：在多智能体系统中，每个智能体的输入通常包含大量的标记，这不仅增加了计算成本，还可能导致信息过载，影响智能体的推理效率。
- 上下文预算：在实际应用中，需要对智能体的上下文大小进行限制，以确保系统的可扩展性和效率。然而，现有的方法缺乏对上下文预算的有效管理。
适应性问题：
- 任务阶段变化：多智能体任务通常涉及多个阶段，每个阶段对智能体的需求不同。现有的方法无法根据任务阶段动态调整上下文，导致智能体无法充分利用相关信息。
- 智能体角色变化：不同的智能体在任务中扮演不同的角色（如规划者、搜索者、总结者等），但现有的方法无法根据智能体的角色动态选择上下文，影响了智能体的协作效率。

为了解决这些问题，论文提出了RCR-Router，这是一个模块化且角色感知的上下文路由框架，旨在实现高效、适应性强的多智能体LLM系统协作。

Q: 有哪些相关研究？

A: 论文中提到了多个与多智能体大型语言模型（LLM）系统和内存管理相关的研究工作。这些研究为RCR-Router的提出提供了背景和基础。以下是相关研究的总结：

多智能体LLM系统

X-MAS (Ye et al. 2025): 探索了异构LLM多智能体系统，并通过不同LLM的协作显著提高了性能。
AutoGen (Wu et al. 2023): 开发了一个灵活的框架，用于定义智能体之间的交互。
MetaGPT (Hong et al. 2023): 将有效的人类工作流程作为元编程方法融入LLM驱动的多智能体协作中。
AgentScope (Gao et al. 2024): 提出了一个以开发人员为中心的多智能体平台，以消息交换为核心通信机制。
LangChain (Chase 2024): 通过LangGraph设计能够可靠处理复杂任务的智能体。
CrewAI (crewai 2025): 提供了一个用于协作自动化的AI智能体平台。

LLM智能体的内存管理

Memory Management (MM) (Hatalis et al. 2023): 建议在程序性和语义记忆中使用元数据，并将外部知识源与向量数据库集成。
Memory Sandbox (Huang et al. 2023): 提供了一个交互式系统和设计探针，允许用户管理由LLM驱动的智能体的对话记忆。
A-mem (Xu et al. 2025): 提出了一个代理记忆系统，能够以代理的方式动态组织记忆。
AIOS (Mei et al. 2024): 提出了LLM基础智能体操作系统的架构。
HIAGENT (Hu et al. 2024): 利用子目标作为记忆块来分层管理LLM基础智能体的工作记忆。
RoRA (Liu et al. 2025a): 提出了Rank-adaptive Reliability Optimization (RoRA)，通过优化LoRA的缩放因子来在有限的内存内最大化性能。
HMMI (Xiong et al. 2025): 研究了内存管理选择如何影响智能体在挑战性条件下的行为，例如任务分布变化和受限的内存资源。

这些研究为RCR-Router的设计提供了理论和实践基础，特别是在多智能体协作和内存管理方面。RCR-Router通过引入动态、角色感知和标记预算的上下文路由机制，解决了现有方法的局限性，提高了多智能体LLM系统的效率和适应性。

Q: 论文如何解决这个问题？

A: 论文通过提出 RCR-Router（Role-Aware Context Routing with Semantic Abstraction），一个模块化且角色感知的上下文路由框架，来解决多智能体大型语言模型（LLM）系统中的上下文管理问题。RCR-Router 的核心思想是动态选择与智能体角色和任务阶段相关的语义记忆子集，同时严格遵守标记预算。以下是 RCR-Router 解决问题的具体方法和机制：

1. 动态上下文选择

RCR-Router 动态地为每个智能体选择与当前任务阶段和智能体角色相关的上下文。这种动态选择机制能够根据任务的进展和智能体的需求，实时调整上下文内容，避免了静态上下文选择的局限性。

2. 角色感知和任务阶段感知的路由策略

RCR-Router 引入了角色感知和任务阶段感知的路由策略，确保每个智能体在每个交互轮次中都能接收到与其角色和当前任务阶段最相关的上下文。这种策略支持启发式和学习方法，并且可以根据智能体的角色施加特定的标记预算约束。

3. 标记预算分配

RCR-Router 通过 Token Budget Allocator 为每个智能体分配标记预算。这个预算限制了智能体的上下文大小，从而在信息丰富度和效率之间进行权衡。例如，规划者智能体可能需要更大的预算来处理结构化计划，而执行者智能体可以在较少的上下文中有效运行。

4. 重要性评分机制

RCR-Router 使用一个轻量级的启发式评分机制来评估每个记忆项对特定智能体在当前任务阶段的重要性。评分机制结合了多个信号，包括角色相关性、任务阶段优先级和最近性。通过这种方式，RCR-Router 能够为每个智能体选择最相关和最有用的记忆项。

5. 语义过滤和路由逻辑

RCR-Router 的语义过滤和路由逻辑模块根据重要性评分和标记预算，从共享内存中选择记忆项，并将它们路由到每个智能体的输入提示中。这个过程是一个贪婪的 top-k 选择器，确保在不超过标记预算的情况下，选择最重要的记忆项。

6. 迭代路由与反馈机制

RCR-Router 通过迭代路由与反馈机制，支持多轮复杂推理任务。在每个交互轮次中，RCR-Router 根据智能体的角色和当前任务阶段动态路由上下文。智能体的输出被结构化并整合到更新后的共享内存中，从而在后续轮次中提供更相关和最新的上下文。这种迭代机制允许智能体根据最新的交互动态调整推理，并避免重新处理过时或不相关的信息。

7. 共享内存更新

RCR-Router 在每个交互轮次后更新共享内存，以纳入智能体生成的新信息。这个更新过程包括输出提取、相关性过滤、语义结构化和冲突解决等阶段，确保共享内存保持高质量和紧凑，从而支持有效的迭代上下文细化。

8. 实验验证

论文通过在多个多跳问答基准测试（如 HotPotQA、MuSiQue 和 2wikimultihop）上进行广泛的实验，验证了 RCR-Router 的有效性和效率。实验结果表明，RCR-Router 在减少标记使用量（高达 30%）的同时，能够提高或保持答案质量。这些结果突出了结构化内存路由和输出感知评估在推进可扩展多智能体 LLM 系统中的重要性。

总结

通过上述机制，RCR-Router 提供了一种高效、适应性强的上下文管理解决方案，能够显著提高多智能体 LLM 系统在复杂推理任务中的性能和效率。

Q: 论文做了哪些实验？

A: 论文通过一系列实验来评估 RCR-Router 在多智能体大型语言模型（LLM）系统中的有效性和效率。实验主要集中在以下几个方面：

1. 基准测试

论文选择了三个多跳问答（QA）基准测试来评估 RCR-Router 的性能：

HotPotQA (Yang et al. 2018): 一个需要多跳推理的问答数据集，涉及多个文档的信息整合。
MuSiQue (Trivedi et al. 2022): 通过单跳问题组合生成多跳问题的数据集，强调推理链的构建。
2wikimultihop (Ho et al. 2020): 强调明确的推理链和证据路径构建，适合结构化记忆的多智能体推理。

2. 评估指标

为了全面评估模型的性能，论文采用了以下指标：

平均运行时间：完成任务所需的总时间。
标记消耗：所有智能体在所有交互轮次中使用的标记总数。
答案质量：通过一个自动评分机制（Answer Quality Score）评估生成答案的质量，该机制基于多个标准（如正确性、相关性、完整性和清晰度）。
标准问答指标：包括精确度（Precision）、召回率（Recall）和 F1 分数。

3. 基线方法

为了突出 RCR-Router 的优势，论文将其与以下两种基线方法进行了比较：

全上下文路由（Full-Context Routing）：每个智能体在每一轮都接收完整的共享内存作为上下文。
静态路由（Static Routing）：每个智能体根据预定义的模板接收固定的上下文子集。

4. 实验结果

HotPotQA

RCR-Router：平均运行时间 93.52 秒，标记消耗 3.77K，答案质量 4.91，精确度 81.2%，召回率 83.6%，F1 分数 82.4%。
静态路由：平均运行时间 128.29 秒，标记消耗 3.85K，答案质量 4.35，精确度 74.8%，召回率 77.5%，F1 分数 76.1%。
全上下文路由：平均运行时间 150.65 秒，标记消耗 5.10K，答案质量 4.17，精确度 72.3%，召回率 75.1%，F1 分数 73.7%。

MuSiQue

RCR-Router：平均运行时间 45.09 秒，标记消耗 11.89K，答案质量 4.61，精确度 78.4%，召回率 79.5%，F1 分数 79.0%。
静态路由：平均运行时间 47.17 秒，标记消耗 12.93K，答案质量 4.32，精确度 72.6%，召回率 73.9%，F1 分数 73.2%。
全上下文路由：平均运行时间 57.46 秒，标记消耗 13.41K，答案质量 4.16，精确度 69.7%，召回率 70.5%，F1 分数 70.1%。

2wikimultihop

RCR-Router：平均运行时间 82.50 秒，标记消耗 1.24K，答案质量 4.83，精确度 80.1%，召回率 81.6%，F1 分数 80.8%。
静态路由：平均运行时间 90.20 秒，标记消耗 1.42K，答案质量 4.28，精确度 73.2%，召回率 74.8%，F1 分数 74.0%。
全上下文路由：平均运行时间 96.40 秒，标记消耗 2.34K，答案质量 4.07，精确度 70.5%，召回率 72.1%，F1 分数 71.3%。

5. 消融研究

论文还进行了消融研究，以进一步分析 RCR-Router 的不同组件和参数设置的影响：

标记预算的影响：通过改变每个智能体的标记预算（如 512、1024、2048、4096），研究了标记预算对性能的影响。结果表明，随着标记预算的增加，标记消耗和运行时间增加，但答案质量的提升逐渐趋于平缓。
迭代路由的影响：通过改变路由迭代次数（如 1、2、3、4、5），研究了迭代路由机制对性能的影响。结果表明，增加迭代次数可以提高答案质量，但超过一定次数后，性能提升逐渐减少。

6. 计算开销

论文还评估了 RCR-Router 引入的计算开销。通过比较不同路由方法的平均每轮运行时间，RCR-Router 在所有数据集上都表现出最低的运行时间，显著降低了计算开销，同时没有牺牲答案质量。

总结

这些实验结果表明，RCR-Router 在减少标记消耗和提高任务成功率方面优于全上下文路由和静态路由基线。此外，消融研究进一步验证了 RCR-Router 中迭代路由机制的重要性，并确认了适度的迭代次数（如 3 次）足以实现大部分性能提升，同时保持较低的计算开销。

Q: 有什么可以进一步探索的点？

A: 论文提出了 RCR-Router，一个高效的、角色感知的上下文路由框架，用于多智能体大型语言模型（LLM）系统。尽管 RCR-Router 在实验中表现出了显著的性能提升和效率改进，但仍有一些可以进一步探索和扩展的方向：

1. 学习型路由策略

当前的 RCR-Router 使用启发式方法来评估记忆项的重要性，但这种方法可能在某些复杂场景下不够灵活。可以探索使用机器学习方法来学习更复杂的路由策略，例如通过强化学习或监督学习来优化记忆项的选择。

2. 自适应内存更新策略

目前的内存更新机制是基于简单的启发式规则，如内容新颖性和智能体角色。可以进一步研究更复杂的自适应内存更新策略，例如基于深度学习的模型来动态调整内存内容，以更好地反映任务的进展和智能体的需求。

3. 跨模态智能体协作

当前的 RCR-Router 主要关注文本模态的多智能体系统。可以扩展到跨模态场景，例如结合视觉、听觉等多模态信息，以支持更复杂的任务，如视觉问答（VQA）或机器人导航。

4. 多任务学习

RCR-Router 可以进一步扩展到多任务学习场景，其中智能体需要在多个任务之间共享知识和技能。这需要设计更复杂的上下文路由策略，以支持跨任务的知识迁移和协作。

5. 实时和动态环境

在实时和动态环境中，任务需求和环境状态可能快速变化。可以研究如何使 RCR-Router 更好地适应这些变化，例如通过引入在线学习机制或动态调整标记预算。

6. 大规模部署和优化

虽然 RCR-Router 在实验中表现出了效率优势，但在大规模部署时可能仍面临挑战。可以研究如何进一步优化 RCR-Router 的性能，例如通过分布式计算、硬件加速或模型压缩技术。

7. 人类反馈和交互

在实际应用中，智能体系统可能需要与人类用户进行交互。可以研究如何将人类反馈整合到 RCR-Router 中，以提高系统的适应性和用户满意度。

8. 安全性和隐私保护

在多智能体系统中，保护用户数据的安全性和隐私至关重要。可以研究如何在 RCR-Router 中实现安全的上下文路由和内存管理，例如通过加密技术或差分隐私。

9. 跨领域应用

RCR-Router 可以应用于多个领域，如医疗保健、金融、教育等。可以探索在这些领域中的特定应用，例如医疗诊断、金融风险评估或个性化教育。

10. 理论分析和保证

虽然论文提供了一些理论分析，但可以进一步深入研究 RCR-Router 的理论性质，例如收敛速度、稳定性或最优性保证。这将有助于更好地理解框架的性能和局限性。

通过这些方向的进一步研究，RCR-Router 有望在更广泛的应用场景中实现更高效、更智能的多智能体协作。

Q: 总结一下论文的主要内容

A: 本文介绍了一个名为 RCR-Router 的框架，旨在提高多智能体大型语言模型（LLM）系统在复杂推理和协作决策任务中的效率和适应性。RCR-Router 通过动态选择与智能体角色和任务阶段相关的语义记忆子集，并严格遵守标记预算，解决了现有方法中静态或全上下文路由策略导致的标记消耗过多、信息冗余和适应性差的问题。

研究背景

大型语言模型（LLMs）在多种任务中表现出色，但多智能体 LLM 系统在上下文管理方面面临挑战。现有的协调方案依赖于静态或全上下文路由策略，导致标记消耗过多、信息冗余和适应性差。这些问题随着任务规模和复杂性的增加而变得更加严重。

RCR-Router 框架

RCR-Router 是一个模块化且角色感知的上下文路由框架，能够动态选择与智能体角色和任务阶段相关的语义记忆子集，同时严格遵守标记预算。该框架包括以下关键组件：

Token Budget Allocator：为每个智能体分配标记预算，限制其上下文大小。
Importance Scorer：评估每个记忆项对特定智能体在当前任务阶段的重要性。
Semantic Filter and Routing：根据重要性评分和标记预算，从共享内存中选择记忆项，并将它们路由到智能体的输入提示中。

迭代路由与反馈机制

RCR-Router 通过迭代路由与反馈机制支持多轮复杂推理任务。在每个交互轮次中，RCR-Router 根据智能体的角色和当前任务阶段动态路由上下文。智能体的输出被结构化并整合到更新后的共享内存中，从而在后续轮次中提供更相关和最新的上下文。这种迭代机制允许智能体根据最新的交互动态调整推理，并避免重新处理过时或不相关的信息。

实验验证

论文通过在三个多跳问答基准测试（HotPotQA、MuSiQue 和 2wikimultihop）上进行广泛的实验，验证了 RCR-Router 的有效性和效率。实验结果表明，RCR-Router 在减少标记使用量（高达 30%）的同时，能够提高或保持答案质量。这些结果突出了结构化内存路由和输出感知评估在推进可扩展多智能体 LLM 系统中的重要性。

关键结论

性能提升：RCR-Router 在多个基准测试中表现出色，显著提高了任务成功率。
效率提升：与全上下文路由和静态路由相比，RCR-Router 大幅减少了标记消耗和运行时间。
适应性强：RCR-Router 能够根据任务阶段和智能体角色动态调整上下文，提高了系统的适应性。
迭代机制的重要性：通过迭代路由与反馈机制，RCR-Router 能够在多轮推理中逐步细化上下文，提高推理质量。

未来工作

论文提出了未来可能的研究方向，包括探索学习型路由策略、自适应内存更新策略、跨模态智能体协作、多任务学习、实时和动态环境适应、大规模部署和优化、人类反馈和交互、安全性和隐私保护以及跨领域应用等。这些方向将进一步提升 RCR-Router 的性能和适用性，推动多智能体 LLM 系统的发展。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Jun Liu, Zhenglun Kong, Changdi Yang, Fan Yang, Tianqi Li, Peiyan Dong, Joannah Nanjekye, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

Categories: cs.CL, cs.AI, cs.MA

PDF URL: https://arxiv.org/pdf/2508.04903v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.04903v3

Published: 2025-08-06T21:59:34Z

9. LLM-as-a-Supervisor: Mistaken Therapeutic Behaviors Trigger Targeted Supervisory Feedback

Although large language models (LLMs) hold significant promise in psychotherapy, their direct application in patient-facing scenarios raises ethical and safety concerns. Therefore, this work shifts towards developing an LLM as a supervisor to train real therapists. In addition to the privacy of clinical therapist training data, a fundamental contradiction complicates the training of therapeutic behaviors: clear feedback standards are necessary to ensure a controlled training system, yet there is no absolute “gold standard” for appropriate therapeutic behaviors in practice. In contrast, many common therapeutic mistakes are universal and identifiable, making them effective triggers for targeted feedback that can serve as clearer evidence. Motivated by this, we create a novel therapist-training paradigm: (1) guidelines for mistaken behaviors and targeted correction strategies are first established as standards; (2) a human-in-the-loop dialogue-feedback dataset is then constructed, where a mistake-prone agent intentionally makes standard mistakes during interviews naturally, and a supervisor agent locates and identifies mistakes and provides targeted feedback; (3) after fine-tuning on this dataset, the final supervisor model is provided for real therapist training. The detailed experimental results of automated, human and downstream assessments demonstrate that models fine-tuned on our dataset MATE, can provide high-quality feedback according to the clinical guideline, showing significant potential for the therapist training scenario.

中文摘要

尽管大型语言模型（LLMs）在心理治疗中展现出巨大的潜力，但它们在面向患者的场景中的直接应用引发了伦理和安全方面的担忧。因此，这项工作转向开发一个LLM作为监督者来培训真实的治疗师。除了临床治疗师培训数据的隐私问题外，一个根本性矛盾使得治疗行为的训练变得复杂：确保受控训练系统所需的明确反馈标准与实践中没有绝对的“金标准”适当治疗行为之间存在矛盾。相比之下，许多常见的治疗错误是普遍且可识别的，使其成为有效的触发点，以便提供更明确的反馈。出于这个动机，我们创建了一种新颖的治疗师培训范式：（1）首先建立错误行为和针对性纠正策略的标准；（2）然后构建一个人机参与的对话反馈数据集，其中一个容易出错的代理在访谈中自然而然地故意犯标准错误，而一个监督代理则定位和识别错误并提供针对性的反馈；（3）在这个数据集上进行微调后，最终的监督模型可用于真实的治疗师培训。自动化、人工和下游评估的详细实验结果表明，在我们数据集MATE上微调的模型能够根据临床指南提供高质量的反馈，显示出在治疗师培训场景中的巨大潜力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在心理治疗领域中，如何利用大型语言模型（LLMs）来提高心理治疗师培训效率的问题，具体来说，主要关注以下几个方面：

心理治疗师短缺问题

背景：心理健康领域面临着患者数量不断增加与可用治疗师数量稀缺之间的严重失衡（WHO 2023）。尽管LLMs有潜力通过模拟人类治疗师行为并提供低成本的个性化咨询服务来缓解这一失衡（Xiao et al. 2024; Na 2024; Xie et al. 2024; Wang et al. 2025），但它们直接应用于面向患者的治疗中存在诸多风险。
风险：包括伦理困境（Ong et al. 2024）、安全问题（Hager et al. 2024）、责任不确定性可能导致的潜在伤害（Nichol et al. 2023），以及与虚拟治疗师建立治疗联盟的挑战（Choudhury and Chaudhry 2024）。
解决方案：因此，论文提出将LLMs开发为监督者，用于训练真实的治疗师，而不是直接让LLMs面对患者。

治疗行为训练的矛盾问题

矛盾：在训练治疗行为时，需要清晰的反馈标准来确保一个受控的训练系统，但在实际治疗实践中，没有绝对的“金标准”来定义适当的治疗行为（Leichsenring and Steinert 2017）。治疗方式的多样性和复杂性使得很难提供统一、权威的标准。
解决方案：论文提出利用一些相对清晰且普遍存在的治疗错误行为作为标签来构建训练环境。当受训者表现出这些错误行为时，可以检索到相应的针对性纠正原则，并将其与当前情境结合起来，作为相对明确的反馈来帮助他们改进。

监督数据稀缺问题

背景：心理辅导领域的高质量监督数据稀缺，且隐私限制和样本不平衡等问题限制了真实临床数据的使用。
解决方案：论文提出了一个基于错误行为驱动的多智能体对话反馈生成框架，通过构建包含特定临床错误的对话反馈对，来生成大规模、系统化的训练数据。

Q: 有哪些相关研究？

A: 这篇论文提到了多个与之相关的研究，这些研究主要集中在以下几个方面：

LLM-as-a-Therapist

ESConv 数据集：Liu et al. (2021) 提供了多轮情感支持对话，用于训练支持者模型，采用各种策略。
多层反馈增强：Chaszczewicz et al. (2024) 对ESConv

Authors: Chen Xu, Zhenyu Lv, Tian Lan, Xianyang Wang, Luyao Ji, Leyang Cui, Minqiang Yang, Jian Shen, Qunxi Dong, Xiuling Liu, Juan Wang, Bin Hu

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.09042v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09042v1

Published: 2025-08-12T16:03:36Z

10. P/D-Device: Disaggregated Large Language Model between Cloud and Devices

Serving disaggregated large language models has been widely adopted in industrial practice for enhanced performance. However, too many tokens generated in decoding phase, i.e., occupying the resources for a long time, essentially hamper the cloud from achieving a higher throughput. Meanwhile, due to limited on-device resources, the time to first token (TTFT), i.e., the latency of prefill phase, increases dramatically with the growth on prompt length. In order to concur with such a bottleneck on resources, i.e., long occupation in cloud and limited on-device computing capacity, we propose to separate large language model between cloud and devices. That is, the cloud helps a portion of the content for each device, only in its prefill phase. Specifically, after receiving the first token from the cloud, decoupling with its own prefill, the device responds to the user immediately for a lower TTFT. Then, the following tokens from cloud are presented via a speed controller for smoothed TPOT (the time per output token), until the device catches up with the progress. On-device prefill is then amortized using received tokens while the resource usage in cloud is controlled. Moreover, during cloud prefill, the prompt can be refined, using those intermediate data already generated, to further speed up on-device inference. We implement such a scheme P/D-Device, and confirm its superiority over other alternatives. We further propose an algorithm to decide the best settings. Real-trace experiments show that TTFT decreases at least 60%, maximum TPOT is about tens of milliseconds, and cloud throughput increases by up to 15x.

中文摘要

在工业实践中，服务于分离的大型语言模型已被广泛采用以提高性能。然而，在解码阶段生成的令牌过多，即长时间占用资源，从本质上阻碍了云计算实现更高的吞吐量。同时，由于设备资源有限，首个令牌的时间（TTFT），即填充阶段的延迟，随着提示长度的增加而显著增加。为了应对这种资源瓶颈，即云端占用时间长和设备计算能力有限，我们建议将大型语言模型分离到云与设备之间。也就是说，云端只在每个设备的填充阶段帮助一部分内容。具体而言，在接收到来自云端的第一个令牌后，设备与自身的填充过程解耦，立即对用户做出响应，从而降低TTFT。然后，云端的后续令牌通过速率控制器呈现，以平滑TPOT（每个输出令牌的时间），直到设备跟上进度。设备填充过程则使用接收到的令牌进行摊销，同时控制云端的资源使用。此外，在云端的填充期间，可以利用已经生成的中间数据来优化提示，以进一步加速设备上的推理。我们实施了这样的方案P/D-Device，并确认其优于其他替代方案。我们进一步提出了一种算法来决定最佳设置。实际跟踪实验表明，TTFT至少减少了60%，最大TPOT约为几十毫秒，云端吞吐量提高了最多15倍。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在云和设备之间部署大型语言模型（LLMs）时面临的资源瓶颈问题。具体来说，主要关注以下两个方面：

云资源瓶颈：
- 在云环境中，由于解码阶段（decoding phase）生成的token数量较多，导致资源被长时间占用，从而限制了系统的吞吐量（throughput）。例如，生成100个token，每个token的处理时间是30ms，总共需要3秒，这使得云资源无法高效地处理更多的请求。
- 云环境更倾向于处理输出较短的请求，以提高吞吐量。
设备资源瓶颈：
- 在设备上，由于计算资源有限，预填充阶段（prefill phase）的时间（TTFT，Time to First Token）随着提示（prompt）长度的增加而显著增加。例如，对于输入包含数万个token的提示，设备上的预填充可能需要数十秒，导致用户体验不佳。
- 设备上的LLMs受到内存限制，无法部署过大的模型，且需要采用一些轻量化技术（如滑动窗口注意力、量化等）来减少计算和内存消耗。

为了解决这些问题，论文提出了一种新的协作方案P/D-Device，将LLMs在云和设备之间进行分离部署，让云在设备的预填充阶段提供部分帮助，从而提高整体系统性能。

Q: 有哪些相关研究？

A: 论文中提到了多个与云和设备之间部署大型语言模型（LLMs）相关的研究，这些研究主要集中在以下几个方面：

云和设备之间的协作

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H20 [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
Hao et al. [37] 提出了一种边缘云协作方案，用于推测性解码（speculative decoding），其中设备生成的候选token需要及时在云端进行验证。
Venkatesha et al. [39] 提出了一种快速且成本效益高的推测性边缘云解码框架，优化了整个推理流程。

提高LLMs推理效率

SnapKV [59] 通过自动压缩KVCache来减少数据传输量，通过选择每个注意力头中重要的KV位置来实现。
H2O [58] 在生成过程中根据评分函数丢弃部分KVCache，以提高推理效率。
FastGen [94] 研究了多种KVCache压缩策略，以进一步优化LLMs的推理性能。
Gisting [65] 通过训练模型将提示压缩成更小的gist tokens集合，从而减少输入长度。

云和设备之间的模型分割

Edge AI [50]、DeepSlicing [52]、EdgeShard [55] 等研究提出了在设备和边缘计算节点之间进行模型分割的方法，以实现协同推理。这些方法主要关注如何将深度神经网络（DNN）模型的不同部分分配到不同的计算节点上，以优化推理性能。
**Hao et al.

Q: 论文如何解决这个问题？

A: 论文通过提出一种新的云和设备之间的协作方案 P/D-Device 来解决上述问题。该方案的核心思想是将大型语言模型（LLMs）在云和设备之间进行分离部署，让云在设备的预填充阶段（prefill phase）提供部分帮助，从而提高整体系统性能。具体来说，P/D-Device 方案包括以下几个关键步骤和机制：

1. 云辅助预填充（Cloud-assisted Prefill）

云预填充（Cloud Prefill）：云在接收到设备的请求后，首先进行预填充操作，生成第一个token并将其发送回设备。这个过程利用了云的强大计算能力，能够在短时间内完成预填充，显著降低设备的TTFT（Time to First Token，首次token生成时间）。
设备响应（Device Response）：设备在接收到云生成的第一个token后，立即响应用户，从而实现快速的用户交互。

2. 平滑的输出token时间（Smoothed TPOT）

云辅助解码（Cloud-assisted Decoding）：在设备进行解码时，云继续生成后续的token，并通过速度控制器（speed controller）控制这些token的输出速度，使其平滑地呈现给用户。这样可以避免用户在等待设备生成token时的长时间等待。
设备追赶（Device Catch-up）：设备在接收到云生成的token后，会尝试追赶云的进度，最终实现独立生成后续的token。

3. 提示精简（Prompt Refinement）

云提示精简（Cloud Prompt Refinement）：在云进行预填充的过程中，利用生成的中间数据（如注意力权重）来精简提示（prompt）。通过选择重要的句子或token，生成更短的提示，从而减少设备上的预填充时间。
提示传输（Prompt Transmission）：精简后的提示通过压缩技术进行传输，以减少数据量。压缩后的提示与第一个token一起发送给设备，从而实现快速反馈。

4. 早期终止（Early Termination）

控制云资源占用（Control Cloud Resource Usage）：为了避免云资源被长时间占用，P/D-Device 方案在云生成一定数量的token后即终止解码过程。这样可以释放云资源，使其能够处理更多的请求。
优化吞吐量（Optimize Throughput）：通过控制云生成的token数量，可以显著提高云的吞吐量，使其能够处理更多的请求。

5. 算法优化（Algorithm Optimization）

最佳设置决策（Best Settings Decision）：论文提出了一种算法，用于决定最佳的提示精简比例和云辅助的token数量。这些参数的优化可以平衡TTFT、TPOT和推理质量，从而实现最佳的系统性能。

实现细节

系统设计（System Design）：P/D-Device 方案包括云管道（cloud pipeline）、云服务系统（serving system）和设备上的模型及服务能力（on-device models and service ability）。这些组件协同工作，实现高效的云和设备之间的协作。
实验验证（Experimental Validation）：通过真实场景的实验，论文验证了P/D-Device方案的有效性。实验结果表明，TTFT至少降低了60%，最大TPOT约为数十毫秒，云吞吐量提高了高达15倍。

总结

通过上述机制，P/D-Device方案有效地解决了云和设备之间部署LLMs时面临的资源瓶颈问题。它不仅提高了用户的交互体验，还优化了云资源的使用效率，实现了高效的云和设备之间的协作。

Q: 论文做了哪些实验？

A: 论文中进行了多组实验，旨在验证所提出的P/D-Device方案在不同场景下的性能表现。以下是实验的主要内容和结果：

实验设置

数据集：使用了LongBench [69]中的文档问答和摘要场景，数据集内容包括科技新闻、散文等，最大长度可达数万个token。
模型：在云和设备上部署的LLMs具有多种选择，默认情况下云和设备使用相同的模型（数亿参数），其他选择包括数十亿或数百亿参数的模型。
设备：在移动电话和平板电脑上进行设备功能评估。
网络条件：实验在WiFi环境下进行，使用IP白名单进行访问控制。

主要实验结果

1. 效果验证（RQ1）

性能比较：表2展示了在LongBench上的性能比较。与基线模型（如Llama和LLMLingua）以及其他候选模型（如PyramidInfer、H2O等）相比，P/D-Device方案在多数情况下表现最佳，尤其是在单文档问答场景中，使用句子级别的精简提示时表现更好。
TTFT结果：图7a显示了设备上的TTFT累积分布函数（CDF）。与仅在设备上进行推理相比，P/D-Device方案将平均延迟降低了60%，并且延迟的方差更小。
质量结果：图7b比较了使用不同模型进行云辅助推理和仅在云上进行推理的质量。尽管云上推理表现最佳，但P/D-Device方案在质量上仍优于仅在设备上进行的推理，并且随着辅助解码token数量的增加，质量得分有所提高。
平滑TPOT结果：图7c展示了在不同提示长度下，平滑TPOT的结果。在提示长度较短时，最多需要20个token来平滑设备上的长预填充。随着提示长度的增加，需要更多的token来平滑TPOT，但最优的平滑TPOT值始终在数十毫秒内。
云吞吐量结果：图7d研究了在不同辅助token数量下云的吞吐量。与在云上生成200个token相比，P/D-Device方案将云吞吐量提高了1.6到15倍，平均提高了7.6倍。

2. 效率验证（RQ2）

设备视角的延迟：图9a展示了从设备视角看的延迟细节。设备在发送请求到云并接收第一个token之间的时间范围从几百毫秒到几秒不等（提示长度从4k到32k）。设备在接收到第一个token后，还需要花费几秒时间进行解压缩和设备上的预填充。
云视角的延迟：图9b展示了从云视角看的延迟细节。云在准备和转发请求上花费了数毫秒，其中大约一半的时间用于云预填充推理，其余时间用于提示精简，包括掩码操作和压缩。
传输数据量：图9c展示了从云到设备传输的数据量。随着提示长度的增加，传输的数据量也增加。对于8k的提示，最大传输数据量为几百KB，这与第一个token一起传输。
精简延迟：图9d研究了不同提示长度下的精简延迟CDF。延迟几乎与提示长度成正比，对于8k的提示，大多数精简延迟为一到两百毫秒。

3. 兼容性验证（RQ3）

不同NPU类型：图10a展示了在云中使用不同NPU类型时的推理延迟。由于在云和设备之间传输的数据是字符串（精简提示和token），因此云内部的实现细节和NPU类型对设备是透明的。云可以针对不同的服务和模型大小部署不同类型的NPU。
不同模型：图10b展示了不同模型的兼容性。服务系统可以轻松扩展到多种模型大小和系列，有些追求高质量，有些追求推理速度。
不同设备：图10d展示了使用不同设备时的结果。通过启用协作，端到端（E2E）延迟显著降低。由于平板电脑的计算能力比手机强，因此其延迟低于手机。启用协作后，不同设备之间的延迟差距减小。

结论

这些实验结果表明，P/D-Device方案在降低TTFT、平滑TPOT、提高云吞吐量以及保持推理质量方面具有显著优势，同时在不同设备和网络条件下表现出良好的兼容性和效率。

Authors: Yibo Jin, Yixu Xu, Yue Chen, Chengbin Wang, Tao Wang, Jiaqi Huang, Rongfei Zhang, Yiming Dong, Yuting Yan, Ke Cheng, Yingjie Zhu, Shulan Wang, Qianqian Tang, Shuaishuai Meng, Guanxin Cheng, Ze Wang, Shuyan Miao, Ketao Wang, Wen Liu, Yifan Yang, Tong Zhang, Anran Wang, Chengzhou Lu, Tiantian Dong, Yongsheng Zhang, Zhe Wang, Hefei Guo, Hongjie Liu, Wei Lu, Zhengyong Zhang

Categories: cs.DC, cs.CL, cs.LG

PDF URL: https://arxiv.org/pdf/2508.09035v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09035v1

Published: 2025-08-12T15:56:29Z

Agent Domain Papers

1. BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair

Effective information seeking in the vast and ever-growing digital landscape requires balancing expansive search with strategic reasoning. Current large language model (LLM)-based agents struggle to achieve this balance due to limitations in search breadth and reasoning depth, where slow, serial querying restricts coverage of relevant sources and noisy raw inputs disrupt the continuity of multi-step reasoning. To address these challenges, we propose BrowseMaster, a scalable framework built around a programmatically augmented planner-executor agent pair. The planner formulates and adapts search strategies based on task constraints, while the executor conducts efficient, targeted retrieval to supply the planner with concise, relevant evidence. This division of labor preserves coherent, long-horizon reasoning while sustaining broad and systematic exploration, overcoming the trade-off that limits existing agents. Extensive experiments on challenging English and Chinese benchmarks show that BrowseMaster consistently outperforms open-source and proprietary baselines, achieving scores of 30.0 on BrowseComp-en and 46.5 on BrowseComp-zh, which demonstrates its strong capability in complex, reasoning-heavy information-seeking tasks at scale.

中文摘要

在不断扩展的数字环境中，有效的信息检索需要将广泛搜索与战略推理相平衡。当前基于大型语言模型（LLM）的代理在实现这种平衡时面临困难，因为其搜索广度和推理深度受到限制，缓慢的串行查询限制了相关来源的覆盖面，嘈杂的原始输入干扰了多步骤推理的连续性。为了解决这些挑战，我们提出了BrowseMaster，这是一个围绕程序增强的规划者-执行者代理对构建的可扩展框架。规划者根据任务约束制定和调整搜索策略，而执行者进行高效、目标明确的检索，以向规划者提供简明、相关的证据。这种分工方式维护了连贯的长期推理，同时保持广泛和系统的探索，克服了限制现有代理的权衡。对具有挑战性的英语和中文基准的广泛实验表明，BrowseMaster在性能上始终优于开源和专有的基准，BrowseComp-en上的得分为30.0，BrowseComp-zh上的得分为46.5，这证明了其在大规模复杂推理信息检索任务中的强大能力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决基于大型语言模型（LLM）的智能代理在进行信息检索时面临的挑战，即如何在广阔的数字信息中平衡广泛的搜索（search breadth）与深入的推理（reasoning depth）。具体而言，当前的LLM代理在执行信息检索任务时存在以下两个主要问题：

搜索范围有限（Limited Search Breadth）：
- 大多数LLM代理通过自然语言调用网络浏览工具，并且以串行方式处理查询，这导致它们一次只能处理一个页面，极大地限制了可以检查的来源数量，无法实现全面覆盖。
- 例如，为了找到2018至2023年间EMNLP会议中第一作者在达特茅斯学院学习、第四作者在宾夕法尼亚大学学习的论文标题，需要广泛搜索大量论文，但现有的串行查询方式无法有效实现这一点。
推理深度不足（Shallow Reasoning Depth）：
- 每次调用工具时，原始的网络内容被直接注入到代理的上下文中，这会打断推理的连贯性，破坏多步推理的流程。
- 例如，在多步推理过程中，每一步的输出都包含大量无关信息，这使得代理难以保持清晰的推理思路，从而影响最终的推理结果。

这些问题共同导致了在复杂的、需要推理的信息检索任务中，现有LLM代理的准确率极低。为了解决这些问题，论文提出了BrowseMaster框架，旨在通过一种可扩展的方式，结合战略推理和广泛的搜索，以实现高效的信息检索。

Q: 有哪些相关研究？

A: 论文中提到了多个与信息检索、大型语言模型（LLM）以及智能代理相关的研究工作，这些研究为BrowseMaster框架的提出提供了背景和基础。以下是一些关键的相关研究：

信息检索与大型语言模型

Retrieval-Augmented Generation (RAG): 这类研究通过结合检索和生成，增强LLM处理复杂任务的能力。例如，Lewis et al. (2020) 提出了Retrieval-Augmented Language Model Pre-Training，通过检索外部知识来增强语言模型的性能。
Fact-Checking and Multi-Hop Reasoning Benchmarks: 早期的基准测试如Natural Questions (Kwiatkowski et al., 2019) 和TriviaQA (Joshi et al., 2017) 主要关注事实核查，而后来的基准测试如HotPotQA (Yang et al., 2018) 和Musique (Trivedi et al., 2022) 则更强调多跳推理。
Recent Challenging Benchmarks: 最新的基准测试如BrowseComp (Wei et al., 2025) 和BrowseComp-zh (Zhou et al., 2025) 要求代理能够定位深度纠缠、难以找到的信息，这些任务对代理的搜索和推理能力提出了极高的要求。

智能代理与工具使用

ReAct Framework: Yao et al. (2023) 提出了ReAct框架，通过在语言模型中交错思考、搜索和观察，增强了代理的搜索能力。
Training Search Capabilities: Jin et al. (2025a) 提出了Search-R1，通过强化学习训练LLM进行推理和利用搜索引擎。
Agentic Workflows: 这类研究通过协调多个LLM调用和工具交互来处理复杂任务。例如，Gottweis et al. (2025) 提出了AI Co-Scientist，用于科学研究；Qian et al. (2024) 提出了ChatDev，用于软件开发。

工具增强的搜索方法

WebSailor: Li et al. (2025a) 提出了WebSailor，通过导航超人推理来增强Web代理的能力。
WebThinker: Li et al. (2025c) 提出了WebThinker，通过深度研究能力增强大型推理模型。
WebDancer: Wu et al. (2025a) 提出了WebDancer，旨在实现自主的信息检索代理。

这些相关研究为BrowseMaster框架的提出提供了理论基础和技术支持，BrowseMaster通过结合战略推理和广泛的搜索，克服了现有代理在搜索范围和推理深度上的限制。

Q: 论文如何解决这个问题？

A: 论文提出了 BrowseMaster 框架来解决现有大型语言模型（LLM）代理在信息检索任务中搜索范围有限和推理深度不足的问题。BrowseMaster 的核心是一个由规划者（planner）和执行者（executor）组成的智能代理对，它们通过分工协作来实现高效的、可扩展的网络浏览。以下是 BrowseMaster 解决问题的具体方法：

1. 规划者（Planner）：长期策略家

任务分解：规划者负责高级推理，将复杂的任务分解为可管理的子任务，并将这些子任务委托给执行者。
避免推理碎片化：规划者仅在执行者返回的结构化输出上进行操作，避免了直接接触原始、未处理的网络内容，从而防止多步推理被破坏。
置信度引导的重规划：规划者在得出最终答案时会产生一个置信度分数；如果分数低于预定义的阈值，它将触发重规划以优化解决方案。这可以防止过早收敛，并允许在扩展的时间范围内进行自适应推理。

2. 执行者（Executor）：可扩展搜索引擎

高效、针对性检索：执行者通过与工具的程序化交互来实现高效、针对性的检索，为规划者提供简洁、相关的证据。
代码执行作为交互方式：执行者通过生成可执行代码来调用工具，这些代码在沙盒环境中执行，执行结果被封装并附加到模型的上下文中，从而实现无缝推理。
标准化搜索编程原语：执行者使用标准化的搜索编程原语（如 generate_keywords、batch_search 和 check_condition），这些原语封装了生成搜索查询、并行检索和应用可编程过滤逻辑的关键能力。这些原语减少了冗余，提高了灵活性和可扩展性，使得执行者能够高效地进行大规模网络探索。

3. 工具增强的程序化沙盒

工具设计：为了模拟人类的在线信息检索行为，设计了两个基本工具：网络搜索和网页解析。网络搜索工具利用搜索引擎定位相关网页，并提供实体相关事实、相关网页预览和相关搜索查询。网页解析工具则用于深入分析选定的网页，提取与用户查询直接相关的信息。
执行环境：为了支持多步工具使用，设计了一个具有持久内存的状态化代码执行沙盒。每个代理都被分配了一个隔离的执行环境，允许在多次运行之间保留和恢复执行状态，从而提供了类似 Jupyter Notebook 的体验，使得代理能够灵活地定义和重用函数、类和对象。

4. 实验验证

基准测试：在五个具有挑战性的基准测试（BrowseComp、BrowseComp-zh、xBench-DeepResearch、GAIA 和 WebWalkerQA）上对 BrowseMaster 进行了评估，这些基准测试涵盖了英语和中文任务。
性能对比：实验结果表明，BrowseMaster 在这些基准测试中均优于开源和专有的基线系统。例如，在 BrowseComp-en 上，BrowseMaster 达到了 30.0% 的准确率，成为首个达到这一里程碑的开源代理；在 BrowseComp-zh 上，它超过了 OpenAI 的 DeepResearch 4%。

通过上述方法，BrowseMaster 框架有效地解决了现有 LLM 代理在信息检索任务中搜索范围有限和推理深度不足的问题，实现了在复杂、推理密集型信息检索任务中的卓越性能。

Q: 论文做了哪些实验？

A: 论文中进行了广泛的实验来评估 BrowseMaster 框架的性能，这些实验涵盖了多个基准测试和多种语言的任务。以下是实验的详细设置和结果：

实验设置

1. 代理（Agent）

规划者（Planner）：使用 DeepSeek-R1-0528 驱动。
执行者（Executor）：使用 DeepSeek-R1。
参数设置：最大完成 tokens 数量设置为 64k，温度（temperature）设置为 0.6。

2. 基准测试（Benchmarks）

BrowseComp (Wei et al., 2025)：评估定位复杂、纠缠信息的能力。
BrowseComp-zh (Zhou et al., 2025)：BrowseComp 的中文版本，目标相似。
xBench-DeepResearch (Chen et al., 2025b)：动态基准，专注于评估搜索和信息检索任务中的工具使用。
GAIA (Mialon et al., 2023)：测试推理、网络浏览和一般工具使用能力。
WebWalkerQA (Wu et al., 2025b)：评估代理处理复杂、多层网络信息的能力。

由于搜索 API 的资源限制，BrowseComp 和 BrowseComp-zh 随机采样了 200 个示例。对于 GAIA，使用了其验证集中的文本查询（103 个样本）。评估使用了 xVerify-9B (Chen et al., 2025a) 用于 BrowseComp、BrowseComp-zh 和 xBench-DeepResearch，以及 GPT-4o (OpenAI, 2024a) 用于 WebWalkerQA 和 GAIA。

3. 基线（Baselines）

专有深度研究代理：包括 OpenAI DeepResearch、Grok3 DeepResearch、Doubao DeepResearch、Metaso DeepResearch 等。
先进模型：如 QwQ、DeepSeek-R1、GPT-4o、Gemini 2.5 Pro、o1 等。
开源代理：如 WebThinker、WebDancer、WebSailor、WebShaper、Agentic Reasoning 等。

主要结果

1. 性能对比

BrowseComp-en：BrowseMaster 达到了 30.0% 的准确率，成为首个达到这一里程碑的开源代理。
BrowseComp-zh：BrowseMaster 达到了 46.5% 的准确率，超过了 OpenAI 的 DeepResearch 4%，以及其他先进的专有模型。
xBench-DeepResearch：BrowseMaster 达到了 66.0% 的准确率。
GAIA：BrowseMaster 达到了 68.0% 的准确率。
WebWalkerQA：BrowseMaster 达到了 62.1% 的准确率。

这些结果表明 BrowseMaster 在多个基准测试中均优于开源和专有的基线系统，特别是在需要广泛搜索和深入推理的复杂任务中表现突出。

2. 性能分析

搜索调用量和计算量：实验结果表明，增加搜索调用量和计算量可以显著提升代理的性能。BrowseMaster 在扩展搜索调用和计算资源方面表现出色，尤其是在复杂的 BrowseComp 任务中。
工具调用效率：BrowseMaster 平均每次调用执行 12.11 个工具调用，最大可达 244.76 个调用，而其他代理如 WebThinker 每次调用仅限于一个工具调用。这表明 BrowseMaster 的代码驱动方法能够高效地进行大规模工具调用。
页面访问多样性：BrowseMaster 的搜索覆盖了更多样化的来源，与 WebThinker 相比，它能够访问更广泛的网页，从而在复杂的搜索任务中表现更好。
交互次数：复杂任务需要更多的交互次数，BrowseMaster 能够根据任务复杂性动态调整交互次数，确保在复杂任务中进行彻底和自信的解决方案。

详细实验结果

1. 性能对比表

基准测试

OpenAI DeepResearch

Grok3 DeepResearch

Doubao DeepResearch

Gemini 2.5 Pro

WebThinker

WebDancer

WebSailor

BrowseMaster

BrowseComp-en

12.0%

12.9%

26.0%

7.6%

1.5%

3.8%

12.0%

30.0%

BrowseComp-zh

42.9%

50+%

27.3%

7.3%

18.0%

30.1%

46.5%

xBench-DeepResearch

67.4%

24.0%

39.0%

55.0%

66.0%

GAIA

48.5%

51.5%

55.4%

68.0%

WebWalkerQA

39.4%

43.2%

52.2%

62.1%

2. 性能分析图

图 3：展示了 BrowseMaster 和基线系统在 BrowseComp 上的性能随搜索调用量和总 token 使用量的变化。结果表明，增加搜索调用量和计算量可以显著提升性能。
图 4：比较了 BrowseMaster 和 WebThinker 在 BrowseComp 上的工具调用次数。BrowseMaster 每次调用平均执行 12.11 个工具调用，最大可达 244.76 个调用，而 WebThinker 每次调用仅限于一个工具调用。
图 5：展示了不同基准测试中规划者和执行者之间的交互次数。复杂任务需要更多的交互次数，BrowseMaster 能够根据任务复杂性动态调整交互次数。
图 6：可视化了 BrowseMaster 和 WebDancer 在 BrowseComp 上访问的网页。BrowseMaster 的搜索覆盖了更多样化的来源。

结论

通过这些实验，论文证明了 BrowseMaster 框架在复杂信息检索任务中的优越性能。BrowseMaster 通过规划者和执行者的分工协作，结合程序化工具使用和战略推理，有效地平衡了搜索范围和推理深度，实现了高效、可扩展的信息检索。

Q: 有什么可以进一步探索的点？

A: 尽管 BrowseMaster 在多个基准测试中表现出色，但仍有一些可以进一步探索和改进的方向。以下是一些潜在的研究方向和改进点：

1. 进一步优化执行者的工具使用效率

改进搜索原语：虽然 BrowseMaster 已经使用了标准化的搜索编程原语（如 generate_keywords、

Authors: Xianghe Pang, Shuo Tang, Rui Ye, Yuwen Du, Yaxin Du, Siheng Chen

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2508.09129v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09129v1

Published: 2025-08-12T17:56:25Z

2. OpenCUA: Open Foundations for Computer-Use Agents

Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive open-source framework for scaling CUA data and foundation models. Our framework consists of: (1) an annotation infrastructure that seamlessly captures human computer-use demonstrations; (2) AgentNet, the first large-scale computer-use task dataset spanning 3 operating systems and 200+ applications and websites; (3) a scalable pipeline that transforms demonstrations into state-action pairs with reflective long Chain-of-Thought reasoning that sustain robust performance gains as data scales. Our end-to-end agent models demonstrate strong performance across CUA benchmarks. In particular, OpenCUA-32B achieves an average success rate of 34.8% on OSWorld-Verified, establishing a new state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA (GPT-4o). Further analysis confirms that our approach generalizes well across domains and benefits significantly from increased test-time computation. We release our annotation tool, datasets, code, and models to build open foundations for further CUA research.

中文摘要

视觉语言模型展示了其作为计算机使用代理（CUA）在自动化多种计算机任务方面的卓越能力。随着其商业潜力的增长，最强大CUA系统的关键细节仍然是闭合的。由于这些代理将越来越多地调解数字互动，并代表我们执行重要决策，研究社区需要访问开放的CUA框架，以研究其能力、局限性和风险。为缩小这一差距，我们提出了OpenCUA，一个全面的开源框架，用于扩展CUA数据和基础模型。我们的框架包括：(1) 一个注释基础设施，无缝捕捉人类计算机使用示范；(2) AgentNet，第一个跨越3个操作系统和200多个应用程序和网站的大规模计算机使用任务数据集；(3) 一个可扩展的管道，将示范转换为具有反思性长链思维推理的状态-行动对，随着数据的扩大而持续维持强大的性能提升。我们的端到端代理模型在CUA基准测试中表现出色。特别是，OpenCUA-32B在OSWorld-Verified上的平均成功率为34.8%，在开源模型中建立了新的最新成果（SOTA），超越了OpenAI CUA（GPT-4o）。进一步的分析确认，我们的方法在不同领域中具有良好的泛化能力，并且从增加的测试时间计算中显著受益。我们发布了我们的注释工具、数据集、代码和模型，以建立进一步CUA研究的开放基础。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决计算机使用代理（Computer-Use Agents, CUAs）在研究和应用中的几个关键问题：

缺乏开源框架：尽管CUAs在自动化多样化计算机任务方面展现出巨大潜力，但目前最先进的CUA系统的关键细节（包括训练数据、架构和开发过程）通常是封闭和专有的。这种缺乏透明度限制了技术进步，并引发了安全问题。研究社区需要真正开放的CUA框架来研究它们的能力、局限性和风险。
数据收集基础设施不足：目前没有开源的可扩展基础设施用于收集大规模的计算机使用数据。这需要实时捕获用户交互和状态信息，并将其转换为代理可执行的轨迹。现有的开源图形用户界面（GUI）数据集要么范围和规模有限，要么缺乏足够的多样性，无法满足通用计算机使用应用的需求。
模型训练和复制困难：许多CUA工作在提供其建模策略和训练配方方面的细节不足，即使可以访问收集到的数据，也难以复制这些工作。这限制了通用CUA的进步，并阻碍了对其可扩展性、泛化能力和潜在学习方法的有意义探索。

为了解决这些问题，论文提出了OPENCUA，一个全面的开源框架，用于扩展CUA数据和基础模型。该框架包括一个注释基础设施，用于无缝捕获人类计算机使用演示；一个大规模的计算机使用任务数据集AGENTNET；一个可扩展的管道，用于将演示转换为带有反思性长推理链（Chain-of-Thought, CoT）的状态-动作对；以及基于这些数据训练的端到端代理模型。

Q: 有哪些相关研究？

A: 论文中提到了多个与计算机使用代理（CUAs）相关的研究工作，这些工作主要集中在以下几个方面：

CUA 基准测试和数据集

OSWorld：一个用于评估多模态代理在真实计算机环境中完成开放性任务的基准测试，涵盖了多种应用程序和网站，涉及办公生产力、源代码编辑、文件管理和操作系统配置等任务。
WindowsAgentArena (WAA)：专注于评估代理在 Windows 系统上的多模态性能，包含多个 Windows 特有的应用程序以及一些 OSWorld 中也出现的开源程序。
Mind2Web：一个面向 Web 的代理基准测试，旨在评估代理在真实网站上完成复杂信息检索和导航任务的能力。
VisualWebArena：一个评估多模态代理在真实视觉 Web 任务上的性能的基准测试，涵盖了动态内容、长导航链和非平凡的信息检索子任务。
AgentTrek：一个通过将 Web 教程转换为代理轨迹来合成代理轨迹的数据集，为代理提供了丰富的训练数据。
OmniAct：一个包含桌面和 Web 领域的多模态数据集，旨在支持开发能够在多种环境中执行任务的通用代理。
AndroidControl、AMEX、AitW、AitZ、GUI Odyssey 等：这些数据集主要关注移动设备上的 GUI 任务，为移动 GUI 代理的研究提供了数据支持。
OS-Genesis：一个包含移动和 Web 应用程序的 GUI 数据集，为代理提供了跨设备的训练数据。
WonderBread：一个专注于 Web 领域的 GUI 数据集，提供了丰富的 Web 任务数据。
AgentNet：本文提出的第一个大规模桌面代理任务数据集，涵盖了多种操作系统和应用程序，为桌面代理的研究提供了丰富的数据资源。

CUA 框架和模型

基于文本的语言模型：这些模型主要操作结构化的 GUI 元数据，如 DOM 树或可访问性标签，并发出符号命令。例如早期的页面中心代理和最近的语言规划器，它们仍然避免使用原始像素。
基于视觉的代理：这些代理将屏幕图像整合到决策过程中。一些专注于将自然语言指令与 GUI 中的元素进行对齐，而另一些则追求端到端的策略，直接将屏幕截图转换为动作序列。
基于代理的框架：这些框架将大型语言模型与额外的组件（如专用视觉编码器、分层或基于搜索的规划器、情景记忆和工具 API）结合起来，以处理需要感知、推理和控制的长视界任务。
Agent s 和 Agent s2：这两个框架分别提出了基于上下文学习和模块化的代理，以及一个组合的通用主义者-专家框架，用于开发能够像人类一样使用计算机的代理。
Claude：Anthropic 开发的代理，展示了在计算机使用任务上的能力，尤其是在 Claude 4 版本中。
Qwen2-VL 和 Qwen2.5-VL：这些是通用的视觉语言模型，展示了在数字代理任务中的增强能力和对高分辨率理解的专长。
UI-TARS：一个专注于 GUI 交互的代理模型，通过将视觉语言模型与 GUI 交互任务对齐，实现了自动化 GUI 交互。
Seed1.5-VL：一个技术报告，可能与视觉语言模型在代理任务中的应用有关。
Aguvis：一个统一的纯视觉代理框架，用于自主 GUI 交互，提出了将视觉观察与动作预测相结合的方法。
ActRe：一个与动作相关的代理研究，可能涉及动作预测和执行的改进方法。
REACT：一个结合了推理和行动的框架，旨在通过协同作用提高语言模型在代理任务中的性能。

这些研究工作为本文提出的 OPENCUA 框架提供了背景和基础，同时也展示了该领域内的多样性和创新性。

Q: 论文如何解决这个问题？

A: 论文通过提出 OPENCUA，一个全面的开源框架，来解决计算机使用代理（CUAs）在研究和应用中的关键问题。OPENCUA 框架主要通过以下几个方面来解决问题：

1. 提供开源的注释基础设施

AGENTNET TOOL：开发了一个用户友好的跨操作系统（OS）的计算机任务注释应用，可以在个人计算机上安装，无缝记录自然的人类演示和相应的计算机状态，而不会干扰用户的正常工作流程。该工具能够捕获屏幕视频、鼠标和键盘信号以及可访问性树（Axtree），并将这些数据处理成状态-动作轨迹，供标注者审查、编辑和提交。

2. 构建大规模计算机使用任务数据集

AGENTNET 数据集：收集了包含 22,625 个人类标注的计算机使用任务轨迹的数据集，涵盖了 100 多个应用程序和 200 多个网站，跨越 Windows、macOS 和 Ubuntu 三个操作系统。这些任务平均包含 18.6 个步骤，反映了任务的复杂性。该数据集是第一个大规模的桌面轨迹级数据集，具有真实性、复杂性、多样性和多模态的特点。

3. 提出可扩展的数据处理和模型训练方法

数据处理管道：开发了一个动作离散化管道，将原始的人类演示（通常包括视频和高频、冗余的键盘/鼠标动作）转换为适合视觉语言模型训练的状态-动作对。此外，提出了一个反射性长推理链（Chain-of-Thought, CoT）合成方法，通过自然语言“内心独白”显式地注入规划、记忆和反思，帮助代理检测和纠正错误。
模型训练方法：提出了一种新颖的训练方法，包括多图像历史编码、测试时推理格式和数据混合策略。通过这些方法，模型能够在训练时利用丰富的推理信息，并在测试时进行更有效的推理。

4. 提供高效的评估基准

AGENTNETBENCH：基于收集到的人类演示，构建了一个离线评估基准，提供了每个步骤的多个标准动作选项，高效地近似在线指标，显著加速了代理的评估和开发。

5. 开源完整的框架组件

工具、数据集、代码和模型：为了建立开放的CUA研究基础，作者开源了完整的OPENCUA框架，包括注释工具、收集到的数据集、代码、评估基准和模型，为进一步的CUA研究提供了开放的基础。

通过这些措施，OPENCUA框架不仅提供了大规模的高质量训练数据，还提出了有效的数据处理和模型训练方法，使得CUA模型能够在多样化的任务中表现出色，并具有良好的可扩展性和泛化能力。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估 OPENCUA 框架及其模型的性能和特性：

1. 在线代理评估实验

OSWorld-Verified：这是一个在线评估基准，包含 369 个人类编写的任务，涵盖各种应用程序。作者通过公共评估在 AWS 基础设施上测试了模型，并报告了 15 步、50 步和 100 步预算下的成功率。实验结果表明，OPENCUA-32B 在 100 步预算下达到了 34.8% 的成功率，成为开源模型中的新最高水平，甚至超过了基于 GPT-4o 的 OpenAI CUA（31.4%）。
WindowsAgentArena (WAA)：这是一个专注于 Windows 系统的在线评估基准，包含 154 个任务。作者在该基准上测试了模型，并报告了 15 步预算下的成功率。实验结果表明，OPENCUA-32B 在 WAA 上的表现优于其他开源模型。

2. 离线代理评估实验

AGENTNETBENCH：这是一个离线评估基准，包含 100 个代表性任务，涵盖了 Windows 和 macOS 上的多种应用程序。作者将模型分为零样本模型（未在 AGENTNET 上训练的模型）和微调模型（OPENCUA-7B 和 OPENCUA-32B）。实验结果表明，OPENCUA-32B 在离线基准上表现最佳，其平均成功率高于其他模型。

3. GUI 接地评估实验

OSWorld-G：这是一个 GUI 接地基准，包含 564 个样本，系统地覆盖了文本匹配、元素识别、布局理解和细粒度操作。作者在该基准上测试了模型，并报告了成功率。实验结果表明，OPENCUA-32B 在 OSWorld-G 上的表现优于其他开源模型。
Screenspot-V2：这是一个包含移动、桌面和 Web 平台截图的 GUI 接地基准。作者在该基准上测试了模型，并报告了成功率。实验结果表明，OPENCUA-32B 在 Screenspot-V2 上的表现优于其他开源模型。
Screenspot-Pro：这是一个专注于高分辨率桌面环境（尤其是专业设置）的 GUI 接地基准。作者在该基准上测试了模型，并报告了成功率。实验结果表明，OPENCUA-32B 在 Screenspot-Pro 上的表现优于其他开源模型。

4. 数据规模对性能的影响实验

作者研究了数据规模对模型性能的影响，包括跨域数据、域内数据和域外数据的影响。实验结果表明，随着数据量的增加，模型性能在多个基准测试中均有所提高，这表明大规模、多样化的 CUA 数据对于模型泛化至关重要。

5. 测试时推理格式实验

作者测试了不同推理格式（L1、L2 和 L3）在测试时对模型性能的影响。实验结果表明，使用 L2 推理格式（包含更丰富的推理内容）的模型在测试时表现最佳，这表明在推理时提供高质量、非冗余的推理可以利用 VLM 的语言推理能力来提高代理性能。

6. 视觉历史和文本历史表示实验

作者研究了不同数量的视觉历史图像（1、3 和 5 张）对模型性能的影响。实验结果表明，使用 3 张图像作为视觉历史在性能和效率之间取得了最佳平衡。此外，作者还比较了 L1 和 L2 历史表示，发现 L1 历史表示在测试时更为有效。

7. 数据混合策略实验

作者测试了使用混合推理格式（L1、L2 和 L3）与仅使用 L2 数据训练模型的性能差异。实验结果表明，使用混合推理格式训练的模型性能优于仅使用 L2 数据训练的模型。

8. 一般文本数据对代理性能的影响实验

作者研究了在训练中加入一般文本数据对代理性能的影响。实验结果表明，加入一般文本数据可以略微提高模型的代理性能，这表明来自完全不同领域的文本数据不会损害代理模型的性能，反而有助于提高其泛化和指令理解能力。

9. 反思性长 CoT 对性能的影响实验

作者进行了没有反思性长 CoT 的消融实验。实验结果表明，反思性长 CoT 显著提高了模型性能，这表明反思性推理有助于改进错误纠正能力。

10. 模型性能上限分析实验

作者通过在 OSWorld 上进行 Pass@n 评估来分析模型性能的上限。实验结果表明，模型在 Pass@1 和 Pass@16 之间存在显著的性能差距，这表明模型在测试时具有较大的性能提升空间。

11. 模型鲁棒性实验

作者通过在 OSWorld 上进行不同温度下的 Pass@n 评估来分析模型的鲁棒性。实验结果表明，模型在温度为 0 时表现出较高的鲁棒性，但在温度为 0.1 时，Pass@n 性能更高，而 Pass@1 性能较低。

这些实验全面评估了 OPENCUA 框架及其模型在不同基准测试和条件下的性能，验证了框架的有效性和模型的可扩展性、泛化能力和鲁棒性。

Q: 有什么可以进一步探索的点？

A: 尽管 OPENCUA 框架在计算机使用代理（CUAs）的研究中取得了显著进展，但仍有一些可以进一步探索的方向：

1. 数据集扩展和多样化

扩大数据集规模：尽管 AGENTNET 数据集已经相当大，但进一步扩大数据集的规模可以提高模型的泛化能力。可以考虑引入更多的操作系统、应用程序和用户场景。
多样化任务类型：目前的数据集主要集中在桌面和 Web 应用程序上，可以探索更多类型的计算机任务，如移动设备上的任务、嵌入式系统中的任务等。
半自动化注释方法：探索更高效的注释方法，如半自动化注释工具，以减少人工注释的成本和时间。

2. 模型架构和训练方法

多模态融合：目前的模型主要依赖于视觉输入，可以探索将语音、手势等其他模态信息融合到模型中，以提高代理的交互能力和自然性。
强化学习：目前的模型主要基于监督学习，可以探索强化学习方法，让代理在与环境的交互中自主学习，从而提高其适应性和鲁棒性。
持续学习：研究如何让代理在执行任务的过程中不断学习和适应新的任务和环境，以提高其长期性能。

3. 性能优化和效率提升

计算效率：尽管模型在性能上取得了进步，但计算效率仍有待提高。可以探索更高效的模型架构和训练方法，以减少计算资源的消耗。
实时性：提高代理在实时任务中的性能，特别是在需要快速响应的场景中，如游戏或实时监控系统。

4. 安全性和可靠性

安全性：研究如何确保代理在执行任务时不会引入安全风险，如恶意软件或数据泄露。
可靠性：提高代理在面对复杂和动态环境时的可靠性，减少错误和失败的可能性。

5. 用户交互和体验

自然语言交互：研究如何让代理更好地理解和生成自然语言，以提高用户交互的自然性和流畅性。
个性化：探索如何根据用户的偏好和习惯来定制代理的行为，以提高用户满意度。

6. 跨领域应用

医疗保健：研究如何将代理应用于医疗保健领域，如辅助诊断、患者监护等。
教育：探索代理在教育领域的应用，如个性化学习、智能辅导等。
工业自动化：研究如何将代理应用于工业自动化，如机器人控制、生产流程优化等。

7. 社会影响和伦理问题

社会影响：研究代理对社会的影响，如就业、隐私等，并提出相应的解决方案。
伦理问题：探讨代理在决策过程中可能涉及的伦理问题，如偏见、公平性等，并制定相应的准则和规范。

8. 理论研究

推理和规划：深入研究代理的推理和规划机制，以提高其在复杂任务中的表现。
认知模型：探索如何将人类的认知模型融入代理的设计中，以提高其智能水平。

这些方向不仅可以进一步提升 OPENCUA 框架的性能和应用范围，还可以推动整个计算机使用代理领域的发展。

Q: 总结一下论文的主要内容

A: 这篇论文提出了 OPENCUA，一个全面的开源框架，旨在推动计算机使用代理（CUAs）的研究和开发。OPENCUA 通过提供开放的注释基础设施、大规模数据集、有效的数据处理和模型训练方法，以及高效的评估基准，解决了当前 CUAs 在研究和应用中的关键问题。以下是论文的主要内容总结：

研究背景与动机

CUAs 的潜力与挑战：CUAs 通过视觉语言模型（VLMs）展现出在自动化多样化计算机任务中的巨大潜力，但目前最先进的 CUAs 系统的关键细节通常是封闭和专有的。这种缺乏透明度限制了技术进步，并引发了安全问题。
开源框架的需求：研究社区需要开放的 CUAs 框架来研究它们的能力、局限性和风险。然而，现有的开源尝试面临数据收集基础设施不足、数据集规模和多样性有限、模型训练和复制困难等挑战。

OPENCUA 框架

AGENTNET TOOL：一个用户友好的跨操作系统（OS）的计算机任务注释应用，能够无缝记录自然的人类演示和相应的计算机状态，而不会干扰用户的正常工作流程。
AGENTNET 数据集：第一个大规模的桌面代理任务数据集，包含 22,625 个人类标注的计算机使用任务轨迹，涵盖了 100 多个应用程序和 200 多个网站，跨越 Windows、macOS 和 Ubuntu 三个操作系统。
数据处理和模型训练：提出了一种动作离散化管道，将原始的人类演示转换为适合视觉语言模型训练的状态-动作对，并引入了反射性长推理链（Chain-of-Thought, CoT）合成方法，通过自然语言“内心独白”显式地注入规划、记忆和反思。
AGENTNETBENCH：一个离线评估基准，包含 100 个代表性任务，提供了每个步骤的多个标准动作选项，高效地近似在线指标，显著加速了代理的评估和开发。

实验与结果

在线代理评估：在 OSWorld-Verified 和 WindowsAgentArena (WAA) 上测试了模型，OPENCUA-32B 在 100 步预算下达到了 34.8% 的成功率，成为开源模型中的新最高水平，甚至超过了基于 GPT-4o 的 OpenAI CUA（31.4%）。
离线代理评估：在 AGENTNETBENCH 上测试了模型，OPENCUA-32B 表现最佳，其平均成功率高于其他模型。
GUI 接地评估：在 OSWorld-G、Screenspot-V2 和 Screenspot-Pro 上测试了模型，OPENCUA-32B 在所有基准上均表现优于其他开源模型。
数据规模影响：研究了数据规模对模型性能的影响，发现随着数据量的增加，模型性能在多个基准测试中均有所提高。
推理格式实验：测试了不同推理格式（L1、L2 和 L3）在测试时对模型性能的影响，发现使用 L2 推理格式的模型在测试时表现最佳。
历史表示实验：研究了不同数量的视觉历史图像和文本历史表示对模型性能的影响，发现使用 3 张图像作为视觉历史和 L1 历史表示在性能和效率之间取得了最佳平衡。
数据混合策略实验：测试了使用混合推理格式（L1、L2 和 L3）与仅使用 L2 数据训练模型的性能差异，发现混合推理格式训练的模型性能更优。
一般文本数据影响实验：研究了在训练中加入一般文本数据对代理性能的影响，发现加入一般文本数据可以略微提高模型的代理性能。
反思性长 CoT 实验：进行了没有反思性长 CoT 的消融实验，发现反思性长 CoT 显著提高了模型性能。
性能上限分析：通过在 OSWorld 上进行 Pass@n 评估来分析模型性能的上限，发现模型在 Pass@1 和 Pass@16 之间存在显著的性能差距。
鲁棒性实验：通过在 OSWorld 上进行不同温度下的 Pass@n 评估来分析模型的鲁棒性，发现模型在温度为 0 时表现出较高的鲁棒性，但在温度为 0.1 时，Pass@n 性能更高，而 Pass@1 性能较低。

结论

OPENCUA 框架通过提供开放的注释基础设施、大规模数据集、有效的数据处理和模型训练方法，以及高效的评估基准，为 CUAs 的研究和开发提供了坚实的基础。实验结果表明，OPENCUA 模型在多个基准测试中表现出色，具有良好的可扩展性、泛化能力和鲁棒性。通过开源所有组件，OPENCUA 旨在加速透明的 CUAs 研究，使研究社区能够系统地研究这些代理的能力、局限性和风险。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu

Categories: cs.AI, cs.CV

PDF URL: https://arxiv.org/pdf/2508.09123v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09123v1

Published: 2025-08-12T17:52:32Z

3. RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

中文摘要

多智能体大语言模型（LLM）系统在复杂推理和协作决策任务中展示了强大的潜力。然而，大多数现有的协调方案依赖于静态或全上下文的路由策略，这导致了过度的令牌消耗、冗余的内存暴露以及在交互轮次中的适应性有限。我们引入了RCR-Router，一个模块化且角色感知的上下文路由框架，旨在支持多智能体LLM中的高效和自适应协作。据我们所知，这是第一种动态选择与每个智能体的角色和任务阶段相关的语义内存子集的路由方法，同时严格遵循令牌预算。一种轻量级评分策略指导内存选择，并且智能体输出被迭代整合到共享内存存储中，以促进逐步的上下文优化。为了更好地评估模型行为，我们进一步提出了一个答案质量评分指标，捕捉LLM生成的解释，超越标准的问答准确性。在三个多跳问答基准（HotPotQA、MuSiQue和2WikiMultihop）上的实验表明，RCR-Router减少了令牌使用（最多减少30%），同时改善或维持了答案质量。这些结果突显了结构化内存路由和输出感知评估在推动可扩展的多智能体LLM系统中的重要性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决多智能体大型语言模型（LLM）系统在复杂推理和协作决策任务中的上下文管理问题。具体来说，它关注的挑战包括：

现有协调方案的局限性：
- 静态路由：大多数现有的多智能体LLM系统依赖于静态上下文路由策略，即每个智能体根据预定义的模板接收固定的输入。这种策略虽然简单，但缺乏灵活性，无法适应任务需求的变化。
- 全上下文路由：另一种常见方法是全上下文路由，即在每一步都向所有智能体提供完整的内存或交互历史。这种方法虽然保证了信息的完整性，但会导致过多的标记（token）消耗，增加计算成本，并且容易引入冗余或不相关信息，降低系统效率。
资源效率问题：
- 标记消耗：在多智能体系统中，每个智能体的输入通常包含大量的标记，这不仅增加了计算成本，还可能导致信息过载，影响智能体的推理效率。
- 上下文预算：在实际应用中，需要对智能体的上下文大小进行限制，以确保系统的可扩展性和效率。然而，现有的方法缺乏对上下文预算的有效管理。
适应性问题：
- 任务阶段变化：多智能体任务通常涉及多个阶段，每个阶段对智能体的需求不同。现有的方法无法根据任务阶段动态调整上下文，导致智能体无法充分利用相关信息。
- 智能体角色变化：不同的智能体在任务中扮演不同的角色（如规划者、搜索者、总结者等），但现有的方法无法根据智能体的角色动态选择上下文，影响了智能体的协作效率。

为了解决这些问题，论文提出了RCR-Router，这是一个模块化且角色感知的上下文路由框架，旨在实现高效、适应性强的多智能体LLM系统协作。

Q: 有哪些相关研究？

多智能体LLM系统

X-MAS (Ye et al. 2025): 探索了异构LLM多智能体系统，并通过不同LLM的协作显著提高了性能。
AutoGen (Wu et al. 2023): 开发了一个灵活的框架，用于定义智能体之间的交互。
MetaGPT (Hong et al. 2023): 将有效的人类工作流程作为元编程方法融入LLM驱动的多智能体协作中。
AgentScope (Gao et al. 2024): 提出了一个以开发人员为中心的多智能体平台，以消息交换为核心通信机制。
LangChain (Chase 2024): 通过LangGraph设计能够可靠处理复杂任务的智能体。
CrewAI (crewai 2025): 提供了一个用于协作自动化的AI智能体平台。

LLM智能体的内存管理

Memory Management (MM) (Hatalis et al. 2023): 建议在程序性和语义记忆中使用元数据，并将外部知识源与向量数据库集成。
Memory Sandbox (Huang et al. 2023): 提供了一个交互式系统和设计探针，允许用户管理由LLM驱动的智能体的对话记忆。
A-mem (Xu et al. 2025): 提出了一个代理记忆系统，能够以代理的方式动态组织记忆。
AIOS (Mei et al. 2024): 提出了LLM基础智能体操作系统的架构。
HIAGENT (Hu et al. 2024): 利用子目标作为记忆块来分层管理LLM基础智能体的工作记忆。
RoRA (Liu et al. 2025a): 提出了Rank-adaptive Reliability Optimization (RoRA)，通过优化LoRA的缩放因子来在有限的内存内最大化性能。
HMMI (Xiong et al. 2025): 研究了内存管理选择如何影响智能体在挑战性条件下的行为，例如任务分布变化和受限的内存资源。

Q: 论文如何解决这个问题？

1. 动态上下文选择

2. 角色感知和任务阶段感知的路由策略

3. 标记预算分配

4. 重要性评分机制

5. 语义过滤和路由逻辑

6. 迭代路由与反馈机制

7. 共享内存更新

8. 实验验证

总结

通过上述机制，RCR-Router 提供了一种高效、适应性强的上下文管理解决方案，能够显著提高多智能体 LLM 系统在复杂推理任务中的性能和效率。

Q: 论文做了哪些实验？

A: 论文通过一系列实验来评估 RCR-Router 在多智能体大型语言模型（LLM）系统中的有效性和效率。实验主要集中在以下几个方面：

1. 基准测试

论文选择了三个多跳问答（QA）基准测试来评估 RCR-Router 的性能：

HotPotQA (Yang et al. 2018): 一个需要多跳推理的问答数据集，涉及多个文档的信息整合。
MuSiQue (Trivedi et al. 2022): 通过单跳问题组合生成多跳问题的数据集，强调推理链的构建。
2wikimultihop (Ho et al. 2020): 强调明确的推理链和证据路径构建，适合结构化记忆的多智能体推理。

2. 评估指标

为了全面评估模型的性能，论文采用了以下指标：

平均运行时间：完成任务所需的总时间。
标记消耗：所有智能体在所有交互轮次中使用的标记总数。
答案质量：通过一个自动评分机制（Answer Quality Score）评估生成答案的质量，该机制基于多个标准（如正确性、相关性、完整性和清晰度）。
标准问答指标：包括精确度（Precision）、召回率（Recall）和 F1 分数。

3. 基线方法

为了突出 RCR-Router 的优势，论文将其与以下两种基线方法进行了比较：

全上下文路由（Full-Context Routing）：每个智能体在每一轮都接收完整的共享内存作为上下文。
静态路由（Static Routing）：每个智能体根据预定义的模板接收固定的上下文子集。

4. 实验结果

HotPotQA

RCR-Router：平均运行时间 93.52 秒，标记消耗 3.77K，答案质量 4.91，精确度 81.2%，召回率 83.6%，F1 分数 82.4%。
静态路由：平均运行时间 128.29 秒，标记消耗 3.85K，答案质量 4.35，精确度 74.8%，召回率 77.5%，F1 分数 76.1%。
全上下文路由：平均运行时间 150.65 秒，标记消耗 5.10K，答案质量 4.17，精确度 72.3%，召回率 75.1%，F1 分数 73.7%。

MuSiQue

RCR-Router：平均运行时间 45.09 秒，标记消耗 11.89K，答案质量 4.61，精确度 78.4%，召回率 79.5%，F1 分数 79.0%。
静态路由：平均运行时间 47.17 秒，标记消耗 12.93K，答案质量 4.32，精确度 72.6%，召回率 73.9%，F1 分数 73.2%。
全上下文路由：平均运行时间 57.46 秒，标记消耗 13.41K，答案质量 4.16，精确度 69.7%，召回率 70.5%，F1 分数 70.1%。

2wikimultihop

RCR-Router：平均运行时间 82.50 秒，标记消耗 1.24K，答案质量 4.83，精确度 80.1%，召回率 81.6%，F1 分数 80.8%。
静态路由：平均运行时间 90.20 秒，标记消耗 1.42K，答案质量 4.28，精确度 73.2%，召回率 74.8%，F1 分数 74.0%。
全上下文路由：平均运行时间 96.40 秒，标记消耗 2.34K，答案质量 4.07，精确度 70.5%，召回率 72.1%，F1 分数 71.3%。

5. 消融研究

论文还进行了消融研究，以进一步分析 RCR-Router 的不同组件和参数设置的影响：

标记预算的影响：通过改变每个智能体的标记预算（如 512、1024、2048、4096），研究了标记预算对性能的影响。结果表明，随着标记预算的增加，标记消耗和运行时间增加，但答案质量的提升逐渐趋于平缓。
迭代路由的影响：通过改变路由迭代次数（如 1、2、3、4、5），研究了迭代路由机制对性能的影响。结果表明，增加迭代次数可以提高答案质量，但超过一定次数后，性能提升逐渐减少。

6. 计算开销

总结

Q: 有什么可以进一步探索的点？

Authors: Jun Liu, Zhenglun Kong, Changdi Yang, Fan Yang, Tianqi Li, Peiyan Dong, Joannah Nanjekye, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

Categories: cs.CL, cs.AI, cs.MA

PDF URL: https://arxiv.org/pdf/2508.04903v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.04903v3

Published: 2025-08-06T21:59:34Z

4. Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions

We present an end-to-end framework for generating synthetic users for evaluating interactive agents designed to encourage positive behavior changes, such as in health and lifestyle coaching. The synthetic users are grounded in health and lifestyle conditions, specifically sleep and diabetes management in this study, to ensure realistic interactions with the health coaching agent. Synthetic users are created in two stages: first, structured data are generated grounded in real-world health and lifestyle factors in addition to basic demographics and behavioral attributes; second, full profiles of the synthetic users are developed conditioned on the structured data. Interactions between synthetic users and the coaching agent are simulated using generative agent-based models such as Concordia, or directly by prompting a language model. Using two independently-developed agents for sleep and diabetes coaching as case studies, the validity of this framework is demonstrated by analyzing the coaching agent’s understanding of the synthetic users’ needs and challenges. Finally, through multiple blinded evaluations of user-coach interactions by human experts, we demonstrate that our synthetic users with health and behavioral attributes more accurately portray real human users with the same attributes, compared to generic synthetic users not grounded in such attributes. The proposed framework lays the foundation for efficient development of conversational agents through extensive, realistic, and grounded simulated interactions.

中文摘要

我们提出了一个端到端框架，用于生成合成用户，以评估旨在鼓励积极行为变化（如健康和生活方式辅导）的互动代理。合成用户基于健康和生活方式条件，尤其是在本研究中的睡眠和糖尿病管理，以确保与健康辅导代理的真实互动。合成用户的创建分为两个阶段：首先，生成基于现实世界健康和生活方式因素的结构化数据，并结合基本的人口统计和行为特征；其次，基于结构化数据开发合成用户的完整档案。合成用户与辅导代理之间的交互使用生成的基于代理的模型（如Concordia）进行模拟，或直接通过提示语言模型实现。以两个独立开发的睡眠和糖尿病辅导代理为案例研究，通过分析辅导代理对合成用户需求和挑战的理解，证明了该框架的有效性。最后，通过多次盲评人类专家对用户与教练互动的评估，我们证明了我们的合成用户在健康和行为特征上比不基于这些特征的一般合成用户更准确地描绘出具有相同特征的真实人类用户。所提出的框架为通过广泛、真实和基于模拟的互动有效开发对话代理奠定了基础。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一个端到端的框架，用于生成合成用户（synthetic users），以评估旨在鼓励积极行为改变的交互式代理（interactive agents），特别是在健康和生活方式辅导领域。具体来说，它试图解决以下几个问题：

交互式代理的个性化和有效性评估：
- 交互式代理（如健康和生活方式辅导代理）需要通过与用户的互动来评估其效果，但收集和评估与真实用户的长期互动既耗时又昂贵。
- 通过生成合成用户进行模拟互动，可以加速这些代理的开发和评估过程。
合成用户的现实基础：
- 现有的合成用户生成方法往往缺乏对特定健康和行为属性的现实基础，导致生成的用户不够真实，无法准确反映真实用户的需求和挑战。
- 本研究通过基于真实世界的人口统计数据、健康和行为因素生成合成用户，确保这些用户在与辅导代理互动时能够真实地反映其需求和挑战。
合成用户的多样化和代表性：
- 为了确保合成用户能够代表目标人群中的各种亚群体，研究中采用了特定的抽样方法，可以对合成用户的属性分布进行显式控制，从而更好地反映现实世界中的人群分布。
合成用户的互动模拟：
- 提供了一种方法，通过生成自然语言“小插曲”（vignettes）和使用生成型代理模型（如Concordia）或直接通过语言模型提示来模拟合成用户与辅导代理之间的互动。
- 这种方法不仅能够生成合成用户的背景信息，还能在互动中动态地展示这些信息，从而更真实地模拟真实用户与代理之间的互动过程。
合成用户的有效性验证：
- 通过在睡眠辅导和糖尿病辅导两个独立领域中验证合成用户与辅导代理互动的有效性，证明了所提出框架能够生成准确反映真实用户属性的合成用户。
- 通过人类专家的多轮盲评，进一步验证了这些合成用户在与辅导代理互动时能够更准确地展现真实用户的行为和挑战。

总的来说，这篇论文的目标是通过生成具有现实基础的合成用户，为交互式代理的开发和评估提供一种高效、现实且可扩展的方法。

Q: 有哪些相关研究？

A: 论文中提到了多个与生成合成用户（synthetic users）相关的研究，这些研究主要集中在以下几个方面：

1. LLMs作为合成用户（Synthetic Personas）

Castricato et al. (2024): 通过美国人口普查数据生成合成用户，并利用这些用户构建评估数据集，用于评估LLMs的输出。这种方法能够针对特定用户进行建模，而不仅仅是通用用户类别。
Moon et al. (2024): 研究了如何通过LLMs生成具有特定人格特质（如大五人格维度）的合成用户。研究表明，经过指令微调的模型能够更可靠地展示人格特质，并且大型模型更适合表达复杂特质和模拟社交行为。
Serapio-García et al. (2023): 探讨了LLMs在健康或保健设置中提供建议的应用，强调了人格特质在有效沟通中的重要性，并展示了如何通过指令微调来控制人格特质。

2. LLMs和合成用户在健康领域的应用

Tu et al. (2024): 介绍了AMIE（Articulate Medical Intelligence Explorer），这是一个用于对话式医疗诊断的LLM代理。AMIE通过自玩（self-play）和从多个数据库中检索信息来生成患者和医生的对话，展示了在医疗诊断中的高准确性。
Yu et al. (2024): 描述了基于MIMIC-III数据库中特定医疗历史的患者群体模拟方法。该方法通过知识图谱表示每个患者的医疗和人口统计状态，并根据医生的查询从图中检索信息。
Johri et al. (2025): 描述了在医学中评估LLM系统用于患者病史收集时使用合成用户的方法。这些患者代理被明确指示不展示医学知识或生成超出“小插曲”中给出的症状。

3. 生成型代理模型（Generative Agent-Based Models）

Vezhnevets et al. (2023): 介绍了Concordia系统，这是一个用于生成代理互动（特别是基于对话的互动）的框架。Concordia通过关联记忆和链式思考推理确保代理的发言基于提供的背景故事，并且提供了详细的日志记录功能，便于研究生成代理互动的内部过程。

4. 使用LLM衍生合成用户（LLM-Derived Synthetic Personas）的挑战

Kapania et al. (2024): 讨论了使用LLMs作为合成用户时面临的挑战，包括LLMs无法代表人类经验的多样性或不同个体特征之间的相关性，以及可能缺乏深度和背景知识。
Gui and Toubia (2023): 从因果推断的角度讨论了使用LLMs模拟合成用户时可能遇到的问题，例如提供特定建议可能会意外地改变其他因素。

这些研究为本文提出的框架提供了理论和实践基础，特别是在生成具有现实基础的合成用户方面。通过结合这些研究的成果，本文提出了一种更全面、更现实的方法来生成合成用户，以用于评估健康和生活方式辅导代理。

Q: 论文如何解决这个问题？

A: 论文通过一个端到端的框架来解决生成具有现实基础的合成用户的问题，以用于评估健康和生活方式辅导代理。以下是解决该问题的具体步骤和方法：

1. 生成合成用户的框架

基于真实数据生成结构化数据：
- 从真实的人口统计数据、健康和行为因素中采样，生成合成用户的结构化数据。这些数据包括基本人口统计信息（如年龄、性别）、健康和生活方式因素（如睡眠数据、BMI）以及行为和心理特质（如大五人格维度）。
- 通过特定的抽样方法，可以显式控制这些属性的分布，确保合成用户能够代表目标人群中的各种亚群体。
生成自然语言“小插曲”（Vignettes）：
- 基于结构化数据，生成自然语言描述的“小插曲”，这些描述包括合成用户的背景故事、健康状况、行为目标和障碍等。
- 可以选择性地添加额外的健康条件和丰富的背景故事，以增强合成用户的现实感和深度。

2. 模拟合成用户与辅导代理的互动

使用生成型代理模型（Generative Agent-Based Models）：
- 利用生成型代理模型（如Concordia）或直接通过语言模型提示来模拟合成用户与辅导代理之间的互动。
- 在互动过程中，合成用户根据其背景故事和目标生成自然语言响应，确保互动的真实性和连贯性。

3. 验证合成用户的有效性

内部用户模型的比较：
- 通过比较辅导代理内部用户模型与合成用户的“真实”健康状况，验证合成用户在互动中是否能够准确传达其健康状况、行为目标和障碍。
- 使用精确度（precision）和召回率（recall）等指标来评估辅导代理对合成用户需求的理解程度。
人类专家的评估：
- 通过多轮盲评，让人类专家评估合成用户与辅导代理互动的真实性和有效性。
- 比较基于现实健康和行为属性的合成用户与仅基于人口统计信息的通用合成用户，验证前者在模拟真实用户行为和挑战方面的优越性。

4. 具体实验验证

睡眠辅导实验：
- 使用LifeSnaps数据集生成合成用户，这些用户具有真实的睡眠数据和行为特质。
- 通过与睡眠辅导代理的互动，验证合成用户在传达睡眠问题、目标和障碍方面的有效性。
- 通过内部用户模型的比较和人类专家的评估，证明合成用户能够准确反映真实用户的睡眠状况。
糖尿病辅导实验：
- 使用Project Baseline Health Study数据集生成合成用户，这些用户具有真实的糖尿病相关数据和行为特质。
- 通过与糖尿病辅导代理的互动，验证合成用户在传达糖尿病管理中的障碍和目标方面的有效性。
- 通过人类专家的评估，证明合成用户在模拟真实用户行为和挑战方面的优越性。

5. 总结和未来工作

框架的普适性：
- 该框架不仅适用于睡眠和糖尿病辅导领域，还可以扩展到其他健康和生活方式辅导领域。
- 通过生成大量现实基础的合成用户，可以为辅导代理的开发和评估提供高效、现实且可扩展的方法。
未来工作：
- 探索如何利用生成的合成用户数据来改进辅导代理的性能，例如通过微调或强化学习循环。
- 研究如何更有效地模拟合成用户的行为变化，包括模拟用户对辅导建议的依从性和非依从性。

通过上述方法，论文提出了一种系统化的解决方案，能够生成具有现实基础的合成用户，从而为健康和生活方式辅导代理的开发和评估提供有力支持。

Q: 论文做了哪些实验？

A: 论文中进行了两个主要的实验，分别针对睡眠辅导和糖尿病辅导领域，以验证所提出的生成合成用户的框架的有效性。以下是这两个实验的详细内容：

1. 睡眠辅导实验（Sleep Coaching Experiment）

1.1 合成用户的生成

数据来源：使用LifeSnaps数据集，包含参与者的人口统计信息、智能手表测量的睡眠数据、健康行为和心理特质调查等。
生成过程：
- 从LifeSnaps数据集中生成合成用户的“睡眠档案”，包括“主要睡眠问题”、“睡眠目标”、“目标原因”和“障碍”四个关键属性。
- 使用自然语言生成这些属性，形成合成用户的“小插曲”（vignettes）。
- 在Concordia系统中实例化每个合成用户，确保对话历史和背景故事包含在生成每个后续话语的上下文中。

1.2 睡眠辅导代理

代理架构：基于Christakopoulou等人的工作，采用“Talker”和“Reasoner”两个代理的系统。Reasoner负责根据对话历史生成用户内部模型，而Talker负责生成对话。
LLM引擎：使用Gemini 1.5 Pro作为两个代理的LLM引擎。

1.3 评估方法

内部用户模型比较：
- 在10轮互动后，比较辅导代理内部用户模型与合成用户的“真实”睡眠档案。
- 使用精确度和召回率评估代理对合成用户睡眠目标和障碍的理解程度。
- 结果显示，代理能够以89.7%的准确率识别合成用户的主要睡眠问题，对于障碍和睡眠目标的平均召回率和精确率分别为71.4%、72.5%和66.4%、84.2%。
人类专家评估：
- 五位人类专家对两种合成用户（完整合成用户和仅基于人口统计信息的合成用户）与同一睡眠辅导代理的互动进行评估。
- 专家们压倒性地倾向于选择完整合成用户，差异具有高度统计学意义（p值=3.7×10^-12），且具有高的一致性（64%的案例达到完全5/5的一致性，91%的案例达到4/5或更高的共识）。

2. 糖尿病辅导实验（Diabetes Coaching Experiment）

2.1 合成用户的生成

数据来源：使用Project Baseline Health Study（PBHS）数据集，包含345名2型糖尿病患者的多样化人口统计、社会、医疗和健康属性。
生成过程：
- 从PBHS数据集中采样，生成合成用户的“小插曲”，包括人口统计信息、社会环境、医疗数据和特定障碍。
- 使用LLM生成连贯的背景故事，确保故事与障碍一致，且不包含具体的障碍术语。
- 生成沟通风格字段，如语气、话痨程度和自信度，以完成最终的“小插曲”。

2.2 糖尿病辅导代理

代理架构：基于Yang等人的工作，构建了一个帮助用户设定健康目标并克服识别到的障碍的辅导代理。
LLM引擎：使用Gemini 1.5 Pro作为辅导代理的LLM引擎。

2.3 评估方法

内部用户模型比较：
- 三位人类专家对25个随机选择的模拟互动进行评估，评估合成用户是否能够一致地展示其障碍。
- 专家们一致认为合成用户高度一致（92%）且有效地展示了其设计的障碍（100%）。
人类专家评估：
- 进行了比较实验，比较完整合成用户和仅基于人口统计信息的基线合成用户在与同一辅导代理互动时的表现。
- 75对互动（完整合成用户和基线合成用户）被评估，结果显示专家更倾向于选择完整合成用户来一致地展示单一障碍（32%比15%），且在展示原始障碍方面更受青睐（70%）。
- 分析还显示，基线合成用户在某些障碍上过度采样，而在其他障碍上采样不足，突显了将合成用户基于真实人类用户行为数据进行接地的重要性。

通过这两个实验，论文验证了所提出的框架能够生成具有现实基础的合成用户，这些用户在与辅导代理互动时能够更准确地反映真实用户的行为和挑战。

Q: 有什么可以进一步探索的点？

A: 论文提出了一个端到端的框架，用于生成具有现实基础的合成用户，以评估健康和生活方式辅导代理。尽管该框架在睡眠辅导和糖尿病辅导领域展示了其有效性，但仍有一些可以进一步探索的点，以进一步提升框架的性能和适用性。以下是一些潜在的研究方向：

1. 长期行为变化的模拟

行为变化的建模：
- 当前的框架主要关注短期互动，未来可以探索如何模拟合成用户在长期互动中的行为变化。例如，可以研究如何模拟用户对辅导建议的依从性和非依从性，以及这些行为如何随时间变化。
- 可以引入强化学习或动态系统模型来模拟用户的行为变化，以更真实地反映长期互动中的动态过程。

2. 多模态数据的整合

多模态数据的利用：
- 当前的框架主要基于文本数据生成合成用户。未来可以探索如何整合多模态数据，如语音、图像和生理数据，以生成更丰富的合成用户模型。
- 例如，可以利用语音数据来模拟用户的语音特征，利用图像数据来模拟用户的外貌特征，利用生理数据来模拟用户的健康状态变化。

3. 个性化和适应性

个性化代理的评估：
- 当前的框架主要关注合成用户与通用辅导代理的互动。未来可以探索如何评估个性化代理，这些代理能够根据用户的具体需求和行为进行适应性调整。
- 可以研究如何生成具有特定需求和行为模式的合成用户，以评估个性化代理的性能。

4. 跨领域应用

其他健康领域的应用：
- 当前的框架在睡眠和糖尿病辅导领域进行了验证。未来可以探索将该框架应用于其他健康领域，如心理健康、心血管健康、营养管理等。
- 可以研究如何调整和优化框架，以适应不同领域的特定需求和挑战。

5. 生成型代理模型的改进

生成型代理模型的优化：
- 当前的框架使用了Concordia等生成型代理模型来模拟合成用户与辅导代理的互动。未来可以探索如何改进这些模型，以提高生成互动的真实性和连贯性。
- 可以研究新的生成型代理模型架构，或引入新的技术（如注意力机制、记忆网络）来增强模型的性能。

6. 用户反馈的整合

用户反馈的利用：
- 当前的框架主要依赖于预定义的背景故事和目标。未来可以探索如何整合用户反馈，以动态调整合成用户的背景故事和目标。
- 可以研究如何利用用户在互动过程中的反馈，实时调整合成用户的行为和需求，以更真实地反映真实用户的动态变化。

7. 隐私和伦理问题

隐私保护：
- 当前的框架使用了真实的人类数据来生成合成用户。未来可以探索如何在保护用户隐私的前提下，生成具有现实基础的合成用户。
- 可以研究隐私保护技术，如差分隐私、同态加密等，以确保用户数据的安全性和隐私性。

8. 多用户互动的模拟

多用户互动：
- 当前的框架主要关注单个合成用户与辅导代理的互动。未来可以探索如何模拟多个合成用户之间的互动，以评估辅导代理在群体互动中的性能。
- 可以研究如何生成具有不同背景和需求的合成用户群体，并模拟他们在群体互动中的行为和互动模式。

9. 跨文化适应性

跨文化应用：
- 当前的框架主要基于特定文化背景的数据。未来可以探索如何将该框架应用于不同文化背景，以生成具有跨文化适应性的合成用户。
- 可以研究不同文化背景下的健康和行为模式，调整框架以适应不同文化的需求和挑战。

10. 性能优化和可扩展性

性能优化：
- 当前的框架在生成合成用户和模拟互动时可能面临性能瓶颈。未来可以探索如何优化框架的性能，以提高生成效率和可扩展性。
- 可以研究新的算法和优化技术，以减少生成合成用户和模拟互动的时间和资源消耗。

这些潜在的研究方向不仅能够进一步提升生成合成用户的框架的性能和适用性，还能为健康和生活方式辅导代理的开发和评估提供更全面、更现实的方法。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了一个端到端的框架，用于生成合成用户以评估旨在鼓励积极行为改变的交互式代理，特别是在健康和生活方式辅导领域。框架的核心在于生成具有现实基础的合成用户，确保他们与辅导代理的互动能够真实地反映真实用户的需求和挑战。以下是论文的主要内容总结：

研究背景与动机

交互式代理在健康和生活方式辅导中的个性化能力至关重要，但评估这些代理与真实用户的长期互动既耗时又昂贵。
通过生成合成用户进行模拟互动，可以显著加速这些代理的开发和评估过程。
现有的合成用户生成方法往往缺乏对特定健康和行为属性的现实基础，导致生成的用户不够真实。

研究方法

生成合成用户的框架：
- 基于真实数据生成结构化数据：从真实的人口统计数据、健康和行为因素中采样，生成合成用户的结构化数据。
- 生成自然语言“小插曲”（Vignettes）：基于结构化数据，生成自然语言描述的“小插曲”，包括背景故事、健康状况、行为目标和障碍等。
- 模拟互动：使用生成型代理模型（如Concordia）或直接通过语言模型提示来模拟合成用户与辅导代理之间的互动。

实验验证

睡眠辅导实验：
- 使用LifeSnaps数据集生成合成用户，这些用户具有真实的睡眠数据和行为特质。
- 通过与睡眠辅导代理的互动，验证合成用户在传达睡眠问题、目标和障碍方面的有效性。
- 通过内部用户模型的比较和人类专家的评估，证明合成用户能够准确反映真实用户的睡眠状况。
糖尿病辅导实验：
- 使用Project Baseline Health Study数据集生成合成用户，这些用户具有真实的糖尿病相关数据和行为特质。
- 通过与糖尿病辅导代理的互动，验证合成用户在传达糖尿病管理中的障碍和目标方面的有效性。
- 通过人类专家的评估，证明合成用户在模拟真实用户行为和挑战方面的优越性。

关键结论

通过生成具有现实基础的合成用户，可以更准确地评估健康和生活方式辅导代理的性能。
合成用户在与辅导代理互动时能够真实地反映其健康状况、行为目标和障碍。
人类专家的评估结果表明，基于现实健康和行为属性的合成用户在模拟真实用户行为和挑战方面优于仅基于人口统计信息的通用合成用户。

未来工作

探索如何利用生成的合成用户数据来改进辅导代理的性能，例如通过微调或强化学习循环。
研究如何更有效地模拟合成用户的行为变化，包括模拟用户对辅导建议的依从性和非依从性。
将框架扩展到其他健康和生活方式辅导领域，以验证其普适性和适用性。

总的来说，这篇论文提出了一种系统化的解决方案，能够生成具有现实基础的合成用户，从而为健康和生活方式辅导代理的开发和评估提供高效、现实且可扩展的方法。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Taedong Yun, Eric Yang, Mustafa Safdari, Jong Ha Lee, Vaishnavi Vinod Kumar, S. Sara Mahdavi, Jonathan Amar, Derek Peyton, Reut Aharony, Andreas Michaelides, Logan Schneider, Isaac Galatzer-Levy, Yugang Jia, John Canny, Arthur Gretton, Maja Matarić

Categories: cs.LG, cs.AI, cs.CL, I.2.7

PDF URL: https://arxiv.org/pdf/2502.13135v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2502.13135v3

Published: 2025-02-18T18:56:44Z

5. SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents to autonomously master novel software environments via experiential learning, where agents explore new software, learn through iterative trial-and-error, and progressively tackle auto-generated tasks organized from simple to complex. To achieve this goal, we design a World State Model for step-wise trajectory assessment, along with a Curriculum Generator that generates increasingly diverse and challenging tasks. The agent’s policy is updated through experiential learning, comprised of adversarial imitation of failure actions and Group Relative Policy Optimization (GRPO) on successful ones. Furthermore, we introduce a specialist-to-generalist training strategy that integrates individual experiential insights from specialist agents, facilitating the development of a stronger generalist CUA capable of continuous autonomous evolution. This unified agent ultimately achieves performance surpassing ensembles of individual specialist agents on their specialized software. We validate the effectiveness of SEAgent across five novel software environments within OS-World. Our approach achieves a significant improvement of 23.2% in success rate, from 11.3% to 34.5%, over a competitive open-source CUA, i.e., UI-TARS.

中文摘要

将大型视觉语言模型（LVLM）重新用于计算机使用代理（CUA）已取得重大突破，这主要得益于人工标注的数据。然而，这些模型在面对新颖且专业的软件时往往会遇到困难，尤其是在缺乏人工注释的情况下。为了应对这一挑战，我们提出了SEAgent，这是一种自我演化的代理框架，使CUA能够通过与不熟悉软件的互动自主演变。具体而言，SEAgent使计算机使用代理能够通过体验学习自主掌握新软件环境，代理通过探索新软件，在反复试错中学习，并逐步应对从简单到复杂的自生成任务。为了实现这一目标，我们设计了一个世界状态模型，用于逐步轨迹评估，以及一个课程生成器，生成越来越多样化和具有挑战性的任务。代理的策略通过体验学习进行更新，包括对失败动作的对抗性模仿和对成功动作的群体相对策略优化（GRPO）。此外，我们引入了一种从专业到通用的训练策略，整合来自专业代理的个体经验见解，有助于开发出一个更强大的通用CUA，能够持续自主演变。最终，这个统一的代理在其专业软件上实现的性能超越了单独专业代理的集成结果。我们在OS-World中的五个新软件环境中验证了SEAgent的有效性。我们的方法在成功率上取得了23.2%的显著提高，从11.3%提升至34.5%，超过了一个具有竞争力的开源CUA，即UI-TARS。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决计算机使用代理（Computer Use Agents, CUAs）在面对新软件时的自主学习和适应问题。具体来说，现有的大型视觉语言模型（LVLMs）作为计算机使用代理时，主要依赖于人工标注的数据来学习操作软件。然而，当遇到新的、未见过的软件，尤其是缺乏人工标注数据的软件时，这些模型往往表现不佳。为了应对这一挑战，论文提出了SEAgent框架，旨在使计算机使用代理能够通过与不熟悉软件的交互，自主地学习和进化，无需人工干预。

论文的主要目标包括：

使计算机使用代理能够自主掌握新软件环境，通过经验学习来探索新软件、通过迭代试错学习，并逐步解决从简单到复杂的自动生成任务。
设计一个能够逐步评估轨迹的世界状态模型（World State Model）和一个能够生成越来越多样化和具有挑战性任务的课程生成器（Curriculum Generator）。
通过经验学习更新代理的策略，包括对失败行为的对抗性模仿和对成功行为的群体相对策略优化（Group Relative Policy Optimization, GRPO）。
引入一种从专家到通才的训练策略，将个体经验整合到一个更强的通才代理中，使其能够持续自主进化，并在多种软件上实现超越个体专家代理的性能。

Q: 有哪些相关研究？

A: 论文中提到了与计算机使用代理（CUAs）和强化学习相关的多项研究，这些研究为SEAgent框架的提出提供了背景和基础。以下是论文中提及的一些关键相关研究：

与计算机使用代理（CUAs）相关的研究

基于大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的代理：随着LLMs和LVLMs的发展，计算机使用代理的研究受到了广泛关注。这些代理能够通过键盘和鼠标操作来使用计算机，它们可以仅依赖于结构化文本输入，或者以更接近人类的方式，结合屏幕截图和文本条件作为多模态输入。例如，CogAgent [20] 和 ShowUI [29] 等工作展示了在特定领域内利用这些模型实现强大性能的可能性。
代理协作与任务分解：一些研究通过将任务分解为多个专家模型，并通过提示工程实现代理协作来解决复杂任务。例如，AgentS [1] 和 AgentS2 [2] 探索了通过协作解决复杂任务的方法，但这些方法在没有微调的情况下改进有限。
直接多软件强化学习（RL）：WebRL [47] 和 DigiRL [6] 等工作尝试通过强化学习直接训练能够在多种软件中操作的代理。然而，这些方法在面对新软件时往往表现不佳，因为它们依赖于人工标注的数据来学习操作软件。

与强化学习（RL）相关的研究

基于人类反馈的强化学习：早期的强化学习工作，如 [44, 81, 49]，通过人类反馈对LLMs和LVLMs进行单轮优化。这些方法在代理场景中面临挑战，因为在这种场景中，反馈是稀疏的，且奖励信号通常来自于多步交互的结果。
群体相对策略优化（GRPO）：DeepSeek-R1 [17] 展示了通过GRPO使用可验证奖励来增强LLMs的推理能力。这种方法为SEAgent中成功行为的优化提供了灵感。
奖励模型的改进：论文中提到，现有的CUA奖励模型在判断精度和奖励密度方面存在不足。因此，作者通过改进的长上下文处理能力，提出了一个基于Qwen2.5-VL [7] 的奖励模型，显著提高了对CUA轨迹的评估精度。

这些相关研究为SEAgent框架的提出提供了理论和技术基础，SEAgent通过自主探索和经验学习，解决了现有方法在面对新软件时的局限性。

Q: 论文如何解决这个问题？

A: 论文通过提出 SEAgent 框架来解决计算机使用代理（CUAs）在新软件环境中的自主学习和适应问题。SEAgent 通过以下几个关键组件和方法实现这一目标：

1. World State Model（世界状态模型）

功能：世界状态模型是一个基于大型视觉语言模型（LVLM）的组件，负责描述当前环境状态并评估代理执行动作的成功与否。它通过输入代理的完整轨迹（包括状态和动作）来提供详细的环境状态描述和每一步动作的评估。
训练：该模型通过在特定软件环境中收集的标注数据进行微调，以提高其判断精度。这些数据包括从软件 GUI 的密集描述到动作执行后的状态变化描述。
作用：在自主学习过程中，世界状态模型为代理提供高精度的步骤级奖励信号，帮助代理了解哪些动作是成功的，哪些是失败的。

2. Curriculum Generator（课程生成器）

功能：课程生成器负责自动生成任务，并根据代理在前一阶段的表现逐步增加任务的复杂性和多样性。它通过维护和更新一个软件指南手册（software guidebook）来实现这一点，该手册记录了代理在探索过程中学到的知识。
任务生成：课程生成器利用世界状态模型提供的评估结果和状态变化描述，生成新的任务。这些任务从简单到复杂逐步演变，帮助代理逐步掌握软件的使用。
作用：通过课程学习范式，课程生成器确保代理在每个阶段都能获得适当的挑战，从而逐步提高其在新软件环境中的操作能力。

3. Actor Model（行为模型）

功能：行为模型是代理的策略模型，负责根据当前状态和任务指令选择动作。它通过与环境的交互来执行任务，并根据世界状态模型提供的奖励信号进行学习。
更新：行为模型通过经验学习进行更新，包括对失败行为的对抗性模仿和对成功行为的群体相对策略优化（GRPO）。这种结合正负样本的学习方法使代理能够从成功和失败中学习，从而不断改进其策略。

4. 从专家到通才的训练策略

专家训练：首先，代理在每个软件环境中单独训练，成为该软件的专家。通过这种方式，代理能够深入学习每个软件的具体操作和特性。
通才训练：然后，将多个专家代理的知识整合到一个通才模型中，通过监督微调（SFT）和强化学习（RL）进一步优化。这个通才模型能够跨多个软件进行操作，并在多种软件环境中表现出色。

5. 实验验证

基准测试：论文通过在 OSWorld [67] 的五个专业软件环境中进行实验，验证了 SEAgent 的有效性。这些软件包括 LibreOffice Impress、LibreOffice Writer、GIMP、VLC 和 VSCode。
性能提升：实验结果表明，SEAgent 在成功率上取得了显著提升，从 11.3% 提高到 34.5%，相比现有的开源 CUA（如 UI-TARS）有显著改进。此外，通过专家到通才的训练策略，SEAgent 的性能超过了单独训练的专家代理和直接训练的通才代理。

通过这些方法，SEAgent 框架使计算机使用代理能够在新软件环境中自主学习和进化，无需依赖人工标注的数据，从而在多种软件环境中实现高效的操作和适应。

Q: 论文做了哪些实验？

A: 论文通过一系列实验来验证 SEAgent 框架的有效性和性能。以下是论文中提到的主要实验及其结果：

1. 奖励模型的基准测试

实验目的：评估不同奖励模型在判断计算机使用代理（CUA）任务成功与否的精度。
实验设置：使用 AgentRewardBench [35] 和 OSWorld [67] 的任务轨迹，比较不同模型在仅使用最终状态截图（Last Screenshot, LS）和使用整个过程截图（Entire Process, ES）作为输入时的表现。
实验结果：
- AgentRewardBench：World State Model 在使用整个过程截图作为输入时，达到了 71.6% 的精度，接近商业模型 GPT-4o [23] 的 72.1%。
- OSWorld：World State Model 在使用整个过程截图作为输入时，达到了 73.9% 的精度，显著高于其他开源模型，如 Qwen2.5-VL-7B [7] 的 26.8% 和 Qwen2.5-VL-72B [7] 的 26.2%。
结论：World State Model 在提供高精度的步骤级奖励信号方面表现出色，尤其是在考虑整个过程截图时，其性能接近甚至超过了商业模型。

2. SEAgent 的自主学习实验

实验目的：验证 SEAgent 框架在新软件环境中的自主学习和适应能力。
实验设置：在 OSWorld [67] 的五个专业软件环境中进行实验，包括 LibreOffice Impress、LibreOffice Writer、GIMP、VLC 和 VSCode。使用 UI-TARS [48] 作为行为模型，World State Model 作为奖励模型，Qwen2.5-72B [71] 作为课程生成器。
实验过程：
1. 任务初始化：提供新软件的初始 GUI 状态，由世界状态模型生成初始任务和软件指南手册。
2. 自主探索和效果评估：行为模型执行任务，世界状态模型评估每一步的动作，生成详细的 GUI 状态变化描述。
3. 策略更新：通过强化学习（包括 GRPO 和对抗性模仿）更新行为模型的策略。
4. 任务更新：课程生成器根据评估结果和状态变化描述生成更复杂的新任务。
实验结果：
- 成功率提升：SEAgent 在五个软件环境中的平均成功率从 11.3% 提升到 34.5%，相比现有的开源 CUA（如 UI-TARS）有显著改进。
- 任务复杂度提升：随着训练阶段的推进，课程生成器生成的任务从简单到复杂逐步演变，验证了课程学习的有效性。
结论：SEAgent 框架能够使计算机使用代理在新软件环境中通过自主学习和经验积累逐步提升性能。

3. 从专家到通才的训练策略实验

实验目的：验证从专家到通才的训练策略在多软件环境中的有效性。
实验设置：首先在每个软件环境中单独训练专家代理，然后将这些专家代理的知识整合到一个通才模型中，通过监督微调（SFT）和强化学习（RL）进一步优化。
实验结果：
- 专家代理性能：单独训练的专家代理在各自软件环境中的平均成功率为 32.2%。
- 通才代理性能：通过从专家到通才的训练策略，最终的通才代理在五个软件环境中的平均成功率为 34.5%，超过了单独训练的专家代理和直接训练的通才代理。
结论：从专家到通才的训练策略能够有效整合多个专家代理的知识，提升通才代理在多软件环境中的性能。

4. 消融研究

实验目的：验证 SEAgent 框架中各个组件和训练策略的有效性。
实验设置：在 VSCode 上进行消融实验，比较使用不同奖励模型、训练策略（如监督微调、GRPO、对抗性模仿）的性能。
实验结果：
- 奖励模型：使用 World State Model 作为奖励模型时，成功率显著高于使用基础模型。
- 训练策略：结合 GRPO 和对抗性模仿的强化学习策略比单独使用监督微调或 GRPO 有更高的成功率。
结论：World State Model 提供的高精度奖励信号和结合正负样本的训练策略对 SEAgent 的性能提升至关重要。

5. 超参数敏感性分析

实验目的：分析关键超参数对 SEAgent 框架性能的影响。
实验设置：分析生成任务的数量和状态变化描述的数量对性能的影响。
实验结果：
- 生成任务数量：随着生成任务数量的增加，性能逐渐提升，直到达到约 100 个任务时趋于稳定。
- 状态变化描述数量：适量的状态变化描述（50-100 个）对性能提升有积极作用，但过多的描述会降低性能。
结论：合理设置生成任务和状态变化描述的数量对 SEAgent 的性能有显著影响。

通过这些实验，论文全面验证了 SEAgent 框架在新软件环境中的自主学习和适应能力，以及从专家到通才的训练策略的有效性。

Authors: Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

Categories: cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM

PDF URL: https://arxiv.org/pdf/2508.04700v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.04700v2

Published: 2025-08-06T17:58:46Z

6. Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory

Multi-agent systems built on Large Language Models (LLMs) show exceptional promise for complex collaborative problem-solving, yet they face fundamental challenges stemming from context window limitations that impair memory consistency, role adherence, and procedural integrity. This paper introduces Intrinsic Memory Agents, a novel framework that addresses these limitations through structured agent-specific memories that evolve intrinsically with agent outputs. Specifically, our method maintains role-aligned memory templates that preserve specialized perspectives while focusing on task-relevant information. We benchmark our approach on the PDDL dataset, comparing its performance to existing state-of-the-art multi-agentic memory approaches and showing an improvement of 38.6\% with the highest token efficiency. An additional evaluation is performed on a complex data pipeline design task, we demonstrate that our approach produces higher quality designs when comparing 5 metrics: scalability, reliability, usability, cost-effectiveness and documentation with additional qualitative evidence of the improvements. Our findings suggest that addressing memory limitations through structured, intrinsic approaches can improve the capabilities of multi-agent LLM systems on structured planning tasks.

中文摘要

基于大型语言模型（LLMs）的多智能体系统在复杂协作问题解决方面显示出卓越的潜力，但它们面临着由上下文窗口限制引起的基本挑战，这影响了记忆一致性、角色遵循和程序完整性。本文介绍了内在记忆智能体，这是一种新的框架，通过结构化的智能体特定记忆来解决这些限制，这些记忆与智能体输出内在演变。具体来说，我们的方法维护与角色对齐的记忆模板，保持专业视角，同时关注与任务相关的信息。我们在PDDL数据集上对我们的方法进行基准测试，将其性能与现有的最先进的多智能体记忆方法进行比较，显示出38.6%的改进，并具有最高的令牌效率。我们对一个复杂的数据管道设计任务进行了额外评估，展示了在可扩展性、可靠性、可用性、成本效益和文档等5个指标的比较中，我们的方法产生了更高质量的设计，还有额外的定性证据支持这些改进。我们的研究结果表明，通过结构化、内在的方法解决记忆限制可以提高多智能体LLM系统在结构化规划任务中的能力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决多智能体系统（基于大型语言模型LLMs）在复杂协作问题解决中面临的记忆一致性、角色遵循和程序完整性问题。这些问题主要源于LLMs的上下文窗口大小有限，导致在多智能体框架中，随着智能体数量的增加，信息量也随之增加，从而使得维持长期对话上下文变得更加困难。这进一步导致了视角不一致、忘记关键需求和程序漂移等问题。现有的解决方案，如检索增强生成（RAG）和智能体记忆方法，主要针对单智能体和用户交互场景设计，没有考虑到多智能体环境中信息量随智能体数量增加而增长的情况。

Q: 有哪些相关研究？

A: 以下是与本文相关的研究：

多智能体系统

多智能体系统在不同领域的应用：近年来，基于LLMs的多智能体系统取得了显著进展，并被应用于软件开发、科学实验、游戏和社会模拟等多个领域。例如，在软件开发中，多智能体系统能够同时考虑架构设计、安全性、用户体验和性能优化等不同方面。
多智能体系统中的记忆重要性：记忆在基于智能体的系统中对于维持上下文、从历史交互中学习以及做出明智决策至关重要。在多智能体系统中，记忆有助于协调、沟通和协作解决问题。

记忆机制

LLMs中的短期和长期记忆：LLMs中的记忆可以分为短期记忆和长期记忆。短期记忆是指能够适应模型固定上下文窗口的信息，而长期记忆则是指超出上下文窗口或单个LLM实例的信息，通常存储在外部数据库中，并通过RAG技术检索。
现有记忆机制的局限性：现有记忆机制在多智能体设置中的局限性尤为突出，因为随着参与的智能体数量增加，信息交换量大约呈线性增长。随着多智能体对话的延长，关键信息位于可访问上下文之外或距离较远的概率显著增加，这削弱了多智能体系统的主要优势，即整合多样化、专业化的视角以形成连贯的解决方案。

智能体记忆

智能体记忆方法：智能体记忆通过定期将对话历史压缩成简洁的总结来解决长期记忆和有限上下文信息的问题。这些方法生成顺序或层次化的总结，捕捉以前交流中的关键决策和见解。一些智能体记忆方法与RAG方法结合，通过存储总结的上下文以便在对话后期检索，或者通过存储上下文内外的内存来动态适应当前上下文。
现有智能体记忆方法的不足：尽管智能体记忆方法比纯检索方法提供了更好的上下文整合，但在压缩过程中经常丢失关键细节。此外，一般总结的无方向性和非结构化特性通常无法保留对有效多智能体协作至关重要的角色特定视角和专业知识。

Q: 论文如何解决这个问题？

A: 论文通过提出一种名为 Intrinsic Memory Agents 的新型多智能体架构来解决这些问题。该架构使用与对话目标对齐的结构化、特定于智能体的记忆，并且这些记忆会随着智能体的输出内在地演变。具体方法如下：

结构化记忆模板

定义：为每个智能体 ( A_n ) 定义一个结构化记忆模板 ( MT_n )，该模板指定了特定于智能体的记忆的组织结构。模板由一组记忆槽 ( MT_n = {S_1, S_2, \dots, S_K} ) 组成，每个槽 ( S_k ) 通过描述性标识符（例如“领域专长”、“当前位置”、“提议的解决方案”）定义，并以 JSON 格式呈现。模板可以嵌套，以便每个槽可以有自己的描述性标识符和更详细的信息。
作用：结构化记忆模板确保更新集中在与智能体角色相关的角色相关的信息上，同时保持与智能体专长领域的连贯性。

内在记忆更新

更新机制：对于系统中的每个智能体，维护一个随时间演变的结构化记忆 ( M_n )。设 ( M_{n,m} ) 表示智能体 ( n ) 在 ( m ) 次对话轮次后的记忆。记忆更新过程如下：
- 智能体 ( A_n ) 接收输入上下文 ( C_{n,m} )，由相关对话历史 ( H_m ) 和之前的记忆 ( M_{n,m-1} ) 构成： [ C_{n,m} = f_{\text{context}}(H_m, M_{n,m-1}) ]
- 智能体 ( A_n ) 使用底层的 LLM ( L_n ) 生成输出 ( O_{n,m} )： [ O_{n,m} = L_n(C_{n,m}) ]
- 然后，利用生成的输出 ( O_{n,m} ) 和之前的记忆 ( M_{n,m-1} )，通过记忆更新函数更新槽内容： [ M_{n,m} = f_{\text{memory update}}(M_{n,m-1}, O_{n,m}) ]
实现：记忆更新函数 ( f_{\text{memory update}} ) 通过提示的 LLM 操作实现。具体来说，对于第 ( m-1 ) 轮的旧记忆 ( M_{n,m-1} ) 和第 ( m ) 轮智能体的输出 ( O_{n,m} )，更新函数构建如图 2 所示的提示。LLM 对此提示的响应成为更新后的记忆 ( M_{n,m} )。

上下文构建算法

算法描述：上下文构建函数 ( f_{\text{context}} ) 决定了在生成响应时提供给智能体的信息。算法优先考虑以下内容：
1. 初始任务描述，以保持目标对齐。
2. 智能体的结构化记忆，以保持角色一致性。
3. 最近的对话轮次，以保持即时上下文。
算法实现：通过优先包含记忆而不是穷尽对话历史，该算法确保智能体即使在对话长度超出上下文窗口限制时，也能保持角色一致性和任务对齐。

通过这些方法，Intrinsic Memory Agents 框架能够为每个智能体维护独立的记忆，确保它们在协作任务中保持专业化的角色，同时提高对话连贯性、角色一致性和协作效率。

Q: 论文做了哪些实验？

A: 论文进行了以下两个实验：

PDDL基准测试

实验目的：评估Intrinsic Memory Agents框架在结构化规划任务上的性能，并与现有的多智能体记忆方法进行比较。
实验方法：使用PDDL（Planning Domain Definition Language）数据集进行测试，该数据集涉及AgentBoard中的结构化规划任务，智能体需要为抽象问题域生成可执行计划，以评估它们的推理和协调能力。实验遵循与G-Memory相同的实验方法，使用Llama3.1:8b模型进行数值基准测试，并使用Ollama进行1次重复。实验在高性能计算集群上进行，使用A100 GPU。
实验结果：Intrinsic Memory Agents在PDDL基准测试中表现优异，平均奖励为0.0833，相比第二名的MetaGPT（0.0601）有显著提升，且在令牌效率方面表现最佳，为5.933×10⁻⁷。尽管Intrinsic Memory Agents使用的令牌数量最多，但这种增加是为了生成每个智能体每轮讨论的结构化模板，是在奖励分数和令牌效率方面都值得的权衡。

数据管道设计案例研究

实验目的：评估Intrinsic Memory Agents在实际复杂任务中的性能，特别是协作数据管道设计任务。
实验方法：运行10次独立输出，涉及8个专业智能体，包括评估智能体、知识整合智能体、数据工程师智能体、基础设施工程师智能体、业务目标工程师智能体、机器学习工程师智能体、对话委派智能体和文档工程师智能体。这些智能体通过一个结构化的过程进行协作，包括提案、讨论和达成共识。实验比较了两种系统配置：基线系统（标准多智能体实现，没有结构化记忆）和Intrinsic Memory系统（具有特定于智能体的结构化记忆）。两种系统都使用相同的智能体角色和任务规范，以Llama-3.2-3b作为底层LLM。
实验结果：Intrinsic Memory系统在所有质量指标上都优于基线系统，包括可扩展性、可靠性、可用性、成本效益和文档质量。具体来说，Intrinsic Memory系统在可扩展性、可靠性和成本效益方面的平均得分分别为7、4.89和4.67，而基线系统的平均得分分别为5、3.56和3.22。虽然在可用性方面的差异不具有统计显著性，但Intrinsic Memory系统的平均得分（3.67）仍高于基线系统（3）。此外，Intrinsic Memory系统在文档质量方面的平均得分（3.56）也高于基线系统（2）。然而，文档质量得分仍然相对较低，表明仅保留对话记忆并不能保证良好的理由说明。尽管Intrinsic Memory有助于提高文档质量，但选择组件的理由并未得到很好的保留，这可能是训练语料库的问题，需要更好的标注训练数据。

Q: 有什么可以进一步探索的点？

A: 论文提出的 Intrinsic Memory Agents 方法在多智能体系统中展示了显著的性能提升，但仍有一些可以进一步探索的点：

自动化生成结构化记忆模板

问题：当前的结构化记忆模板是手动创建的，这限制了其在不同任务之间的可转移性。
探索方向：开发自动化或通用化的方法来生成结构化记忆模板，使 Intrinsic Memory Agents 能够更容易地适应新任务。这可能涉及使用机器学习技术来分析任务需求并自动生成相应的记忆模板。

进一步提高记忆效率

问题：尽管 Intrinsic Memory Agents 在性能上有所提升，但其使用的令牌数量比基线系统多 32%，这可能会增加计算成本。
探索方向：研究更高效的记忆更新机制，以减少令牌的使用量，同时保持或进一步提高性能。例如，可以探索更紧凑的记忆表示方法，或者优化记忆更新的频率和内容。

多样化智能体的进一步优化

问题：论文已经展示了多样化智能体的性能提升，但仍有进一步优化的空间。
探索方向：探索更细粒度的智能体角色划分，以及针对特定任务的智能体微调方法。这可能涉及开发更复杂的智能体角色描述和记忆模板，以更好地适应特定任务的需求。此外，可以研究如何动态调整智能体的角色和记忆，以适应任务的变化。

跨领域和跨任务的泛化能力

问题：当前的评估主要集中在特定的数据管道设计任务和 PDDL 基准测试上，需要进一步验证方法在更广泛任务中的有效性。
探索方向：在更多领域和任务中测试 Intrinsic Memory Agents 的性能，包括但不限于软件开发、科学实验、游戏和社会模拟等。这将有助于评估该方法在不同场景下的泛化能力和适用性。

长期记忆的持续性

问题：虽然 Intrinsic Memory Agents 能够在对话过程中保持记忆的一致性和相关性，但其长期记忆的持续性和稳定性尚未充分验证。
探索方向：研究如何将短期记忆与长期记忆更好地结合，以实现更长时间跨度内的记忆保持和知识积累。这可能涉及开发更复杂的信息检索和记忆更新机制，以确保长期记忆的准确性和可用性。

用户交互和反馈机制

问题：在实际应用中，多智能体系统通常需要与用户进行交互，用户反馈对于系统的性能和用户体验至关重要。
探索方向：研究如何将用户反馈整合到 Intrinsic Memory Agents 的记忆更新和决策过程中。这可能涉及开发用户交互接口和反馈机制，以允许用户对智能体的行为和输出进行评估和调整，从而提高系统的适应性和用户满意度。

Q: 总结一下论文的主要内容

A: 本文介绍了一种名为 Intrinsic Memory Agents 的新型多智能体架构，旨在通过结构化、特定于智能体的记忆来解决基于大型语言模型（LLMs）的多智能体系统在复杂协作问题解决中面临的记忆一致性、角色遵循和程序完整性问题。这些记忆与对话目标对齐，并随着智能体的输出内在地演变。具体而言，该方法通过以下三个主要贡献来实现这一目标：

结构化记忆模板：为每个智能体定义了与角色和对话目标对齐的预定义记忆结构，确保更新集中在角色相关的信息上，同时保持与智能体专长领域的连贯性。
内在记忆更新：记忆更新直接来源于智能体的输出，而非外部总结，从而确保记忆与智能体特定的推理模式和领域专长相一致。
特定于智能体的记忆：为每个智能体维护独立的记忆，以保持视角的自主性，使每个智能体都能反映历史上下文和新信息，同时保持多样化的智能体特定视角和专业知识。

研究者通过在 PDDL 数据集上的基准测试以及一个复杂的数据管道设计任务来评估该方法。在 PDDL 基准测试中，Intrinsic Memory Agents 方法相较于现有的最先进的多智能体记忆方法，平均奖励提高了 38.6%，并且在令牌效率方面表现最佳。在数据管道设计任务中，该方法在可扩展性、可靠性、可用性、成本效益和文档质量等五个指标上均优于基线系统，尽管在文档质量方面得分仍然相对较低，表明需要更好的标注训练数据来提高记忆中组件选择理由的保留。

总体而言，Intrinsic Memory Agents 方法通过结构化、内在的记忆更新机制，显著提高了多智能体 LLM 系统在结构化规划任务上的能力，同时保持了对话连贯性、角色一致性和协作效率。尽管如此，该方法在记忆模板的自动化生成、记忆效率的进一步提高以及长期记忆的持续性等方面仍有改进空间。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Sizhe Yuen, Francisco Gomez Medina, Ting Su, Yali Du, Adam J. Sobey

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2508.08997v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.08997v1

Published: 2025-08-12T15:05:00Z

7. AIOS: LLM Agent Operating System

LLM-based intelligent agents face significant deployment challenges, particularly related to resource management. Allowing unrestricted access to LLM or tool resources can lead to inefficient or even potentially harmful resource allocation and utilization for agents. Furthermore, the absence of proper scheduling and resource management mechanisms in current agent designs hinders concurrent processing and limits overall system efficiency. To address these challenges, this paper proposes the architecture of AIOS (LLM-based AI Agent Operating System) under the context of managing LLM-based agents. It introduces a novel architecture for serving LLM-based agents by isolating resources and LLM-specific services from agent applications into an AIOS kernel. This AIOS kernel provides fundamental services (e.g., scheduling, context management, memory management, storage management, access control) for runtime agents. To enhance usability, AIOS also includes an AIOS SDK, a comprehensive suite of APIs designed for utilizing functionalities provided by the AIOS kernel. Experimental results demonstrate that using AIOS can achieve up to 2.1x faster execution for serving agents built by various agent frameworks. The source code is available at https://github.com/agiresearch/AIOS.

中文摘要

基于大语言模型（LLM）的智能代理面临着显著的部署挑战，特别是与资源管理相关的挑战。允许无限制访问LLM或工具资源可能导致代理的资源分配和利用效率低下，甚至可能产生潜在的危害。此外，目前代理设计中缺乏适当的调度和资源管理机制，阻碍了并发处理并限制了整体系统效率。为了解决这些挑战，本文提出了AIOS（基于LLM的人工智能代理操作系统）的架构，以管理基于LLM的代理。它通过将资源和LLM特定服务从代理应用分离到AIOS内核中，为服务基于LLM的代理引入了一种新颖的架构。该AIOS内核为运行代理提供基本服务（例如，调度、上下文管理、内存管理、存储管理、访问控制）。为了增强可用性，AIOS还包括一个AIOS SDK，这是一个全面的API套件，旨在利用AIOS内核提供的功能。实验结果表明，使用AIOS可以实现高达2.1倍的速度提升，用于服务由各种代理框架构建的代理。源代码可在 https://github.com/agiresearch/AIOS 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一个名为AIOS（LLM Agent Operating System）的系统，旨在解决集成和部署基于大型语言模型（LLM）的智能代理时遇到的一系列挑战。这些挑战包括：

资源分配和调度的次优性：在LLM上代理请求的调度和资源分配不够优化，导致效率和效果受损。
交互中上下文维持的困难：在代理与LLM之间的交互过程中保持上下文信息存在困难。
异构代理集成的复杂性：将具有不同能力和专业化的异构代理集成在一起的复杂性。
代理数量和复杂性的快速增长：代理数量和复杂性的增加进一步加剧了这些问题，常常导致资源利用不充分和瓶颈现象。

AIOS的设计目标是优化资源分配、促进代理间的上下文切换、支持代理的并发执行、为代理提供工具服务，并维护代理的访问控制。论文提出了这样一个操作系统的架构，概述了它旨在解决的核心挑战，并提供了AIOS的基本设计和实现。通过在AIOS上对多个代理的并发执行进行实验，证明了AIOS模块的可靠性和效率，旨在不仅提高LLM代理的性能和效率，而且为未来AIOS生态系统的更好发展和部署奠定基础。

Q: 有哪些相关研究？

A: 这篇论文在”Related Work”部分回顾了与AIOS相关的两个主要研究领域：

操作系统的演变（Evolution of Operating Systems）:
- 论文讨论了操作系统（OS）是如何从简单的批处理系统发展到现代的复杂交互式OS。
- 提到了进程管理技术的进步，如时间共享和多任务处理，以及操作系统模块化的趋势，包括进程调度、内存管理和文件系统管理。
- 强调了图形用户界面（GUI）的出现如何使操作系统更加交互式和用户中心化。
- 讨论了操作系统生态系统的扩展，提供了开发者工具（OS SDKs）和运行时库，以便开发者能够在OS环境中高效地设计、实现和运行应用程序。
大型语言模型代理（Large Language Model Agents）:
- 论文将基于LLM的自主代理研究分为单代理系统（SAS）和多代理系统（MAS）。
- 单代理系统：使用单个LLM代理来解决复杂任务，如旅行规划、个性化推荐和艺术设计。这些代理接受用户的自然语言指令，并将其分解为多步骤计划。
- 多代理系统：利用多个代理之间的交互来解决问题，代理之间的关系可能是合作的、竞争的，或者两者的混合。例如，合作代理系统可能在角色扮演、社会模拟和软件开发中共同工作，而竞争代理系统可能在游戏环境中进行谈判和竞争。

此外，论文还提到了AIOS的实现可能会利用到的一些具体技术，例如beam search作为LLM中的典型搜索算法，以及用于上下文管理的文本摘要和扩展技术。

Q: 论文如何解决这个问题？

A: 为了解决上述挑战，论文提出了AIOS（LLM Agent Operating System）的概念，并设计了一个旨在优化资源分配、上下文管理、并发执行和访问控制的操作系统。以下是AIOS解决这些问题的关键组件和方法：

Agent Scheduler（代理调度器）:
- 用于优先级排序和调度代理请求，以优化LLM的利用率。
- 实现了如先进先出（FIFO）、轮询（RR）等传统调度算法，并允许未来集成更复杂的考虑代理请求依赖关系的调度算法。
Context Manager（上下文管理器）:
- 支持LLM生成过程中的快照和恢复，以便在调度器挂起代理请求时能够保存和恢复上下文状态。
- 管理上下文窗口的大小，通过文本摘要和其他技术来扩展上下文窗口，以便处理长文本。
Memory Manager（内存管理器）:
- 提供每个代理的短期内存，确保数据仅在代理活跃时存储和可访问。
- 支持独立存储每个代理的内存，除非访问管理器授权，否则其他代理无法直接访问。
Storage Manager（存储管理器）:
- 负责长期存储数据，确保数据的完整性和可用性，以便将来检索或分析。
- 支持用户偏好和历史交互日志的存储，以丰富代理知识和提升用户体验。
Tool Manager（工具管理器）:
- 管理API工具集合，增强LLM的功能。
- 将工具分类并集成到AIOS中，覆盖不同的输入输出模态（图像和文本），促进代理开发。
Access Manager（访问管理器）:
- 通过为每个代理管理专门的权限组来协调不同代理之间的访问控制操作。
- 维护审计日志，记录访问请求、代理活动和访问控制参数的详细信息。
LLM System Call（LLM系统调用）:
- 提供基本的LLM调用操作功能，作为复杂代理请求和不同内核模块执行之间的桥梁。
AIOS SDK（AIOS软件开发工具包）:
- 为开发者提供一套工具包，以便在AIOS中开发复杂的代理应用程序。
- 包括初始化代理、管理代理生命周期、资源监控和代理任务的生成计划等功能。

通过这些组件和方法，AIOS旨在提供一个模块化和高效的平台，以支持LLM代理的开发、部署和使用，同时解决资源分配、上下文管理、并发执行和访问控制方面的挑战。论文还通过实验验证了AIOS模块在多代理并发执行时的可靠性和效率。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估AIOS模块的正确性和性能：

一致性分析（Consistency Analysis）:
- 目的是验证当多个代理并行运行时，LLM对代理请求的响应是否与逐个运行单个代理时生成的响应一致。
- 实验中，首先单独运行每个构建的代理来生成结果，然后并行执行这些代理，并在每个步骤中捕获输出。
- 使用BLEU分数和BERT分数作为评估指标，这些指标的范围从0.0到1.0，单代理上下文产生的输出作为参考标准。
- 结果显示，BLEU和BERT分数都达到了1.0，表明在多代理和单代理配置下生成的输出之间存在完美的对齐，这证实了设计在有效促进并发多代理操作方面的一致性。
性能分析（Performance Analysis）:
- 目的是评估AIOS调度机制相对于非调度（顺序）执行在改善等待时间和周转时间平衡方面的性能。
- 实验中，使用FIFO调度算法的AIOS与非调度方法进行比较，其中三个代理（数学代理、叙事代理和推荐代理）并发运行。
- 使用等待时间（从代理请求提交到开始的间隔）和周转时间（从代理请求提交到完成的持续时间）作为评估时间效率的指标。
- 结果表明，非调度方法对序列早期的代理表现良好，但牺牲了序列后期代理的等待时间和周转时间。相比之下，AIOS的调度机制有效调节了等待时间和周转时间，特别是对于后续代理的请求，这一点在LLM较大时尤为明显。这表明调度对于适应多个代理的并行操作非常重要。

这些实验展示了AIOS在处理多个并发代理时的可靠性和效率，证明了其在优化资源分配和提高代理执行性能方面的潜力。

Q: 有什么可以进一步探索的点？

A: 论文在”Future Work”部分提出了几个可以进一步探索的研究方向，包括但不限于：

高级调度算法（Advanced Scheduling Algorithms）:
- 开发更先进的调度算法，这些算法可以执行代理请求之间的依赖性分析，优化计算资源的分配。
- 管理本地部署模型的工具资源，并将其纳入调度范式，包括工具状态管理和快照。
上下文管理的效率（Efficiency of Context Management）:
- 设计更高效的上下文管理技术，以加快上下文快照和恢复的过程，从而提升用户体验。
- 利用上下文压缩技术，在快照之前进行压缩，以实现更节省空间的解决方案。
内存和存储架构的优化（Optimization of Memory and Storage Architecture）:
- 采用共享方法设计内存和存储系统，使代理能够共享内存和存储。
- 探索层次化存储解决方案，旨在优化数据检索和存储效率，例如为频繁访问的数据提供更快的访问和较少的存储分配，反之亦然。
安全和隐私增强（Safety and Privacy Enhancements）:
- 研究保护措施以抵御各种攻击，确保系统对恶意攻击（如LLM越狱或未经授权访问其他代理内存）具有弹性。
- 探索先进的加密技术，以保护AIOS内部的数据传输，从而维护代理通信的机密性。
- 实施水印技术，通过在输出中嵌入唯一标识符来保护代理开发者的知识产权，便于数据血统的追踪。

这些潜在的研究方向不仅能够建立在AIOS的现有基础上，还能够为整个领域的发展做出贡献。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了AIOS（LLM Agent Operating System），这是一个为大型语言模型（LLM）智能代理设计的操作系统。AIOS旨在解决在集成和部署LLM代理时遇到的挑战，特别是在资源分配、上下文管理、并发执行和访问控制方面。以下是论文的主要内容概述：

问题陈述：论文开始时指出了LLM代理在效率和效果上面临的挑战，包括资源分配和调度的问题、上下文维持的困难、异构代理集成的复杂性，以及代理数量和复杂性的增加。
AIOS架构：提出了AIOS的概念，一个将LLM集成到操作系统中的系统，旨在优化资源分配、促进上下文切换、支持并发执行、提供工具服务和维护访问控制。
核心组件：详细介绍了AIOS的核心组件，包括代理调度器、上下文管理器、内存管理器、存储管理器、工具管理器、访问管理器，以及LLM系统调用和AIOS软件开发工具包（SDK）。
实验评估：通过实验验证了AIOS模块在多代理并发执行时的一致性和性能。实验结果表明，AIOS能够有效地优化等待时间和周转时间，并且保持LLM响应的一致性。
未来工作：论文最后提出了未来研究方向，包括开发高级调度算法、提高上下文管理效率、优化内存和存储架构，以及增强系统的安全性和隐私保护。

总体而言，AIOS旨在为LLM代理提供一个更加高效、一致和安全的执行环境，并通过开源项目（ https://github.com/agiresearch/AIOS ）促进社区的进一步发展和创新。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Kai Mei, Xi Zhu, Wujiang Xu, Wenyue Hua, Mingyu Jin, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, Yongfeng Zhang

Categories: cs.OS, cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2403.16971v5.pdf

CoolPaper URL: https://papers.cool/arxiv/2403.16971v5

Published: 2024-03-25T17:32:23Z

8. Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance

Autonomous driving (AD) systems relying solely on onboard sensors may fail to detect distant or obstacle hazards, potentially causing preventable collisions; however, existing transformer-based Vehicle-to-Everything (V2X) approaches, which mitigate AD sensing limitations, either lack effective multimodal fusion and reasoning or struggle to meet real-time performance requirements under complex, high-dimensional traffic conditions. This paper proposes the Real-time Edge-based Autonomous Co-pilot Trajectory planner (REACT), a V2X-integrated trajectory optimization framework for AD based on a fine-tuned lightweight Vision-Language Model (VLM). REACT integrates infrastructure-provided hazard alerts with onboard sensor data, capturing intricate surrounding traffic dynamics and vehicle intents through visual embeddings, interpreting precise numerical data from symbolic inputs, and employing contextual reasoning to generate optimized, safety-oriented trajectories. To ensure robust real-time deployment on edge devices, REACT innovatively employs Residual Trajectory Fusion (RTF) design and specialized edge-adaptation strategies to reduce model complexity and improve inference efficiency. Evaluated on the DeepAccident benchmark, REACT achieves state-of-the-art performance, a 77% collision rate reduction, a 48.2% Video Panoptic Quality (VPQ), and a 0.57-second inference latency on the Jetson AGX Orin. Ablation studies validate the contribution of each input, module, and edge adaptation strategy. These results highlight the effectiveness of lightweight VLMs in enabling real-time cooperative planning on edge platforms and underscore the potential of language-guided contextual reasoning for improving traffic safety and responsiveness.

中文摘要

依赖车载传感器的自动驾驶（AD）系统可能无法探测远处或障碍物危险，从而可能导致可以避免的碰撞；然而，现有的基于变压器的车与万物（V2X）方法，虽然缓解了AD传感的局限性，但要么缺乏有效的多模态融合和推理，要么在复杂的高维交通条件下难以满足实时性能要求。本文提出了基于实时边缘的自动驾驶副驾驶轨迹规划器（REACT），这是一个基于精细调优的轻量级视觉-语言模型（VLM）的V2X集成轨迹优化框架。REACT将基础设施提供的危险警报与车载传感器数据集成，通过视觉嵌入捕捉复杂的周围交通动态和车辆意图，解释来自符号输入的精确数值数据，并采用上下文推理生成优化的、以安全为导向的轨迹。为确保在边缘设备上的稳健实时部署，REACT创新性地采用了残差轨迹融合（RTF）设计和专门的边缘适应策略，以降低模型复杂性并提高推理效率。在DeepAccident基准上评估，REACT实现了最先进的性能，碰撞率降低77%，视频全景质量（VPQ）达到48.2%，在Jetson AGX Orin上的推理延迟为0.57秒。消融研究验证了每个输入、模块和边缘适应策略的贡献。这些结果突显了轻量级VLM在边缘平台上实现实时协作规划的有效性，并强调了语言引导的上下文推理在提高交通安全和响应能力方面的潜力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决自动驾驶系统在复杂交通环境中，由于仅依赖车载传感器而导致的感知范围有限、无法及时检测到远处或被遮挡的危险，从而可能引发可预防碰撞的问题。尽管现有的基于Transformer的车辆对一切（Vehicle-to-Everything, V2X）方法可以缓解自动驾驶（Autonomous Driving, AD）系统的感知限制，但这些方法要么缺乏有效的多模态融合和推理能力，要么在复杂、高维的交通条件下难以满足实时性能要求。

为了解决这些问题，论文提出了一个名为Real-time Edge-based Autonomous Co-pilot Trajectory planner（REACT）的V2X集成轨迹优化框架，该框架基于一个经过微调的轻量级视觉语言模型（Vision-Language Model, VLM）。REACT通过整合基础设施提供的危险警报和车载传感器数据，捕捉周围交通动态和车辆意图，通过视觉嵌入解读精确的数值数据，并运用上下文推理生成优化的安全导向轨迹。此外，为了确保在边缘设备上稳健地实时部署，REACT创新性地采用了残差轨迹融合（Residual Trajectory Fusion, RTF）设计和专门的边缘适应策略，以降低模型复杂性并提高推理效率。

Q: 有哪些相关研究？

A: 以下是与本文相关的研究领域和具体工作：

视觉语言模型（VLM）在自动驾驶系统中的应用

场景感知与理解：
- DriveVLM [33]：提出了一个基于VLM的框架，整合了场景描述、分析和分层规划模块，在长尾和复杂城市场景中表现出色。
- DriveLM [34]：提出了基于图视觉问答（Graph VQA）的架构，通过多步推理优化感知输出，有效模拟人类在感知流程中的认知过程。
- AutoTrust [35]：评估了VLM在场景理解任务中的可靠性，指出即使在针对特定目的构建的模型（如DriveVLM）中，也存在对对抗性条件和公平性问题的持续脆弱性。
- ScVLM [36]：通过增强对比学习和分类能力，提高了VLM对罕见或危险场景的检测和解释能力，在安全关键事件（SCE）理解方面取得了显著进展。
轨迹规划与预测：
- HE-Drive [37]：将VLM用作基于扩散的规划器中的轨迹评分器，确保生成更平滑、更舒适且更接近人类驾驶的轨迹。
- VLM-AD [38] 和 VLM-E2E [39]：将VLM作为辅助监督工具，融入端到端学习模型中，注入常识推理和语义注意力，从而提高轨迹精度和规划鲁棒性。
高级推理与决策制定：
- DriveVLM 和 DriveLM：在推理层中解释感知输出，通过自然语言将其转化为规划决策。
- VLM-RL [40]：引入了一种基于语言目标对比的新型奖励生成机制，将强化学习策略与语义可解释目标对齐。
通用VLM模型：
- DriveMM [41]：提出了一个大型多模态模型，在感知、预测和规划任务上进行训练，展示了VLM中心系统的可扩展性和泛化潜力。
- EMMA [42] 和 SimpleLLM4AD [43]：展示了端到端VLM驱动的流程，将目标检测、场景推理和运动规划整合到共享的语言基础表示空间中。

VLM与V2X通信的集成

V2X-VLM [22]：提出了一个端到端的V2X协作自动驾驶框架，通过VLM增强，将车辆和基础设施传感器的多模态数据融合到统一的语义表示中，增强了轨迹规划和情境感知能力。
MLLMs [44] 和 AutoReward [45]：强调语义推理和高级抽象，利用多模态输入和链式思考（CoT）提示机制，实现通过语义线索进行分布式决策制定和自适应策略学习。
SenseRAG [46]：在此方向上进一步发展，通过检索增强生成（RAG）在V2X框架中应用基于语言的推理。它构建了一个能够通过CoT提示解释实时传感器和V2X数据的主动环境知识库。
AgentsCoMerge [47] 和 V2X-LLM [48]：虽然这些方法使用的是通用LLM而不是VLM，但它们为未来的协作驾驶场景奠定了基础，可以整合VLM生成的消息。

VLM在边缘设备上的部署

EdgeVLA [50]：引入了结构简化措施，例如移除自回归解码和使用较小的语言模型，以加速视觉运动推理，为时间敏感的驾驶任务提供了设计见解。
EdgeCloudAI [51]：提出了一个混合架构，其中轻量级预处理在边缘节点上进行，而更深层次的语义推理则被卸载到云端，实现了可扩展且低延迟的场景解释。
VEANET [52]：提出了基于扩散的契约机制，用于在路边单元之间动态迁移AI代理双胞胎，实现对移动自动驾驶车辆的持续边缘辅助支持。
MobileAIBench [53]：提供了一个基准测试工具包，用于评估量化和运行时效率对移动环境中LLM和MLLM的影响，揭示了延迟、计算成本和任务性能之间的权衡。
MiniCPM-V [54]：证明了通过架构简化和对齐技术，可以在移动硬件上实现与GPT-4V相当的性能，同时降低了计算成本。
MobileVLM 和 MobileVLM V2 [55, 56]：展示了具有1.7B或3B参数的VLM在边缘平台上以更快的推理速度提供具有竞争力的结果。
Align-KD [57]：提出了一种跨模态知识蒸馏方法，有效地在压缩的学生模型中保留视觉-文本对齐精度。
AppVLM [58]：引入了一个紧凑的模型，能够在移动交互任务中以较低的计算成本执行，同时保持接近GPT-4o的准确性。
MobileExperts [59] 和 MobileEnv [60]：通过提供模块化代理框架和标准化评估工具，扩展了这一愿景，以促进边缘优化的自动驾驶界面开发。

Q: 论文如何解决这个问题？

A: 论文通过提出一个名为Real-time Edge-based Autonomous Co-pilot Trajectory planner（REACT）的V2X集成轨迹优化框架来解决自动驾驶系统在复杂交通环境中感知范围有限的问题。REACT框架基于一个经过微调的轻量级视觉语言模型（VLM），通过以下方式解决问题：

1. 多模态数据融合

REACT整合了车载传感器数据和基础设施提供的危险警报，通过视觉嵌入捕捉周围交通动态和车辆意图。具体来说：

视觉数据：将多视图相机图像转换为鸟瞰图（BEV）特征图，以捕捉道路几何形状和附近道路使用者的信息。
符号数据：将危险警报、导航目标和车辆状态等信息编码为结构化的文本提示，以便VLM进行推理。

2. 上下文推理

REACT通过VLM的上下文推理能力，生成优化的安全导向轨迹。VLM能够理解复杂的交通场景，包括被遮挡的合并、拥挤的交叉口或罕见的事故场景。具体步骤包括：

任务对齐：将视觉和符号数据编码为优化的提示，确保输入数据在空间和时间上的一致性。
任务投影增强：使用链式思考（CoT）提示监督VLM的微调，使其能够学习中间推理步骤，从而更清晰地理解任务，生成更安全的预测，并在推理时更好地泛化。

3. 实时边缘部署

为了确保在边缘设备上稳健地实时部署，REACT采用了多种优化策略，以降低模型复杂性并提高推理效率。具体策略包括：

模型量化：将模型权重从32位浮点精度转换为16位或8位精度，减少内存使用和计算需求。
注意力增强：通过缩放点积注意力（SDPA）优化Transformer的自注意力机制，降低计算复杂度。
文本和视觉令牌减少：通过缩短文本提示长度和压缩BEV特征图分辨率，减少输入复杂度，从而降低推理延迟。

4. 残差轨迹融合（RTF）

REACT通过RTF模块将VLM预测的轨迹调整应用于名义轨迹，从而生成优化的路径。这种方法不仅减少了推理延迟，还保持了运动连续性。具体步骤如下：

轨迹调整：VLM输出一系列轨迹点的残差位移，这些残差位移被应用于名义轨迹，生成优化后的轨迹。
优化轨迹：通过元素级加法将残差位移应用于名义轨迹，生成最终的优化轨迹，从而主动避免潜在碰撞。

5. 实验验证

论文通过在DeepAccident基准数据集上进行评估，验证了REACT的有效性。实验结果表明，REACT在减少碰撞率、提高轨迹预测精度和保持实时性能方面表现出色。具体结果如下：

碰撞率降低：REACT实现了77%的碰撞率降低。
轨迹预测精度：REACT在Video Panoptic Quality（VPQ）上达到了48.2%，在Mean Intersection-over-Union（mIOU）上达到了59.1%。
实时性能：在Jetson AGX Orin上，REACT的推理延迟为0.57秒。

通过这些方法，REACT有效地解决了自动驾驶系统在复杂交通环境中感知范围有限的问题，提高了交通安全性，并确保了实时性能。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

数据集和训练设置

数据集：使用了DeepAccident数据集，该数据集包含了691个在CARLA中模拟的事故场景，基于真实世界的事故报告。数据集涵盖了多样的天气和光照条件、不同的交通密度以及事故和非事故结果。它包括六种高风险的交叉口场景，覆盖了信号灯控制和无信号灯控制的环境，并且在地理区域分布上也较为广泛，包括小镇、市区公寓和商业区、乡村道路以及高速公路等。每个场景提供了车辆和路边单元（RSU）的多视图相机和激光雷达数据，支持运动预测和碰撞推理任务，有助于训练基于V2X的碰撞避免模型。
数据预处理：对于每个碰撞或近乎碰撞事件，根据场景长度选择10到20帧，分别提取这些帧前2秒和后2秒的车辆位置，形成一个完整的数据样本。导航目标是根据最终帧中自车的位置分配的。对于在碰撞帧结束的场景，目标位置是手动指定的。经过预处理后，训练集包含5959个有效样本，用于模型的微调。验证集以相同的方式进行预处理，包含942个样本，用于模型评估。
训练设置：在训练过程中，选择了SmolVLM2-500M模型作为VLM骨干网络，因为它在模型大小和准确度之间取得了较好的平衡。训练时采用了因果交叉熵损失函数，以鼓励VLM自回归地预测推理步骤和最终输出。通过超参数调整，确定了1×10⁻³的学习率，以确保训练的稳定性和收敛性。微调过程使用了6的批量大小、4的梯度累积步数、25个热身步骤和20个训练周期，总共进行了4956步的训练。

评估指标

Video Panoptic Quality（VPQ）：通过比较模型预测的运动地图与真实运动地图在像素级别的准确性来衡量模型对未来网格单元占用的预测能力。
Mean Intersection-over-Union（mIOU）：评估预测和真实占用区域在所有帧和事故场景中的区域重叠程度。
Minimum Average Displacement Error（minADE）：测量预测轨迹与真实轨迹在预测范围内的平均欧几里得距离。
Minimum Final Displacement Error（minFDE）：通过计算每个预测终点与真实终点之间的欧几里得距离来评估轨迹预测的最终点精度。
碰撞率降低（CRR）：通过比较在有REACT和没有REACT的情况下碰撞率的变化来衡量REACT降低碰撞风险的有效性。
最小清除距离（MCD）：量化自车与周围交通在未来的规划范围内保持的最小距离，反映了规划轨迹的空间安全裕度。

实验结果

运动预测比较：在DeepAccident数据集上，REACT与其他五个代表性V2X融合基线方法进行了比较。结果表明，REACT在mIOU和VPQ上均优于所有基线方法，包括AccidentGPT，同时使用了更小、更高效的模型。
定性结果：通过一系列事故易发场景的定性运动预测结果，展示了REACT在简单场景和复杂场景中的表现。在简单场景中，REACT能够直接有效地优化紧随事故车辆的车辆轨迹；在复杂场景中，REACT能够通过间接视觉线索预防潜在的不可见碰撞。
不同条件下的REACT性能：在不同的天气和时间条件下，REACT的平均CRR保持在76.95%到77.07%之间，显示出在天气相关干扰下的强泛化能力。在不同的位置类型下，REACT在“小城镇”区域表现出最高的CRR和适中的MCD，在“农村”道路上表现出最高的MCD和稍低但仍然很强的CRR，而在“高速公路”和“市区”设置中，CRR最低，MCD也最低，但REACT仍然保持了较高的CRR，证明了其在受限和动态场景中的有效性。
消融研究：通过消融实验评估了模型大小和剪枝率、边缘适应策略以及RTF模块的影响。结果表明，500M模型在所有剪枝水平下都能保持较高的VPQ分数，显示出即使在压缩下也有较强的表示能力。边缘适应策略中，文本提示长度缩短和BEV大小压缩在减少推理延迟方面最为有效，且对VPQ的降低影响最小。RTF模块的移除会导致模型必须预测绝对未来轨迹点位置，这增加了输出令牌长度和推理时间，并且降低了准确度，同时在安全关键场景中的鲁棒性也有所下降。

部署性能测试

边缘设备测试：为了评估在边缘平台上的部署性能，将微调后的模型在Jetson Orin Nano和Jetson AGX Xavier上进行了测试。由于Nano的内存限制导致延迟显著增加，因此后续的性能指标主要关注AGX平台。在AGX上，REACT在最优配置下（16位量化、1500个令牌的输入长度、64×64的BEV大小和SDPA）的推理延迟为0.57秒，证实了其在资源受限的边缘设备上实时部署的可行性。

Q: 有什么可以进一步探索的点？

A: 论文中提出的REACT框架在多模态数据融合、实时边缘部署和安全轨迹规划方面取得了显著成果，但仍有一些可以进一步探索的点，以进一步提升系统的性能和适用性：

1. 提高模型的泛化能力

数据增强：尽管REACT已经在多种场景下表现出色，但进一步的数据增强可以提高模型对未见场景的泛化能力。例如，通过模拟更多极端天气条件、复杂交通场景和罕见事故类型，可以增强模型的鲁棒性。
零样本学习：利用VLM的零样本学习能力，进一步减少对大规模标注数据集的依赖，提高模型在新任务和新场景下的适应性。

2. 优化模型的实时性能

模型压缩：尽管REACT已经通过量化和结构优化降低了模型复杂性，但进一步的模型压缩技术（如知识蒸馏、剪枝等）可以进一步减少模型大小和推理延迟，使其更适合在资源受限的边缘设备上运行。
硬件加速：探索更高效的硬件加速技术，如专用的AI芯片或FPGA，以进一步提高推理速度和降低功耗。

3. 增强模型的解释性

可解释性研究：尽管VLM在推理过程中表现出色，但其决策过程仍然较为复杂。通过引入更多的解释性技术（如注意力机制可视化、中间层输出分析等），可以更好地理解模型的决策过程，提高模型的可信度。
用户交互：开发更直观的用户交互界面，使人类驾驶员能够更好地理解和信任模型的决策，从而提高人机协作的效率。

4. 扩展模型的功能

多任务学习：将REACT扩展到多任务学习，使其能够同时处理多个相关任务（如目标检测、轨迹预测、场景理解等），从而提高系统的整体性能和效率。
长期规划：目前的REACT主要关注短期轨迹优化，未来可以探索长期规划能力，使车辆能够更有效地应对复杂的交通环境和动态变化。

5. 提高模型的精度

速度和角度估计：目前VLM在速度和角度估计方面的精度较低，可以通过引入更复杂的模型结构或优化训练策略来提高这些参数的估计精度。
轨迹平滑性：进一步优化轨迹的平滑性，减少轨迹中的不连续性和抖动，提高驾驶的舒适性和安全性。

6. 整合更丰富的上下文信息

道路拓扑信息：将更详细的道路拓扑信息（如车道线、交通标志、信号灯等）整合到模型中，以提高模型对复杂交通场景的理解和决策能力。
车辆意图信息：引入更明确的车辆意图信息（如转向意图、变道意图等），使模型能够更准确地预测其他车辆的行为，从而优化自身轨迹。

7. 扩展到其他交通参与者

行人和非机动车：目前REACT主要关注车辆之间的交互，未来可以扩展到行人和非机动车等其他交通参与者，以提高系统的全面性和安全性。
多模态数据融合：进一步探索如何更好地融合来自不同传感器（如激光雷达、毫米波雷达等）的数据，以提高模型对周围环境的感知能力。

8. 实际部署和测试

实地测试：在实际交通环境中进行广泛的实地测试，以验证REACT在真实世界中的性能和可靠性。
法规和标准：与交通管理部门合作，确保REACT符合相关的法规和标准，促进其在实际应用中的推广和部署。

通过这些进一步的探索和改进，REACT框架有望在自动驾驶领域发挥更大的作用，为提高交通安全和效率做出更大的贡献。

Q: 总结一下论文的主要内容

A: 本文提出了一个名为Real-time Edge-based Autonomous Co-pilot Trajectory planner（REACT）的V2X集成轨迹优化框架，旨在通过轻量级视觉语言模型（VLM）解决自动驾驶系统在复杂交通环境中由于感知范围有限而导致的安全问题。REACT通过整合车载传感器数据和基础设施提供的危险警报，利用VLM的上下文推理能力，生成优化的安全导向轨迹，并通过残差轨迹融合（RTF）模块提高实时性能和轨迹精度。

背景知识

自动驾驶系统依赖车载传感器，可能因感知范围有限而无法及时检测远处或被遮挡的危险，导致可预防的碰撞。
现有的基于Transformer的V2X方法虽能缓解感知限制，但在多模态融合、推理和实时性能方面存在不足。
视觉语言模型（VLM）在自动驾驶中的应用逐渐受到关注，其在场景理解、轨迹规划和决策制定等方面展现出潜力。

研究方法

REACT框架：包含五个核心模块：数据采集、数据结构化、任务对齐、任务投影增强和RTF。通过这些模块，REACT能够实时处理多模态数据，生成安全的轨迹规划。
多模态数据融合：将车载相机图像转换为鸟瞰图（BEV）特征图，并与RSU提供的危险警报、导航目标和车辆状态等符号数据结合，为VLM提供丰富的上下文信息。
上下文推理：利用VLM的链式思考（CoT）提示监督微调，提高模型对复杂交通场景的理解和推理能力。
实时边缘部署：通过模型量化、注意力增强和令牌长度减少等策略，优化VLM在边缘设备上的实时性能。
残差轨迹融合（RTF）：通过预测轨迹调整而非完整轨迹，降低推理延迟并保持运动连续性。

实验

数据集：使用DeepAccident数据集，包含691个事故场景，覆盖多种天气、光照条件和交通密度。
评估指标：包括Video Panoptic Quality（VPQ）、Mean Intersection-over-Union（mIOU）、Minimum Average Displacement Error（minADE）和Minimum Final Displacement Error（minFDE）。
碰撞率降低（CRR）：通过比较有无REACT时的碰撞率，衡量REACT降低碰撞风险的有效性。
最小清除距离（MCD）：量化自车与周围交通的最小距离，反映轨迹规划的安全性。

关键结论

性能提升：REACT在VPQ上达到48.2%，mIOU达到59.1%，显著优于现有方法。
碰撞率降低：REACT实现了77%的碰撞率降低，表现出强大的安全性能。
实时性能：在Jetson AGX Orin上，REACT的推理延迟为0.57秒，满足实时性要求。
泛化能力：REACT在不同天气、时间和地点条件下均表现出稳定的性能，具有良好的泛化能力。

进一步探索

提高模型的泛化能力，通过数据增强和零样本学习提升对未见场景的适应性。
优化模型的实时性能，通过模型压缩和硬件加速进一步降低推理延迟。
增强模型的解释性，通过注意力机制可视化和中间层输出分析提高决策过程的透明度。
扩展模型的功能，如多任务学习和长期规划，以提高系统的整体性能和效率。
提高模型的精度，特别是在速度和角度估计方面，以及优化轨迹的平滑性。
整合更丰富的上下文信息，如道路拓扑和车辆意图，以提高对复杂交通场景的理解。
扩展到其他交通参与者，如行人和非机动车，以提高系统的全面性和安全性。
进行实地测试，确保REACT在实际交通环境中的性能和可靠性，并符合相关法规和标准。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Fengze Yang, Bo Yu, Yang Zhou, Xuewen Luo, Zhengzhong Tu, Chenxi Liu

Categories: cs.AI, cs.RO

PDF URL: https://arxiv.org/pdf/2508.01057v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.01057v2

Published: 2025-08-01T20:16:04Z

9. Reducing Cognitive Load in Multi-Agent Reinforcement Learning for Mathematical Problem Solving: Decoupling Reasoning and Code Generation

Current tool-integrated mathematical reasoning systems often adopt a single-agent paradigm, where one large language model handles problem reasoning, code generation, and code execution in an integrated workflow. While this design eases coordination, we hypothesize that it imposes cognitive load interference, as the agent must interleave long-horizon reasoning with precise program synthesis. We validate this hypothesis through a controlled comparison between a reasoning-only agent and a reasoning-plus-code agent, finding that the latter produces significantly fewer correct reasoning paths despite having tool-calling capabilities. To address this, we propose a dual-agent hybrid framework: a Reasoning Agent performs stepwise problem decomposition, and a Code Agent handles code generation and execution. Training combines imitation learning and reinforcement learning: the Code Agent receives strong rewards for matching intermediate ground-truth programs and weaker rewards for valid execution, while the Reasoning Agent is optimized chiefly via final-answer accuracy using advantage estimation to credit intermediate steps. This decoupled role design reduces cognitive interference and promotes stable reasoning-coding coordination.

中文摘要

当前的工具集成数学推理系统通常采用单代理范式，其中一个大型语言模型在一个集成工作流程中处理问题推理、代码生成和代码执行。虽然这种设计简化了协调，但我们假设它会带来认知负担干扰，因为代理必须交错进行长时间的推理与精确的程序合成。我们通过对比仅进行推理的代理和进行推理加代码的代理进行的控制比较来验证这个假设，结果发现后者尽管具有调用工具的能力，但产生的正确推理路径显著较少。为了解决这个问题，我们提出了一种双代理混合框架：推理代理执行逐步问题分解，而代码代理处理代码生成和执行。训练结合了模仿学习和强化学习：代码代理对匹配中间真实程序获得强奖励，对有效执行获得较弱奖励，而推理代理主要通过最终答案准确性进行优化，使用优势估计来对中间步骤进行计分。这种解耦的角色设计减少了认知干扰，并促进了稳定的推理与编码协调。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决多智能体强化学习在数学问题解决中的认知负荷问题。具体来说，它关注的是当前工具集成的数学推理系统通常采用单智能体范式，即一个大型语言模型同时处理问题推理、代码生成和代码执行。这种设计虽然简化了协调，但作者假设它会带来认知负荷干扰，因为智能体必须在进行长期推理的同时，还要进行精确的程序合成。作者通过实验验证了这一假设，并提出了一种双智能体混合框架来解决这一问题。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

链式思考（Chain-of-Thought, CoT）提示：
- Wei et al. (2022)：展示了大型语言模型（LLMs）可以通过少量的逐步推理示例进行令人印象深刻的推理，在没有明确工具使用的情况下，在gsm8k等基准测试中取得了强大的结果。
工具使用和工具集成推理：
- Toolformer (Schick et al., 2023)：提出了一种自监督方法，其中LLMs被提示在生成的文本中插入API调用；只有当结果的可用性明显改善下一个标记的预测时，调用才会被保留，鼓励模型识别和利用有益的工具使用。
- ToRA (Gou et al., 2023)：探索了多轮推理和执行，涉及LLM、工具环境和输出空间之间的动态交互。这些框架促进多步展开，将工具输出与模型自身的推理进行交叉验证，并在检测到不一致时迭代细化工作流程。
- ToolRL (Qian et al., 2025)：通过强化学习探索了多轮推理和执行，而无需完整的监督微调。
- ReTool (Feng et al., 2025)：通过强化学习探索了多轮推理和执行，而无需完整的监督微调。

这些研究为本文提出的双智能体混合框架奠定了基础，特别是在构建多轮、工具集成的数学数据集、限制输出空间和设计允许中途修正和验证的rollouts方面。

Q: 论文如何解决这个问题？

A: 论文通过以下步骤解决单智能体范式在数学问题解决中带来的认知负荷问题：

1. 实验验证假设

实验设置：
- 使用Qwen2.5-3B模型，比较两种模式：
  - Reasoning-only (r only)：模型仅用自然语言逐步解决问题，不使用代码执行。
  - Reasoning+Code (r code)：模型在推理过程中插入Python代码块，代码可以执行以辅助解决问题。
- 数据集：使用gsm8k测试集，问题以自然语言陈述，通常可以通过Python代码验证解决方案。
- 提示协议：对于每个问题，使用相同的模型和采样策略评估两种模式，每种模式每个问题采样5次，使用核采样（topp=0.95, temperature=0.7）。
- 评估和推理验证：使用DeepSeek R1 API作为领域特定的“数学批评家”，评估模型生成的推理路径是否逻辑上有效，并在完美执行时是否会导致正确答案。
实验结果：
- 性能差异：在所有难度级别中，r code模式的表现均低于r only模式，性能差距在0.06到0.15之间，表明添加代码执行并没有带来净收益，反而可能降低了推理的准确性。
- 难度影响：性能下降在高难度问题中最为明显（Hard: −0.15, Medium-Hard: −0.12），而在简单问题中较小（−0.06），表明认知负荷干扰在需要长期推理时更为有害。

2. 提出双智能体混合框架

框架设计：
- Reasoning Agent：负责逐步分解问题，决定何时调用Code Agent。
- Code Agent：负责生成和执行代码，处理计算子任务。
训练方法：
- 模仿学习（Imitation Learning, IL）：从真实的逐步轨迹中进行模仿学习。
- 强化学习（Reinforcement Learning, RL）：使用双通道奖励方案：
  - Reasoning Agent：主要通过最终答案的准确性进行优化，使用优势估计（advantage estimation）为中间推理步骤分配信用。
  - Code Agent：当有中间真实结果（intermediate GT）时，匹配输出获得强奖励（例如，R=+1.0）；当没有中间真实结果时，语法正确且可执行的代码获得弱奖励（例如，R=+0.1），执行错误或无效输出则受到惩罚（例如，R=−0.2）。

3. 实验验证双智能体框架

实验设置：
- 数据集：使用GSM8K数据集进行训练和评估。
- Rollouts：通过DeepSeek API生成，Reasoning Agent产生自然语言逐步分解，Code Agent负责代码执行，代码执行在Python沙盒环境中进行，以确保安全性和可重复性。
算法概述：
- Reasoning Agent：
  - 生成逐步问题分解，决定何时调用Code Agent。
  - 主要通过最终答案的准确性进行优化，使用优势估计为中间推理步骤分配信用。
- Code Agent：
  - 接收来自Reasoning Agent的具体计算子任务。
  - 当有中间真实结果时，匹配输出获得强奖励；当没有中间真实结果时，语法正确且可执行的代码获得弱奖励，执行错误或无效输出则受到惩罚。
实验结果：
- 模仿学习结果：在仅使用模仿学习（没有强化学习）的情况下，双智能体设计在最终答案准确性和中间推理正确性方面已经优于单智能机基线。这表明，仅仅分离角色就可以改善推理和编码之间的协调稳定性。
- 强化学习预期改进：作者预计，随后的强化学习阶段将进一步提升性能，特别是在未见工具或任务不能完全由中间真实程序覆盖的情况下。此外，针对最终答案正确性和执行有效性的强化信号可能会增强智能体在更长和更复杂的推理链上的鲁棒性。

4. 讨论和未来工作

关键观察：
- 动机实验结果：初步动机实验支持了认知负荷假设，即当单智能体同时处理长期推理和低级代码执行时，推理路径的正确性显著下降。
- 双智能体模仿学习结果：在仅使用模仿学习的情况下，双智能体设计已经优于单智能机基线，表明分离角色可以改善协调稳定性。
- 未来强化学习改进：作者预计，强化学习阶段将进一步提升性能，特别是在处理未见工具或任务时。
限制：
- 强化学习阶段正在进行中：因此，该方法的全部潜力仍有待验证。
- 评估范围有限：当前评估仅使用了一组有限的数学推理任务；未来工作应纳入更多样化的问题类型和领域，以评估泛化能力。

Q: 论文做了哪些实验？

A: 论文中主要进行了以下实验：

1. 验证认知负荷假设的实验

实验目的：验证单智能体在同时进行长期推理和代码生成时是否会因为认知负荷干扰而导致推理路径的正确性下降。
实验设置：
- 使用 Qwen2.5-3B 模型。
- 比较两种模式：
  - Reasoning-only (r only)：模型仅用自然语言逐步解决问题，不使用代码执行。
  - Reasoning+Code (r code)：模型在推理过程中插入Python代码块，代码可以执行以辅助解决问题。
- 数据集：使用 gsm8k 测试集。
- 提示协议：对于每个问题，使用相同的模型和采样策略评估两种模式，每种模式每个问题采样5次，使用核采样（topp=0.95, temperature=0.7）。
- 评估和推理验证：使用 DeepSeek R1 API 作为领域特定的“数学批评家”，评估模型生成的推理路径是否逻辑上有效，并在完美执行时是否会导致正确答案。
实验结果：
- 性能差异：在所有难度级别中，r code模式的表现均低于r only模式，性能差距在0.06到0.15之间，表明添加代码执行并没有带来净收益，反而可能降低了推理的准确性。
- 难度影响：性能下降在高难度问题中最为明显（Hard: −0.15, Medium-Hard: −0.12），而在简单问题中较小（−0.06），表明认知负荷干扰在需要长期推理时更为有害。

2. 双智能体混合框架的实验

实验目的：验证双智能体混合框架是否能够通过分离推理和代码生成任务来减少认知负荷，从而提高推理的准确性和稳定性。
实验设置：
- 数据集：使用 GSM8K 数据集。
- 训练方法：
  - 模仿学习（Imitation Learning, IL）：从真实的逐步轨迹中进行模仿学习。
  - 强化学习（Reinforcement Learning, RL）：使用双通道奖励方案：
    - Reasoning Agent：主要通过最终答案的准确性进行优化，使用优势估计（advantage estimation）为中间推理步骤分配信用。
    - Code Agent：当有中间真实结果（intermediate GT）时，匹配输出获得强奖励（例如，R=+1.0）；当没有中间真实结果时，语法正确且可执行的代码获得弱奖励（例如，R=+0.1），执行错误或无效输出则受到惩罚（例如，R=−0.2）。
- Rollouts：通过 DeepSeek API 生成，Reasoning Agent 产生自然语言逐步分解，Code Agent 负责代码执行，代码执行在Python沙盒环境中进行，以确保安全性和可重复性。
实验结果：
- 模仿学习结果：在仅使用模仿学习（没有强化学习）的情况下，双智能体设计在最终答案准确性和中间推理正确性方面已经优于单智能机基线。这表明，仅仅分离角色就可以改善推理和编码之间的协调稳定性。
- 强化学习预期改进：作者预计，随后的强化学习阶段将进一步提升性能，特别是在未见工具或任务不能完全由中间真实程序覆盖的情况下。此外，针对最终答案正确性和执行有效性的强化信号可能会增强智能体在更长和更复杂的推理链上的鲁棒性。

3. 具体Rollout示例

示例1：计算前10个质数的和。

Reasoning Agent：首先需要获取前10个质数。

Code Agent：

def first_n_primes(n):
    primes = []
    num = 2
    while len(primes) < n:
        if all(num % p != 0 for p in primes):
            primes.append(num)
        num += 1
    return primes
print(first_n_primes(10))

    *   沙盒执行结果：`[2, 3, 5, 7, 11, 13, 17, 19, 23, 29]`
    *   Code Agent获得强奖励（+1.0）
*   **Reasoning Agent**：然后计算它们的和。
*   **Code Agent**： \`\`

Authors: Dayu Wang, Jiaye Yang, Weikang Li, Jiahui Liang, Yang Li

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2508.08882v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.08882v1

Published: 2025-08-12T12:10:53Z

10. Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training

General AI Agents are increasingly recognized as foundational frameworks for the next generation of artificial intelligence, enabling complex reasoning, web interaction, coding, and autonomous research capabilities. However, current agent systems are either closed-source or heavily reliant on a variety of paid APIs and proprietary tools, limiting accessibility and reproducibility for the research community. In this work, we present \textbf{Cognitive Kernel-Pro}, a fully open-source and (to the maximum extent) free multi-module agent framework designed to democratize the development and evaluation of advanced AI agents. Within Cognitive Kernel-Pro, we systematically investigate the curation of high-quality training data for Agent Foundation Models, focusing on the construction of queries, trajectories, and verifiable answers across four key domains: web, file, code, and general reasoning. Furthermore, we explore novel strategies for agent test-time reflection and voting to enhance agent robustness and performance. We evaluate Cognitive Kernel-Pro on GAIA, achieving state-of-the-art results among open-source and free agents. Notably, our 8B-parameter open-source model surpasses previous leading systems such as WebDancer and WebSailor, establishing a new performance standard for accessible, high-capability AI agents. Code is available at https://github.com/Tencent/CognitiveKernel-Pro

中文摘要

通用人工智能代理日益被视为下一代人工智能的基础框架，使复杂的推理、网络交互、编码和自主研究能力得以实现。然而，当前的代理系统要么是封闭源代码，要么严重依赖各种付费API和专有工具，这限制了研究社区的可获取性和复现性。在这项工作中，我们提出了 extbf{Cognitive Kernel-Pro}，一个完全开源且（在最大程度上）免费的多模块代理框架，旨在使先进人工智能代理的开发和评估民主化。在Cognitive Kernel-Pro中，我们系统地研究了代理基础模型高质量训练数据的策划，重点关注在网络、文件、代码和一般推理四个关键领域中查询、轨迹和可验证答案的构建。此外，我们探索了代理测试时反思和投票的新策略，以增强代理的鲁棒性和性能。我们在GAIA上评估了Cognitive Kernel-Pro，获得了开源和免费的代理中领先的最新成果。值得注意的是，我们的8B参数开源模型超过了WebDancer和WebSailor等先前领先系统，为可获取的高能力人工智能代理建立了新的性能标准。代码可在https://github.com/Tencent/CognitiveKernel-Pro获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是当前人工智能代理系统（AI Agents）在开发和使用上的限制，主要体现在以下几个方面：

闭源和依赖付费API的问题：现有的AI代理系统要么是闭源的，要么严重依赖各种付费API和专有工具。这限制了研究社区对这些系统的访问和可重复性，使得研究人员难以自由地探索和改进这些系统。
缺乏完全开源的框架：尽管有一些开源的AI代理框架，但它们往往依赖于专有工具（如Jina Reader、FireCrawl等）来实现竞争性能，这同样限制了它们的可访问性和可重复性。此外，一些开源框架缺乏多模态或通用代理能力。
高质量训练数据的缺乏：对于代理基础模型（Agent Foundation Models）的训练，缺乏系统化的高质量训练数据。这些数据需要涵盖多个关键领域，如网页、文件、代码和通用推理，以确保代理系统能够在多种任务中表现出色。
代理系统的性能和鲁棒性问题：现有的代理系统在处理复杂任务时，如网页浏览等，存在固有的随机性和不稳定性。这需要在推理时进行优化，以提高系统的可靠性和一致性。

为了解决这些问题，论文提出了一个完全开源的、尽可能免费的多模块代理框架——Cognitive Kernel-Pro（CK-Pro），旨在推动AI代理系统的民主化开发和评估。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

5.1 专有深度研究代理（Proprietary Deep Research Agents）

OpenAI的深度研究（Deep Research）：OpenAI的深度研究系统整合了最先进的OpenAI模型，能够自主地浏览网页、分析数据并生成综合报告。该系统在GAIA基准测试中表现出色，平均pass@1准确率为67.36%，cons@64准确率为72.57%，在Humanity’s Last Exam测试中准确率为26.6%，显著优于其他模型。
Google的Gemini深度研究（Gemini Deep Research）：作为Gemini 2.5套件的一部分，该系统能够自主搜索数百个网站，进行迭代推理，并产生详细的报告，强调实时适应性和多模态处理能力。
Perplexity的深度研究（Perplexity Deep Research）：在金融、营销和技术等领域表现出色，在Humanity’s Last Exam测试中准确率为21.1%，在SimpleQA测试中准确率为93.9%。该系统通过迭代搜索、阅读文档和细化研究计划来实现其功能。
Moonshot AI的Kimi-Researcher：作为Moonshot AI的Kimi平台的高级功能，Kimi-Researcher在为复杂查询提供精确研究输出方面表现出色，涵盖了多个领域。

5.2 开源深度研究框架（Open-Source Deep Research Frameworks）

Hugging Face的SmolAgents：一个轻量级的Python库，支持各种LLMs进行网络搜索和数据处理，但在复杂、多步骤的研究任务优化方面可能有所欠缺。
阿里巴巴通义的WebAgent框架：包括WebDancer、WebSailor和WebShaper，该框架在基于网络的任务（如BrowseComp、GAIA和WebWalkerQA）中表现出超人类的推理能力。
OWL（Optimized Workforce Learning）：一个分层的多代理系统，在GAIA基准测试中以69.09%的平均分数领先于开源框架，支持在线搜索、多模态处理、浏览器自动化、文档解析和代码执行等工具。
TapeAgent：由ServiceNow开发，使用“tape”日志来简化LLM代理的开发，与GPT-4o在表单填写等任务中相匹配，具有成本效益。
AutoAgent：使非技术用户能够通过自然语言创建LLM代理，GAIA准确率达到55.15%，在多代理任务中表现出色。
OAgent：一个开源平台，支持推理和自动化的模块化代理构建，但可能依赖于专有工具。

这些研究展示了深度研究代理领域的发展趋势，包括专有系统在性能上的优势以及开源框架在可访问性和可重复性方面的努力。然而，开源框架在性能和多模态能力方面仍存在不足，而专有系统则依赖于付费工具。论文提出的Cognitive Kernel-Pro旨在填补这些空白，通过完全开源的框架和模型，利用免费工具来提高可访问性和性能。

Q: 论文如何解决这个问题？

A: 论文通过以下三个核心方面来解决当前AI代理系统中存在的问题：

1. 提出Cognitive Kernel-Pro框架

完全开源和免费的多模块代理框架：Cognitive Kernel-Pro是一个多模块、分层的代理框架，旨在促进完全开源的代理开发。该框架利用Python代码作为其动作空间，充分发挥现代LLMs的推理和代码生成潜力。框架采用模块化架构，包含一个主代理和多个子代理，主代理负责任务分解、子任务分配和信息聚合，而子代理则专注于特定的子任务，如网页浏览、文件处理和工具调用。
最小化对专有工具的依赖：除了Google搜索API（几乎所有的信息检索代理都需要）之外，Cognitive Kernel-Pro不依赖任何专有工具。这使得该框架在保持高性能的同时，最大化了开源性和可访问性。

2. 高质量训练数据的构建

系统化的训练数据收集：论文提出了一个全面的训练方案，涵盖网页浏览、文件处理、代码生成和推理等多个领域。通过构建可验证的代理查询-答案对，确保了训练数据的高质量。
中间过程提示和基于提示的拒绝采样：为了提高数据收集的质量和相关性，论文引入了中间过程提示，并采用基于提示的拒绝采样方法。这种方法显著提高了收集数据的质量，使得Cognitive Kernel-Pro能够在多样化任务中表现出色，同时保持完全开源的兼容性。

3. 推理时优化策略

反思（Reflection）和投票（Voting）：为了应对网页浏览等任务中的固有随机性，论文提出了一个集成重试机制和基于集成的多运行策略的流程。反思模块使代理能够回顾和评估其之前的动作轨迹，根据一系列标准（如非空、合理、成功和可靠）来评估轨迹和预测答案。如果代理发现任何违反这些标准的情况，它将尝试重新执行任务，直到产生满意的答案或达到预定义的重试限制。投票过程则允许代理聚合多个轨迹，通过比较和对比不同尝试中的信息，选择最符合标准的轨迹作为最终输出。

通过结合模块化框架、鲁棒的训练方案和优化的推理策略，Cognitive Kernel-Pro为开源代理开发设定了新的标准，为基于代理的研究开辟了可访问和可重复的发展道路。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

4.1 实验设置

基线（Baselines）：基于OWL的开源代码，作者在自己的环境中重现了OWL使用Claude-3.7-Sonnet的性能。所有实验设置都遵循OWL提供的默认配置，包括为每个代理使用相应的LLM API以及集成某些付费工具，如Chunkr和FireCrawl。所有代理在推理过程中都采用贪婪解码，并且重规划尝试的最大次数设置为默认值2。需要注意的是，作者没有使用Whisper API，并且网络环境与原始实验不同，这些因素可能导致重现的性能低于OWL最初报告的结果。对于SmolAgents的实现，作者的实验使用了Open Deep-Research版本的SmolAgents提供的大多数工具，并遵循其配置，只是增强了网络浏览工具，增加了DOM树解析以显示网络结构、元素点击和文本输入功能。
Cognitive Kernel-Pro：作者仅使用了一个付费工具，即Google搜索API，这是几乎所有代理框架所必需的。使用Claude-3.7作为支持代理框架的骨干网络。此外，还使用了基于Qwen-3-8B微调的CK-Pro-8B作为代理基础模型。
数据集（Datasets）：使用GAIA数据集作为评估基准，这是一个全面的测试套件，旨在评估AI代理在多样化任务中的通用智能和多步推理能力，包括网络导航、问答、文件操作和多模态处理，使其成为评估Cognitive Kernel-Pro框架性能的理想选择。

4.2 实验结果

GAIA完整开发集（Full dev set of GAIA）：表3展示了各种代理框架在完整的GAIA数据集上的性能，区分了闭源和开源系统，并将后者根据是否使用付费工具进行分组，还包含了作者用星号（*）标记的重现结果。Cognitive Kernel-Pro使用Claude-3.7，在与Smolagents相同的实验条件下（例如，LLM和搜索API、互联网连接），在Pass@1上超过了5%，在Pass@3上超过了7%，显示出其有效性。其性能也与依赖于专有工具（如用于文件处理的Chunkr和用于网络浏览的FireCrawl）的OWL相当，突显了其巨大的潜力。此外，作者还展示了使用GPT-4.1为多模态功能提供支持，并在第3节中概述的轨迹上对Qwen-3-8B模型进行微调的结果，实现了38.18%的Pass@3分数，与最先进的Claude-3.7模型相比有30%的差距，这表明未来有很大的改进空间。
GAIA的文本子集（Text-only Subset of GAIA）：表4展示了在GAIA的文本子集上的性能比较。主要基线是WebDancer和WebSailor的7B版本。此外，还列出了32B和72B模型作为参考，在表格的上半部分。作者还包含了Search-o1、R1-Searcher和WebThinker的性能。使用CK-Pro-8B模型的Cognitive Kernel-Pro在GAIA的所有级别上都取得了最佳的Pass@1和Pass@3性能。
反思模块的消融研究（Ablation Study of Reflection）：表5展示了不同骨干LLM用于反思和投票的消融研究结果。使用开源模型Qwen-3-32B已经足够好，与GPT-4.1相当。然而，如果使用经过训练的CK-Pro-8B模型，如果没有经过反思能力的微调，只有边际改进。这表明将反思能力纳入代理基础模型的训练是一个未来的研究方向。
多模态语言模型的消融研究（Ablation Study of the Multimodal Language Model）：表6展示了使用不同多模态语言模型骨干网络的影响。结果表明，用GPT-4.1替换Qwen-2.5-VL-72B只带来了边际性能提升。这表明，观察到的性能提升并非仅仅因为使用了像GPT-4.1这样的更先进的多模态模型，因为Qwen-2.5-VL-72B也取得了相当的结果。未来的工作将致力于开发一个完全的多模态语言模型作为骨干网络，以无缝支持文本和多模态输入。

Q: 有什么可以进一步探索的点？

A: 论文中提到了一些可以进一步探索的点，主要包括以下方面：

代理基础模型的改进

多模态能力的提升：目前的代理基础模型在多模态处理方面仍有提升空间。未来可以进一步探索如何更好地整合文本、图像、音频等多种模态的信息，开发出更强大的多模态代理基础模型，以更好地处理复杂的多模态任务。
模型规模和性能的平衡：虽然更大的模型通常能够带来更好的性能，但也会带来更高的计算成本和资源消耗。未来可以研究如何在模型规模和性能之间取得更好的平衡，开发出更高效、更经济的代理基础模型。
模型的泛化能力：提高代理基础模型在不同领域和任务上的泛化能力，使其能够更好地适应各种复杂多变的实际情况。这可能需要进一步优化模型的训练方法和数据收集策略，以提高模型的鲁棒性和适应性。

训练数据的优化

数据多样性和质量：进一步丰富训练数据的多样性，涵盖更广泛的领域和任务类型，以提高代理系统的通用性和适应性。同时，需要持续优化数据收集和筛选的方法，确保训练数据的质量和可靠性。
动态数据更新：探索如何实时更新训练数据，以反映最新的信息和知识。这对于保持代理系统的时效性和准确性至关重要，尤其是在处理实时信息检索和动态任务时。
数据标注和验证：提高数据标注的效率和准确性，减少人工标注的工作量和成本。同时，开发更有效的数据验证方法，确保训练数据的正确性和一致性。

推理策略的优化

实时反馈和调整：研究如何在推理过程中实时获取反馈，并根据反馈动态调整推理策略。这将有助于代理系统更快地适应任务的变化，提高推理的准确性和效率。
多代理协作：进一步探索多代理之间的协作机制，使不同代理能够更有效地协同工作，共同完成复杂的任务。这可能需要开发更智能的任务分配和信息共享策略，以充分发挥多代理系统的潜力。
不确定性处理：改进代理系统对不确定性的处理能力，在面对不确定信息或模糊任务时，能够做出更合理的决策和推断。这可能需要引入新的推理方法和不确定性量化技术。

框架的扩展和应用

与其他技术的融合：探索Cognitive Kernel-Pro框架与其他新兴技术（如区块链、物联网等）的融合，拓展其应用范围和功能。例如，将代理系统与区块链技术结合，实现更安全、可信的信息共享和协作。
行业应用定制：针对不同行业的特定需求，对Cognitive Kernel-Pro框架进行定制和优化，开发出更具针对性的解决方案。例如，在医疗、金融、教育等领域，根据行业的特点和规范，打造适合的代理系统，以提高行业的智能化水平。
用户交互和体验：关注用户与代理系统的交互体验，研究如何设计更自然、更友好的交互界面和方式。提高代理系统的易用性和可访问性，使其能够更好地服务于普通用户，推动AI技术的普及和应用。

Q: 总结一下论文的主要内容

Authors: Tianqing Fang, Zhisong Zhang, Xiaoyang Wang, Rui Wang, Can Qin, Yuxuan Wan, Jun-Yu Ma, Ce Zhang, Jiaqi Chen, Xiyun Li, Hongming Zhang, Haitao Mi, Dong Yu

Categories: cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2508.00414v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.00414v2

Published: 2025-08-01T08:11:31Z

AI Domain Papers

1. Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

Diffusion large language models (dLLMs) generate text through iterative denoising, yet current decoding strategies discard rich intermediate predictions in favor of the final output. Our work here reveals a critical phenomenon, temporal oscillation, where correct answers often emerge in the middle process, but are overwritten in later denoising steps. To address this issue, we introduce two complementary methods that exploit temporal consistency: 1) Temporal Self-Consistency Voting, a training-free, test-time decoding strategy that aggregates predictions across denoising steps to select the most consistent output; and 2) a post-training method termed Temporal Consistency Reinforcement, which uses Temporal Semantic Entropy (TSE), a measure of semantic stability across intermediate predictions, as a reward signal to encourage stable generations. Empirical results across multiple benchmarks demonstrate the effectiveness of our approach. Using the negative TSE reward alone, we observe a remarkable average improvement of 24.7% on the Countdown dataset over an existing dLLM. Combined with the accuracy reward, we achieve absolute gains of 2.0% on GSM8K, 4.3% on MATH500, 6.6% on SVAMP, and 25.3% on Countdown, respectively. Our findings underscore the untapped potential of temporal dynamics in dLLMs and offer two simple yet effective tools to harness them.

中文摘要

扩散大语言模型(dLLMs)通过迭代去噪生成文本，但目前的解码策略忽视丰富的中间预测，而偏向于最终输出。我们在这里的工作揭示了一种重要现象，即时间震荡，在这一过程中，正确答案往往在中间阶段出现，但在后续的去噪步骤中被覆盖。为了解决这个问题，我们引入了两种互补的方法，利用时间一致性：1) 时间自一致投票，一种无训练的测试时间解码策略，聚合去噪步骤中的预测，以选择最一致的输出；2) 一种后训练方法称为时间一致性强化，使用时间语义熵(TSE)，即在中间预测中的语义稳定性衡量指标，作为奖励信号，鼓励稳定生成。跨多个基准测试的实证结果证明了我们方法的有效性。仅使用负的TSE奖励，我们在Countdown数据集上观察到了与现有的dLLM相比，平均提高了24.7%的显著改进。结合准确性奖励，我们在GSM8K上获得了2.0%的绝对增益，在MATH500上为4.3%，在SVAMP上为6.6%，在Countdown上为25.3%。我们的发现强调了dLLM中时间动态的未开发潜力，并提供了两种简单而有效的工具来利用它们。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决扩散型大型语言模型（dLLMs）在解码过程中存在的一个关键问题：时间振荡（temporal oscillation）。具体来说，dLLMs在生成文本时通过迭代去噪来逐步改进预测结果，但现有的解码策略仅依赖于最终的去噪步骤来输出结果，而忽略了中间步骤中的预测信息。论文揭示了一个现象：在中间的去噪步骤中，模型往往能够生成正确的答案，但这些正确答案在后续的迭代中被覆盖，导致最终输出结果不准确。

为了解决这一问题，论文提出了两种互补的方法来利用dLLMs的时间一致性（temporal consistency）：

时间自一致性投票（Temporal Self-Consistency Voting）：这是一种无需训练的测试时解码策略，通过聚合不同去噪步骤中的预测结果，并选择最一致的输出，从而提高最终结果的准确性。
时间一致性强化（Temporal Consistency Reinforcement）：这是一种基于强化学习的后训练方法，使用时间语义熵（Temporal Semantic Entropy, TSE）作为奖励信号，鼓励模型生成更稳定和一致的结果。TSE衡量了中间预测结果在语义上的稳定性，较低的TSE值表示模型在生成过程中语义变化较小，即更稳定。

这两种方法都旨在利用dLLMs在解码过程中产生的丰富中间预测信息，而不是仅仅依赖于最终的输出结果。通过这些方法，论文展示了如何提高dLLMs的性能，并强调了时间动态在文本生成中的重要性。

Q: 有哪些相关研究？

A: 本文涉及的相关研究主要集中在以下几个领域：

扩散语言模型（Diffusion Language Models）

早期连续扩散方法：如 Han et al. (2022) 和 Li et al. (2022)，这些方法在连续空间中进行操作，但往往难以处理复杂的语言模式。
离散扩散模型：由 Austin et al. (2021) 开创，通过掩码标记框架（如 Sahoo et al., 2024; Nie et al., 2024）和扩展工作（如 BD3-LMs (Arriola et al., 2025) 和 Eso-LMs (Sahoo et al., 2025)）进行改进，这些模型在并行采样和性能上取得了进展。
大规模扩散模型：例如 Dream (Ye et al., 2025) 和 LLaDA (Nie et al., 2025)，这些模型展示了通过扩散方法进行大规模语言模型训练的潜力。

扩散模型中的采样策略

自适应推理策略：Kim et al. (2025) 探讨了在采样过程中标记顺序的影响，并提出了自适应推理策略以提高模型性能。
重掩码机制：Wang et al. (2025) 引入了一种重掩码机制，通过推理时的扩展来提高 dLLMs 的生成质量。

测试时策略（Test-time Strategy）

自一致性（Self-Consistency）：Wang et al. (2022) 提出了一种通过多数投票从多个输出中选择最一致答案的技术，本文的时间自一致性投票方法借鉴了这一概念。
语义熵（Semantic Entropy）：Farquhar et al. (2024) 和 Kuhn et al. (2023) 提出了语义熵这一新的不确定性度量方法，用于处理语言模型中的“语义等价”问题。本文引入的时间语义熵（TSE）正是基于这一概念，用于表征 dLLMs 在逐步去噪过程中的稳定性和置信度。

基于强化学习的后训练（Post-Training using Reinforcement Learning）

群体相对策略优化（Group Relative Policy Optimization, GRPO）：Shao et al. (2024) 和 Guo et al. (2025) 提出的 GRPO 是一种强化学习方法，直接从组内响应的奖励中计算优势，无需单独训练价值函数。GRPO 在数学和代码生成等推理任务上表现出色，并在多种模态和下游任务中展现出潜力。
基于熵的强化学习策略：相关工作如 EMPO (Zhang et al., 2025) 和 Seed-GRPO (Chen et al., 2025) 从熵的角度增强了强化学习策略，通过语义熵来改进奖励估计或优势估计。
dLLMs 的强化学习方法：例如 diffu-GRPO (Zhao et al., 2025)、UniGRPO (Yang et al., 2025) 和 coupled-GRPO (Gong et al., 2025)，这些方法都依赖于真实答案来形成奖励信号，而本文的方法则通过无监督的方式增强模型的时间一致性，不依赖于真实答案的监督。

这些相关研究为本文提供了理论基础和技术背景，使得本文能够在扩散语言模型的时间动态特性上进行深入探索，并提出创新的解码策略和后训练方法。

Q: 论文如何解决这个问题？

A: 论文通过两种互补的方法来解决扩散型大型语言模型（dLLMs）中的时间振荡问题，这两种方法分别是时间自一致性投票（Temporal Self-Consistency Voting）和时间一致性强化（Temporal Consistency Reinforcement）。以下是这两种方法的详细解释：

1. 时间自一致性投票（Temporal Self-Consistency Voting）

这种方法是一种无需训练的测试时解码策略，旨在通过聚合不同去噪步骤中的预测结果来选择最一致的输出。具体步骤如下：

聚合预测：给定一个扩散采样轨迹 ({x_t^0}{t=1}^T)，该方法通过加权投票机制选择最终答案 (a^*)。具体公式为： [ a^* = \arg\max_a \sum{t=1}^T f(t) \cdot 1(\text{meaning}(x_t^0) = a) ] 其中，(1(\cdot)) 是指示函数，如果 (x_t^0) 的语义与候选答案 (a) 一致，则返回 1，否则返回 0。(f(t)) 是一个关于时间步 (t) 的权重函数，用于调整不同时间步的预测结果的权重。
权重函数：论文中探索了三种权重方案：
- 固定权重：所有时间步的权重相同，即 (f(t) = 1)。
- 线性衰减：随着时间步的增加，权重线性衰减，即 (f(t) = 1 - \frac{t}{T})。
- 指数衰减：权重随时间步指数衰减，即 (f(t) = \exp(\alpha(1 - \frac{t}{T})))，其中 (\alpha) 是一个超参数，默认值为 5。
优势：这种方法利用了扩散模型在不同时间步生成的中间预测结果，而不是仅仅依赖于最终的预测结果。通过加权投票，可以更有效地选择出最一致的输出，从而提高最终结果的准确性。此外，这种方法不需要额外的训练，计算开销极小，可以直接集成到现有的 dLLMs 框架中。

2. 时间一致性强化（Temporal Consistency Reinforcement）

这种方法是一种基于强化学习的后训练方法，旨在通过时间语义熵（Temporal Semantic Entropy, TSE）作为奖励信号，鼓励模型生成更稳定和一致的结果。具体步骤如下：

时间语义熵（TSE）：TSE 是一个衡量中间预测结果语义稳定性的指标。具体定义为： [ \text{TSE}({x_t^0}{t=1}^T) = - \sum{C_k} \left( \sum_{x_t^0 \in C_k} p(x_t^0) \right) \log \left( \sum_{x_t^0 \in C_k} p(x_t^0) \right) ] 其中，({x_t^0}_{t=1}^T) 是在不同时间步生成的中间预测结果，(C_k) 是根据语义等价性将这些预测结果分组后的语义簇。TSE 值越高，表示语义变化越大，模型的输出越不稳定；TSE 值越低，表示模型的输出越稳定。
强化学习框架：论文采用了群体相对策略优化（GRPO）作为强化学习框架。对于每个问题 (q)，从当前策略 (\pi_\theta) 中采样一组 (G) 个响应 ({o_1, o_2, \ldots, o_G})，每个响应 (o_i) 的奖励 (r_i) 定义为 (-\text{TSE}(o_i))。训练目标为： [ L_{\text{GRPO}}(\theta) = \mathbb{E}{q \sim D, o_1, \ldots, o_G \sim \pi\theta(\cdot|q)} \left[ \left( \frac{1}{G} \sum_{i=1}^G \sum_{k=1}^{|o_i|} \min \left( \rho_k^i A_k^i, \text{clip}(\rho_k^i, 1 - \epsilon, 1 + \epsilon) A_k^i \right) \right) - \beta \text{DKL}[\pi_\theta(\cdot|q) | \pi_{\text{ref}}(\cdot|q)] \right] ] 其中，(\pi_{\text{ref}}) 是参考策略，(\rho_k^i) 是重要性采样比率，(\epsilon) 是裁剪阈值，(\beta) 控制 KL 散度的强度。
结合准确率奖励：为了进一步提高性能，论文还提出将 TSE 奖励与基于准确率的奖励结合起来。具体奖励函数为： [ r_i = 1_{o_i = o^*} + c(o_i) \left( \frac{c(o_i)}{(c(o_i))^2 + (1 - c(o_i))^2} \right) ] 其中，(1_{o_i = o^*}) 是一个二元奖励，当模型预测正确时为 1，否则为 0。(c(o_i)) 是从 TSE 派生的置信度，定义为 (c(o_i) = \frac{H_{\text{max}} - \text{TSE}(o_i)}{H_{\text{max}}})，其中 (H_{\text{max}} = \log T)。
优势：这种方法通过强化学习的方式，利用模型内部的时间动态特性作为自监督信号，不需要额外的真实标签数据。通过鼓励模型生成更稳定和一致的结果，可以显著提高模型的性能。此外，结合准确率奖励可以进一步提升模型的性能，尤其是在有真实标签数据的情况下。

总结

通过这两种方法，论文有效地利用了 dLLMs 在解码过程中产生的丰富中间预测信息，而不是仅仅依赖于最终的输出结果。时间自一致性投票方法通过聚合不同时间步的预测结果，提高了最终结果的准确性；时间一致性强化方法通过强化学习的方式，鼓励模型生成更稳定和一致的结果，从而进一步提升性能。这两种方法在多个基准数据集上的实验结果验证了其有效性。

Q: 论文做了哪些实验？

A: 论文进行了广泛的实验来验证所提出方法的有效性。实验涉及多个数学推理基准数据集和两种代表性扩散型大型语言模型（dLLMs）。以下是实验的详细情况：

实验设置

数据集：实验使用了四个广泛认可的数学推理基准数据集，包括：
- GSM8K：包含8.5K个小学数学应用题，需要通过2-8步基本算术解决。
- MATH500：从更广泛的MATH数据集中精选的500个高中竞赛数学问题。
- SVAMP：一个针对小学数学应用题的基准，每个问题都是一个简短的自然语言叙述，描述一个场景并询问未知数量。
- Countdown：一个组合算术游戏，给定三个数字，要求使用基本算术运算达到目标数字。
模型：实验使用了两种dLLMs：
- LLaDA-8B-Instruct：一个具有8B参数的dLLM，经过指令微调。
- LLaDA-1.5：一个经过方差减少偏好优化的dLLM。

实验方法

时间自一致性投票（Temporal Self-Consistency Voting）：
- 实验比较了三种不同的加权策略：固定权重、线性衰减权重和指数衰减权重。
- 在不同的序列长度（128、256、512）下评估了这些策略的性能。
- 通过与基线模型（仅使用最终去噪步骤的预测）进行比较，验证了时间自一致性投票策略的有效性。
时间一致性强化（Temporal Consistency Reinforcement）：
- 使用时间语义熵（TSE）作为奖励信号，通过强化学习对模型进行微调。
- 实验包括仅使用TSE奖励的情况，以及将TSE奖励与基于准确率的奖励相结合的情况。
- 在不同的序列长度下评估了这些方法的性能，并与基线模型进行了比较。

实验结果

时间自一致性投票：
- 在GSM8K、MATH500、SVAMP和Countdown数据集上，指数衰减权重策略平均提高了1.6%、1.2%、1.0%和2.2%的准确率。
- 例如，在GSM8K数据集上，使用时间自一致性投票的LLaDA-8B-Instruct模型准确率从68.5%提高到70.1%。
- 在所有数据集和序列长度上，时间自一致性投票策略均优于基线模型，且计算开销极小。
时间一致性强化：
- 仅使用TSE奖励时，模型在Countdown数据集上平均提高了24.7%的准确率。
- 将TSE奖励与基于准确率的奖励相结合时，模型在GSM8K、MATH500、SVAMP和Countdown数据集上分别实现了2.0%、4.3%、6.6%和25.3%的绝对准确率提升。
- 例如，在Countdown数据集上，结合TSE和准确率奖励的LLaDA-8B-Instruct模型准确率从20.3%提高到41.5%。

分析与讨论

时间语义熵（TSE）：
- 实验结果表明，正确答案通常具有较低的TSE值，表明在生成过程中语义更稳定。
- 在Countdown和MATH等性能较低的数据集上，观察到更高的TSE值，表明语义不稳定性和不确定性更大。
模型属性变化：
- 经过时间一致性强化微调后，模型的TSE值降低，表明输出的语义一致性增强。
- 模型的“ever pass rate”（在任何时间步生成正确答案的比例）仍然高于“final pass rate”（最终输出正确的比例），表明仍有改进空间。
- 微调后的模型生成的输出更简洁，可能有助于减少时间振荡。

结论

实验结果表明，时间自一致性投票和时间一致性强化这两种方法都能有效地提高dLLMs的性能，且无需额外的训练数据或计算开销。这些方法通过利用dLLMs在解码过程中产生的中间预测信息，提高了模型的准确性和稳定性。

Q: 有什么可以进一步探索的点？

A: 论文提出的时间自一致性投票和时间一致性强化方法在多个数据集上展示了显著的性能提升，但仍有一些可以进一步探索的方向：

1. 更复杂的数据集和任务

多样化任务：虽然论文主要关注数学推理任务，但可以将这些方法应用于其他类型的自然语言处理任务，如文本生成、问答系统、机器翻译等，以验证其在不同领域的有效性。
更大规模的数据集：在更大规模和更复杂的数据集上进行实验，以评估方法的可扩展性和鲁棒性。

2. 时间自一致性投票的改进

动态权重调整：目前的权重函数是预定义的，可以探索动态调整权重的方法，例如根据中间预测结果的置信度或语义稳定性来动态调整权重。
多模态融合：结合图像、音频等多模态信息，探索在多模态任务中如何利用时间自一致性投票来提高性能。

3. 时间一致性强化的扩展

多目标强化学习：除了准确率和TSE，可以引入其他奖励信号，如流畅性、多样性等，进行多目标强化学习。
自适应奖励策略：探索自适应奖励策略，根据模型在不同阶段的表现动态调整奖励信号，以更好地引导模型学习。

4. 模型内部机制的深入分析

中间预测的语义分析：更深入地分析中间预测结果的语义变化，了解模型在不同时间步的推理过程，以发现潜在的错误模式和改进方向。
时间动态的可视化：开发可视化工具来展示模型在解码过程中的时间动态，帮助研究人员更好地理解模型的行为和改进点。

5. 与其他技术的结合

预训练模型的集成：将时间自一致性投票和时间一致性强化与最新的预训练模型（如GPT-4、LLaMA等）结合，探索在更强大的模型基础上的性能提升。
与提示学习（Prompt Learning）结合：研究如何将这些方法与提示学习技术结合，以进一步提高模型的推理能力和适应性。

6. 跨领域应用

跨语言应用：将这些方法应用于跨语言任务，如多语言文本生成和翻译，以验证其在不同语言环境中的有效性。
跨模态应用：探索在跨模态任务中，如视觉问答（VQA）和语音识别，如何利用时间动态来提高模型性能。

7. 理论分析和优化

理论保证：从理论角度分析时间自一致性投票和时间一致性强化的收敛性和稳定性，为方法提供更坚实的理论基础。
优化算法：探索更高效的优化算法，以减少训练时间和计算资源消耗，同时保持或提高性能。

8. 实际应用中的挑战

实时性要求：在需要实时响应的应用场景中，如何平衡时间自一致性投票和时间一致性强化带来的计算开销与性能提升。
数据隐私和安全：在涉及敏感数据的任务中，如何确保这些方法在不泄露隐私的情况下有效工作。

这些方向不仅有助于进一步提升扩散型大型语言模型的性能，还可能为自然语言处理领域的其他研究提供新的思路和方法。

Q: 总结一下论文的主要内容

A: 本文的核心内容是探索和利用扩散型大型语言模型（dLLMs）在文本生成过程中的时间动态特性，以解决现有解码策略中存在的时间振荡问题。时间振荡是指在dLLMs的迭代去噪过程中，正确答案往往在中间步骤出现，但随后被错误答案覆盖，导致最终输出不准确。为了解决这一问题，论文提出了两种互补的方法：时间自一致性投票（Temporal Self-Consistency Voting）和时间一致性强化（Temporal Consistency Reinforcement）。以下是文章的主要内容概述：

背景知识

扩散型大型语言模型（dLLMs）：通过迭代去噪生成文本，与自回归模型不同，dLLMs在每个步骤中并行预测所有掩码标记，然后逐步细化预测结果。
时间振荡现象：在dLLMs的解码过程中，正确答案可能在中间步骤出现，但在后续步骤中被错误答案覆盖，导致最终输出不准确。

研究方法

时间自一致性投票（Temporal Self-Consistency Voting）
- 方法概述：这是一种无需训练的测试时解码策略，通过聚合不同去噪步骤中的预测结果，并选择最一致的输出。
- 实现细节：给定一个扩散采样轨迹 ({x_t^0}_{t=1}^T)，通过加权投票机制选择最终答案 (a^*)。权重函数 (f(t)) 可以是固定权重、线性衰减或指数衰减。
- 优势：利用了dLLMs在不同时间步生成的中间预测结果，提高了最终结果的准确性，且计算开销极小。
时间一致性强化（Temporal Consistency Reinforcement）
- 方法概述：这是一种基于强化学习的后训练方法，使用时间语义熵（Temporal Semantic Entropy, TSE）作为奖励信号，鼓励模型生成更稳定和一致的结果。
- 实现细节：TSE衡量了中间预测结果的语义稳定性，较低的TSE值表示模型在生成过程中语义变化较小。通过强化学习，模型在训练过程中被鼓励生成具有较低TSE值的响应。
- 优势：通过强化学习的方式，利用模型内部的时间动态特性作为自监督信号，不需要额外的真实标签数据，显著提高了模型的性能。

实验

数据集：使用了四个数学推理基准数据集：GSM8K、MATH500、SVAMP和Countdown。
模型：使用了两种dLLMs：LLaDA-8B-Instruct和LLaDA-1.5。
实验结果：
- 时间自一致性投票：在GSM8K、MATH500、SVAMP和Countdown数据集上，指数衰减权重策略平均提高了1.6%、1.2%、1.0%和2.2%的准确率。
- 时间一致性强化：仅使用TSE奖励时，模型在Countdown数据集上平均提高了24.7%的准确率。结合TSE和准确率奖励时，模型在GSM8K、MATH500、SVAMP和Countdown数据集上分别实现了2.0%、4.3%、6.6%和25.3%的绝对准确率提升。

关键结论

时间自一致性投票：通过聚合不同时间步的预测结果，可以显著提高dLLMs的最终输出准确性，且计算开销极小。
时间一致性强化：通过强化学习利用模型内部的时间动态特性，可以显著提高模型的稳定性和准确性，即使在没有额外真实标签数据的情况下。
结合两种方法：时间自一致性投票和时间一致性强化可以有效结合，进一步提升模型性能。

进一步研究方向

多样化任务和数据集：将这些方法应用于其他类型的自然语言处理任务和更大规模的数据集。
动态权重调整：探索动态调整权重的方法，以更好地利用中间预测结果。
多目标强化学习：引入其他奖励信号，进行多目标强化学习。
模型内部机制分析：深入分析模型在不同时间步的推理过程，发现潜在的错误模式和改进方向。
跨领域应用：探索在跨语言和跨模态任务中的应用。

通过这些方法，论文不仅揭示了dLLMs在解码过程中存在的时间振荡问题，还提供了解决这一问题的有效工具，为未来的研究提供了新的视角和方向。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Wen Wang, Bozhen Fang, Chenchen Jing, Yongliang Shen, Yangyi Shen, Qiuyu Wang, Hao Ouyang, Hao Chen, Chunhua Shen

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2508.09138v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09138v1

Published: 2025-08-12T17:59:57Z

Text-guided color editing in images and videos is a fundamental yet unsolved problem, requiring fine-grained manipulation of color attributes, including albedo, light source color, and ambient lighting, while preserving physical consistency in geometry, material properties, and light-matter interactions. Existing training-free methods offer broad applicability across editing tasks but struggle with precise color control and often introduce visual inconsistency in both edited and non-edited regions. In this work, we present ColorCtrl, a training-free color editing method that leverages the attention mechanisms of modern Multi-Modal Diffusion Transformers (MM-DiT). By disentangling structure and color through targeted manipulation of attention maps and value tokens, our method enables accurate and consistent color editing, along with word-level control of attribute intensity. Our method modifies only the intended regions specified by the prompt, leaving unrelated areas untouched. Extensive experiments on both SD3 and FLUX.1-dev demonstrate that ColorCtrl outperforms existing training-free approaches and achieves state-of-the-art performances in both edit quality and consistency. Furthermore, our method surpasses strong commercial models such as FLUX.1 Kontext Max and GPT-4o Image Generation in terms of consistency. When extended to video models like CogVideoX, our approach exhibits greater advantages, particularly in maintaining temporal coherence and editing stability. Finally, our method also generalizes to instruction-based editing diffusion models such as Step1X-Edit and FLUX.1 Kontext dev, further demonstrating its versatility.

中文摘要

文本引导的图像和视频颜色编辑是一个基本但尚未解决的问题，要求对颜色属性进行精细的操控，包括反射率、光源颜色和环境光。同时需要保持几何、材料属性和光物质相互作用的物理一致性。现有的非训练方法在编辑任务中具有广泛的适用性，但在精确颜色控制方面存在困难，并且在编辑和未编辑区域之间常常引入视觉不一致性。在这项工作中，我们提出了ColorCtrl，一种基于现代多模态扩散变换器（MM-DiT）的无训练颜色编辑方法。通过针对性地操控注意力图和价值标记，我们的方法能够解耦结构和颜色，从而实现准确一致的颜色编辑，并能够在属性强度上进行词级控制。我们的方法只修改由提示指定的目标区域，而不涉及无关区域。对SD3和FLUX.1-dev的广泛实验表明，ColorCtrl在编辑质量和一致性方面超过了现有的无训练方法，达到了最先进的性能。此外，我们的方法在一致性方面超越了诸如FLUX.1 Kontext Max和GPT-4o图像生成等强大的商业模型。当扩展到像CogVideoX这样的解码视频模型时，我们的方法展现出更大的优势，特别是在保持时间一致性和编辑稳定性方面。最后，我们的方法还能够推广到基于指令的编辑扩散模型，如Step1X-Edit和FLUX.1 Kontext dev，进一步展示了其多功能性。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败: Waiting failed: 30000ms exceeded

Authors: Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Heung-Yeung Shum

Categories: cs.GR, cs.AI, cs.CV

PDF URL: https://arxiv.org/pdf/2508.09131v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09131v1

Published: 2025-08-12T17:57:04Z

3. BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair

中文摘要

LLM Analysis

Q: 这篇论文试图解决什么问题？

搜索范围有限（Limited Search Breadth）：
- 大多数LLM代理通过自然语言调用网络浏览工具，并且以串行方式处理查询，这导致它们一次只能处理一个页面，极大地限制了可以检查的来源数量，无法实现全面覆盖。
- 例如，为了找到2018至2023年间EMNLP会议中第一作者在达特茅斯学院学习、第四作者在宾夕法尼亚大学学习的论文标题，需要广泛搜索大量论文，但现有的串行查询方式无法有效实现这一点。
推理深度不足（Shallow Reasoning Depth）：
- 每次调用工具时，原始的网络内容被直接注入到代理的上下文中，这会打断推理的连贯性，破坏多步推理的流程。
- 例如，在多步推理过程中，每一步的输出都包含大量无关信息，这使得代理难以保持清晰的推理思路，从而影响最终的推理结果。

Q: 有哪些相关研究？

信息检索与大型语言模型

Retrieval-Augmented Generation (RAG): 这类研究通过结合检索和生成，增强LLM处理复杂任务的能力。例如，Lewis et al. (2020) 提出了Retrieval-Augmented Language Model Pre-Training，通过检索外部知识来增强语言模型的性能。
Fact-Checking and Multi-Hop Reasoning Benchmarks: 早期的基准测试如Natural Questions (Kwiatkowski et al., 2019) 和TriviaQA (Joshi et al., 2017) 主要关注事实核查，而后来的基准测试如HotPotQA (Yang et al., 2018) 和Musique (Trivedi et al., 2022) 则更强调多跳推理。
Recent Challenging Benchmarks: 最新的基准测试如BrowseComp (Wei et al., 2025) 和BrowseComp-zh (Zhou et al., 2025) 要求代理能够定位深度纠缠、难以找到的信息，这些任务对代理的搜索和推理能力提出了极高的要求。

智能代理与工具使用

ReAct Framework: Yao et al. (2023) 提出了ReAct框架，通过在语言模型中交错思考、搜索和观察，增强了代理的搜索能力。
Training Search Capabilities: Jin et al. (2025a) 提出了Search-R1，通过强化学习训练LLM进行推理和利用搜索引擎。
Agentic Workflows: 这类研究通过协调多个LLM调用和工具交互来处理复杂任务。例如，Gottweis et al. (2025) 提出了AI Co-Scientist，用于科学研究；Qian et al. (2024) 提出了ChatDev，用于软件开发。

工具增强的搜索方法

WebSailor: Li et al. (2025a) 提出了WebSailor，通过导航超人推理来增强Web代理的能力。
WebThinker: Li et al. (2025c) 提出了WebThinker，通过深度研究能力增强大型推理模型。
WebDancer: Wu et al. (2025a) 提出了WebDancer，旨在实现自主的信息检索代理。

Q: 论文如何解决这个问题？

1. 规划者（Planner）：长期策略家

任务分解：规划者负责高级推理，将复杂的任务分解为可管理的子任务，并将这些子任务委托给执行者。
避免推理碎片化：规划者仅在执行者返回的结构化输出上进行操作，避免了直接接触原始、未处理的网络内容，从而防止多步推理被破坏。
置信度引导的重规划：规划者在得出最终答案时会产生一个置信度分数；如果分数低于预定义的阈值，它将触发重规划以优化解决方案。这可以防止过早收敛，并允许在扩展的时间范围内进行自适应推理。

2. 执行者（Executor）：可扩展搜索引擎

高效、针对性检索：执行者通过与工具的程序化交互来实现高效、针对性的检索，为规划者提供简洁、相关的证据。
代码执行作为交互方式：执行者通过生成可执行代码来调用工具，这些代码在沙盒环境中执行，执行结果被封装并附加到模型的上下文中，从而实现无缝推理。
标准化搜索编程原语：执行者使用标准化的搜索编程原语（如 generate_keywords、batch_search 和 check_condition），这些原语封装了生成搜索查询、并行检索和应用可编程过滤逻辑的关键能力。这些原语减少了冗余，提高了灵活性和可扩展性，使得执行者能够高效地进行大规模网络探索。

3. 工具增强的程序化沙盒

工具设计：为了模拟人类的在线信息检索行为，设计了两个基本工具：网络搜索和网页解析。网络搜索工具利用搜索引擎定位相关网页，并提供实体相关事实、相关网页预览和相关搜索查询。网页解析工具则用于深入分析选定的网页，提取与用户查询直接相关的信息。
执行环境：为了支持多步工具使用，设计了一个具有持久内存的状态化代码执行沙盒。每个代理都被分配了一个隔离的执行环境，允许在多次运行之间保留和恢复执行状态，从而提供了类似 Jupyter Notebook 的体验，使得代理能够灵活地定义和重用函数、类和对象。

4. 实验验证

基准测试：在五个具有挑战性的基准测试（BrowseComp、BrowseComp-zh、xBench-DeepResearch、GAIA 和 WebWalkerQA）上对 BrowseMaster 进行了评估，这些基准测试涵盖了英语和中文任务。
性能对比：实验结果表明，BrowseMaster 在这些基准测试中均优于开源和专有的基线系统。例如，在 BrowseComp-en 上，BrowseMaster 达到了 30.0% 的准确率，成为首个达到这一里程碑的开源代理；在 BrowseComp-zh 上，它超过了 OpenAI 的 DeepResearch 4%。

Q: 论文做了哪些实验？

A: 论文中进行了广泛的实验来评估 BrowseMaster 框架的性能，这些实验涵盖了多个基准测试和多种语言的任务。以下是实验的详细设置和结果：

实验设置

1. 代理（Agent）

规划者（Planner）：使用 DeepSeek-R1-0528 驱动。
执行者（Executor）：使用 DeepSeek-R1。
参数设置：最大完成 tokens 数量设置为 64k，温度（temperature）设置为 0.6。

2. 基准测试（Benchmarks）

BrowseComp (Wei et al., 2025)：评估定位复杂、纠缠信息的能力。
BrowseComp-zh (Zhou et al., 2025)：BrowseComp 的中文版本，目标相似。
xBench-DeepResearch (Chen et al., 2025b)：动态基准，专注于评估搜索和信息检索任务中的工具使用。
GAIA (Mialon et al., 2023)：测试推理、网络浏览和一般工具使用能力。
WebWalkerQA (Wu et al., 2025b)：评估代理处理复杂、多层网络信息的能力。

3. 基线（Baselines）

专有深度研究代理：包括 OpenAI DeepResearch、Grok3 DeepResearch、Doubao DeepResearch、Metaso DeepResearch 等。
先进模型：如 QwQ、DeepSeek-R1、GPT-4o、Gemini 2.5 Pro、o1 等。
开源代理：如 WebThinker、WebDancer、WebSailor、WebShaper、Agentic Reasoning 等。

主要结果

1. 性能对比

BrowseComp-en：BrowseMaster 达到了 30.0% 的准确率，成为首个达到这一里程碑的开源代理。
BrowseComp-zh：BrowseMaster 达到了 46.5% 的准确率，超过了 OpenAI 的 DeepResearch 4%，以及其他先进的专有模型。
xBench-DeepResearch：BrowseMaster 达到了 66.0% 的准确率。
GAIA：BrowseMaster 达到了 68.0% 的准确率。
WebWalkerQA：BrowseMaster 达到了 62.1% 的准确率。

这些结果表明 BrowseMaster 在多个基准测试中均优于开源和专有的基线系统，特别是在需要广泛搜索和深入推理的复杂任务中表现突出。

2. 性能分析

搜索调用量和计算量：实验结果表明，增加搜索调用量和计算量可以显著提升代理的性能。BrowseMaster 在扩展搜索调用和计算资源方面表现出色，尤其是在复杂的 BrowseComp 任务中。
工具调用效率：BrowseMaster 平均每次调用执行 12.11 个工具调用，最大可达 244.76 个调用，而其他代理如 WebThinker 每次调用仅限于一个工具调用。这表明 BrowseMaster 的代码驱动方法能够高效地进行大规模工具调用。
页面访问多样性：BrowseMaster 的搜索覆盖了更多样化的来源，与 WebThinker 相比，它能够访问更广泛的网页，从而在复杂的搜索任务中表现更好。
交互次数：复杂任务需要更多的交互次数，BrowseMaster 能够根据任务复杂性动态调整交互次数，确保在复杂任务中进行彻底和自信的解决方案。

详细实验结果

1. 性能对比表

基准测试

OpenAI DeepResearch

Grok3 DeepResearch

Doubao DeepResearch

Gemini 2.5 Pro

WebThinker

WebDancer

WebSailor

BrowseMaster

BrowseComp-en

12.0%

12.9%

26.0%

7.6%

1.5%

3.8%

12.0%

30.0%

BrowseComp-zh

42.9%

50+%

27.3%

7.3%

18.0%

30.1%

46.5%

xBench-DeepResearch

67.4%

24.0%

39.0%

55.0%

66.0%

GAIA

48.5%

51.5%

55.4%

68.0%

WebWalkerQA

39.4%

43.2%

52.2%

62.1%

2. 性能分析图

图 3：展示了 BrowseMaster 和基线系统在 BrowseComp 上的性能随搜索调用量和总 token 使用量的变化。结果表明，增加搜索调用量和计算量可以显著提升性能。
图 4：比较了 BrowseMaster 和 WebThinker 在 BrowseComp 上的工具调用次数。BrowseMaster 每次调用平均执行 12.11 个工具调用，最大可达 244.76 个调用，而 WebThinker 每次调用仅限于一个工具调用。
图 5：展示了不同基准测试中规划者和执行者之间的交互次数。复杂任务需要更多的交互次数，BrowseMaster 能够根据任务复杂性动态调整交互次数。
图 6：可视化了 BrowseMaster 和 WebDancer 在 BrowseComp 上访问的网页。BrowseMaster 的搜索覆盖了更多样化的来源。

结论

Q: 有什么可以进一步探索的点？

A: 尽管 BrowseMaster 在多个基准测试中表现出色，但仍有一些可以进一步探索和改进的方向。以下是一些潜在的研究方向和改进点：

1. 进一步优化执行者的工具使用效率

改进搜索原语：虽然 BrowseMaster 已经使用了标准化的搜索编程原语（如 generate_keywords、batch_search 和 check_condition），但这些原语的性能和效率仍有提升空间。例如，可以进一步优化关键词生成算法，提高搜索结果的相关性和准确性。
动态调整工具调用策略：根据任务的复杂性和上下文信息，动态调整工具调用的频率和策略。例如，在某些情况下，可能需要更频繁地调用 check_condition 来验证信息，而在其他情况下，可能需要更多地使用 batch_search 来扩展搜索范围。

2. 增强规划者的推理能力

模型训练与优化：通过训练规划者模型，使其能够更好地理解和分解复杂任务，从而更有效地制定搜索策略。可以探索使用强化学习或其他训练方法来提升规划者的推理能力。
多模态推理：结合文本、图像、音频等多种模态的信息，增强规划者的推理能力。例如，在某些任务中，图像信息可能提供重要的线索，帮助更准确地定位目标信息。

3. 扩展框架的多语言能力

跨语言推理：目前 BrowseMaster 在中文和英文任务上表现出色，但可以进一步扩展到其他语言，以支持更广泛的多语言信息检索任务。这需要解决不同语言之间的语义差异和文化背景差异。
多语言工具集成：开发和集成更多支持多语言的工具，如多语言搜索引擎和解析器，以提高在不同语言环境下的检索效率和准确性。

4. 提高框架的可扩展性和适应性

分布式计算：在大规模任务中，可以探索使用分布式计算来进一步提高搜索和推理的效率。例如，将任务分解为多个子任务，并在多个计算节点上并行执行。
自适应任务分解：根据任务的复杂性和上下文信息，自适应地分解任务，使每个子任务的难度和复杂性更加均衡。这可以提高整体任务的解决效率和准确性。

5. 增强框架的鲁棒性和容错能力

错误检测与恢复：在执行过程中，可能会遇到工具调用失败、网络问题等异常情况。可以进一步增强框架的错误检测和恢复机制，确保在遇到问题时能够自动调整策略并继续执行任务。
多源验证：通过从多个来源验证信息，提高结果的可靠性和准确性。例如，在某些任务中，可以要求从多个独立的网页中获取相同的信息，以确保结果的可信度。

6. 用户交互与个性化

用户反馈集成：在执行过程中，可以引入用户反馈机制，使用户能够实时提供反馈，帮助代理更好地理解任务需求并调整搜索策略。
个性化搜索策略：根据用户的偏好和历史行为，定制个性化的搜索策略。例如，对于经常搜索特定主题的用户，可以优化搜索关键词和工具调用策略，以提高检索效率。

7. 长期推理与知识积累

知识图谱集成：将知识图谱集成到框架中，使代理能够利用已有的知识和结构化信息进行更深入的推理。例如，在某些任务中，可以通过查询知识图谱来获取相关实体的详细信息，从而更准确地定位目标信息。
长期记忆与知识更新：引入长期记忆机制，使代理能够积累和更新知识，从而在后续任务中更好地利用这些知识。例如，可以定期更新知识图谱，以反映最新的信息和知识。

8. 安全性和隐私保护

数据隐私保护：在处理用户数据和网络信息时，确保数据的隐私和安全。例如，可以采用加密技术和访问控制机制，保护用户的个人信息和搜索历史。
恶意内容检测：在搜索过程中，检测并过滤恶意内容，如虚假信息、恶意链接等，确保搜索结果的安全性和可靠性。

通过进一步探索这些方向，可以进一步提升 BrowseMaster 框架的性能和适用性，使其在更广泛的应用场景中发挥更大的作用。

Q: 总结一下论文的主要内容

Authors: Xianghe Pang, Shuo Tang, Rui Ye, Yuwen Du, Yaxin Du, Siheng Chen

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2508.09129v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09129v1

Published: 2025-08-12T17:56:25Z

4. Complex Logical Instruction Generation

Instruction following has catalyzed the recent era of Large Language Models (LLMs) and is the foundational skill underpinning more advanced capabilities such as reasoning and agentic behaviors. As tasks grow more challenging, the logic structures embedded in natural language instructions becomes increasingly intricate. However, how well LLMs perform on such logic-rich instructions remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a scalable, automated framework for generating verifiable instructions from code functions, which can naturally express rich logic such as conditionals, nesting, recursion, and function calls. We further curate a collection of complex code functions and use LogicIFGen to construct LogicIFEval, a benchmark comprising 426 verifiable logic-rich instructions. Our experiments demonstrate that current state-of-the-art LLMs still struggle to correctly follow the instructions in LogicIFEval. Most LLMs can only follow fewer than 60% of the instructions, revealing significant deficiencies in the instruction-following ability. Code and Benchmark: https://github.com/mianzhang/LogicIF

中文摘要

遵循指令催生了最近的大语言模型（LLMs）时代，并且是更高级功能（如推理和代理行为）的基础技能。随着任务变得更具挑战性，自然语言指令中嵌入的逻辑结构变得越来越复杂。然而，LLMs在这些富含逻辑的指令上的表现仍然未被充分探索。我们提出了LogicIFGen和LogicIFEval。LogicIFGen是一个可扩展的自动化框架，用于从代码函数生成可验证的指令，能够自然表达丰富的逻辑，如条件语句、嵌套、递归和函数调用。我们进一步整理了一组复杂的代码函数，并使用LogicIFGen构建LogicIFEval，这是一个包含426条可验证逻辑丰富指令的基准。我们的实验表明，当前最先进的LLMs在正确遵循LogicIFEval中的指令时仍然面临困难。大多数LLMs仅能遵循不到60%的指令，显示出遵循指令能力的显著不足。代码和基准： https://github.com/mianzhang/LogicIF

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是评估大型语言模型（LLMs）在遵循复杂逻辑指令方面的表现。具体来说，它关注的是当任务变得更加复杂，自然语言指令中嵌入的逻辑结构变得更加复杂时，LLMs的性能如何。这些逻辑结构包括条件语句、嵌套、递归和函数调用等。论文指出，尽管LLMs在基本指令理解方面已经取得了进展，但它们在处理逻辑丰富的指令时的表现尚未得到充分探索。

为了解决这个问题，论文提出了两个主要贡献：

LogicIFGen：一个可扩展的自动化框架，用于从代码函数生成可验证的指令。这些指令能够自然地表达丰富的逻辑结构，如条件、嵌套、递归和函数调用等。
LogicIFEval：一个基准测试集，包含426个可验证的逻辑丰富的指令，用于评估LLMs在遵循复杂指令方面的能力。

通过这些贡献，论文旨在更全面地评估LLMs在复杂逻辑指令遵循方面的表现，并揭示当前模型在这一领域的局限性。

Q: 有哪些相关研究？

A: 论文中提到了多个与指令遵循和逻辑推理相关的研究工作，这些研究主要集中在以下几个方面：

指令遵循评估

InFoBench (Qin et al., 2024): 一个评估大型语言模型指令遵循能力的基准，关注模型对指令中多种约束条件的遵循能力。
FollowBench (Jiang et al., 2024): 一个包含多层级细粒度约束的指令遵循基准，用于评估模型在不同约束条件下的表现。
LIFBench (Wu et al., 2024): 一个评估大型语言模型在长文本情境下指令遵循性能的基准。
LIFEBench (Zhang et al., 2025): 一个评估大型语言模型在指令长度方面的指令遵循能力的基准。
AGENTIF (Qi et al., 2025): 一个在代理场景中评估大型语言模型指令遵循能力的基准。

逻辑和推理

Scaling reasoning, losing control (Fu et al., 2025): 探讨了推理能力对指令遵循的影响，发现推理可能会降低指令遵循性能。
Incentivizing reasoning for advanced instruction-following (Qin et al., 2025): 研究了如何通过激励推理来提高大型语言模型的高级指令遵循能力。
Evaluating instruction following (Zeng et al., 2023): 评估了大型语言模型在遵循指令方面的能力，特别是模型作为评估者的相关性。

代码生成和逻辑复杂性

IFEvalCode (Yang et al., 2025): 探索了大型语言模型在生成符合用户意图的代码方面的能力。
Enhancing LLM-based code generation with complexity metrics (Sepidband et al., 2025): 提出了一种基于复杂度指标的反馈驱动方法，用于增强基于LLM的代码生成。

指令遵循的验证方法

Generalizing verifiable instruction following (Pyatkin et al., 2025): 研究了如何使指令遵循更加可验证，提出了基于启发式函数或LLM作为评估者的验证方法。

这些研究为本文的工作提供了背景和基础，特别是在指令遵循的评估、逻辑复杂性的处理以及模型推理能力的提升方面。本文通过提出LogicIFGen和LogicIFEval，进一步推动了对大型语言模型在复杂逻辑指令遵循方面的研究。

Q: 论文如何解决这个问题？

A: 论文通过以下两个主要方法来解决评估大型语言模型（LLMs）在遵循复杂逻辑指令方面表现的问题：

1. LogicIFGen：可扩展的自动化指令生成框架

LogicIFGen 是一个从代码函数生成可验证指令的自动化框架。该框架能够生成包含丰富逻辑结构（如条件语句、嵌套、递归和函数调用等）的指令。具体步骤如下：

匿名化和添加状态跟踪器：首先对原始代码函数进行匿名化处理，将函数名和变量名替换为通用标识符，以去除语义提示。同时，在代码中添加状态跟踪器，用于记录函数运行时的关键状态信息。这些状态跟踪器确保模型不仅需要生成正确的输出，还需要正确执行逻辑步骤。
自然语言指令生成：使用大型语言模型将匿名化后的代码函数翻译成详细的自然语言指令。这些指令以对话形式提供，指导模型逐步执行代码逻辑，而无需访问源代码。
多轮难度演变和验证细化：通过多轮交互，逐步增加指令的逻辑复杂性，并验证生成的指令是否准确、完整地覆盖了代码的所有操作。这确保了生成的指令能够准确反映代码的逻辑。

2. LogicIFEval：基准测试集

LogicIFEval 是一个包含426个复杂逻辑指令的基准测试集，用于评估LLMs在遵循复杂指令方面的能力。该基准的构建过程如下：

种子函数收集和筛选：从编程竞赛平台（如Codeforces和POJ）收集具有挑战性的模拟问题解决方案，这些解决方案通常涉及复杂的逻辑和状态转换。
数据筛选：通过两阶段筛选过程，去除重复或高度相似的函数，以及那些可能导致执行错误的测试用例。这确保了基准测试集的多样性和可靠性。
指令生成和人类验证：使用LogicIFGen框架生成自然语言指令，并由计算机科学领域的专家进行人工验证，确保生成的指令准确无误。

实验和评估

论文通过在LogicIFEval基准上测试21种不同的LLMs，展示了当前模型在复杂逻辑指令遵循方面的表现。实验结果表明，即使是最先进的模型，也难以正确执行超过60%的指令，揭示了LLMs在这一领域的显著不足。

总结

通过LogicIFGen和LogicIFEval，论文不仅提供了一个系统的方法来生成复杂的逻辑指令，还构建了一个具有挑战性的基准，用于评估LLMs在遵循这些指令方面的能力。这些工具和实验结果为未来的研究提供了宝贵的资源和方向，有助于推动LLMs在复杂逻辑任务上的性能提升。

Q: 论文做了哪些实验？

A: 论文主要进行了以下实验来评估大型语言模型（LLMs）在遵循复杂逻辑指令方面的能力：

实验设置

模型选择：论文测试了21种不同的LLMs，包括前沿的思考模型（如gpt-5、o3、Claude-4-Sonnet等）和非思考模型（如GPT-4.1、GPT-4o、Qwen3-32B等）。这些模型涵盖了不同的架构和推理能力。
推理设置：对于闭源模型，使用各自API提供的默认温度设置；对于开源模型，采用官方推荐的推理设置。所有模型的最大生成标记数设置为16k，以确保模型有足够的容量来处理指令和输入。

实验内容

基准测试：使用LogicIFEval基准测试集对所有模型进行评估。该基准包含426个复杂的逻辑指令，每个指令都有一组测试用例。模型需要正确执行这些指令，并生成与参考标签完全一致的输出和状态跟踪器值。
性能评估：主要评估指标是模型在所有测试用例上的准确率，即模型正确执行指令的比例。此外，还分别评估了模型在不同难度级别（简单、中等、困难）上的表现。

实验结果

整体性能：结果显示，即使是性能最好的模型（如gpt-5），其准确率也仅为84.98%，而大多数模型的准确率低于60%。这表明当前的LLMs在遵循复杂逻辑指令方面存在显著的不足。
难度级别表现：随着指令难度的增加，所有模型的性能都有明显的下降。例如，gpt-5在简单任务上的准确率为90.85%，而在困难任务上降至74.10%。这验证了论文提出的基于代码复杂度的评分策略的有效性。
思考与非思考模型：实验还发现，对于大型LLMs，显式思考（如Claude-4-Sonnet）可以显著提高指令遵循性能，但对于小型LLMs，这种提升效果不明显。

错误分析

错误类型分布：论文对模型的错误进行了分类，发现最常见的错误类型包括控制流错误执行、指令误解和状态跟踪错误。例如，Gemma-3-27B在控制流错误执行方面的错误率高达38.8%，而Claude-4-Sonnet在状态跟踪错误方面的错误率为38.8%。
案例分析：论文还提供了具体的错误案例，展示了模型在执行复杂逻辑时的具体问题，如控制流错误、指令误解、状态跟踪错误等。

实验结论

模型性能差距：实验结果揭示了商业模型和开源模型之间的显著性能差距，以及大型模型和小型模型之间的差异。
思考的作用：对于大型LLMs，显式思考可以提高指令遵循性能，但对于小型LLMs，这种提升效果有限。
逻辑复杂性的影响：随着逻辑复杂性的增加，模型的性能明显下降，这表明当前的LLMs在处理复杂逻辑指令时存在挑战。

这些实验为理解LLMs在复杂逻辑指令遵循方面的能力提供了宝贵的见解，并为未来的研究提供了方向。

Q: 有什么可以进一步探索的点？

A: 论文在评估大型语言模型（LLMs）遵循复杂逻辑指令方面取得了重要进展，但也指出了许多可以进一步探索的方向。以下是一些潜在的研究方向：

1. 模型训练和优化

指令生成作为训练数据：可以探索将LogicIFGen生成的指令用作训练数据，以提高模型在复杂逻辑任务上的表现。通过在训练过程中引入更多逻辑丰富的指令，模型可能会更好地学习如何执行这些任务。
强化学习：使用强化学习方法来优化模型在遵循复杂指令时的表现。例如，通过奖励机制来鼓励模型更准确地执行逻辑步骤。
模型架构改进：研究新的模型架构或改进现有架构，以更好地处理复杂的逻辑结构。例如，设计专门用于逻辑推理的模块或层。

2. 指令复杂性分析

更细粒度的复杂性度量：虽然论文已经提出了基于代码复杂度的评分方法，但可以进一步探索更细粒度的复杂性度量，例如考虑逻辑深度、逻辑分支的数量和类型等。
动态复杂性调整：研究如何动态调整指令的复杂性，以适应不同模型的能力。例如，根据模型在简单任务上的表现，逐步增加任务的复杂性。

3. 错误分析和修复

自动错误检测和修复：开发自动化的工具和方法来检测和修复模型在执行复杂逻辑时的错误。例如，通过分析模型的输出和参考标签之间的差异，自动识别并纠正错误。
错误模式学习：研究模型在执行复杂逻辑时的常见错误模式，并设计针对性的训练策略来减少这些错误。例如，如果模型经常在状态跟踪方面出错，可以增加相关的训练数据。

4. 多模态指令遵循

结合视觉和语言指令：探索模型在处理结合视觉和语言指令时的表现。例如，给模型提供图像和相关的自然语言指令，要求模型根据图像内容执行指令。
跨模态指令生成：研究如何生成涉及多种模态（如文本、图像、音频）的复杂指令，并评估模型在这些任务上的表现。

5. 应用领域扩展

特定领域的指令遵循：将LogicIFGen和LogicIFEval应用于特定领域，如医疗、法律、金融等，以评估模型在这些领域中的复杂逻辑任务表现。
实际任务中的指令遵循：研究模型在实际任务中的表现，如自动化编程、数据分析、机器人控制等。这些任务通常需要模型能够准确地理解和执行复杂的逻辑指令。

6. 人类与模型的协作

人机协作：研究如何设计人机协作系统，使人类和模型能够共同完成复杂的逻辑任务。例如，人类可以提供高层次的指导，而模型负责执行具体的逻辑步骤。
交互式指令遵循：开发交互式系统，允许模型在执行复杂指令时与人类进行实时交互，以获取更多的指导和反馈。

7. 理论和方法论研究

逻辑推理的理论基础：深入研究逻辑推理的理论基础，探索如何更好地将逻辑推理融入到LLMs的训练和评估中。
跨语言和跨文化指令遵循：研究模型在不同语言和文化背景下的指令遵循能力，以评估其跨语言和跨文化的泛化能力。

这些方向不仅可以帮助进一步提升LLMs在复杂逻辑任务上的表现，还可以为更广泛的应用场景提供支持。

Q: 总结一下论文的主要内容

A: 本文提出了 LogicIFGen 和 LogicIFEval，旨在评估大型语言模型（LLMs）在遵循复杂逻辑指令方面的能力。以下是论文的主要内容概述：

研究背景

指令遵循的重要性：指令遵循是大型语言模型（LLMs）的一项基础技能，支持更高级的能力，如推理和代理行为。随着任务复杂度的增加，自然语言指令中嵌入的逻辑结构也变得越来越复杂，但目前对于LLMs在这些逻辑丰富的指令上的表现研究还相对较少。

LogicIFGen：可扩展的自动化指令生成框架

匿名化和添加状态跟踪器：对原始代码函数进行匿名化处理，将函数名和变量名替换为通用标识符，并添加状态跟踪器以记录函数运行时的关键状态信息。
自然语言指令生成：使用LLM将匿名化后的代码函数翻译成详细的自然语言指令，这些指令以对话形式提供，指导模型逐步执行代码逻辑。
多轮难度演变和验证细化：通过多轮交互，逐步增加指令的逻辑复杂性，并验证生成的指令是否准确、完整地覆盖了代码的所有操作。

LogicIFEval：基准测试集

种子函数收集和筛选：从编程竞赛平台（如Codeforces和POJ）收集具有挑战性的模拟问题解决方案，这些解决方案通常涉及复杂的逻辑和状态转换。
数据筛选：通过两阶段筛选过程，去除重复或高度相似的函数，以及那些可能导致执行错误的测试用例。
指令生成和人类验证：使用LogicIFGen框架生成自然语言指令，并由计算机科学领域的专家进行人工验证，确保生成的指令准确无误。

实验

模型选择：测试了21种不同的LLMs，包括前沿的思考模型和非思考模型。
推理设置：对于闭源模型，使用各自API提供的默认温度设置；对于开源模型，采用官方推荐的推理设置。所有模型的最大生成标记数设置为16k。
性能评估：主要评估指标是模型在所有测试用例上的准确率，即模型正确执行指令的比例。此外，还分别评估了模型在不同难度级别（简单、中等、困难）上的表现。

实验结果

整体性能：即使是性能最好的模型（如gpt-5），其准确率也仅为84.98%，而大多数模型的准确率低于60%。这表明当前的LLMs在遵循复杂逻辑指令方面存在显著的不足。
难度级别表现：随着指令难度的增加，所有模型的性能都有明显的下降。例如，gpt-5在简单任务上的准确率为90.85%，而在困难任务上降至74.10%。
思考与非思考模型：对于大型LLMs，显式思考可以显著提高指令遵循性能，但对于小型LLMs，这种提升效果不明显。

错误分析

错误类型分布：最常见的错误类型包括控制流错误执行、指令误解和状态跟踪错误。例如，Gemma-3-27B在控制流错误执行方面的错误率高达38.8%，而Claude-4-Sonnet在状态跟踪错误方面的错误率为38.8%。
案例分析：提供了具体的错误案例，展示了模型在执行复杂逻辑时的具体问题，如控制流错误、指令误解、状态跟踪错误等。

结论

模型性能差距：实验结果揭示了商业模型和开源模型之间的显著性能差距，以及大型模型和小型模型之间的差异。
思考的作用：对于大型LLMs，显式思考可以提高指令遵循性能，但对于小型LLMs，这种提升效果有限。
逻辑复杂性的影响：随着逻辑复杂性的增加，模型的性能明显下降，这表明当前的LLMs在处理复杂逻辑指令时存在挑战。

未来工作

模型训练和优化：探索将LogicIFGen生成的指令用作训练数据，以提高模型在复杂逻辑任务上的表现。
指令复杂性分析：进一步探索更细粒度的复杂性度量，以及动态调整指令复杂性的方法。
错误分析和修复：开发自动化的工具和方法来检测和修复模型在执行复杂逻辑时的错误。
多模态指令遵循：研究模型在处理结合视觉和语言指令时的表现。
应用领域扩展：将LogicIFGen和LogicIFEval应用于特定领域，如医疗、法律、金融等，以评估模型在这些领域中的复杂逻辑任务表现。

通过这些研究方向，可以进一步提升LLMs在复杂逻辑任务上的表现，并为更广泛的应用场景提供支持。

Authors: Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song

Categories: cs.CL, cs.LG

PDF URL: https://arxiv.org/pdf/2508.09125v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09125v1

Published: 2025-08-12T17:54:27Z

5. Retrieval-Augmented Generation with Conflicting Evidence

Large language model (LLM) agents are increasingly employing retrieval-augmented generation (RAG) to improve the factuality of their responses. However, in practice, these systems often need to handle ambiguous user queries and potentially conflicting information from multiple sources while also suppressing inaccurate information from noisy or irrelevant documents. Prior work has generally studied and addressed these challenges in isolation, considering only one aspect at a time, such as handling ambiguity or robustness to noise and misinformation. We instead consider multiple factors simultaneously, proposing (i) RAMDocs (Retrieval with Ambiguity and Misinformation in Documents), a new dataset that simulates complex and realistic scenarios for conflicting evidence for a user query, including ambiguity, misinformation, and noise; and (ii) MADAM-RAG, a multi-agent approach in which LLM agents debate over the merits of an answer over multiple rounds, allowing an aggregator to collate responses corresponding to disambiguated entities while discarding misinformation and noise, thereby handling diverse sources of conflict jointly. We demonstrate the effectiveness of MADAM-RAG using both closed and open-source models on AmbigDocs — which requires presenting all valid answers for ambiguous queries — improving over strong RAG baselines by up to 11.40% and on FaithEval — which requires suppressing misinformation — where we improve by up to 15.80% (absolute) with Llama3.3-70B-Instruct. Furthermore, we find that RAMDocs poses a challenge for existing RAG baselines (Llama3.3-70B-Instruct only obtains 32.60 exact match score). While MADAM-RAG begins to address these conflicting factors, our analysis indicates that a substantial gap remains especially when increasing the level of imbalance in supporting evidence and misinformation.

中文摘要

大型语言模型（LLM）代理越来越多地采用检索增强生成（RAG）来提高其回答的事实性。然而，在实践中，这些系统往往需要处理模棱两可的用户查询和来自多个来源的潜在冲突信息，同时还要抑制来自嘈杂或无关文档的不准确信息。以往的研究通常孤立地研究和解决这些挑战，只考虑一个方面，比如处理模糊性或对噪声和错误信息的稳健性。我们则考虑多个因素的综合，提出（i）RAMDocs（文档中的模糊性和错误信息检索），这是一个新的数据集，模拟用户查询的冲突证据的复杂和真实的场景，包括模糊性、错误信息和噪声；以及（ii）MADAM-RAG，一种多代理方法，在这种方法中，LLM代理在多个回合中就答案的优缺点进行辩论，允许聚合器收集与消歧义实体对应的响应，同时丢弃错误信息和噪声，从而共同处理多种冲突来源。我们通过在AmbigDocs上的实验证明MADAM-RAG的有效性——该任务要求为模棱两可的查询提供所有有效答案——相较于强大的RAG基线提高了最多11.40%，而在FaithEval上——该任务要求抑制错误信息——我们在Llama3.3-70B-Instruct下提高了最多15.80%（绝对提升）。此外，我们发现RAMDocs对现有RAG基线提出了挑战（Llama3.3-70B-Instruct的准确匹配得分仅为32.60）。虽然MADAM-RAG开始解决这些冲突因素，我们的分析表明，当支持证据和错误信息的失衡程度加大时，仍然存在显著的差距。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中处理冲突信息的问题。具体来说，它关注以下几个关键问题：

处理模糊性（Ambiguity）：当用户查询存在多种可能的解释时，RAG系统需要能够识别并提供所有有效的答案。例如，对于查询“Michael Jordan的出生年份”，可能既指篮球运动员Michael Jeffrey Jordan，也指科学家Michael Irwin Jordan，两者出生年份不同。
处理错误信息（Misinformation）：检索到的文档中可能包含错误或误导性的信息，系统需要能够识别并过滤掉这些不准确的内容。
处理噪声（Noise）：检索到的文档可能包含与查询无关或质量较低的内容，系统需要能够区分并忽略这些噪声。
处理证据不平衡（Imbalanced Evidence）：在现实世界中，不同答案的支持文档数量可能不同，系统需要能够在这种不平衡的情况下正确处理信息。

现有的RAG系统通常只关注上述问题中的一个方面，而没有同时处理这些复杂且相互交织的挑战。因此，论文提出了一个新数据集RAMDocs和一个新方法MADAM-RAG，旨在综合处理这些多样的冲突信息。

Q: 有哪些相关研究？

A: 以下是与本文相关的研究领域和具体工作：

检索增强型生成（Retrieval-Augmented Generation）

相关研究：Lewis等人（2020）首次提出RAG框架，通过检索外部信息来增强语言模型的生成能力，缓解了幻觉（hallucination）和过时知识等问题。Guu等人（2020）提出的REALM模型，通过预训练检索增强语言模型来提高生成质量。Izacard和Grave（2021）的Fusion-in-Decoder方法，以及Borgeaud等人（2022）的RETRO模型，都进一步优化了检索方法和文档编码策略，以提高效率和可扩展性。
与本文的联系：这些研究为RAG系统的发展奠定了基础，但它们主要关注于如何将检索到的信息有效地整合到生成过程中，而没有深入探讨如何处理检索到的冲突信息。本文则在此基础上，进一步研究了如何在存在冲突信息的情况下，提高RAG系统的准确性和可靠性。

RAG系统的鲁棒性评估基准

相关研究：AmbigNQ（Min等人，2020）和AmbigDocs（Lee等人，2024）数据集评估了模型处理具有多个有效答案的问题的能力。RGB数据集（Chen等人，2024）引入了检索噪声，测试模型对部分相关检索内容的响应能力。HAGRID（Kamalloo等人，2023）关注生成性问答中的归属问题，而CRAG（Yang等人，2024）提出了一个全面的基准，涵盖了五个不同领域的多样化问题类型。
与本文的联系：这些基准数据集分别从不同角度评估了RAG系统的性能，但它们大多只关注单一类型的冲突（如模糊性或噪声）。本文提出的RAMDocs数据集则综合了多种冲突类型（模糊性、错误信息和噪声），为更全面地评估RAG系统的鲁棒性提供了一个更具挑战性的基准。

大语言模型中的知识冲突

相关研究：Xu等人（2024b）对知识冲突进行了全面综述，将冲突分为内部上下文冲突、跨上下文冲突和参数冲突，并指出了当前方法在解决这些问题上的局限性。Chen等人（2022）和Su等人（2024）研究了跨多个上下文或检索文档的冲突解决难题，这些冲突可能源于错误信息或过时知识。
与本文的联系：这些研究揭示了大语言模型在处理冲突信息时的挑战，但主要集中在理论分析和特定类型的冲突上。本文提出的MADAM-RAG方法通过多智能体辩论的方式，为解决跨文档的冲突提供了一种实际可行的解决方案，能够同时处理多种类型的冲突信息。

多智能体框架在RAG中的应用

相关研究：Chang等人（2024）提出了一种多智能体框架，用于对检索到的文档进行评分和过滤噪声文档，但该框架仅用于处理噪声问题，而不涉及其他类型的冲突信息。
与本文的联系：本文的MADAM-RAG方法扩展了多智能体框架的应用范围，不仅能够过滤噪声，还能处理模糊性和错误信息等其他类型的冲突。通过多轮辩论和聚合模块，MADAM-RAG能够更有效地整合来自不同文档的信息，生成准确且可靠的答案。

Q: 论文如何解决这个问题？

A: 论文通过以下两个主要贡献来解决RAG系统中处理冲突信息的问题：

1. 提出RAMDocs数据集

**RAMDocs（Retrieval with Ambiguity and Misinformation in Documents）**是一个新的数据集，旨在模拟现实世界中检索到的复杂和冲突信息场景。它综合了以下多种冲突来源：

模糊性（Ambiguity）：数据集中的查询可能有多个有效答案。例如，对于“Michael Jordan的出生年份”这一问题，可能既指篮球运动员Michael Jeffrey Jordan（1963年出生），也指科学家Michael Irwin Jordan（1956年出生）。
错误信息（Misinformation）：通过替换正确实体为看似合理但错误的实体，生成包含错误信息的文档。例如，将Michael Jordan的出生年份错误地写为1998年。
噪声（Noise）：引入与查询主题无关或质量较低的文档，以测试系统过滤噪声的能力。
证据不平衡（Imbalanced Evidence）：不同答案的支持文档数量可能不同，模拟现实世界中检索到的信息不平衡的情况。

通过这些设计，RAMDocs数据集能够全面评估RAG系统在处理多种冲突信息时的性能，为研究提供了一个更具挑战性的基准。

2. 提出MADAM-RAG方法

**MADAM-RAG（Multi-agent Debate for Ambiguity and Misinformation in RAG）**是一种多智能体方法，通过多轮辩论来处理冲突信息。具体步骤如下：

（1）独立智能体生成初步回答

每个检索到的文档都分配给一个独立的智能体（由同一个语言模型实例化）。每个智能体根据其文档和查询生成一个初步回答，不考虑其他文档的内容。这确保了每个文档的观点都能被充分考虑，减少了因文档长度、频率或位置偏差而忽略某些信息的可能性。

（2）多轮辩论

多个智能体之间进行多轮辩论，每轮中，每个智能体都会收到上一轮聚合器生成的答案和解释，从而有机会根据其他智能体的观点和证据来修订自己的回答。这种迭代过程允许智能体在辩论中捍卫、质疑或修改自己的观点，促进最终输出的一致性和证据支持性。

（3）聚合器模块

聚合器模块接收所有智能体在当前轮次的输出，并生成一个综合的答案和解释。聚合器考虑不同智能体的回答，解决不一致性，并根据现有证据合成可靠的答案。它能够识别出哪些答案是由于模糊性而有效的，哪些是由于错误信息而无效的，并据此生成最终回答。

（4）结束辩论和最终答案

辩论进行固定的最大轮数，或者当所有智能体在连续两轮中保持相同回答时提前结束。最终答案由聚合器根据最后一轮的讨论生成。

通过这种结构化的方法，MADAM-RAG能够有效地处理模糊性、错误信息和噪声等多种冲突信息，提高了RAG系统在复杂检索场景下的准确性和可靠性。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证所提出方法的有效性：

1. 数据集和评估指标

数据集：
- FaithEval：评估模型在存在微妙事实性扰动（即错误信息）时是否能保持对检索证据的忠实性，包含1000个实例。
- AmbigDocs：专注于评估模型在多文档设置中处理模糊性问题的能力，通过将每个问题与可能支持不同有效答案的多个文档配对。从测试集中采样了1000个实例。
- RAMDocs：作者提出的数据集，模拟现实世界的检索条件，包括多个有效答案、不同文档支持、文档间冲突、错误信息和噪声，包含500个独特查询。
评估指标：使用严格标准下的精确匹配（Exact Match），要求输出必须包含所有正确答案且不包含仅由错误信息文档支持的不正确或误导性答案，以确保模型在生成时既全面又事实准确。

2. 模型和基线

模型：
- Llama3.3-70B-Instruct：开源的大型语言模型。
- Qwen2.5-72B-Instruct：开源的大型语言模型。
- GPT-4o-mini：闭源的前沿模型。
基线方法：
- No RAG：仅提示LLM问题，不提供任何检索文档，依靠其内部参数知识回答。
- Concatenated-prompt：标准的RAG流程，将所有检索到的文档拼接后作为输入传递给模型，测试模型在单次推理中联合推理整个文档集的能力。
- Astute RAG：一种最近的方法，通过将检索内容与模型的参数知识对齐来解决不一致性，通过生成内部参数知识文档、聚类检索和参数知识文档为一致或冲突组，然后选择最可靠的组生成最终答案。

3. 主要实验结果

MADAM-RAG在不同数据集上的表现：
- 在FaithEval数据集上，MADAM-RAG在不同模型上的表现均优于基线方法。例如，使用Llama3.3-70B-Instruct时，MADAM-RAG的准确率为43.10%，比Astute RAG高出6.00%；使用Qwen2.5-72B-Instruct时，MADAM-RAG的准确率为57.70%，比Astute RAG高出13.10%。
- 在AmbigDocs数据集上，MADAM-RAG同样优于基线方法。例如，使用Llama3.3-70B-Instruct时，MADAM-RAG的准确率为58.20%，比Astute RAG高出11.40%；使用GPT-4o-mini时，MADAM-RAG的准确率为63.00%，比Astute RAG高出29.00%。
- 在RAMDocs数据集上，MADAM-RAG的性能提升较为有限，但仍然优于基线方法。例如，使用Llama3.3-70B-Instruct时，MADAM-RAG的准确率为34.40%，比Astute RAG高出2.60%；使用GPT-4o-mini时，MADAM-RAG的准确率为28.00%，比Astute RAG高出15.00%。
RAMDocs数据集的挑战性：所有模型和基线方法在RAMDocs数据集上的表现均低于在FaithEval和AmbigDocs数据集上的表现，这表明同时处理模糊性、错误信息和噪声的检索文档是一个持续的挑战。尽管MADAM-RAG在该数据集上取得了一定的性能提升，但仍有很大的改进空间。

4. 消融实验和分析

聚合器和多轮辩论的重要性：
- 通过在FaithEval和RAMDocs数据集上进行消融实验，作者发现启用聚合器和增加辩论轮数都能显著提升性能。例如，在FaithEval数据集上，仅启用聚合器就能使准确率从30.00%提升到37.80%，而将辩论轮数从1轮增加到3轮时，准确率进一步提升到43.10%。这表明聚合器在早期就能有效地合成证据并抑制错误信息，而多轮辩论则允许智能体根据之前的讨论历史来修订答案，从而提高最终输出的准确性和可靠性。
不同支持文档数量的影响：
- 作者构造了一个包含200个实例的子集，其中两个正确答案的支持文档数量不同，以分析MADAM-RAG在处理证据不平衡时的表现。结果表明，随着支持文档数量的增加，基线方法的性能下降，而MADAM-RAG能够更好地应对这种不平衡，减少性能的下降幅度。这说明在多智能体讨论中，每个智能体都有机会为有效答案辩护，而不受其他智能体和文档数量不平衡的干扰。
增加错误信息的影响：
- 作者通过在200个查询中逐渐增加1到3个错误信息文档，来评估不同方法在面对越来越多错误信息时的表现。结果表明，随着错误信息的增加，所有方法的性能都有所下降，但MADAM-RAG在固定错误信息水平下表现最好。这表明MADAM-RAG在处理高冲突场景时具有更强的鲁棒性，能够更好地识别和抑制错误信息。

这些实验结果表明，MADAM-RAG方法在处理多种冲突信息方面优于现有的基线方法，并且在面对更复杂的检索场景时具有一定的优势。同时，RAMDocs数据集为评估RAG系统在现实世界中的性能提供了一个更具挑战性的基准。

Q: 有什么可以进一步探索的点？

A: 论文中提出了一些可以进一步探索的方向，以下是一些具体的建议：

1. 改进聚合器模块

聚合器的复杂性：当前的聚合器模块虽然能够有效地合成智能体的讨论，但其复杂性相对较低。可以探索更复杂的聚合器架构，例如利用图神经网络（Graph Neural Networks, GNNs）来建模智能体之间的关系，从而更准确地识别和解决冲突。
动态聚合策略：目前聚合器在每一轮都采用相同的策略来合成答案。可以研究动态聚合策略，根据当前轮次的讨论内容和冲突程度，动态调整聚合方式，以更好地适应不同的讨论场景。

2. 增强智能体的辩论能力

辩论策略的多样性：当前智能体在辩论过程中主要依赖于文档内容和上一轮的讨论结果。可以引入更多的辩论策略，例如引入外部知识库来支持智能体的论点，或者让智能体能够主动质疑其他智能体的证据来源。
智能体的个性化：目前所有智能体都是由同一个语言模型实例化，行为相似。可以探索为每个智能体赋予不同的个性或角色，例如“怀疑者”、“支持者”等，以增加辩论的多样性和有效性。

3. 处理更复杂的冲突场景

多模态冲突：当前RAMDocs数据集主要关注文本信息的冲突。可以扩展到多模态场景，例如同时处理文本、图像和视频中的冲突信息，以更贴近现实世界中的复杂检索需求。
跨语言冲突：在多语言环境中，冲突信息可能来自不同语言的文档。可以研究如何处理跨语言的冲突信息，例如通过跨语言检索和生成来提高系统的鲁棒性。

4. 优化RAMDocs数据集

动态生成冲突文档：目前RAMDocs数据集中的冲突文档是静态生成的。可以研究动态生成冲突文档的方法，根据查询的实时需求和检索结果，动态调整冲突文档的内容和数量，以更好地模拟现实世界中的动态检索环境。
用户反馈机制：在数据集中引入用户反馈机制，模拟用户对智能体讨论的实时反馈，从而让系统能够根据用户的反馈动态调整讨论策略，提高用户满意度。

5. 评估和改进系统的可解释性

智能体决策的可解释性：虽然MADAM-RAG能够有效地处理冲突信息，但目前对智能体决策过程的解释相对简单。可以研究更详细的解释机制，例如通过生成详细的辩论记录和推理路径，帮助用户理解系统的决策过程。
用户信任度评估：研究如何评估用户对系统生成答案的信任度，特别是在存在冲突信息的情况下。可以引入用户信任度指标，通过用户反馈和行为分析来评估系统的可信度。

6. 与其他技术的结合

强化学习：可以将强化学习引入MADAM-RAG框架，让智能体在辩论过程中通过奖励机制学习更有效的辩论策略，从而提高系统的整体性能。
预训练模型的微调：研究如何对预训练语言模型进行微调，使其更好地适应冲突信息处理任务。例如，通过在冲突数据集上进行微调，提高模型对冲突信息的敏感性和处理能力。

这些方向不仅可以进一步提升MADAM-RAG方法的性能，还可以为RAG系统在处理复杂冲突信息方面提供更全面的解决方案。

Q: 总结一下论文的主要内容

A: 本文的核心内容是关于如何在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中处理冲突信息的问题。文章提出了一个新的数据集RAMDocs和一个新方法MADAM-RAG，旨在同时处理模糊性、错误信息和噪声等多种冲突信息，提高RAG系统的准确性和可靠性。

背景知识

检索增强型生成（RAG）：通过检索外部信息来增强语言模型的生成能力，缓解了幻觉和过时知识等问题。
现有挑战：现有的RAG系统在处理冲突信息时存在局限性，通常只能处理单一类型的冲突（如模糊性或错误信息），而现实世界中的检索场景往往包含多种类型的冲突。

研究方法

1. RAMDocs数据集

目的：模拟现实世界中检索到的复杂和冲突信息场景，包括模糊性、错误信息和噪声。
构建方法：
- 基于AmbigDocs数据集，引入额外的错误信息文档和噪声文档。
- 随机采样1到3个正确答案，并为每个答案检索1到3个支持文档。
- 随机添加0到2个错误信息文档和0到2个噪声文档。
特点：
- 平均每个查询有2.20个有效答案，3.84个支持文档，1.70个错误或噪声文档。
- 模拟了现实世界中检索到的信息不平衡和不确定性。

2. MADAM-RAG方法

多智能体辩论框架：通过多轮辩论来处理冲突信息，每个文档分配给一个独立的智能体。
主要步骤：
1. 独立智能体生成初步回答：每个智能体根据其文档和查询生成一个初步回答，不考虑其他文档的内容。
2. 多轮辩论：智能体之间进行多轮辩论，每轮中，每个智能体都会收到上一轮聚合器生成的答案和解释，从而有机会根据其他智能体的观点和证据来修订自己的回答。
3. 聚合器模块：聚合器接收所有智能体在当前轮次的输出，并生成一个综合的答案和解释。
4. 结束辩论和最终答案：辩论进行固定的最大轮数，或者当所有智能体在连续两轮中保持相同回答时提前结束。最终答案由聚合器根据最后一轮的讨论生成。

实验

数据集：
- FaithEval：评估模型在存在微妙事实性扰动（即错误信息）时是否能保持对检索证据的忠实性。
- AmbigDocs：评估模型在多文档设置中处理模糊性问题的能力。
- RAMDocs：作者提出的数据集，模拟现实世界的检索条件，包括多个有效答案、不同文档支持、文档间冲突、错误信息和噪声。
评估指标：使用精确匹配（Exact Match），要求输出必须包含所有正确答案且不包含仅由错误信息文档支持的不正确或误导性答案。
模型：
- Llama3.3-70B-Instruct
- Qwen2.5-72B-Instruct
- GPT-4o-mini
基线方法：
- No RAG：仅提示LLM问题，不提供任何检索文档。
- Concatenated-prompt：将所有检索到的文档拼接后作为输入传递给模型。
- Astute RAG：通过将检索内容与模型的参数知识对齐来解决不一致性。

关键结论

性能提升：
- 在FaithEval数据集上，MADAM-RAG在不同模型上的表现均优于基线方法。例如，使用Llama3.3-70B-Instruct时，MADAM-RAG的准确率为43.10%，比Astute RAG高出6.00%。
- 在AmbigDocs数据集上，MADAM-RAG同样优于基线方法。例如，使用Llama3.3-70B-Instruct时，MADAM-RAG的准确率为58.20%，比Astute RAG高出11.40%。
- 在RAMDocs数据集上，MADAM-RAG的性能提升较为有限，但仍然优于基线方法。例如，使用Llama3.3-70B-Instruct时，MADAM-RAG的准确率为34.40%，比Astute RAG高出2.60%。
挑战性：RAMDocs数据集的挑战性较大，所有模型和基线方法在该数据集上的表现均低于在FaithEval和AmbigDocs数据集上的表现，表明同时处理模糊性、错误信息和噪声的检索文档是一个持续的挑战。
消融实验：
- 启用聚合器和增加辩论轮数都能显著提升性能，表明聚合器在早期就能有效地合成证据并抑制错误信息，而多轮辩论则允许智能体根据之前的讨论历史来修订答案，从而提高最终输出的准确性和可靠性。
- 在处理证据不平衡和增加错误信息的场景中，MADAM-RAG表现优于基线方法，显示出其在处理高冲突场景时的鲁棒性。

未来工作

改进聚合器模块：探索更复杂的聚合器架构，如图神经网络（GNNs），以更准确地识别和解决冲突。
增强智能体的辩论能力：引入更多的辩论策略和个性化智能体，以增加辩论的多样性和有效性。
处理更复杂的冲突场景：扩展到多模态和跨语言场景，以更贴近现实世界中的复杂检索需求。
优化RAMDocs数据集：动态生成冲突文档，引入用户反馈机制，以更好地模拟现实世界中的动态检索环境。
评估和改进系统的可解释性：研究更详细的解释机制，通过生成详细的辩论记录和推理路径，帮助用户理解系统的决策过程。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Han Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2504.13079v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2504.13079v2

Published: 2025-04-17T16:46:11Z

6. OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

中文摘要

由大语言模型（LLMs）驱动的自主智能体越来越多地被应用于需要复杂、长期工作流程的真实世界应用中。然而，现有基准测试主要关注于自成一体且相互独立的原子任务，未能捕捉到在现实场景中所需的长期上下文依赖性和多次互动协调。为了解决这一问题，我们引入OdysseyBench，这是一个全面的基准，用于评估LLM智能体在长期工作流程中的表现，涵盖Word、Excel、PDF、电子邮件和日历等多种办公应用。我们的基准包含两个互补的部分：OdysseyBench+，其中包含300个来自真实世界用例的任务，以及OdysseyBench-Neo，包含302个新合成的复杂任务。每个任务要求智能体从长期交互历史中识别出关键信息，并在各种应用中进行多步推理。为了实现可扩展的基准创建，我们提出了HomerAgents，一个多智能体框架，通过系统的环境探索、任务生成和对话合成自动生成长期工作流程基准。我们的广泛评估表明，OdysseyBench有效挑战了最先进的LLM智能体，与现有的原子任务基准相比，更准确地评估了它们在复杂真实世界背景下的能力。我们相信，OdysseyBench将成为推动LLM智能体在真实生产力场景中发展和评估的宝贵资源。此外，我们发布OdysseyBench和HomerAgents，以促进这一领域的研究。

LLM Analysis

Q: 这篇论文试图解决什么问题？

Q: 有哪些相关研究？

A: 以下是论文中提到的相关研究：

评估LLMs在行政环境中的研究

WebArena：Zhou等人（2023）提出的WebArena是一个用于评估代理在网页环境中表现的基准，主要关注代理的工具使用能力，但其任务大多是原子性的，缺乏对长期交互和上下文的评估。
AgentBench：Paranjape等人（2023）开发的AgentBench专注于评估代理在各种任务中的表现，但同样主要关注短期的、独立的任务，没有涉及长期复杂工作流的评估。
WindowsAgentArena：Bonatti等人（2024）提出的WindowsAgentArena用于评估多模态操作系统代理的能力，但其任务也主要是原子性的，没有涵盖长期的上下文依赖性。
OfficeBench：Wang等人（2024d）开发的OfficeBench是一个评估代理在办公自动化任务中的基准，但其任务也主要是原子性的，缺乏对长期交互和上下文的评估。

合成基准生成的研究

Synatra：Ou等人（2024）提出的Synatra利用LLMs自动生成代理任务和轨迹，但这些任务大多是原子性的，缺乏长期交互和上下文。
Agentsynth：Xie等人（2025）提出的Agentsynth通过合成任务来扩展代理的评估，但这些任务也主要是原子性的，没有涉及长期复杂工作流的评估。
组成原子任务：Boisvert等人（2024）和Drouin等人（2024）通过组合原子任务来构建更具挑战性的任务，但这些方法通常局限于简单的交互，缺乏多步推理和广泛的工具使用。

Q: 论文如何解决这个问题？

A: 论文通过以下方式解决现有基准测试无法有效评估LLM代理在长期复杂工作流程中的表现的问题：

提出OdysseyBench基准测试

OdysseyBench+：基于OfficeBench中的真实世界用例生成了300个长期任务。这些任务要求代理从长期交互历史中提取关键信息，并在多个应用中进行多步推理。
OdysseyBench-Neo：通过多智能体系统从头开始生成302个全新的复杂任务，这些任务更加多样化且复杂，同样要求代理进行长期的上下文管理和多步推理。

提出HOMERAGENTS框架

HOMERAGENTS+：利用OfficeBench中的任务描述，通过两智能体迭代精化过程，将原子任务转化为富含上下文的多交互场景，从而创建OdysseyBench+。
HOMERAGENTS-Neo：在现实的应用环境中，通过多智能体系统从头开始生成全新的长期任务，产生OdysseyBench-Neo。该框架通过系统化的环境探索、任务生成和对话合成，实现了多样化、基于上下文的基准任务的可扩展生产。

评估和验证

评估OdysseyBench的有效性：通过使用最先进的代理对OdysseyBench进行广泛的评估，证明了这些基准能够有效地挑战当前模型，并提供比现有原子任务基准更准确的评估，以反映它们在复杂现实场景中的能力。
分析对话存储格式的影响：通过在OdysseyBench中分析不同的对话存储格式，证明了语义压缩和连贯聚合对于有效的多步推理和代理性能至关重要。

公开资源

开源OdysseyBench和HOMERAGENTS：为了促进这一领域的研究，作者发布了OdysseyBench和HOMERAGENTS，以便其他研究人员可以使用这些工具来进一步研究和开发LLM代理。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

1. 长期上下文评估（Long-Context Evaluation）

设置：在OdysseyBench上评估代理性能时，提供整个对话历史给代理。
结果：如表4所示，所有模型在OdysseyBench+和OdysseyBench-Neo任务上的表现随着涉及的应用程序数量增加而下降。例如，在OdysseyBench+任务中，o3模型从单应用任务的72.83%下降到三应用任务的30.36%；在OdysseyBench-Neo任务中，GPT-4o模型从单应用任务的75.00%下降到三应用任务的45.61%。这表明协调多个应用之间的信息对当前LLMs来说是一个挑战。

2. 基于检索增强生成（RAG）的评估

设置：在RAG设置下，代理使用嵌入模型从对话历史中检索相关上下文来生成响应。实验中使用了两种类型的存储上下文：原始上下文和总结上下文。每种类型又分为两种粒度级别：会话级（session-level）和话语级（utterance-level）。
结果：
- OdysseyBench+：如表5所示，使用原始上下文时，话语级检索在某些配置下表现优于长上下文基线，但在OdysseyBench-Neo任务中表现下降。总结上下文在性能上优于原始上下文，尤其是块级（chunk-level）总结表现最佳，例如在OdysseyBench-Neo任务中，块级总结在使用不到20%的token时达到了56.29%的性能。
- OdysseyBench-Neo：如表6所示，总结上下文同样表现出色，块级总结在OdysseyBench-Neo任务中达到了54.97%的性能。这表明总结上下文能够有效地捕捉任务的关键信息，同时去除冗余细节，使模型能够专注于与任务相关的必要内容。

3. 人类评估

设置：让两位人类标注者完成OdysseyBench-Neo任务的一个随机子集，并报告人类表现。
结果：如表3所示，人类表现超过90%，表明这些任务是可解的且连贯的。

4. 执行步骤分析

设置：分析在不同配置下完成任务所需的执行步骤数量。
结果：如表7所示，在OdysseyBench+任务中，长上下文配置平均需要10.25步，RAG-话语配置需要11.05步，RAG-块配置需要10.10步；在OdysseyBench-Neo任务中，长上下文配置平均需要10.46步，RAG-话语配置需要10.92步，RAG-块配置需要10.95步。这表明总结上下文不仅提高了性能，还通过有效地提供相关上下文来简化推理过程，减少了完成任务所需的步骤数量。

Q: 有什么可以进一步探索的点？

1. 更复杂的工作流和多任务协调

研究方向：目前的OdysseyBench主要关注单个长期任务的执行。未来可以探索更复杂的工作流，其中包含多个相互依赖的任务，需要代理在不同任务之间进行协调和切换。
潜在影响：这将更接近现实世界中的工作场景，例如项目管理，其中多个任务需要并行或顺序执行，并且需要根据任务的进展和结果进行动态调整。

2. 跨领域和跨应用的泛化能力

研究方向：目前的基准测试主要集中在办公应用。未来可以扩展到其他领域，如医疗、金融、教育等，以评估代理在不同领域中的泛化能力。
潜在影响：这将帮助研究人员和开发者更好地理解代理在不同领域的适应性和局限性，从而开发出更具通用性的代理。

3. 长期记忆和知识更新

研究方向：在长期工作流中，代理需要维护和更新长期记忆，以适应不断变化的环境和任务要求。未来可以研究如何设计更有效的长期记忆机制，以及如何在代理执行任务时动态更新知识。
潜在影响：这将提高代理在长期任务中的适应性和灵活性，使其能够更好地应对现实世界中的复杂情况。

4. 多模态交互

研究方向：目前的基准测试主要基于文本交互。未来可以探索多模态交互，包括语音、图像、视频等，以评估代理在更丰富的交互环境中的表现。
潜在影响：这将使代理能够更好地理解和处理现实世界中的多种信息源，提高其在复杂任务中的表现。

5. 用户行为和偏好的建模

研究方向：在长期工作流中，用户的行为和偏好可能会发生变化。未来可以研究如何建模用户的行为和偏好，以便代理能够更好地适应用户的个性化需求。
潜在影响：这将提高代理的用户体验和满意度，使其能够更好地满足用户的个性化需求。

6. 自动化基准测试的进一步扩展

研究方向：HOMERAGENTS框架已经展示了自动化基准测试的潜力。未来可以进一步扩展该框架，以生成更多样化和更具挑战性的任务，同时保持生成任务的质量。
潜在影响：这将为研究人员提供更丰富的评估工具，帮助他们更好地评估和改进LLM代理的性能。

7. 实时反馈和动态调整

研究方向：在长期任务中，代理可能需要根据实时反馈进行动态调整。未来可以研究如何设计实时反馈机制，使代理能够根据用户的反馈及时调整其行为和策略。
潜在影响：这将提高代理在动态环境中的适应性和灵活性，使其能够更好地应对不断变化的任务要求。

8. 多代理协作

研究方向：在一些复杂任务中，可能需要多个代理协作完成任务。未来可以研究多代理协作机制，以及如何评估多个代理之间的协调和合作能力。
潜在影响：这将帮助研究人员和开发者更好地理解和设计多代理系统，提高其在复杂任务中的表现。

这些方向不仅可以进一步推动LLM代理的研究和开发，还可以为实际应用提供更有价值的工具和方法。

Q: 总结一下论文的主要内容

背景知识

研究方法

HOMERAGENTS+：基于OfficeBench的任务描述，通过两智能体迭代精化过程，将原子任务转化为富含上下文的多交互场景，从而创建OdysseyBench+。
HOMERAGENTS-Neo：在现实的应用环境中，通过多智能体系统从头开始生成全新的长期任务，产生OdysseyBench-Neo。

实验

关键结论

OdysseyBench有效地挑战了现有的LLM代理，提供了比现有原子任务基准更准确的评估。
代理在涉及多个应用的任务中表现下降，表明协调多个应用之间的信息是一个挑战。
使用总结上下文（尤其是块级总结）可以显著提高代理的性能，同时减少token的使用，这表明语义压缩和连贯聚合对于有效的多步推理至关重要。
人类评估显示，OdysseyBench中的任务是可解的且连贯的，表明该基准测试的质量和实用性。

贡献

提出了OdysseyBench，一个评估代理在长期复杂工作流程中的综合基准测试。
提出了HOMERAGENTS，一个自动化长期工作流程基准生成的多智能体框架。
通过广泛的评估，证明了OdysseyBench在挑战现有LLM代理方面的有效性，并提供了对代理在复杂现实场景中表现的深入见解。
分析了对话存储格式对代理性能的影响，强调了语义压缩和连贯聚合的重要性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Weixuan Wang, Dongge Han, Daniel Madrigal Diaz, Jin Xu, Victor Rühle, Saravan Rajmohan

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.09124v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09124v1

Published: 2025-08-12T17:53:03Z

7. OpenCUA: Open Foundations for Computer-Use Agents

中文摘要

视觉语言模型展示了其作为计算机使用代理（CUA）在自动化多种计算机任务方面的卓越能力。随着其商业潜力的增长，最强大CUA系统的关键细节仍然是闭合的。由于这些代理将越来越多地调解数字互动，并代表我们执行重要决策，研究社区需要访问开放的CUA框架，以研究其能力、局限性和风险。为缩小这一差距，我们提出OpenCUA，这是一个全面的开源框架，用于扩展CUA数据和基础模型。我们的框架包括：(1) 一个注释基础设施，无缝捕捉人类计算机使用示范；(2) AgentNet，第一个跨越3个操作系统和200多个应用程序和网站的大规模计算机使用任务数据集；(3) 一个可扩展的管道，将示范转换为具有反思性长链思维推理的状态-行动对，随着数据的扩大而持续维持稳健的性能提升。我们的端到端代理模型在CUA基准测试中表现出色。特别是，OpenCUA-32B在OSWorld-Verified上实现了34.8%的平均成功率，确立了开放源模型中的新技术领先（SOTA），超过了OpenAI CUA（GPT-4o）。进一步分析确认我们的方法在不同领域中广泛泛化，并显著受益于增加的测试时间计算。我们发布了我们的注释工具、数据集、代码和模型，以建立进一步CUA研究的开放基础。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决计算机使用代理（Computer-Use Agents, CUAs）在研究和应用中的几个关键问题：

缺乏开源框架：尽管CUAs在自动化多样化计算机任务方面展现出巨大潜力，但目前最先进的CUA系统的关键细节（包括训练数据、架构和开发过程）通常是封闭和专有的。这种缺乏透明度限制了技术进步，并引发了安全问题。研究社区需要真正开放的CUA框架来研究它们的能力、局限性和风险。
数据收集基础设施不足：目前没有开源的可扩展基础设施用于收集大规模的计算机使用数据。这需要实时捕获用户交互和状态信息，并将其转换为代理可执行的轨迹。现有的开源图形用户界面（GUI）数据集要么范围和规模有限，要么缺乏足够的多样性，无法满足通用计算机使用应用的需求。
模型训练和复制困难：许多CUA工作在提供其建模策略和训练配方方面的细节不足，即使可以访问收集到的数据，也难以复制这些工作。这限制了通用CUA的进步，并阻碍了对其可扩展性、泛化能力和潜在学习方法的有意义探索。

Q: 有哪些相关研究？

A: 论文中提到了多个与计算机使用代理（CUAs）相关的研究工作，这些工作主要集中在以下几个方面：

CUA 基准测试和数据集

OSWorld：一个用于评估多模态代理在真实计算机环境中完成开放性任务的基准测试，涵盖了多种应用程序和网站，涉及办公生产力、源代码编辑、文件管理和操作系统配置等任务。
WindowsAgentArena (WAA)：专注于评估代理在 Windows 系统上的多模态性能，包含多个 Windows 特有的应用程序以及一些 OSWorld 中也出现的开源程序。
Mind2Web：一个面向 Web 的代理基准测试，旨在评估代理在真实网站上完成复杂信息检索和导航任务的能力。
VisualWebArena：一个评估多模态代理在真实视觉 Web 任务上的性能的基准测试，涵盖了动态内容、长导航链和非平凡的信息检索子任务。
AgentTrek：一个通过将 Web 教程转换为代理轨迹来合成代理轨迹的数据集，为代理提供了丰富的训练数据。
OmniAct：一个包含桌面和 Web 领域的多模态数据集，旨在支持开发能够在多种环境中执行任务的通用代理。
AndroidControl、AMEX、AitW、AitZ、GUI Odyssey 等：这些数据集主要关注移动设备上的 GUI 任务，为移动 GUI 代理的研究提供了数据支持。
OS-Genesis：一个包含移动和 Web 应用程序的 GUI 数据集，为代理提供了跨设备的训练数据。
WonderBread：一个专注于 Web 领域的 GUI 数据集，提供了丰富的 Web 任务数据。
AgentNet：本文提出的第一个大规模桌面代理任务数据集，涵盖了多种操作系统和应用程序，为桌面代理的研究提供了丰富的数据资源。

CUA 框架和模型

基于文本的语言模型：这些模型主要操作结构化的 GUI 元数据，如 DOM 树或可访问性标签，并发出符号命令。例如早期的页面中心代理和最近的语言规划器，它们仍然避免使用原始像素。
基于视觉的代理：这些代理将屏幕图像整合到决策过程中。一些专注于将自然语言指令与 GUI 中的元素进行对齐，而另一些则追求端到端的策略，直接将屏幕截图转换为动作序列。
基于代理的框架：这些框架将大型语言模型与额外的组件（如专用视觉编码器、分层或基于搜索的规划器、情景记忆和工具 API）结合起来，以处理需要感知、推理和控制的长视界任务。
Agent s 和 Agent s2：这两个框架分别提出了基于上下文学习和模块化的代理，以及一个组合的通用主义者-专家框架，用于开发能够像人类一样使用计算机的代理。
Claude：Anthropic 开发的代理，展示了在计算机使用任务上的能力，尤其是在 Claude 4 版本中。
Qwen2-VL 和 Qwen2.5-VL：这些是通用的视觉语言模型，展示了在数字代理任务中的增强能力和对高分辨率理解的专长。
UI-TARS：一个专注于 GUI 交互的代理模型，通过将视觉语言模型与 GUI 交互任务对齐，实现了自动化 GUI 交互。
Seed1.5-VL：一个技术报告，可能与视觉语言模型在代理任务中的应用有关。
Aguvis：一个统一的纯视觉代理框架，用于自主 GUI 交互，提出了将视觉观察与动作预测相结合的方法。
ActRe：一个与动作相关的代理研究，可能涉及动作预测和执行的改进方法。
REACT：一个结合了推理和行动的框架，旨在通过协同作用提高语言模型在代理任务中的性能。

这些研究工作为本文提出的 OPENCUA 框架提供了背景和基础，同时也展示了该领域内的多样性和创新性。

Q: 论文如何解决这个问题？

1. 提供开源的注释基础设施

AGENTNET TOOL：开发了一个用户友好的跨操作系统（OS）的计算机任务注释应用，可以在个人计算机上安装，无缝记录自然的人类演示和相应的计算机状态，而不会干扰用户的正常工作流程。该工具能够捕获屏幕视频、鼠标和键盘信号以及可访问性树（Axtree），并将这些数据处理成状态-动作轨迹，供标注者审查、编辑和提交。

2. 构建大规模计算机使用任务数据集

AGENTNET 数据集：收集了包含 22,625 个人类标注的计算机使用任务轨迹的数据集，涵盖了 100 多个应用程序和 200 多个网站，跨越 Windows、macOS 和 Ubuntu 三个操作系统。这些任务平均包含 18.6 个步骤，反映了任务的复杂性。该数据集是第一个大规模的桌面轨迹级数据集，具有真实性、复杂性、多样性和多模态的特点。

3. 提出可扩展的数据处理和模型训练方法

数据处理管道：开发了一个动作离散化管道，将原始的人类演示（通常包括视频和高频、冗余的键盘/鼠标动作）转换为适合视觉语言模型训练的状态-动作对。此外，提出了一个反射性长推理链（Chain-of-Thought, CoT）合成方法，通过自然语言“内心独白”显式地注入规划、记忆和反思，帮助代理检测和纠正错误。
模型训练方法：提出了一种新颖的训练方法，包括多图像历史编码、测试时推理格式和数据混合策略。通过这些方法，模型能够在训练时利用丰富的推理信息，并在测试时进行更有效的推理。

4. 提供高效的评估基准

AGENTNETBENCH：基于收集到的人类演示，构建了一个离线评估基准，提供了每个步骤的多个标准动作选项，高效地近似在线指标，显著加速了代理的评估和开发。

5. 开源完整的框架组件

工具、数据集、代码和模型：为了建立开放的CUA研究基础，作者开源了完整的OPENCUA框架，包括注释工具、收集到的数据集、代码、评估基准和模型，为进一步的CUA研究提供了开放的基础。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估 OPENCUA 框架及其模型的性能和特性：

1. 在线代理评估实验

OSWorld-Verified：这是一个在线评估基准，包含 369 个人类编写的任务，涵盖各种应用程序。作者通过公共评估在 AWS 基础设施上测试了模型，并报告了 15 步、50 步和 100 步预算下的成功率。实验结果表明，OPENCUA-32B 在 100 步预算下达到了 34.8% 的成功率，成为开源模型中的新最高水平，甚至超过了基于 GPT-4o 的 OpenAI CUA（31.4%）。
WindowsAgentArena (WAA)：这是一个专注于 Windows 系统的在线评估基准，包含 154 个任务。作者在该基准上测试了模型，并报告了 15 步预算下的成功率。实验结果表明，OPENCUA-32B 在 WAA 上的表现优于其他开源模型。

2. 离线代理评估实验

AGENTNETBENCH：这是一个离线评估基准，包含 100 个代表性任务，涵盖了 Windows 和 macOS 上的多种应用程序。作者将模型分为零样本模型（未在 AGENTNET 上训练的模型）和微调模型（OPENCUA-7B 和 OPENCUA-32B）。实验结果表明，OPENCUA-32B 在离线基准上表现最佳，其平均成功率高于其他模型。

3. GUI 接地评估实验

OSWorld-G：这是一个 GUI 接地基准，包含 564 个样本，系统地覆盖了文本匹配、元素识别、布局理解和细粒度操作。作者在该基准上测试了模型，并报告了成功率。实验结果表明，OPENCUA-32B 在 OSWorld-G 上的表现优于其他开源模型。
Screenspot-V2：这是一个包含移动、桌面和 Web 平台截图的 GUI 接地基准。作者在该基准上测试了模型，并报告了成功率。实验结果表明，OPENCUA-32B 在 Screenspot-V2 上的表现优于其他开源模型。
Screenspot-Pro：这是一个专注于高分辨率桌面环境（尤其是专业设置）的 GUI 接地基准。作者在该基准上测试了模型，并报告了成功率。实验结果表明，OPENCUA-32B 在 Screenspot-Pro 上的表现优于其他开源模型。

4. 数据规模对性能的影响实验

作者研究了数据规模对模型性能的影响，包括跨域数据、域内数据和域外数据的影响。实验结果表明，随着数据量的增加，模型性能在多个基准测试中均有所提高，这表明大规模、多样化的 CUA 数据对于模型泛化至关重要。

5. 测试时推理格式实验

作者测试了不同推理格式（L1、L2 和 L3）在测试时对模型性能的影响。实验结果表明，使用 L2 推理格式（包含更丰富的推理内容）的模型在测试时表现最佳，这表明在推理时提供高质量、非冗余的推理可以利用 VLM 的语言推理能力来提高代理性能。

6. 视觉历史和文本历史表示实验

作者研究了不同数量的视觉历史图像（1、3 和 5 张）对模型性能的影响。实验结果表明，使用 3 张图像作为视觉历史在性能和效率之间取得了最佳平衡。此外，作者还比较了 L1 和 L2 历史表示，发现 L1 历史表示在测试时更为有效。

7. 数据混合策略实验

作者测试了使用混合推理格式（L1、L2 和 L3）与仅使用 L2 数据训练模型的性能差异。实验结果表明，使用混合推理格式训练的模型性能优于仅使用 L2 数据训练的模型。

8. 一般文本数据对代理性能的影响实验

作者研究了在训练中加入一般文本数据对代理性能的影响。实验结果表明，加入一般文本数据可以略微提高模型的代理性能，这表明来自完全不同领域的文本数据不会损害代理模型的性能，反而有助于提高其泛化和指令理解能力。

9. 反思性长 CoT 对性能的影响实验

作者进行了没有反思性长 CoT 的消融实验。实验结果表明，反思性长 CoT 显著提高了模型性能，这表明反思性推理有助于改进错误纠正能力。

10. 模型性能上限分析实验

作者通过在 OSWorld 上进行 Pass@n 评估来分析模型性能的上限。实验结果表明，模型在 Pass@1 和 Pass@16 之间存在显著的性能差距，这表明模型在测试时具有较大的性能提升空间。

11. 模型鲁棒性实验

作者通过在 OSWorld 上进行不同温度下的 Pass@n 评估来分析模型的鲁棒性。实验结果表明，模型在温度为 0 时表现出较高的鲁棒性，但在温度为 0.1 时，Pass@n 性能更高，而 Pass@1 性能较低。

这些实验全面评估了 OPENCUA 框架及其模型在不同基准测试和条件下的性能，验证了框架的有效性和模型的可扩展性、泛化能力和鲁棒性。

Q: 有什么可以进一步探索的点？

A: 尽管 OPENCUA 框架在计算机使用代理（CUAs）的研究中取得了显著进展，但仍有一些可以进一步探索的方向：

1. 数据集扩展和多样化

扩大数据集规模：尽管 AGENTNET 数据集已经相当大，但进一步扩大数据集的规模可以提高模型的泛化能力。可以考虑引入更多的操作系统、应用程序和用户场景。
多样化任务类型：目前的数据集主要集中在桌面和 Web 应用程序上，可以探索更多类型的计算机任务，如移动设备上的任务、嵌入式系统中的任务等。
半自动化注释方法：探索更高效的注释方法，如半自动化注释工具，以减少人工注释的成本和时间。

2. 模型架构和训练方法

多模态融合：目前的模型主要依赖于视觉输入，可以探索将语音、手势等其他模态信息融合到模型中，以提高代理的交互能力和自然性。
强化学习：目前的模型主要基于监督学习，可以探索强化学习方法，让代理在与环境的交互中自主学习，从而提高其适应性和鲁棒性。
持续学习：研究如何让代理在执行任务的过程中不断学习和适应新的任务和环境，以提高其长期性能。

3. 性能优化和效率提升

计算效率：尽管模型在性能上取得了进步，但计算效率仍有待提高。可以探索更高效的模型架构和训练方法，以减少计算资源的消耗。
实时性：提高代理在实时任务中的性能，特别是在需要快速响应的场景中，如游戏或实时监控系统。

4. 安全性和可靠性

安全性：研究如何确保代理在执行任务时不会引入安全风险，如恶意软件或数据泄露。
可靠性：提高代理在面对复杂和动态环境时的可靠性，减少错误和失败的可能性。

5. 用户交互和体验

自然语言交互：研究如何让代理更好地理解和生成自然语言，以提高用户交互的自然性和流畅性。
个性化：探索如何根据用户的偏好和习惯来定制代理的行为，以提高用户满意度。

6. 跨领域应用

医疗保健：研究如何将代理应用于医疗保健领域，如辅助诊断、患者监护等。
教育：探索代理在教育领域的应用，如个性化学习、智能辅导等。
工业自动化：研究如何将代理应用于工业自动化，如机器人控制、生产流程优化等。

7. 社会影响和伦理问题

社会影响：研究代理对社会的影响，如就业、隐私等，并提出相应的解决方案。
伦理问题：探讨代理在决策过程中可能涉及的伦理问题，如偏见、公平性等，并制定相应的准则和规范。

8. 理论研究

推理和规划：深入研究代理的推理和规划机制，以提高其在复杂任务中的表现。
认知模型：探索如何将人类的认知模型融入代理的设计中，以提高其智能水平。

这些方向不仅可以进一步提升 OPENCUA 框架的性能和应用范围，还可以推动整个计算机使用代理领域的发展。

Q: 总结一下论文的主要内容

Categories: cs.AI, cs.CV

PDF URL: https://arxiv.org/pdf/2508.09123v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09123v1

Published: 2025-08-12T17:52:32Z

8. Deep Neural Network Calibration by Reducing Classifier Shift with Stochastic Masking

In recent years, deep neural networks (DNNs) have shown competitive results in many fields. Despite this success, they often suffer from poor calibration, especially in safety-critical scenarios such as autonomous driving and healthcare, where unreliable confidence estimates can lead to serious consequences. Recent studies have focused on improving calibration by modifying the classifier, yet such efforts remain limited. Moreover, most existing approaches overlook calibration errors caused by underconfidence, which can be equally detrimental. To address these challenges, we propose MaC-Cal, a novel mask-based classifier calibration method that leverages stochastic sparsity to enhance the alignment between confidence and accuracy. MaC-Cal adopts a two-stage training scheme with adaptive sparsity, dynamically adjusting mask retention rates based on the deviation between confidence and accuracy. Extensive experiments show that MaC-Cal achieves superior calibration performance and robustness under data corruption, offering a practical and effective solution for reliable confidence estimation in DNNs.

中文摘要

近年来，深度神经网络（DNNs）在许多领域表现出竞争力的结果。尽管取得了这样的成功，它们在校准方面往往较差，特别是在自动驾驶和医疗等安全关键场景中，不可靠的置信度估计可能导致严重后果。最近的研究集中在通过修改分类器来改善校准，然而这种努力仍然有限。此外，现有大多数方法忽视了由自信不足引起的校准错误，这同样可能造成危害。为了解决这些挑战，我们提出了MaC-Cal，一种新颖的基于掩模的分类器校准方法，通过利用随机稀疏性来增强置信度与准确度之间的对齐。MaC-Cal采用两阶段训练方案，具有自适应稀疏性，根据置信度与准确度之间的偏差动态调整掩模保留率。大量实验表明，MaC-Cal在数据损坏下实现了卓越的校准性能和鲁棒性，为DNNs中的可靠置信度估计提供了实用有效的解决方案。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决深度神经网络（DNNs）在模型置信度估计中的校准问题。具体来说，尽管DNNs在许多领域取得了显著的成果，但它们通常存在校准不良的问题，尤其是在安全关键场景（如自动驾驶和医疗保健）中，不可靠的置信度估计可能导致严重后果。论文指出，现有的校准方法大多集中在修改分类器结构上，但这些方法存在局限性，且大多数方法主要关注过度自信（overconfidence）问题，而忽略了因低估自信（underconfidence）导致的校准误差。因此，论文提出了一种新的基于掩码的分类器校准方法（MaC-Cal），通过引入随机稀疏性来增强置信度与准确度之间的一致性，并通过两阶段训练方案动态调整掩码保留率，以减少分类器偏移，从而提高DNNs在各种数据分布下的校准性能和鲁棒性。

Q: 有哪些相关研究？

A: 论文中提到了多个与模型校准（calibration）和置信度估计（confidence estimation）相关的研究工作，这些研究可以分为以下几个主要方向：

1. 训练时校准方法（Training-time Calibration Methods）

Focal Loss [14]: 通过调整损失函数来减少模型对易分类样本的关注，从而提高校准性能。
Label Smoothing [15]: 通过平滑标签来减少模型的过度自信。
Mixup [16]: 通过数据增强技术，线性插值输入样本和标签，提高模型的泛化能力和校准性能。
Adaptive and Conditional Label Smoothing (ACLS) [51]: 通过自适应和条件标签平滑来提高网络校准。
Margin-based Label Smoothing (MbLS) [21]: 基于边缘的标签平滑方法，用于网络校准。
Calibrating Deep Neural Networks Using Focal Loss [52]: 使用焦点损失来校准深度神经网络。
Dual Focal Loss for Calibration [24]: 使用双重焦点损失来提高校准性能。
Calibrating a Deep Neural Network with Its Predecessors [23]: 通过与前代模型的比较来校准深度神经网络。

2. 后处理校准方法（Post-hoc Calibration Methods）

Temperature Scaling (TS) [12]: 通过调整softmax温度参数来校准模型的置信度。
Trainable Calibration Measures from Kernel Mean Embeddings [54]: 使用核均值嵌入来训练可校准的度量。
Learning Imbalanced Datasets with Label-distribution-aware Margin Loss [53]: 使用标签分布感知的边界损失来学习不平衡数据集。

3. 分类器结构调整方法（Classifier Structure Modification）

Decoupling Feature Extraction and Classification [25]: 通过解耦特征提取和分类来提高校准性能。
Calibration Bottleneck: Over-compressed Representations are Less Calibratable [26]: 研究过度压缩的表示如何影响校准性能。
Balancing Two Classifiers via a Simplex ETF Structure for Model Calibration [27]: 通过引入固定Simplex等角紧框架（ETF）头来平衡两个分类器的输出，从而提高校准性能。

4. Dropout及其变体（Dropout and Variants）

Dropout [29]: 通过随机丢弃神经元来减少过拟合。
DropConnect [30]: 随机丢弃神经元之间的连接。
DropBlock [32]: 针对卷积网络的空间结构化丢弃方法。
SpatialDropout [33]: 针对卷积网络的空间结构化丢弃方法。
Stochastic Depth [36]: 在深度残差网络中随机丢弃层。
ShakeDrop [37]: 通过随机丢弃和抖动来提高训练鲁棒性。
Concrete Dropout [38]: 使用连续分布的丢弃率来提高不确定性估计。
Simple and Scalable Predictive Uncertainty Estimation Using Deep Ensembles [39]: 使用深度集成来估计预测不确定性。

5. 其他相关研究

Confidence Calibration for Convolutional Neural Networks Using Structured Dropout [40]: 使用结构化丢弃来校准卷积神经网络的置信度。
Calibration of Model Uncertainty for Dropout Variational Inference [41]: 校准基于丢弃的变分推断的模型不确定性。
Posterior Calibration and Exploratory Analysis for Natural Language Processing Models [42]: 用于自然语言处理模型的后验校准和探索性分析。

这些研究为论文提出的新方法提供了理论基础和实践参考，帮助作者更好地理解和改进深度神经网络的校准性能。

Q: 论文如何解决这个问题？

A: 论文提出了一种名为 MaC-Cal (Mask-based Classifier Calibration) 的新方法，通过引入随机稀疏性到分类器中来提高深度神经网络的校准性能。具体来说，MaC-Cal 采用了两阶段训练方案，并结合了自适应稀疏性机制，以动态调整掩码保留率，从而减少置信度与准确度之间的偏差。以下是该方法的详细解决步骤：

1. 两阶段训练方案

第一阶段：联合训练特征提取器和分类器
- 在这一阶段，特征提取器 ( f ) 和分类器 ( W ) 联合优化，使用标准的监督损失函数（如交叉熵损失）进行训练，直到收敛或触发早停。
- 优化目标为： [ \min_{\theta, W} \mathcal{L}{CE} \left{ f(x_i; \theta) W, y_i \right}{i=1}^N ]
- 这一阶段的目标是学习到具有判别性的特征表示。
第二阶段：掩码重训练分类器
- 在这一阶段，固定第一阶段学习到的特征提取器参数 ( \theta )，专注于更新分类器 ( W )。
- 引入随机二值掩码矩阵 ( M )，从伯努利分布中采样： [ M \sim \text{Bernoulli}(q) ] 其中 ( q ) 是掩码保留概率。
- 对于每个样本 ( i )，分类器的输出为： [ l_i = z_i (M \odot W_{\text{new}}) \in \mathbb{R}^K ] 其中 ( \odot ) 表示逐元素乘法，( z_i = f(x_i; \theta) )。
- 使用标准交叉熵损失 ( \mathcal{L}{CE} ) 计算损失，并通过掩码梯度反向传播更新分类器： [ W’{\text{new}} = W_{\text{new}} - \eta \nabla_{W_{\text{new}}}, \quad \nabla_{W_{\text{new}}} = M \odot \frac{\partial \mathcal{L}{CE}}{\partial W{\text{new}}} ]
- 通过这种方式，掩码矩阵不仅影响分类器的输出，还影响梯度计算，从而保持训练的稳定性。

2. 自适应稀疏性机制

在第二阶段，掩码保留概率 ( q ) 是动态调整的，以基于置信度与准确度之间的偏差进行校准。
初始稀疏性设置为 ( q_0 = 0.5 )，并在每个训练周期 ( t ) 更新： [ q_t = q_{t-1} + \text{clip}( \text{Conf}_t - \gamma \cdot \text{Acc}_t, -\eta_t, \eta_t ) ] 其中：
- ( \text{Conf}_t ) 和 ( \text{Acc}_t ) 分别是训练集上的平均置信度和准确度。
- ( \gamma \in (0, 1) ) 是一个下权重因子，用于调整过于乐观的训练准确度。
- ( \eta_t ) 是动态阈值，随训练进度指数衰减： [ \eta_t = \eta_{\text{init}} \cdot \exp \left( \log \left( \frac{\eta_{\text{final}}}{\eta_{\text{init}}} \right) \cdot \frac{t}{T} \right) ] 其中 ( \eta_{\text{init}} = 0.1 )，( \eta_{\text{final}} = 0.001 )，( T ) 是总训练周期数。

3. 分类器结构调整

为了增强模型在稀疏扰动下的表示能力，将原始线性分类器替换为轻量级的两层瓶颈结构 ( W_{\text{new}} )，该结构在第二阶段随机初始化。
这种结构调整不仅提高了模型的表示能力，还提供了更强的训练稳定性。

4. 实验验证

通过在多个数据集（如 CIFAR-10、CIFAR-100、Tiny-ImageNet）和多种网络架构（如 ResNet-50、ResNet-110、WRN-26-10、DenseNet-121）上的广泛实验，验证了 MaC-Cal 的有效性。
实验结果表明，MaC-Cal 在各种设置下均实现了优越的校准性能，并在数据损坏情况下表现出较强的鲁棒性。

5. 与其他方法的结合

MaC-Cal 作为一种即插即用的方法，可以无缝集成到现有的校准技术中。实验表明，将 MaC-Cal 与其他校准方法结合使用时，能够进一步降低 ECE（预期校准误差），同时保持较高的分类准确率。

通过上述方法，MaC-Cal 有效地解决了深度神经网络在置信度估计中的校准问题，提高了模型在各种数据分布下的可靠性和鲁棒性。

Q: 论文做了哪些实验？

A: 论文通过一系列实验来验证所提出的 MaC-Cal 方法的有效性、鲁棒性和泛化能力。以下是实验的详细内容：

1. 实验设置

数据集：使用了多个标准数据集，包括 CIFAR-10、CIFAR-100、Tiny-ImageNet 和 SVHN，以及 CIFAR-10-C 和 CIFAR-100-C（包含各种类型的合成噪声和输入扰动）。
网络架构：在 ResNet-50、ResNet-110、WRN-26-10 和 DenseNet-121 上进行了实验。
评估指标：使用了 ECE（Expected Calibration Error）、AECE（Adaptive ECE）、MCE（Maximum Calibration Error）来评估校准性能，同时报告了 top-1 准确率来评估分类性能。对于 OOD 检测，使用了 AUROC（Area Under the ROC Curve）和 FPR95（False Positive Rate at 95% True Positive Rate）。
比较方法：与多种现有的校准方法进行了比较，包括 Vanilla（原始模型）、ACLS、MbLS、Label Smoothing、Mixup、MIT、Focal Loss、FLSD、DFL、CPC、MMCE、PLP、TST 和 VTST。

2. 主实验结果

校准性能：在所有数据集和网络架构上，MaC-Cal 均实现了最低的 ECE，显著优于其他方法。例如，在 CIFAR-100 上使用 ResNet-110 时，基线模型的 ECE 为 17.85，而 MaC-Cal 将其降低到 1.44，相对减少了超过 90%。
准确率：MaC-Cal 在提高校准性能的同时，保持了与基线模型相当的分类准确率。
鲁棒性：在 CIFAR-10-C 和 CIFAR-100-C 上的实验表明，MaC-Cal 在面对数据损坏时表现出更强的鲁棒性，ECE 值较低，表明其置信度估计更加可靠。
泛化能力：在 OOD 数据集（如 SVHN 和 CIFAR-100）上的实验表明，MaC-Cal 能够有效区分 in-distribution 和 out-of-distribution 样本，AUROC 和 FPR95 指标表现优异。

3. Mixup 和低估自信

Mixup 实验：Mixup 是一种数据增强技术，可以提高模型的泛化能力，但可能导致低估自信。论文中比较了 Mixup、MIT 和 MaC-Cal 在不同 Mixup 参数 ( \alpha ) 下的表现。结果表明，MaC-Cal 在保持 Mixup 的准确率提升的同时，显著降低了 ECE，且计算效率更高。

4. 与其他方法的结合

组合实验：MaC-Cal 可以与其他校准方法结合使用，进一步提升校准性能。实验结果表明，将 MaC-Cal 与其他方法（如 ACLS、Label Smoothing、Mixup 等）结合时，能够进一步降低 ECE，同时保持较高的分类准确率。

5. 计算成本

效率比较：论文比较了 MaC-Cal 与其他校准方法的训练时间。结果表明，MaC-Cal 在训练效率上优于或接近 MIT、BalCAL 等方法，同时提供了更好的校准性能。

6. 消融研究

组件贡献：通过增量消融实验，论文评估了 MaC-Cal 中各个组件的贡献，包括掩码重训练、梯度限制、分类器结构调整和自适应稀疏性机制。结果表明，每个组件都对校准性能有显著贡献，而它们的集成进一步降低了 ECE 和 AECE，同时保持了较高的分类准确率。

7. 参数敏感性

自适应稀疏性机制：论文还研究了自适应稀疏性机制中参数 ( \gamma ) 的敏感性。结果表明，MaC-Cal 在较宽的 ( \gamma ) 范围内都能保持良好的校准性能，表明该方法对参数选择不敏感，具有较强的鲁棒性。

通过这些实验，论文全面验证了 MaC-Cal 方法在提高深度神经网络校准性能方面的有效性、鲁棒性和泛化能力，同时展示了其在实际应用中的高效性和易用性。

Q: 有什么可以进一步探索的点？

Authors: Jiani Ni, He Zhao, Yibo Yang, Dandan Guo

Categories: cs.LG

PDF URL: https://arxiv.org/pdf/2508.09116v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09116v1

Published: 2025-08-12T17:50:23Z

9. SinLlama — A Large Language Model for Sinhala

中文摘要

像僧伽罗语这样的低资源语言常常被开源的大型语言模型（LLM）忽视。在这项研究中，我们扩展了一个现有的多语言LLM（Llama-3-8B），以更好地服务于僧伽罗语。我们增强了LLM的分词器，添加了僧伽罗语特定的词汇，并在一个清理过的1000万字的僧伽罗语语料库上进行了持续的预训练，从而得到了SinLlama模型。这是第一个明确支持僧伽罗语的基于解码器的开源LLM。当SinLlama针对三个文本分类任务进行指令微调时，其表现远超Llama-3-8B的基础和指导变体。

LLM Analysis

Q: 这篇论文试图解决什么问题？

Q: 有哪些相关研究？

A: 论文中提到了多个与大型语言模型（LLMs）和低资源语言（LRLs）相关的研究，以下是主要的相关研究：

大型语言模型（LLMs）

Pre-trained Language Models (PLMs)：使用 Transformer 架构的预训练语言模型，如 ChatGPT 等解码器模型，因其强大的性能而广受欢迎。开源的大型解码器模型（LLMs），如 LLaMA、Mistral 和 Gemma，训练数据量大，性能可与商业系统相媲美。这些模型的训练包括训练分词器和使用无标签原始文本语料库进行自监督训练（即预训练），得到的模型称为基础模型（base model）。这些基础模型缺乏特定任务的能力，因此需要使用特定任务的指令数据进行微调（即指令微调，instruct-tuning）。
Empirical Studies on LLM Performance for LRLs：对多种语言上的 LLMs 性能评估显示，高资源语言和低资源语言之间存在显著的性能差异。例如，Ahuja 等人的 MEGA 框架对 70 种不同语言（包括僧伽罗语）进行了 16 项 NLP 任务的全面基准测试，发现像 GPT-4 这样的模型在高资源语言上表现良好，但在低资源语言上则表现不佳，尤其是那些具有独特形态结构或脚本的语言。Chang 等人的综述强调了预训练语料库的多样性和代表性对模型多语言性能的影响，以及当前多语言基准测试的局限性。
Extending LLMs for New Languages：介绍了多种将 LLM 扩展到新语言的策略，包括持续预训练（continual pre-training）、词汇扩展（vocabulary extension）、微调（fine-tuning）、偏好优化（preference optimization）、上下文学习（in-context learning）和利用词典（leveraging lexicons）等方法。

僧伽罗语（Sinhala）语言计算

Sinhala Language Computing：尽管有研究尝试使用基于规则、统计或早期深度学习技术来实现僧伽罗语计算工具，但这些技术在自然语言处理（NLP）领域已经过时。不过，仍有一些尝试保持僧伽罗语 NLP 的更新，例如 Lakmal 等人提出的 Word2Vec 和 FastText 嵌入，以及 Dhananjaya 等人构建的基于 Transformer 的编码器语言模型 SinBERT。

这些相关研究为本文提出的 SinLlama 模型提供了背景和理论基础，展示了在低资源语言上改进 LLMs 的必要性和可能的方法。

Q: 论文如何解决这个问题？

A: 论文通过以下两个关键阶段来解决低资源语言（如僧伽罗语）在大型语言模型（LLMs）中表现不佳的问题：

1. 词汇扩展（Vocabulary Extension）

增强分词器：通过将僧伽罗语特定的词汇合并到 LLM 的分词器词汇表中，改进了子词分割（subword segmentation）。这一步骤有助于模型更好地理解和生成僧伽罗语文本。

2. 持续预训练（Continual Pre-training）

使用清洗后的僧伽罗语语料库：研究者们创建了一个包含 1000 万句清洗过的僧伽罗语文本的语料库，用于对 Llama-3-8B 模型进行持续预训练。这一步骤确保了模型能够学习到更深入的僧伽罗语语言特征。

模型选择

选择最佳开源多语言 LLM：研究者们首先对现有的开源多语言 LLM 进行了调查和比较，最终选择了 Llama-3-8B 作为基础模型。Llama-3-8B 支持 8 种语言，参数量为 80 亿，且在多个基准测试中表现出色。

数据集

预训练数据：结合了 MADLAD-400 和 CulturaX 数据集，经过清洗和去重后，最终得到包含 1073 万句僧伽罗语句子的语料库，总计 3.04 亿个词元。
微调数据：选择了三个公开的僧伽罗语文本分类任务数据集：新闻分类、情感分析和写作风格分类。这些数据集经过预处理后，被分为训练集、验证集和测试集，用于评估模型性能。

持续预训练构建 SinLlama

分词器训练与合并：使用预训练语料库训练了一个分词器，并将其与 Llama-3 分词器合并。
持续预训练：使用修改后的 Chinese-Llama 代码库进行持续预训练，将 block_size 从 1024 降低到 512，以适应实验中使用的 GPU 内存限制。

任务特定微调（Task-specific Fine-tuning）

提示选择：采用 Alpaca Instruct Template 提供的提示格式，为每个分类任务选择了最合适的提示。
微调：分别对 SinLlama 和 Llama-3-8B 基础模型进行了微调，使用了 LoRA 微调技术，以加快训练速度并降低内存使用。

评估

性能比较：将 SinLlama 与 Llama-3-8B 基础模型和指令微调模型进行了比较。结果显示，经过微调的 SinLlama 在所有任务上都显著优于经过微调的 Llama-3-8B 基础模型和指令微调模型。

通过上述方法，论文成功地构建了 SinLlama，这是第一个专门为僧伽罗语预训练的开源大型语言模型，并在多个文本分类任务上取得了显著的性能提升。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

模型选择实验

模型筛选：根据多语言能力、参数规模（小于 80 亿参数）、僧伽罗语支持情况和性能指标等标准，从众多开源多语言 LLM 中筛选出 Llama-3-8B 作为基础模型进行后续实验。

持续预训练实验

分词器训练与合并：使用预训练语料库训练了一个分词器，并将其与 Llama-3 分词器合并。
持续预训练：使用修改后的 Chinese-Llama 代码库进行持续预训练，将 block_size 从 1024 降低到 512，以适应实验中使用的 GPU 内存限制。

任务特定微调实验

提示选择：采用 Alpaca Instruct Template 提供的提示格式，为每个分类任务选择了最合适的提示。
微调：分别对 SinLlama 和 Llama-3-8B 基础模型进行了微调，使用了 LoRA 微调技术，以加快训练速度并降低内存使用。

性能评估实验

性能比较：将 SinLlama 与 Llama-3-8B 基础模型和指令微调模型进行了比较。结果显示，经过微调的 SinLlama 在所有任务上都显著优于经过微调的 Llama-3-8B 基础模型和指令微调模型。

具体实验设置和结果如下：

实验设置

数据集：
- 预训练数据：结合了 MADLAD-400 和 CulturaX 数据集，经过清洗和去重后，最终得到包含 1073 万句僧伽罗语句子的语料库，总计 3.04 亿个词元。
- 微调数据：选择了三个公开的僧伽罗语文本分类任务数据集：新闻分类、情感分析和写作风格分类。这些数据集经过预处理后，被分为训练集、验证集和测试集，用于评估模型性能。
微调方法：
- 使用 LoRA 微调技术，以加快训练速度并降低内存使用。

实验结果

性能指标：使用精确率（Precision）、召回率（Recall）和 F1 分数来评估模型性能。
结果对比：
- Llama-3-8B 基础模型：在微调后，性能有显著提升，但仍然低于 SinLlama。
- Llama-3-8B 指令微调模型：在微调后，性能也有所提升，但仍然低于 SinLlama。
- SinLlama：在所有任务上都取得了最佳性能，显著优于其他模型。

具体数值结果如下表所示：

模型

写作风格分类

新闻分类

情感分析

Llama-3-8B 基础模型

33.091/20.927/24.504

23.904/18.919/19.031

41.942/38.011/36.285

Llama-3-8B 基础模型 - 微调

71.060/38.179/49.451

64.770/63.664/61.136

61.110/61.215/59.353

Llama-3-8B 指令微调模型

50.782/50.719/48.755

31.866/30.330/29.219

48.451/36.796/31.257

Llama-3-8B 指令微调模型 - 微调

70.996/35.942/42.256

50.883/50.450/47.812

68.856/68.729/68.784

SinLlama

33.315/4.393/7.531

44.166/19.520/15.614

47.153/25.856/22.689

SinLlama - 微调

85.906/52.157/58.893

89.033/86.787/86.402

75.246/70.055/72.471

这些实验结果表明，SinLlama 在经过微调后，在僧伽罗语文本分类任务上取得了显著的性能提升，优于其他模型。

Q: 有什么可以进一步探索的点？

1. 微调策略的优化

多任务微调：目前的实验集中在单任务微调上。可以探索多任务微调策略，让模型同时学习多个任务，以提高其泛化能力和跨任务迁移能力。
数据增强：在微调阶段引入数据增强技术，如文本重写、同义词替换等，以增加训练数据的多样性，进一步提升模型的鲁棒性。
自适应学习率：使用自适应学习率调度器，如 ReduceLROnPlateau 或 Cosine Annealing，以优化训练过程中的学习率调整策略，从而提高模型的收敛速度和最终性能。

2. 偏好优化方法的探索

人类偏好数据：虽然僧伽罗语的人类偏好数据可能稀缺，但可以尝试收集少量高质量的偏好数据，并利用这些数据进行偏好优化，以使模型的输出更符合人类的期望。
强化学习：结合强化学习方法，如 Proximal Policy Optimization (PPO)，根据人类的反馈来优化模型的生成行为，从而更好地适应特定的语言风格和任务需求。

3. 模型架构的改进

混合专家模型（Mixture of Experts, MoE）：将 MoE 架构引入 SinLlama，以提高模型在处理不同语言风格和任务时的灵活性和效率。MoE 可以让模型在不同情况下选择最适合的子模型进行处理，从而提升整体性能。
跨语言迁移学习：探索如何将其他语言的预训练模型的知识迁移到僧伽罗语模型中，例如通过跨语言预训练或跨语言微调，以进一步提升模型的性能。

4. 模型评估与分析

深入的错误分析：对模型在不同任务上的错误进行深入分析，以了解模型在哪些方面表现不佳，从而为未来的改进提供方向。例如，分析模型在处理特定类型的文本或特定类别时的困难，以及这些困难的可能原因。
模型可解释性：研究模型的决策过程，提高模型的可解释性。例如，通过可视化模型的注意力机制，了解模型在处理僧伽罗语文本时关注的特征和模式，从而更好地理解模型的行为。

5. 应用场景的拓展

对话系统：将 SinLlama 应用于僧伽罗语的对话系统，探索其在自然语言对话中的表现，并针对对话任务进行进一步的优化和微调。
机器翻译：研究 SinLlama 在僧伽罗语与其他语言之间的机器翻译任务中的应用，评估其在跨语言生成和翻译中的潜力。
情感分析的拓展：除了现有的情感分析任务，可以探索更复杂的情感分析场景，如多标签情感分析、情感强度分析等，以进一步验证模型在情感理解方面的能力。

6. 跨领域应用

医学领域：探索 SinLlama 在僧伽罗语医学文本处理中的应用，如医学文献摘要、疾病诊断辅助等，以验证其在专业领域的适应性和有效性。
教育领域：研究如何利用 SinLlama 支持僧伽罗语的教育应用，如智能辅导系统、语言学习工具等，以促进僧伽罗语教育资源的开发和利用。

7. 计算资源优化

模型压缩：研究模型压缩技术，如量化、剪枝等，以减少模型的大小和计算需求，使其更适合在资源受限的设备上运行，如移动设备或边缘计算设备。
分布式训练：探索分布式训练方法，以加快模型的训练速度，提高训练效率，从而能够处理更大规模的数据集和更复杂的模型架构。

这些方向不仅可以进一步提升 SinLlama 模型的性能和应用范围，还可以为低资源语言的自然语言处理研究提供更深入的见解和方法。

Q: 总结一下论文的主要内容

词汇扩展：将僧伽罗语特定的词汇合并到 LLM 的分词器词汇表中，以改进子词分割，从而提高模型对僧伽罗语的理解和生成能力。
持续预训练：使用一个包含 1000 万句清洗过的僧伽罗语文本的语料库对 Llama-3-8B 模型进行持续预训练，以确保模型能够学习到更深入的僧伽罗语语言特征。

研究背景与动机

模型选择

数据集

预训练数据：结合了 MADLAD-400 和 CulturaX 数据集，经过清洗和去重后，最终得到包含 1073 万句僧伽罗语句子的语料库，总计 3.04 亿个词元。
微调数据：选择了三个公开的僧伽罗语文本分类任务数据集：新闻分类、情感分析和写作风格分类。这些数据集经过预处理后，被分为训练集、验证集和测试集，用于评估模型性能。

持续预训练构建 SinLlama

分词器训练与合并：使用预训练语料库训练了一个分词器，并将其与 Llama-3 分词器合并。
持续预训练：使用修改后的 Chinese-Llama 代码库进行持续预训练，将 block_size 从 1024 降低到 512，以适应实验中使用的 GPU 内存限制。

任务特定微调

提示选择：采用 Alpaca Instruct Template 提供的提示格式，为每个分类任务选择了最合适的提示。
微调：分别对 SinLlama 和 Llama-3-8B 基础模型进行了微调，使用了 LoRA 微调技术，以加快训练速度并降低内存使用。

性能评估

性能比较：将 SinLlama 与 Llama-3-8B 基础模型和指令微调模型进行了比较。结果显示，经过微调的 SinLlama 在所有任务上都显著优于经过微调的 Llama-3-8B 基础模型和指令微调模型。
具体数值结果：
- 写作风格分类：SinLlama 微调后的 F1 分数为 58.893，显著高于 Llama-3-8B 基础模型微调后的 49.451 和指令微调模型微调后的 42.256。
- 新闻分类：SinLlama 微调后的 F1 分数为 86.402，显著高于 Llama-3-8B 基础模型微调后的 61.136 和指令微调模型微调后的 47.812。
- 情感分析：SinLlama 微调后的 F1 分数为 72.471，显著高于 Llama-3-8B 基础模型微调后的 59.353 和指令微调模型微调后的 68.784。

结论

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: H. W. K. Aravinda, Rashad Sirajudeen, Samith Karunathilake, Nisansa de Silva, Surangika Ranathunga, Rishemjit Kaur

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.09115v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09115v1

Published: 2025-08-12T17:49:34Z

Human emotions are complex and can be conveyed through nuanced touch gestures. Previous research has primarily focused on how humans recognize emotions through touch or on identifying key features of emotional expression for robots. However, there is a gap in understanding how reliably these emotions and gestures can be communicated to robots via touch and interpreted using data driven methods. This study investigates the consistency and distinguishability of emotional and gestural expressions through touch and sound. To this end, we integrated a custom piezoresistive pressure sensor as well as a microphone on a social robot. Twenty-eight participants first conveyed ten different emotions to the robot using spontaneous touch gestures, then they performed six predefined social touch gestures. Our findings reveal statistically significant consistency in both emotion and gesture expression among participants. However, some emotions exhibited low intraclass correlation values, and certain emotions with similar levels of arousal or valence did not show significant differences in their conveyance. To investigate emotion and social gesture decoding within affective human-robot tactile interaction, we developed single-modality models and multimodal models integrating tactile and auditory features. A support vector machine (SVM) model trained on multimodal features achieved the highest accuracy for classifying ten emotions, reaching 40 %.For gesture classification, a Convolutional Neural Network- Long Short-Term Memory Network (CNN-LSTM) achieved 90.74 % accuracy. Our results demonstrate that even though the unimodal models have the potential to decode emotions and touch gestures, the multimodal integration of touch and sound significantly outperforms unimodal approaches, enhancing the decoding of both emotions and gestures.

中文摘要

人类情感复杂，可以通过细腻的触摸手势传达。以往的研究主要集中在人类如何通过触觉识别情感，或识别机器人情感表达的关键特征。然而，对于这些情感和手势如何可靠地通过触觉与机器人进行沟通，以及如何使用数据驱动的方法进行解读，仍存在一定的空白。本研究调查了通过触觉和声音传达的情感和手势表达的一致性和可区分性。为此，我们在一个社交机器人上集成了定制的压阻压力传感器和麦克风。28名参与者首先通过自发的触摸手势向机器人传达了十种不同的情感，然后他们执行了六种预定义的社交触碰手势。我们的研究发现，参与者在情感和手势表达中有统计学上显著的一致性。然而，一些情感表现出较低的组内相关系数值，而某些具有相似唤醒水平或价值得情感在传达上并没有显著差异。为了研究情感和社交手势在情感化人机触觉互动中的解码，我们开发了单模态模型和整合触觉与听觉特征的多模态模型。一个基于多模态特征训练的支持向量机(SVM)模型在分类十种情感时达到了最高的准确率，达到了40%。在手势分类方面，一个卷积神经网络-长短期记忆网络(CNN-LSTM)达到了90.74%的准确率。我们的结果表明，尽管单模态模型有解码情感和触摸手势的潜力，但触觉和声音的多模态整合显著优于单模态方法，增强了情感和手势的解码。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何通过触摸和声音向机器人传达人类情感，并探索这种传达的一致性。具体来说，论文关注以下几个研究问题：

人们是否在通过触摸表达情感时具有相互一致性？
哪些情感可以通过触摸来区分？
是否可以使用多模态方法来解码不同的情感？

论文通过集成触觉和听觉感官阅读来研究这些问题，旨在提高机器人对人类情感的理解，从而增强人机交互的自然性和互动性。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

Hertenstein et al. (2006)：这项研究探讨了通过触摸传达的不同情感，发现触摸可以传达多种情感，如安慰、同情等[1]。
Van Erp & Toet (2015)：这项研究讨论了在人机交互中社会触摸的作用，强调了触摸在建立社会联系和传达情感中的重要性[2]。
Yohanan (2012)：这项研究开发了“Haptic Creature”来检测触摸和运动，研究了参与者认为适合表达九种特定情感的手势[3]。
Ju et al. (2021)：这项研究探讨了通过触觉反馈传达情感意义的可能性，即所谓的“触觉共情”[4]。
Auvray et al. (2023)：这项研究通过听觉信号识别触觉手势及其情感内容，即通过声音远程识别社会触摸[5]。
Andreasson et al. (2018)：这项研究探讨了在人机交互中通过触摸传达情感给NAO机器人的方法[7]。
Ren et al. (2023)：这项研究使用变换器对社交触觉手势进行低延迟分类[6]。
Russell (1989)：这项研究提出了情感的环状模型，描述了情感状态可以沿着唤醒度和情感价值两个维度来表示[9]。
Shoiynbek et al. (2019)：这项研究探讨了用于语音情感识别的稳健频谱音频特征[10]。

这些研究为理解人类如何通过触摸和声音传达情感提供了理论基础，并为开发能够识别和响应这些情感的机器人技术提供了科学依据。

Q: 论文如何解决这个问题？

A: 论文通过以下步骤解决如何通过触摸和声音向机器人传达人类情感的问题：

1. 实验设计和设备设置

参与者：招募了28名具有相似文化背景的参与者。
机器人平台：使用Pepper机器人作为交互对象。
触觉传感器：开发了一个5-by-5的压阻压力传感器网格，用于捕获触摸数据。
麦克风：使用Waveshare USB到音频麦克风，用于捕获触摸声音数据。

2. 数据收集

情感定义：根据Russell的情感模型，选择了具有不同唤醒度和情感价值的九种情感加上一种中性情感。
表达情感：要求参与者使用他们自己选择的手势向机器人表达每种情感，每种情感的表达被记录最多10秒，重复三次。

3. 数据分析

音频特征提取：提取了Mel-Frequency Cepstral Coefficients (MFCCs)、Spectral Centroid、Spectral Bandwidth、Zero Crossing Rate和Root Mean Square Energy (RMSE)等音频特征。
触觉特征提取：提取了Mean Pressure、Max Pressure、Pressure Variance等触觉特征。
主观反馈：收集参与者关于哪些情感难以表达的主观反馈。
一致性分析：使用主成分分析（PCA）和内类相关系数（ICC）评估不同参与者之间情感表达的一致性。
变异性分析：使用排列多元方差分析（PERMANOVA）评估不同情感之间的差异。
情感解码：使用不同的机器学习模型（如随机森林、支持向量机SVM、k-最近邻k-NN等）来解码通过触摸和声音传达的情感。

4. 结果评估

模型比较：比较不同模型的性能，找出最有效的模型。
混淆矩阵：分析模型预测的准确性和常见的错误分类。

5. 结论

一致性：发现所有情感都显示出统计学上的一致性，但不同情感的一致性程度不同。
区分性：大多数情感对在触觉和听觉特征上显示出显著差异，但某些情感对（如“平静”和“悲伤”）之间没有显著差异。
情感解码：使用SVM模型解码情感，发现某些情感（如“注意”）的准确度较高，而其他情感（如“惊讶”）的准确度较低。

通过这些步骤，论文不仅探索了人们如何通过触摸和声音一致地表达情感，还构建了一个多模态框架来解码这些情感，为未来的人机交互技术提供了有价值的见解和工具。

Q: 论文做了哪些实验？

A: 论文中进行的实验主要围绕通过触摸和声音向机器人传达情感的一致性和可区分性。以下是实验的具体步骤和细节：

实验设计

参与者：实验招募了28名中国参与者，其中10名为女性，18名为男性，平均年龄为27.8 ± 2.3岁。
机器人平台：参与者与Pepper机器人进行交互，该机器人装备了定制的触觉传感器和麦克风。
情感定义：根据Russell的情感模型，选择了10种情感（包括“愤怒”、“恐惧”、“厌恶”、“幸福”、“惊讶”、“悲伤”、“困惑”、“安慰”、“平静”和“注意”），并提供了这些情感的定义以确保参与者理解。

数据收集

触觉传感器：使用一个5-by-5的压阻压力传感器网格来捕获触摸数据。
麦克风：使用Waveshare USB到音频麦克风来捕获触摸声音数据。
情感表达：每位参与者需要使用他们自己选择的手势向机器人表达每种情感，每种情感的表达被记录最多10秒，重复三次。

数据分析

音频特征提取：提取了Mel-Frequency Cepstral Coefficients (MFCCs)、Spectral Centroid、Spectral Bandwidth、Zero Crossing Rate和Root Mean Square Energy (RMSE)等音频特征。
触觉特征提取：提取了Mean Pressure、Max Pressure、Pressure Variance等触觉特征。
主观反馈：收集参与者关于哪些情感难以表达的主观反馈。
一致性分析：使用主成分分析（PCA）和内类相关系数（ICC）评估不同参与者之间情感表达的一致性。
变异性分析：使用排列多元方差分析（PERMANOVA）评估不同情感之间的差异。
情感解码：使用不同的机器学习模型（如随机森林、支持向量机SVM、k-最近邻k-NN等）来解码通过触摸和声音传达的情感。

结果评估

模型比较：比较不同模型的性能，找出最有效的模型。
混淆矩阵：分析模型预测的准确性和常见的错误分类。

这些实验步骤共同构成了论文的研究框架，旨在探索和验证通过触摸和声音向机器人传达情感的可行性和效果。

Q: 有什么可以进一步探索的点？

A: 论文提出了一些有趣的发现和初步结果，但也指出了未来研究可以进一步探索的几个关键点：

更大的样本量和多样化的参与者：
- 由于样本量有限（28名参与者），研究结果的普适性和可推广性可能受限。未来的研究可以扩大样本量，并包括不同文化背景的参与者以增强结果的普适性。
扩展传感器覆盖范围：
- 目前的研究仅限于在机器人的前臂上使用触觉传感器。未来的研究可以扩展到机器人的其他身体部位，以更全面地捕捉人际交互中的触觉信息。
情感表达的复杂性和多样性：
- 研究主要关注了10种基本情感的表达。人类情感的复杂性远不止这些，未来的研究可以探索更多情感状态的表达和识别。
长期交互研究：
- 本研究是短期的，未来的研究可以探索在长期交互中情感表达和识别的稳定性和变化。
多模态融合技术：
- 虽然研究中使用了触觉和听觉数据，但可能还有其他模态（如视觉、温度等）可以被整合进来，以提高情感识别的准确性。
算法和模型的优化：
- 尽管SVM模型在本研究中表现最佳，但其他机器学习或深度学习方法可能提供更好的性能。未来的研究可以探索这些方法，并优化模型以提高情感识别的准确性和鲁棒性。
实时情感识别和反馈：
- 本研究集中在离线数据分析。未来的研究可以探索实时情感识别系统，并研究如何将识别的情感反馈给机器人以实现更自然的交互。
情感表达的个体差异：
- 研究中提到了不同参与者在表达某些情感时的一致性和变异性。未来的研究可以更深入地探讨个体差异对情感表达和识别的影响。
跨文化研究：
- 由于文化差异可能影响情感的表达和识别，未来的研究可以探索不同文化背景下的情感交流，以增强系统的适应性和文化敏感性。
应用研究：
- 将研究成果应用于实际场景，如教育、医疗、陪伴机器人等，以评估其在现实世界中的有效性和实用性。

这些方向不仅有助于推动情感识别技术的发展，还能为设计更智能、更具同理心的机器人提供科学依据。

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容包括以下几个方面：

研究背景与目的：
- 论文探讨了通过触摸和声音向机器人传达人类情感的一致性问题，旨在提高机器人对人类情感的理解，增强人机交互的自然性和互动性。
实验设计与设备：
- 实验招募了28名中国参与者，使用Pepper机器人作为交互平台，配备了自制的5-by-5压阻压力传感器和麦克风，分别用于捕获触摸和声音数据。
数据收集：
- 参与者被要求通过自发的触摸手势向机器人传达10种预定义的情感，每种情感的表达被记录最多10秒，重复三次。
数据分析：
- 从音频和触觉两个通道提取了多种特征，包括Mel-Frequency Cepstral Coefficients (MFCCs)、Spectral Centroid等音频特征，以及Mean Pressure、Max Pressure等触觉特征。
- 通过主成分分析（PCA）和内类相关系数（ICC）评估了情感表达的一致性。
- 使用排列多元方差分析（PERMANOVA）分析了不同情感之间的差异。
情感解码：
- 利用不同的机器学习模型（如随机森林、支持向量机SVM等）来解码通过触摸和声音传达的情感，其中SVM模型表现最佳，总体准确率达到了40%。
结果与发现：
- 所有情感在参与者间显示出统计学上的显著一致性，但不同情感的一致性程度不同，其中“注意”情感的一致性最高，而“惊讶”情感的一致性最低。
- 某些情感对（如“平静”和“悲伤”）在触觉和听觉特征上没有显著差异，使得它们难以区分。
- 混淆矩阵显示“注意”情感最容易被识别，而“惊讶”情感的识别准确度最低。
结论：
- 论文得出结论，人们在通过触摸表达情感时具有一定程度的一致性，且多模态方法可用于解码不同的情感。同时指出了研究的局限性，并对未来的研究方向提出了建议。

总体而言，这篇论文通过实验和数据分析，展示了通过触摸和声音向机器人传达情感的可行性，并探讨了不同情感表达的一致性和可区分性，为未来的人机交互技术的发展提供了有价值的见解。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Qiaoqiao Ren, Remko Proesmans, Yuanbo Hou, Francis wyffels, Tony Belpaeme

Categories: cs.RO, cs.LG

PDF URL: https://arxiv.org/pdf/2412.03300v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2412.03300v2

Published: 2024-12-04T13:17:42Z

Evaluation Domain Papers

1. CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics

The increasing ubiquity of text-to-image (T2I) models as tools for visual content generation raises concerns about their ability to accurately represent diverse cultural contexts — where missed cues can stereotype communities and undermine usability. In this work, we present the first study to systematically quantify the alignment of T2I models and evaluation metrics with respect to both explicit (stated) as well as implicit (unstated, implied by the prompt’s cultural context) cultural expectations. To this end, we introduce CulturalFrames, a novel benchmark designed for rigorous human evaluation of cultural representation in visual generations. Spanning 10 countries and 5 socio-cultural domains, CulturalFrames comprises 983 prompts, 3637 corresponding images generated by 4 state-of-the-art T2I models, and over 10k detailed human annotations. We find that across models and countries, cultural expectations are missed an average of 44% of the time. Among these failures, explicit expectations are missed at a surprisingly high average rate of 68%, while implicit expectation failures are also significant, averaging 49%. Furthermore, we show that existing T2I evaluation metrics correlate poorly with human judgments of cultural alignment, irrespective of their internal reasoning. Collectively, our findings expose critical gaps, provide a concrete testbed, and outline actionable directions for developing culturally informed T2I models and metrics that improve global usability.

中文摘要

文本到图像（T2I）模型作为视觉内容生成工具日益普及，引发了人们对它们在准确代表多元文化背景方面的能力的担忧——在这些背景中，错过的线索可能会让某些社区被刻板印象所概括，从而削弱可用性。在这项工作中，我们首次系统性地量化T2I模型与评估标准在明确（声明）以及隐含（未声明，由提示的文化背景暗示）文化期望方面的一致性。为此，我们引入了CulturalFrames，这是一个新颖的基准，旨在对视觉生成中的文化表现进行严格的人类评估。CulturalFrames覆盖了10个国家和5个社会文化领域，包括983个提示，3637个由4个最先进的T2I模型生成的相应图像，及超过1万个详细的人类注释。我们发现，在模型和国家之间，文化期望被错过的平均比例为44%。在这些失误中，明确期望被错过的平均比例高达68%，而隐含期望的失误也相当显著，平均为49%。此外，我们展示了现有的T2I评估标准与人类对文化一致性的判断相关性较差，无论其内部推理如何。总的来说，我们的发现揭示了关键的缺口，提供了具体的测试平台，并概述了为开发文化上知情的T2I模型和改进全球可用性的评估标准的可行方向。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是文本到图像（Text-to-Image, T2I）模型在生成视觉内容时对不同文化背景的准确表示能力。具体来说，论文关注以下几点：

文化期望的对齐问题：T2I模型在生成图像时，是否能够准确地反映不同文化中的显式（explicit）和隐式（implicit）期望。显式期望是指文本提示中明确提到的元素，而隐式期望则是基于文化背景和常识推断出的、未在提示中明确说明但对文化真实性至关重要的元素。
现有评估方法的局限性：现有的T2I模型评估方法主要关注图像与文本提示的显式一致性，而忽视了对隐式文化期望的评估。这可能导致模型在生成图像时无法准确捕捉文化背景的细微差别，从而产生刻板印象、文化误解或不恰当的视觉内容。
文化多样性和代表性：如何确保T2I模型能够在全球范围内准确地表示不同国家和文化群体的视觉内容，避免对某些文化群体的忽视或误解。

为了解决这些问题，论文提出了一个名为CULTURALFRAMES的新基准测试，旨在系统地量化T2I模型和评估指标与文化期望的一致性，并揭示现有模型和评估方法在文化表示方面的不足之处。

Q: 有哪些相关研究？

A: 论文中提到了多个与文本到图像（T2I）模型的文化对齐和评估相关的研究，这些研究可以分为以下几个主要方向：

T2I模型的评估

DrawBench：评估整体图像保真度和复杂场景渲染能力。
PartiPrompts：专注于组合性挑战，评估模型在生成复杂场景时的能力。
T2ICompBench系列：专门评估T2I模型在组合性任务上的表现。
Human评估和偏见与公平性考量：如ImagenHub、HEIM和GenAI Arena等，这些研究关注人类评估以及模型在生成图像时可能存在的偏见和公平性问题。

文化对齐评估

CUBE：评估来自八个不同国家的食品、服装和地标生成的文化对齐情况。
CULTDIFF：研究十个不同国家的文化特定生成情况。
CCUB：提出了一个包容性表示的基准，并提出了利用模型偏见来提高公平性的SCoFT方法。
MC-SIGNS：提供了一个包含85个国家手势的数据集，用于评估模型在跨文化适应方面的表现。
文化图像转创：研究模型如何在不同文化之间转换图像，评估其文化适应能力。
文化背景检索：通过检索文化背景来优化生成提示，以提高生成图像的文化相关性。
国籍表现评估：在有限的设置中评估模型对国籍的刻画情况。

文化表示的局限性

Ventura等人的研究：探讨了T2I模型在准确和尊重地表示文化元素方面的困难，指出模型可能会对文化概念和价值观进行错误的表示。
Prabhakaran等人的研究：关注T2I模型中的文化偏见问题，如基于国籍的刻板印象。
Struppek等人的研究：研究了T2I模型在地理表示方面的偏见，发现模型倾向于生成西方背景的图像。

文化期望的定性评估

Qadri等人的研究：通过定性分析，探讨了标准保真度和质量指标在文化背景下的局限性，并倡导进行“厚评估”（thick evaluations），即更深入、更细致的文化评估。

这些相关研究为本论文提供了背景和基础，同时也指出了现有研究的不足之处，为本论文提出的新基准CULTURALFRAMES和对T2I模型文化对齐的系统量化评估提供了研究空间。

Q: 论文如何解决这个问题？

A: 为了解决文本到图像（T2I）模型在文化表示方面的问题，论文提出了一个名为 CULTURALFRAMES 的新基准测试。该基准测试旨在系统地量化 T2I 模型和评估指标与文化期望的一致性。以下是论文中提出的具体解决方案：

1. 构建 CULTURALFRAMES 基准测试

1.1 选择国家

文化群体的代理：使用国家作为文化群体的代理，选择来自五个大洲的 10 个国家，这些国家涵盖了不同的文化区域，如西亚和南亚（印度）、儒家文化（中国、日本）、非洲伊斯兰地区（伊朗、南非）、拉丁美洲（巴西、智利）、英语国家（加拿大）、天主教欧洲（波兰）和新教欧洲（德国）。
文化多样性和代表性：确保所选国家能够代表全球范围内的文化多样性。

1.2 选择文化类别

文化领域：选择五个与日常生活紧密相关的文化领域：家庭、问候、礼仪、宗教和重要日期。这些领域被选中是因为它们在 CulturalAtlas 中有详细的描述，并且能够引发包含显式和隐式文化期望的提示。
文化期望：显式期望是指提示中明确提到的元素，而隐式期望是指基于文化背景和常识推断出的、未在提示中明确说明但对文化真实性至关重要的元素。

1.3 数据生成流程

提示生成：从 CulturalAtlas 中提取文化期望（规范、实践、价值观）并生成文化相关的提示。使用 GPT-4o 和 Gemini 等大型语言模型（LLM）将这些期望嵌入到提示中，并通过人类筛选确保提示的质量。
图像生成：使用四个最先进的 T2I 模型（两个开源模型：Flux 1.0-dev 和 Stable Diffusion 3.5 Large；两个闭源模型：Imagen3 和 GPT-Image）生成图像。
人类标注：从每个国家招募至少 25 名具有相关文化背景的标注者，对生成的图像进行详细评估。标注者使用 3 点李克特量表（0.0 表示无对齐，0.5 表示部分对齐，1.0 表示完全对齐）评估图像与提示的对齐程度，并提供详细的反馈，指出图像中缺失或未正确描绘的显式和隐式元素。

2. 数据分析

2.1 提示和图像分布

提示分布：CULTURALFRAMES 包含来自 10 个国家的 983 个提示，分布在五个文化类别中，确保每个国家的提示数量平衡。
图像生成：生成了 3,637 张图像，尽管由于安全过滤器的限制，某些模型未能为所有提示生成图像。

2.2 人类标注者的一致性

一致性评估：计算了标注者之间的一致性，使用 Krippendorff 的 alpha 值来衡量。对于提示对齐、图像质量和总体评分，alpha 值分别为 0.37、0.28 和 0.36，表明标注者之间存在适度的一致性。

2.3 评估结果

模型表现：发现即使是最先进的 T2I 模型，平均而言，也有 44% 的时间未能满足文化期望。其中，显式期望的失败率平均为 68%，隐式期望的失败率平均为 49%。
跨文化差异：不同国家的标注者对模型生成的图像有不同的反馈。例如，亚洲和中东地区的标注者更倾向于指出隐式文化元素的缺失，而美洲和欧洲的标注者则更关注显式元素的错误。

3. 评估 T2I 模型和指标

3.1 模型评估

模型性能：通过人类标注评估了四个 T2I 模型在不同国家的表现。GPT-Image 在提示对齐方面表现最佳，而 Imagen3 在图像质量方面得分最高。然而，所有模型在隐式文化期望方面都有显著的失败率。
跨文化差异：不同国家的标注者对模型生成的图像有不同的反馈。例如，亚洲和中东地区的标注者更倾向于指出隐式文化元素的缺失，而美洲和欧洲的标注者则更关注显式元素的错误。

3.2 指标评估

现有指标的局限性：评估了五个代表性的 T2I 评估指标（CLIPScore、HPSv2、TIFA、VQAScore 和 VIEScore），发现这些指标与人类对文化对齐的判断相关性较差。
改进指标：通过为 VIEScore 提供更详细的指令，尝试提高其与人类判断的一致性。尽管有所改进，但指标的推理过程仍与人类标注者的推理存在显著差异。

4. 提出改进建议

利用 CULTURALFRAMES 提示进行未来评估：建议使用 CULTURALFRAMES 中的提示来评估未来的 T2I 模型，以确保模型能够更好地捕捉文化期望。
模型对齐：利用 CULTURALFRAMES 中的提示、图像和标注来对齐 T2I 模型，提高其文化敏感性。
改进评估指标：通过提供更详细的指令和文化背景信息，改进现有的评估指标，使其更接近人类的判断和推理过程。

通过这些方法，论文不仅揭示了现有 T2I 模型在文化表示方面的不足，还为开发更具文化敏感性的 T2I 模型和评估方法提供了具体的方向。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

1. CULTURALFRAMES 数据集构建实验

国家选择实验：选择了10个国家，包括印度、中国、波兰、伊朗、南非、巴西、智利、加拿大、日本和德国，以确保文化多样性。
文化类别选择实验：选择了5个文化领域，包括问候、礼仪、重要日期、宗教和家庭生活，这些领域被认为在日常生活中具有文化重要性。
提示生成实验：从CulturalAtlas中提取文化期望，并使用GPT-4o生成文化相关的提示。通过人类标注者筛选，确保提示的质量和文化相关性。
图像生成实验：使用4个最先进的T2I模型（Flux 1.0-dev、Stable Diffusion 3.5 Large、Imagen3和GPT-Image）为每个提示生成图像。
人类标注实验：从每个国家招募至少25名具有相关文化背景的标注者，对生成的图像进行详细评估，包括图像与提示的对齐程度、图像质量、是否存在刻板印象以及总体评分。

2. T2I模型性能评估实验

模型对齐评估实验：使用CULTURALFRAMES数据集，评估了4个T2I模型在不同国家的表现。具体评估指标包括图像与提示的对齐程度、图像质量、是否存在刻板印象以及总体评分。
跨文化差异评估实验：分析了不同国家的标注者对模型生成的图像的反馈差异，发现亚洲和中东地区的标注者更倾向于指出隐式文化元素的缺失，而美洲和欧洲的标注者则更关注显式元素的错误。

3. T2I评估指标评估实验

现有指标评估实验：评估了五个代表性的T2I评估指标（CLIPScore、HPSv2、TIFA、VQAScore和VIEScore），分析它们与人类对文化对齐的判断的相关性。
改进指标实验：通过为VIEScore提供更详细的指令，尝试提高其与人类判断的一致性，并评估改进后的指标性能。

4. 人类标注者一致性评估实验

一致性评估实验：计算了标注者之间的一致性，使用Krippendorff的alpha值来衡量。对于提示对齐、图像质量和总体评分，alpha值分别为0.37、0.28和0.36，表明标注者之间存在适度的一致性。

这些实验旨在系统地量化T2I模型和评估指标与文化期望的一致性，并揭示现有模型和评估方法在文化表示方面的不足之处。

Q: 有什么可以进一步探索的点？

A: 论文提出了一个系统性的方法来评估文本到图像（T2I）模型在文化表示方面的能力，并揭示了现有模型和评估指标的不足之处。尽管如此，仍有几个可以进一步探索的方向：

1. 更细粒度的文化群体划分

文化群体的多样性：当前研究将国家作为文化群体的代理，但文化群体的划分可以更细粒度，例如考虑地区、民族、宗教群体等。这种更细粒度的划分可以更准确地捕捉文化差异。
跨文化群体的比较：研究不同文化群体之间的相似性和差异性，以及T2I模型在这些群体中的表现。

2. 多模态文化表示

文本和图像的联合表示：除了评估图像生成的文化对齐外，还可以研究文本和图像的联合表示，以更好地理解模型如何处理多模态文化信息。
文化背景的多模态提示：探索如何在提示中包含更多的文化背景信息，例如通过添加相关的音频、视频或文本描述，以提高模型的文化敏感性。

3. 动态文化适应性

文化适应性评估：研究T2I模型在动态文化环境中的适应性，例如如何处理文化变迁、文化融合和跨文化交流。
文化适应性训练：开发新的训练方法，使T2I模型能够更好地适应不同文化背景，例如通过引入文化适应性训练数据或文化适应性损失函数。

4. 文化偏见和公平性

文化偏见的量化：进一步量化T2I模型中的文化偏见，例如通过分析模型生成的图像中是否存在特定文化群体的刻板印象。
公平性评估和改进：开发新的评估方法和模型改进策略，以确保T2I模型在不同文化群体中的公平性。

5. 用户反馈和交互式评估

用户反馈机制：引入用户反馈机制，允许用户直接对生成的图像进行评价和反馈，以提高模型的文化敏感性。
交互式评估：开发交互式评估工具，使用户能够实时调整和优化模型的生成结果，以更好地满足文化期望。

6. 跨文化生成任务

跨文化生成任务：设计和评估跨文化生成任务，例如将一个文化背景的图像转换为另一个文化背景的图像，以测试模型的跨文化适应能力。
文化转换模型：开发专门的模型，用于处理跨文化生成任务，例如通过引入文化转换模块或文化适应性训练。

7. 文化表示的长期影响

文化表示的长期影响：研究T2I模型的文化表示对社会和文化的影响，例如如何影响文化认同、文化传承和跨文化交流。
文化表示的伦理和社会影响：探讨T2I模型的文化表示可能带来的伦理和社会问题，例如文化误解、文化挪用和文化霸权。

8. 改进评估指标

文化对齐的评估指标：开发新的评估指标，专门用于评估T2I模型的文化对齐能力，例如通过引入文化对齐的量化指标或文化适应性评分。
评估指标的可解释性：提高评估指标的可解释性，使其能够提供更详细的反馈，帮助开发者理解模型在文化表示方面的优势和不足。

这些方向不仅可以进一步深化对T2I模型文化表示能力的理解，还可以为开发更具文化敏感性和公平性的T2I模型提供新的思路和方法。

Authors: Shravan Nayak, Mehar Bhatia, Xiaofeng Zhang, Verena Rieser, Lisa Anne Hendricks, Sjoerd van Steenkiste, Yash Goyal, Karolina Stańczak, Aishwarya Agrawal

Categories: cs.CV, cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2506.08835v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2506.08835v2

Published: 2025-06-10T14:21:46Z

2. Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams

The rapid emergence of large language models (LLMs) has raised urgent questions across the modern workforce about this new technology’s strengths, weaknesses, and capabilities. For privacy professionals, the question is whether these AI systems can provide reliable support on regulatory compliance, privacy program management, and AI governance. In this study, we evaluate ten leading open and closed LLMs, including models from OpenAI, Anthropic, Google DeepMind, Meta, and DeepSeek, by benchmarking their performance on industry-standard certification exams: CIPP/US, CIPM, CIPT, and AIGP from the International Association of Privacy Professionals (IAPP). Each model was tested using official sample exams in a closed-book setting and compared to IAPP’s passing thresholds. Our findings show that several frontier models such as Gemini 2.5 Pro and OpenAI’s GPT-5 consistently achieve scores exceeding the standards for professional human certification - demonstrating substantial expertise in privacy law, technical controls, and AI governance. The results highlight both the strengths and domain-specific gaps of current LLMs and offer practical insights for privacy officers, compliance leads, and technologists assessing the readiness of AI tools for high-stakes data governance roles. This paper provides an overview for professionals navigating the intersection of AI advancement and regulatory risk and establishes a machine benchmark based on human-centric evaluations.

中文摘要

大型语言模型（LLMs）的快速出现，引发了现代劳动市场对这一新技术的优势、劣势和能力的紧迫问题。对于隐私专业人士而言，关键在于这些人工智能系统是否能够在法规遵从、隐私程序管理和人工智能治理方面提供可靠的支持。在本研究中，我们评估了包括OpenAI、Anthropic、Google DeepMind、Meta和DeepSeek等公司的十种领先的开放和封闭 LLM，基于它们在行业标准认证考试（IAPP的CIPP/US、CIPM、CIPT和AIGP）上的性能进行基准测试。每个模型都在闭卷环境下使用官方样本考试进行测试，并与IAPP的及格标准进行比较。我们的研究结果表明，多个前沿模型，如Gemini 2.5 Pro和OpenAI的GPT-5，始终获得超过专业人类认证标准的分数——展示了在隐私法律、技术控制和人工智能治理方面的丰富专业知识。这些结果突出了当前LLMs的优势和领域特定的差距，并为评估AI工具在高风险数据治理角色中的准备情况的隐私官、合规领导和技术专家提供了切实的见解。本文为在人工智能进步与监管风险交叉领域导航的专业人士提供了概述，并基于以人为本的评估建立了一个机器基准。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图评估大型语言模型（LLMs）在隐私和人工智能治理领域的专业能力，具体问题包括：

评估LLMs在隐私和AI治理领域的可靠性：随着LLMs的快速发展，隐私专业人士需要知道这些AI系统是否能够在监管合规、隐私项目管理和AI治理方面提供可靠的支持。因此，论文的核心问题是确定当前的LLMs是否具备足够的专业知识来承担高风险的数据治理角色。
量化LLMs的性能：通过使用国际隐私专业人士协会（IAPP）的标准认证考试（如CIPP/US、CIPM、CIPT和AIGP）来量化评估十种领先的开放源代码和封闭源代码LLMs的性能。这些考试涵盖了从基础的美国隐私法规到项目管理、技术实施和负责任的AI监督的广泛实践领域。
识别LLMs的优势和局限性：通过在这些专业考试上的表现，识别LLMs在隐私和AI治理领域的优势和特定领域的知识缺口。这有助于隐私官员、合规负责人和技术专家评估AI工具在高风险数据治理角色中的准备情况。
建立基于人类中心评估的机器基准：为在AI发展和监管风险交叉领域的专业人士提供一个概览，并建立一个基于人类专业知识基准的机器性能评估标准。

Q: 有哪些相关研究？

A: 以下是一些与本研究相关的研究领域和具体工作：

法律和监管推理能力评估

LegalBench：这是一个专门用于评估LLMs法律推理能力的基准测试。它通过一系列法律相关的问题来衡量模型在理解和应用法律知识方面的表现，与本研究中评估LLMs在隐私法规和AI治理法规理解上的目标相似，都关注模型在特定法律领域的专业能力。
相关研究：Guha, N.V., et al., “LegalBench: Evaluating Legal Reasoning in Large Language Models,” 2023. Available at: https://arxiv.org/abs/2308.11462 and https://legalbench.github.io/

隐私和数据保护法规研究

GDPR和CCPA研究：许多研究关注企业如何应对GDPR（欧盟通用数据保护条例）和CCPA（加州消费者隐私法案）等隐私法规的挑战。这些研究揭示了企业在理解和遵守这些复杂法规方面的困难，强调了对专业隐私知识的需求。本研究通过评估LLMs在相关考试中的表现，间接反映了它们是否能够为企业的隐私合规提供支持。
相关研究：
- European Commission, “Regulation (EU) 2016/679 (General Data Protection Regulation),” 2016. Official text at: https://eur-lex.europa.eu/eli/reg/2016/679/oj
- California Legislature, “California Consumer Privacy Act of 2018 (CCPA),” 2018. Official text at: https://leginfo.legislature.ca.gov/faces/codes_displayText.xhtml?division=3.&part=4.&lawCode=CIV&title=1.81.5
- van Kempen, E., Bagayatkar, I., Frolikov, P., Georgiou, C., & Tsudik, G. “Consumer Beware! Exploring Data Brokers’ CCPA Compliance,” arXiv preprint arXiv:2506.21914, University of California, Irvine, 2024. Available at: https://arxiv.org/pdf/2506.21914.pdf

AI治理和伦理研究

AI伦理和治理框架研究：随着AI技术的发展，研究者们提出了各种AI伦理和治理框架，如欧盟的AI法案（EU AI Act）。这些研究探讨了如何确保AI系统的开发和使用符合伦理和法律标准，与本研究中评估LLMs在AI治理专业考试中的表现相呼应，都关注AI的负责任发展。
相关研究：
- European Commission, “Proposal for a Regulation Laying Down Harmonised Rules On Artificial Intelligence (AI Act),” 2021. Available at: https://artificialintelligenceact.eu/ and official text at: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:52021PC0206

LLMs的基准测试研究

多学科基准测试：如LiveBench、SuperGLUE和Big-Bench等多学科基准测试，用于评估LLMs在不同领域的综合能力。这些基准测试为评估LLMs的性能提供了方法论基础，本研究在此基础上专注于隐私和AI治理这一特定领域。
相关研究：
- White, T. et al., “LiveBench: A Benchmark for Large Language Models,” 2023. Available at: https://huggingface.co/datasets/lmsys/livebench
- Wang, A., et al., “SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems,” NeurIPS, 2019. Available at: https://super.gluebenchmark.com/ and https://arxiv.org/abs/1905.00537
- Srivastava, A., et al., “Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models,” Big-Bench, 2022. Available at: https://arxiv.org/abs/2206.04615 and https://github.com/google/BIG-bench

Q: 论文如何解决这个问题？

A: 论文通过以下方法来解决评估大型语言模型（LLMs）在隐私和人工智能治理领域的专业能力这一问题：

1. 选择评估标准

论文选择了国际隐私专业人士协会（IAPP）的行业标准认证考试作为评估标准，包括CIPP/US、CIPM、CIPT和AIGP考试。这些考试被广泛认为是隐私和AI治理专业知识的最全面评估，涵盖了从基础的美国隐私法规到项目管理、技术实施和负责任的AI监督的广泛实践领域。

2. 选择评估模型

论文评估了十种领先的开放源代码和封闭源代码LLMs，这些模型来自OpenAI、Anthropic、Google DeepMind、Meta和DeepSeek等不同的开发者。这些模型在成本、能力和开源/闭源开发方面存在差异，能够代表当前LLMs的多样性。

3. 构建评估环境

零样本设置：所有模型都在闭卷环境中进行测试，没有提供任何外部工具或参考资料，所有答案都基于模型的内部知识。
提示策略：为了确保公平比较，所有模型都使用相同的提示格式和指令。提示包括考试材料中的问题文本、任何伴随的情景以及标记为A、B、C和D的多项选择答案选项，并要求模型选择最佳答案。
系统级消息：在每个会话开始时，向模型发送一个系统级消息，表明模型是正在参加多项选择认证考试的隐私和AI治理专家。

4. 评估和评分

正确率计算：对于每个模型和每个考试，计算正确答案的百分比作为主要性能指标。模型的分数是其正确回答的问题数量除以总问题数量，乘以100。
子域分析：除了整体分数外，还计算了每个考试子域的分数，以深入了解模型在特定领域的表现。
相关性分析：通过计算不同考试分数向量之间的皮尔逊相关系数，分析模型在不同知识领域之间的表现相关性。

5. 结果分析

整体表现：分析了所有模型在四个考试中的整体表现，并与IAPP的通过阈值进行了比较。结果显示，一些前沿模型（如Gemini 2.5 Pro和OpenAI的GPT-5）在所有考试中都取得了超过人类专业认证标准的分数，表明它们在隐私法、技术控制和AI治理方面具有相当的专业知识。
模型比较：通过比较不同模型在各个考试中的表现，揭示了模型之间的优势和局限性。例如，较大的模型通常表现更好，而较小的模型或缺乏特定领域调整的模型则表现较差。
领域相关性：通过相关性分析，发现隐私法、技术隐私和AI治理之间存在较强的重叠，而隐私项目管理内容则更具独特性。

6. 提出改进建议

论文提出了未来研究的方向，包括改进提示策略、扩展到更复杂的考试形式、评估其他相关认证或标准，以及随着新模型的出现或现有模型的演变，重新运行这些基准测试以跟踪进展。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

实验设计

实验目的：评估十种领先的大型语言模型（LLMs）在隐私和人工智能治理领域的专业能力，具体通过国际隐私专业人士协会（IAPP）的行业标准认证考试来衡量。
实验对象：选取了来自OpenAI、Anthropic、Google DeepMind、Meta和DeepSeek等不同开发者的十种LLMs，包括GPT-5、Claude 3.7 Sonnet、Gemini 2.5 Pro等。
实验材料：使用IAPP的四种认证考试的官方样卷，分别是CIPP/US（美国隐私法律专业人士认证）、CIPM（隐私项目管理认证）、CIPT（隐私技术专家认证）和AIGP（人工智能治理专业人士认证）。
实验方法：在闭卷环境中，让每个模型独立回答样卷中的问题，采用零样本设置，即不提供任何额外的上下文或示例，仅基于模型的内部知识进行回答。通过特定的提示策略引导模型以特定格式输出答案，并计算模型回答正确的题目比例作为性能指标。

实验过程

模型访问：通过Replicate平台或Google的API访问这些模型，使用统一的接口和默认设置进行调用。
提示策略：为每个模型提供标准化的提示，包括问题文本、情景描述（如果有的话）、选择题选项，并指示模型以专家身份选择最佳答案并给出简短解释。
评分和评估：对于每个模型和每个考试，计算正确答案的百分比作为主要性能指标，并与IAPP的通过阈值进行比较。同时，对每个考试的子域进行分析，计算模型在各个子域的得分，并计算模型在所有考试中的平均得分以评估整体能力。此外，还计算了不同考试分数之间的皮尔逊相关系数，以分析模型在不同知识领域的表现相关性。

实验结果

CIPP/US考试结果：OpenAI的GPT-5以93.4%的正确率领先，其他如Claude 3.7 Sonnet、Gemini 2.5等模型也表现出色，均超过了人类通过考试的标准（约83.3%）。Meta的70B模型得分81.1%，而8B模型得分63.3%，低于通过标准。
CIPM考试结果：Gemini 2.5以92.2%的正确率位居第一，Claude 3.7 Sonnet紧随其后，得分91.1%。大多数模型都超过了人类通过考试的标准（约84.4%），但Meta的8B模型得分仅为57.8%，远低于通过标准。
CIPT考试结果：DeepSeek-R1和Gemini 2.5均以92.2%的正确率领先，其他如Gemini 1.5、GPT-5等模型也表现良好。Meta的8B模型得分66.7%，刚好达到通过标准。
AIGP考试结果：Gemini 2.5以93.9%的正确率领先，其他如GPT-5、DeepSeek-R1等模型得分均在80%以上，远高于通过标准。Meta的8B模型得分72.7%，低于其他模型。
综合表现：Gemini 2.5在所有考试中的平均得分为92.1%，GPT-5为91.3%，DeepSeek-R1为90.2%。Meta的70B模型平均得分为84.3%，而8B模型仅为65.3%，显示出模型规模和架构对性能的显著影响。

实验结论

模型性能：大多数前沿LLMs在隐私和AI治理领域的表现超过了人类专业认证的标准，表明它们在隐私法、技术控制和AI治理方面具有相当的专业知识。然而，模型性能也受到其规模、架构和训练数据的影响，较小的模型或缺乏特定领域调整的模型表现较差。
领域相关性：隐私法、技术隐私和AI治理之间存在较强的重叠，而隐私项目管理内容则更具独特性，需要进一步的专门训练或调整来提高模型在该领域的表现。

Q: 有什么可以进一步探索的点？

Authors: Zane Witherspoon, Thet Mon Aye, YingYing Hao

Categories: cs.CY, cs.AI

PDF URL: https://arxiv.org/pdf/2508.09036v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09036v1

Published: 2025-08-12T15:57:22Z

3. From Lab to Field: Real-World Evaluation of an AI-Driven Smart Video Solution to Enhance Community Safety

This article adopts and evaluates an AI-enabled Smart Video Solution (SVS) designed to enhance safety in the real world. The system integrates with existing infrastructure camera networks, leveraging recent advancements in AI for easy adoption. Prioritizing privacy and ethical standards, pose based data is used for downstream AI tasks such as anomaly detection. Cloud-based infrastructure and mobile app are deployed, enabling real-time alerts within communities. The SVS employs innovative data representation and visualization techniques, such as the Occupancy Indicator, Statistical Anomaly Detection, Bird’s Eye View, and Heatmaps, to understand pedestrian behaviors and enhance public safety. Evaluation of the SVS demonstrates its capacity to convert complex computer vision outputs into actionable insights for stakeholders, community partners, law enforcement, urban planners, and social scientists. This article presents a comprehensive real-world deployment and evaluation of the SVS, implemented in a community college environment across 16 cameras. The system integrates AI-driven visual processing, supported by statistical analysis, database management, cloud communication, and user notifications. Additionally, the article evaluates the end-to-end latency from the moment an AI algorithm detects anomalous behavior in real-time at the camera level to the time stakeholders receive a notification. The results demonstrate the system’s robustness, effectively managing 16 CCTV cameras with a consistent throughput of 16.5 frames per second (FPS) over a 21-hour period and an average end-to-end latency of 26.76 seconds between anomaly detection and alert issuance.

中文摘要

本文采用并评估了一种由人工智能驱动的智能视频解决方案 (SVS)，旨在增强现实世界中的安全性。该系统与现有的基础设施摄像头网络集成，利用最近在人工智能方面的进展，便于采用。该方案优先考虑隐私和伦理标准，使用基于姿势的数据进行下游的人工智能任务，例如异常检测。部署了基于云的基础设施和移动应用，能够在社区内实时发出警报。SVS采用创新的数据表示和可视化技术，如占用指示器、统计异常检测、鸟瞰图和热力图，以了解行人行为并增强公共安全。对SVS的评估表明其能够将复杂的计算机视觉输出转化为利益相关者、社区合作伙伴、执法部门、城市规划者和社会科学家的可操作性洞察。本文展示了SVS在社区大学环境中的全面实际部署和评估，涉及16个摄像头。该系统集成了人工智能驱动的视觉处理，辅以统计分析、数据库管理、云通信和用户通知。此外，本文评估了从人工智能算法在摄像头级别实时检测到异常行为到利益相关者收到通知之间的端到端延迟。结果表明，该系统具有较强的稳健性，在21小时内有效管理16个闭路电视摄像头，保持每秒16.5帧的稳定吞吐量，检测到异常和发出警报之间的平均端到端延迟为26.76秒。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文旨在评估一个基于人工智能（AI）的智能视频解决方案（Smart Video Solution, SVS），以增强社区安全并提升城市规划和资源分配的效率。具体而言，该研究试图解决以下几个关键问题：

将实验室中的AI技术转化为现实世界中的应用：
- 论文强调了将先进的AI技术从实验室环境转移到现实世界中的重要性。实验室环境通常无法完全模拟现实世界中的复杂性和动态性，因此需要在实际场景中验证这些技术的有效性、可扩展性和鲁棒性。
提升社区安全和公共空间的利用效率：
- 通过利用现有的闭路电视（CCTV）网络，该研究探索了如何将传统的被动监控系统转变为能够实时分析视频数据、生成可操作见解的智能系统。这些见解可以用于城市规划、公共健康监测（如社交距离监控）、资源管理等多个领域。
解决隐私和伦理问题：
- 在广泛的城市应用中，隐私保护变得尤为重要。该研究采用了基于姿态的数据进行下游AI任务（如异常检测），以确保符合隐私和伦理标准。
优化系统性能和用户体验：
- 论文通过实际部署和评估，研究了系统在不同配置下的性能，包括处理不同数量的摄像头和人群密度时的延迟和吞吐量。此外，还评估了从检测异常行为到向利益相关者发出警报的端到端延迟，以确保系统的实时性和响应能力。
提供创新的数据可视化工具：
- 为了更好地理解和利用视频数据，该研究开发了多种数据可视化技术，如占用指示器（Occupancy Indicator）、统计异常检测、鸟瞰图（Bird’s Eye View）和热图（Heatmaps），以提供对行人行为和资源分配的深入见解。

总体而言，这篇论文通过在社区学院环境中实际部署SVS系统，展示了其在提升社区安全和优化公共空间利用方面的潜力，并评估了其在隐私保护、性能优化和用户体验方面的实际效果。

Q: 有哪些相关研究？

A: 论文中提到了多个与智能视频解决方案（SVS）相关的研究，这些研究涵盖了从技术开发到实际应用的各个方面。以下是一些关键的相关研究：

技术开发与算法研究

Ancilia [8]：这是一个多阶段计算机视觉管道，专门用于增强公共安全。该研究为本文的SVS系统提供了技术基础，但其结果仅限于受控环境。
YOLOv8 [32]：YOLOv8是一个先进的目标检测算法，用于实时检测视频中的对象。它在本文的SVS系统中被用于目标检测任务。
ByteTrack [30]：这是一个多目标跟踪算法，用于在视频中跟踪检测到的对象。它在SVS系统中用于跟踪任务。
HRNet [34]：这是一个用于人体姿态估计的算法，能够精确地检测人体的关键点。它在SVS系统中用于姿态估计任务。
GEPC [29]：这是一个用于行为异常检测的算法，通过分析人体姿态序列来识别异常行为。它在SVS系统中用于行为分析任务。
OSNet [31]：这是一个用于行人重识别的算法，能够跨摄像头识别同一个人。它在SVS系统中用于跨摄像头识别任务。

实际应用与部署研究

Alshammari et al. [18]：该研究开发了一个使用监控摄像头的SVS系统，用于智能城市应用。它强调了在实际环境中部署SVS系统的重要性。
RV College of Engineering Bengaluru [19]：该研究改进了目标检测器的准确性，展示了在实际环境中提升SVS性能的可能性。
Y. Yuan et al. [21]：该研究介绍了一个创新的去中心化框架，用于优化交通流量和减少行人等待时间。它展示了SVS在智能城市应用中的潜力。
Ardabili et al. [4]：该研究介绍了一个端到端的系统设计，将Ancilia与端用户设备集成，用于直接通信。本文采用了这一系统设计，用于评估SVS在实际环境中的有效性。

性能优化与系统设计研究

Pramanik et al. [14]：该研究展示了轻量级模型在边缘设备上的应用，以减少城市环境中的延迟。它强调了在实际环境中优化SVS性能的重要性。
Singh et al. [15]：该研究介绍了一个基于AI的视频技术，用于跌倒检测，展示了SVS在传统安全措施之外的应用潜力。
Gandapur [16]：该研究利用BiGRU和CNN进行异常检测，实现了高准确率。它展示了SVS在异常检测方面的技术进步。
TAC-Net [17]：该研究通过深度学习方法，展示了在处理异常场景方面的优势。它为SVS系统的设计提供了技术参考。

数据分析与可视化研究

Mahdavinejad et al. [24]：该研究强调了机器学习在预测城市拥堵中的作用，展示了数据分析在城市规划中的应用。
Zanella et al. [25]：该研究倡导了城市物联网数据的可访问性，为SVS系统中的数据管理和可视化提供了理论支持。

这些相关研究为本文的SVS系统提供了技术基础、应用背景和性能优化的参考，帮助作者在实际环境中评估和改进系统。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决将AI技术应用于现实世界中的社区安全和公共空间优化问题：

1. 系统架构设计

AI模块：负责实时处理视频流，包括目标检测、跟踪、姿态估计和异常检测。这些模块利用先进的AI算法（如YOLOv8、ByteTrack、HRNet、GEPC和OSNet）来分析视频数据。
服务器模块：集中处理来自AI模块的元数据和历史数据，执行全局跟踪和统计分析。它使用余弦相似性来跨摄像头重新识别个体，并分析模式。
云模块：利用云原生服务进行数据存储、管理和API生成，确保实时数据访问和低延迟通知。
端用户设备：通过智能手机应用程序向用户实时通知检测到的异常，并提供实时数据和分析。

2. 隐私保护

数据处理：系统使用基于姿态的数据进行下游AI任务，避免使用原始视频数据，从而保护隐私。
数据存储：所有元数据存储在云模块中，避免了原始数据的传输，进一步保护了隐私。

3. 实际部署和评估

部署环境：在社区学院环境中部署了16个CCTV摄像头，覆盖约95,000平方英尺的室内外空间。
性能评估：通过在不同配置下（如不同数量的摄像头和人群密度）进行测试，评估系统的延迟和吞吐量。测试包括短期和长期的耐力测试，以确保系统的稳定性和鲁棒性。
端到端延迟评估：评估从检测异常行为到向用户发出警报的端到端延迟，确保系统能够及时响应。

4. 数据可视化

占用指示器（Occupancy Indicator）：通过比较当前检测到的人数与历史数据的百分位数，将占用水平分类为“低”、“正常”或“高”。
统计异常检测：通过分析历史数据，识别当前检测与历史趋势的偏差，标记为异常事件。
鸟瞰图（Bird’s Eye View）：将检测到的对象转换为鸟瞰图坐标，提供准确的空间表示，便于人群管理和区域规划。
热图（Heatmaps）：通过鸟瞰图坐标生成2D热图，直观地展示数据分布，帮助监测拥堵和空间使用情况。

5. 社区参与

调查研究：通过在北卡罗来纳州夏洛特市的六个公共场所进行七轮调查，收集了410名受访者的反馈，了解他们对安全和监控的看法。调查结果显示，受访者对AI驱动的视频解决方案的接受度较高，认为其比传统被动监控技术更有效且隐私问题更少。

6. 实验和结果

负载压力测试：通过在不同数量的摄像头节点（1、4、8、12）上运行系统，评估系统在不同负载下的性能。测试结果表明，系统在低负载下表现良好，但在高负载下延迟增加。
长期耐力测试：通过在16个摄像头节点上连续运行21小时，评估系统的长期稳定性和鲁棒性。测试结果表明，系统在长时间运行中表现稳定，能够有效管理大量摄像头。
端到端延迟测试：通过在不同环境中（如受控环境和开放环境）测试系统的端到端延迟，评估系统在不同场景下的响应能力。测试结果表明，系统能够在大约20秒内通知用户异常事件，展示了系统的实时性和有效性。

通过这些步骤，论文不仅展示了AI驱动的智能视频解决方案在实际环境中的应用潜力，还评估了其在隐私保护、性能优化和用户体验方面的实际效果。

Q: 论文做了哪些实验？

A: 论文中进行了多种实验来评估智能视频解决方案（SVS）的性能和有效性。以下是主要的实验及其目的：

1. 负载压力测试（Load Stress Evaluation）

目的：评估系统在不同负载条件下的性能，包括延迟和吞吐量。

方法：使用CHAD数据集，包含10个不同人群密度（从0到9）的视频，每个视频150秒，30帧/秒。测试了1、4、8和12个AI管道节点的配置。
结果：
- 延迟：在1到4个节点时，系统延迟保持在10秒以下；8个节点时，高密度（>5）延迟超过20秒；12个节点时，高密度延迟有所改善。
- 吞吐量：随着人群密度和节点数量的增加，吞吐量线性下降，最低为4.56 FPS（12个节点，密度9）。
结论：系统在低负载下表现良好，但在高负载下延迟增加，主要由于姿态估计器处理密集关键点配置的计算强度和CPU处理限制。

2. 长期耐力测试（Real-World Endurance Evaluation）

目的：评估系统在长时间运行中的稳定性和鲁棒性。

方法：使用16个摄像头节点，分别测试8、12和16个节点的配置，连续运行21小时。此外，还进行了为期一周的8个节点测试。
结果：
- 8个节点：延迟2.6-4.8秒，吞吐量28.5-26.5 FPS。
- 12个节点：延迟5.3-6.5秒，吞吐量20.5-18 FPS。
- 16个节点：延迟6.7-10.5秒，吞吐量16.5-14.5 FPS。
- 一周测试：延迟2.5-7.8秒，吞吐量22.3-29.8 FPS。
结论：系统在长时间运行中表现稳定，能够有效管理大量摄像头，且在不同配置下均能保持良好的性能。

3. 端到端延迟测试（Physical-Cyber-Physical Evaluation）

目的：评估从检测异常行为到向用户发出警报的端到端延迟。

方法：在两个不同的测试环境中进行测试：
- 测试环境A（受控环境）：12个摄像头，3个室外和9个室内，模拟市场店铺环境。
- 测试环境B（开放环境）：12个摄像头，模拟实际市场环境。
- 云环境：使用AWS EC2 p2.xlarge实例，处理来自IoT IP摄像头的视频流。
结果：
- 测试环境A：
  - 4个节点：对象异常检测延迟4.7秒，行为异常检测延迟9.34秒。
  - 16个节点：对象异常检测延迟19.68秒，行为异常检测延迟26.76秒。
- 测试环境B：
  - 4个节点：对象异常检测延迟3.37秒，行为异常检测延迟6.09秒。
  - 16个节点：对象异常检测延迟13.04秒，行为异常检测延迟17.68秒。
- 云环境：
  - 对象异常检测延迟：21.38秒。
  - 行为异常检测延迟：26.5秒。
结论：系统能够在大约20秒内通知用户异常事件，展示了其在实际环境中的实时性和有效性。云环境虽然在性能稳定性上有优势，但在延迟上不如边缘系统。

4. 社区参与调查（Community Engagement）

目的：了解公众对AI驱动视频解决方案的看法和接受度。

方法：在北卡罗来纳州夏洛特市的六个公共场所进行了七轮调查，共收集了410份问卷。
结果：
- 安全担忧：受访者最担心的场所是停车场（54%）、公共交通（44%）和娱乐场所（42%）。
- 隐私担忧：66%的受访者表示对AI驱动的视频解决方案没有隐私担忧或只有适度担忧。
- 技术接受度：超过50%的受访者认为AI驱动的视频解决方案非常或极其有益，而42%的受访者认为传统被动监控技术效果不佳或只有适度效果。
结论：公众对AI驱动的视频解决方案的接受度较高，认为其比传统监控技术更有效且隐私问题更少。

5. 数据可视化工具的评估

目的：评估数据可视化工具（如占用指示器、统计异常检测、鸟瞰图和热图）的有效性。

方法：通过实际数据生成和比较这些可视化工具的输出。
结果：
- 占用指示器：能够准确分类当前占用水平为“低”、“正常”或“高”。
- 统计异常检测：能够识别与历史趋势显著偏离的事件。
- 鸟瞰图：提供了准确的空间表示，便于人群管理和区域规划。
- 热图：直观地展示了数据分布，帮助监测拥堵和空间使用情况。
结论：这些数据可视化工具能够提供有价值的见解，帮助城市规划者和社区管理者更好地理解和利用视频数据。

通过这些实验，论文全面评估了SVS系统在实际环境中的性能和有效性，展示了其在社区安全和公共空间优化方面的潜力。

Q: 有什么可以进一步探索的点？

A: 论文中提出的智能视频解决方案（SVS）在实际部署和评估中展示了其在社区安全和公共空间优化方面的潜力。然而，还有一些可以进一步探索的点，以进一步提升系统的性能、扩展性和应用范围。以下是一些潜在的研究方向：

1. 隐私保护技术的改进

联邦学习：目前的SVS系统虽然采用了基于姿态的数据来保护隐私，但可以进一步探索联邦学习技术，使模型在不共享原始数据的情况下进行分布式训练，从而进一步增强隐私保护。
差分隐私：在数据处理和分析阶段引入差分隐私技术，以确保即使在数据泄露的情况下，个体信息也无法被轻易识别。

2. 系统性能优化

硬件加速：探索使用专用硬件（如FPGA、ASIC）来加速AI模块的计算任务，从而提高系统的吞吐量和降低延迟。
模型压缩：研究模型压缩技术，如量化和剪枝，以减少模型的计算复杂度和内存占用，同时保持较高的准确性。
动态资源分配：开发动态资源分配算法，根据实时负载和人群密度自动调整计算资源的分配，以优化系统性能。

3. 扩展性和可扩展性

分布式架构：研究分布式架构，使系统能够更有效地处理大规模摄像头网络，同时保持低延迟和高吞吐量。
多模态数据融合：将视频数据与其他传感器数据（如音频、环境传感器）融合，以提供更全面的环境感知能力，增强异常检测的准确性。
跨区域协作：探索跨区域的摄像头网络协作，实现更大范围的监控和分析，例如在城市级别或跨城市的应用。

4. 应用领域的拓展

智能交通管理：将SVS应用于智能交通系统，如交通流量优化、事故检测和交通信号控制。
公共健康监测：在公共卫生领域，如疫情监测、社交距离检测和人群健康行为分析。
环境监测：利用SVS进行环境监测，如野生动物保护、自然灾害响应和环境变化监测。

5. 用户交互和反馈机制

增强现实（AR）和虚拟现实（VR）：开发基于AR和VR的用户界面，使用户能够更直观地与系统交互，获取实时信息和分析结果。
用户反馈循环：建立用户反馈机制，使系统能够根据用户反馈进行实时调整和优化，提高系统的适应性和用户体验。

6. 伦理和法律框架

伦理准则：进一步研究和制定AI监控系统的伦理准则，确保系统在保护公共安全的同时，不侵犯个人隐私和自由。
法律合规性：研究不同国家和地区的法律法规，确保SVS系统在实际部署中符合所有相关的法律要求。

7. 长期数据管理和分析

数据挖掘：开发高级数据挖掘技术，从长期积累的数据中提取更有价值的见解和模式，为城市规划和资源管理提供更深入的支持。
预测分析：利用机器学习和深度学习技术进行预测分析，预测人群行为和事件的发生，提前采取措施以避免潜在问题。

8. 多语言和文化适应性

多语言支持：开发支持多种语言的用户界面，以适应不同地区和文化背景的用户需求。
文化适应性：研究不同文化背景下对监控技术的接受度和期望，调整系统设计以更好地满足不同社区的需求。

通过这些进一步的研究和探索，可以不断提升SVS系统的性能、扩展性和应用范围，使其在更广泛的领域中发挥更大的作用，同时确保其符合伦理和法律标准。

Q: 总结一下论文的主要内容

A: 本文介绍并评估了一种基于人工智能（AI）的智能视频解决方案（SVS），旨在通过现有的闭路电视（CCTV）网络增强社区安全和提升公共空间的利用效率。该系统利用先进的AI技术，如目标检测、跟踪、姿态估计和异常检测，将传统的被动监控系统转变为能够实时分析视频数据、生成可操作见解的智能系统。以下是论文的主要内容总结：

研究背景

传统CCTV的局限性：传统的CCTV系统主要用于安全监控，但未能充分利用其捕获的视觉数据，错过了在城市规划、公共健康和资源管理等更广泛领域应用的机会。
SVS的潜力：通过将CCTV网络转变为SVS，可以解锁新的功能，如实时分析视频数据，生成对城市基础设施和社区服务有价值的见解。

系统架构

AI模块：负责实时处理视频流，包括目标检测、跟踪、姿态估计和异常检测。
服务器模块：集中处理来自AI模块的元数据和历史数据，执行全局跟踪和统计分析。
云模块：利用云原生服务进行数据存储、管理和API生成，确保实时数据访问和低延迟通知。
端用户设备：通过智能手机应用程序向用户实时通知检测到的异常，并提供实时数据和分析。

隐私保护

数据处理：系统使用基于姿态的数据进行下游AI任务，避免使用原始视频数据，从而保护隐私。
数据存储：所有元数据存储在云模块中，避免了原始数据的传输，进一步保护了隐私。

实际部署和评估

部署环境：在社区学院环境中部署了16个CCTV摄像头，覆盖约95,000平方英尺的室内外空间。
性能评估：通过在不同配置下（如不同数量的摄像头和人群密度）进行测试，评估系统的延迟和吞吐量。测试包括短期和长期的耐力测试，以确保系统的稳定性和鲁棒性。
端到端延迟评估：评估从检测异常行为到向用户发出警报的端到端延迟，确保系统能够及时响应。

数据可视化

占用指示器（Occupancy Indicator）：通过比较当前检测到的人数与历史数据的百分位数，将占用水平分类为“低”、“正常”或“高”。
统计异常检测：通过分析历史数据，识别当前检测与历史趋势的偏差，标记为异常事件。
鸟瞰图（Bird’s Eye View）：将检测到的对象转换为鸟瞰图坐标，提供准确的空间表示，便于人群管理和区域规划。
热图（Heatmaps）：通过鸟瞰图坐标生成2D热图，直观地展示数据分布，帮助监测拥堵和空间使用情况。

社区参与

调查研究：通过在北卡罗来纳州夏洛特市的六个公共场所进行七轮调查，收集了410名受访者的反馈，了解他们对安全和监控的看法。调查结果显示，受访者对AI驱动的视频解决方案的接受度较高，认为其比传统被动监控技术更有效且隐私问题更少。

实验和结果

负载压力测试：评估系统在不同负载条件下的性能，包括延迟和吞吐量。测试结果表明，系统在低负载下表现良好，但在高负载下延迟增加。
长期耐力测试：评估系统在长时间运行中的稳定性和鲁棒性。测试结果表明，系统在长时间运行中表现稳定，能够有效管理大量摄像头。
端到端延迟测试：评估从检测异常行为到向用户发出警报的端到端延迟。测试结果表明，系统能够在大约20秒内通知用户异常事件，展示了其在实际环境中的实时性和有效性。

结论

本文通过在社区学院环境中实际部署SVS系统，展示了其在提升社区安全和优化公共空间利用方面的潜力，并评估了其在隐私保护、性能优化和用户体验方面的实际效果。研究结果表明，SVS系统能够在实际环境中有效运行，为城市规划和公共安全提供了有价值的见解。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Shanle Yao, Babak Rahimi Ardabili, Armin Danesh Pazho, Ghazal Alinezhad Noghre, Christopher Neff, Lauren Bourque, Hamed Tabkhi

Categories: cs.CV, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2312.02078v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2312.02078v3

Published: 2023-12-04T17:41:52Z

4. OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions

Open Semantic Mapping (OSM) is a key technology in robotic perception, combining semantic segmentation and SLAM techniques. This paper introduces a dynamically configurable and highly automated LLM/LVLM-powered pipeline for evaluating OSM solutions called OSMa-Bench (Open Semantic Mapping Benchmark). The study focuses on evaluating state-of-the-art semantic mapping algorithms under varying indoor lighting conditions, a critical challenge in indoor environments. We introduce a novel dataset with simulated RGB-D sequences and ground truth 3D reconstructions, facilitating the rigorous analysis of mapping performance across different lighting conditions. Through experiments on leading models such as ConceptGraphs, BBQ and OpenScene, we evaluate the semantic fidelity of object recognition and segmentation. Additionally, we introduce a Scene Graph evaluation method to analyze the ability of models to interpret semantic structure. The results provide insights into the robustness of these models, forming future research directions for developing resilient and adaptable robotic systems. Project page is available at https://be2rlab.github.io/OSMa-Bench/.

中文摘要

开放语义映射（OSM）是机器人感知中的关键技术，结合了语义分割和SLAM技术。本文介绍了一种动态可配置且高度自动化的LLM/LVLM驱动的管道，用于评估OSM解决方案，称为OSMa-Bench（开放语义映射基准）。该研究专注于在不同室内照明条件下评估最先进的语义映射算法，这是室内环境中的一个关键挑战。我们引入了一个包含模拟RGB-D序列和真实3D重建的新数据集，便于在不同照明条件下对映射性能进行严格分析。通过对ConceptGraphs、BBQ和OpenScene等领先模型的实验，我们评估了对象识别和分割的语义保真度。此外，我们引入了一种场景图评估方法，以分析模型解释语义结构的能力。结果为这些模型的稳健性提供了见解，并为开发具有弹性和适应性的机器人系统指明了未来研究方向。项目页面可在 https://be2rlab.github.io/OSMa-Bench/ 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图系统地评估开放词汇语义映射（Open Semantic Mapping, OSM）算法在动态环境（特别是不同室内光照条件）下的鲁棒性。具体来说，它关注以下几个关键问题：

光照条件变化对OSM算法的影响：许多现有的OSM算法在理想光照条件下表现良好，但在实际应用中，室内环境的光照条件会因时间、人工照明等因素而显著变化。论文通过引入一个动态可配置的基准测试框架，评估现有算法在这些变化条件下的性能。
现有基准测试的局限性：现有的OSM基准测试主要关注语义分割的准确性（如mIoU、mAP50）和几何保真度，而忽视了对机器人操作至关重要的因素，如光照变化和传感器动态。论文提出了一种新的基准测试方法，填补了这一空白。
多模态推理评估：除了语义分割，论文还引入了一种基于场景图的评估方法，以分析模型对语义结构的解释能力。这有助于更全面地评估OSM算法的性能。

Q: 有哪些相关研究？

A: 论文中提到了以下几类相关研究：

开放词汇3D场景理解

ConceptFusion：通过将CLIP特征从多视图RGB图像聚合到点云中，实现了对重建场景的语义查询。其在UnCoCo数据集上的评估展示了多模态查询能力，但未系统评估在不同环境条件下的鲁棒性。
ConceptGraphs：扩展了ConceptFusion的方法，通过构建层次化的3D场景图来编码空间关系和功能，通过亚马逊机械土耳其（Amazon Mechanical Turk）上的人类研究进行评估。
OpenFusion：优化了实时性能，优先考虑帧率（FPS指标）而非光照鲁棒性。这些工作主要在ScanNet、Replica和AI2-THOR等数据集上进行基准测试，这些环境是在受控光照条件下捕获的，无法测试在动态设置中的操作可靠性。

语言引导的3D实例分割

OpenScene：通过将3D点与CLIP特征共嵌入，实现了零样本分割，在ScanNet和Matterport3D上分别获得了36.1%和51.2%的mIoU分数。
OpenMask3D：结合类别不可知的3D掩码和2D开放词汇分类器，在ScanNet200的长尾类别上获得了10.7%的AP50。这些方法展示了开放词汇能力，但其评估假设了一致的光照和传感器特性，这在实际部署中很少遇到。

鲁棒性导向的语义映射

BBQ：通过将LLM与3D场景图集成，解决了多实例环境中的模糊查询问题，但计算效率仍然是一个限制。
PLA：通过平面约束增强了几何一致性，在ScanNet和S3DIS上比基线提高了4.2%的mAP50。
Semantic Abstraction：使用LLM驱动的相关性过滤来减少AI2-THOR环境中体素级预测噪声。然而，这些方法仍在理想化的光照条件下进行评估，其在低光照或动态照明场景中的性能尚未得到验证。

评估方法

GQA（Graph Question Answering）：引入了一个结构化的数据集，用于现实世界的视觉推理，利用Visual Genome数据集中的场景图。它涵盖了对象识别、属性、关系、空间定位和逻辑推理，确保了问答任务中的一致性和可解释性。
Space3D-Bench：将3D问答扩展到空间领域，评估模型在对象位置、测量、导航和场景模式上的表现。它采用两级评估：固定答案问题的Ground Truth Check和使用LLM基础验证的Answer Cross-Check，用于主观回答。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决开放词汇语义映射（OSM）算法在动态环境下的鲁棒性评估问题：

1. 动态光照数据集与增强型真值

ReplicaCAD：在ReplicaCAD数据集的基础上，增加了四种光照条件（基线、动态、相机光、名义光照），并为每个实例增加了掩码真值，以解决遮挡歧义问题。
HM3D：在HM3D数据集的基础上，增加了相机光条件，并结合了变化的代理速度，使得可以系统地分析光照/速度引起的性能退化。

2. 自动化知识图基准测试

LLM驱动的问答生成：利用Google Gemini模型，开发了一个基于LLM的问答生成和验证流程。该流程包括：
- 生成上下文感知的问题（通过上下文模板）；
- 使用混合度量验证答案：对于是/否问题，使用混淆矩阵进行二元验证；对于开放式问题，使用LLM进行一致性检查。

3. 跨方法鲁棒性分析

基准测试：对三种最先进的方法（ConceptGraphs、BBQ和OpenScene）进行了基准测试，展示了不同测试条件下对它们的准确性和推理能力的影响。
性能评估：通过在不同光照条件和速度设置下评估这些方法的语义分割和知识图质量，揭示了它们在动态环境中的鲁棒性。

4. 评估方法

语义分割评估：使用平均准确率（mAcc）和频率加权平均交并比（f-mIoU）来评估3D场景的语义分割质量。
语义图评估：开发了一个基于问答的评估流程，通过生成不同类型的问题（如二元问题、测量问题、对象属性问题等）来评估语义图的一致性和准确性，并通过LLM进行答案验证。

5. 实验设计

数据准备：在Habitat Sim环境中配置了测试场景，包括光照条件、代理路径和速度。
实验组织：在ReplicaCAD和HM3D数据集上进行了实验，通过随机初始化代理的起始和目标姿态，生成了多样化的测试场景。
性能比较：通过比较不同方法在不同测试条件下的性能，揭示了它们在动态环境中的鲁棒性差异。

通过这些方法，论文提供了一个动态可配置、高度自动化的评估框架，能够系统地评估OSM算法在不同光照条件下的性能，为开发更鲁棒的OSM系统提供了有价值的见解。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估开放语义映射（OSM）算法在不同环境条件下的性能：

1. 数据准备与测试场景配置

数据集选择：
- ReplicaCAD：一个合成的3D场景数据集，因其在配置测试条件和提供精确的物体位置及场景语义真值方面的灵活性而被选中。
- HM3D：一个照片级真实的3D场景数据集，包含了大量高分辨率的室内3D扫描。
测试条件配置：
- 光照条件：设置了四种光照条件：
  - 基线：ReplicaCAD数据集默认的静态非均匀分布光源。
  - 名义光照：仅依赖于网格自身发光，没有额外光源。
  - 相机光：在相机上附加了一个额外的定向光源。
  - 动态光照：沿机器人路径变化的光照条件。
- 代理速度：设置了两种速度条件：
  - 名义速度：机器人沿路径的恒定参考速度分别为0.75 m/s和0.8 rad/s。
  - 高速度：将上述速度值加倍。

2. 语义分割评估

评估指标：
- 平均准确率（mAcc）：计算所有类别的平均准确率。 [ \text{mAcc} = \frac{1}{C} \sum_{c=1}^{C} \frac{\text{TP}_c}{\text{TP}_c + \text{FN}_c} ]
- 频率加权平均交并比（f-mIoU）：考虑每个类别的频率和交并比的加权度量。 [ \text{f-mIoU} = \frac{\sum_{c=1}^{C} n_c \cdot \text{IoU}c}{\sum{c=1}^{C} n_c} ] 其中 (C) 是总类别数，(n_c) 是类别 (c) 的点数，(\text{IoU}_c) 是类别 (c) 的交并比。
实验结果：
- ReplicaCAD数据集：
  - ConceptGraphs：mAcc从基线的0.291下降到相机光条件下的0.276，动态光照条件下的0.260，名义光照条件下的0.258。
  - BBQ：mAcc从基线的0.162下降到相机光条件下的0.165，动态光照条件下的0.128，名义光照条件下的0.157。
  - OpenScene：mAcc从基线的0.130下降到相机光条件下的0.127，动态光照条件下的0.140，名义光照条件下的0.136。
- HM3D数据集：
  - ConceptGraphs：mAcc从基线的0.143下降到相机光条件下的0.150，名义光照条件下的0.158。
  - BBQ：mAcc从基线的0.085下降到相机光条件下的0.202，名义光照条件下的0.124。
  - OpenScene：mAcc从基线的0.116下降到相机光条件下的0.293，名义光照条件下的0.118。

3. 语义图评估

问答生成与验证：
- 问题类型：生成了多种类型的问题，包括二元问题（一般、基于存在性、逻辑问题）、测量问题、对象属性问题、对象关系问题（功能和空间）和比较问题。
- 验证与平衡：通过LLM和LVLM的组合验证问题集，过滤重复问题，解决答案歧义，并平衡对象频率。
评估指标：
- 回答准确率：对于二元和测量问题，直接将答案与真值进行比较；对于属性和搜索相关问题，通过LLM进行语义评估。
实验结果：
- ReplicaCAD数据集：
  - ConceptGraphs：在不同光照条件下，二元问题的准确率在50-60%之间，属性问题的准确率较低，尤其是在动态光照条件下。
  - BBQ：在不同光照条件下，二元问题的准确率较高，但属性和关系问题的准确率较低。
- HM3D数据集：
  - ConceptGraphs：在不同光照条件下，二元问题的准确率较高，但属性和关系问题的准确率较低。
  - BBQ：在不同光照条件下，二元问题的准确率较高，但属性和关系问题的准确率较低。

4. 性能分析

关键发现：
- ConceptGraphs：在所有数据集上都显示出最高的mAcc值，但在检测小物体方面仍存在挑战。
- BBQ：在不同光照条件下，性能下降最为显著，显示出对光照变化的敏感性。
- OpenScene：在所有测试方法中最稳定（最佳f-mIoU），但语义掩码的质量较差，可能是因为使用了像素对齐的嵌入而不是分割模型。

5. 角例分析

常见角例：
- 使用相机光时，物体的阴影可能被误认为是物体的一部分。
- 动态光照会导致均匀表面（如地板）的错误分割，因为光照差异。
- 仅使用相机光源时，点云会变得嘈杂。
- 方法对具有标准描述的对象（例如，“壁柜”和“底柜”）表现出敏感性。
- 在评估语义分割质量时，如果在类名中使用“_”代替空格，方法会表现出更差的结果。
- 对象合并问题，例如在ReplicaCAD上的ConceptGraphs中，楼梯被拆分为单独的台阶，这会影响基于测量的问题回答。

通过这些实验，论文系统地评估了OSM算法在不同光照条件下的鲁棒性，并揭示了现有方法的局限性，为未来的研究提供了方向。

Q: 有什么可以进一步探索的点？

A: 论文提出了一个系统性的评估框架来分析开放语义映射（OSM）算法在动态环境下的性能，但仍有多个方向可以进一步探索和扩展：

1. 扩展测试场景和条件

更多光照条件：除了现有的四种光照条件，可以进一步增加如黄昏、夜晚、不同季节光照等更复杂的光照场景。
动态物体和交互：目前的测试场景主要是静态的，可以加入动态物体（如移动的人、宠物、车辆等）来模拟更真实的环境。
传感器噪声和故障：在测试中加入传感器噪声、遮挡、故障等条件，以评估算法在不完美传感器数据下的鲁棒性。

2. 改进评估方法

多模态评估：目前主要评估了语义分割和语义图的质量，可以进一步评估模型在多模态输入（如音频、触觉等）下的表现。
长期稳定性测试：评估算法在长时间运行中的性能变化，包括内存管理、计算效率和稳定性。
交互式任务评估：设计交互式任务（如导航、抓取等），评估模型在实际机器人任务中的表现。

3. 算法优化和改进

鲁棒性增强：根据实验结果，针对光照变化和动态环境中的性能下降，开发新的算法或改进现有算法，以增强其鲁棒性。
计算效率优化：提高算法的计算效率，减少实时应用中的延迟，特别是在资源受限的机器人平台上。
自适应学习：开发能够自适应环境变化的算法，例如通过在线学习或增量学习来适应新的光照条件和场景。

4. 数据集和基准测试的扩展

更多数据集：扩展测试到更多类型的数据集，包括室外环境、工业场景等，以评估算法在不同场景下的通用性。
基准测试的标准化：推动社区建立更标准化的基准测试流程和指标，以便更公平地比较不同算法的性能。
动态数据集生成：开发能够动态生成测试场景和条件的工具，以支持更广泛的测试需求。

5. 跨领域应用

跨领域适应性：评估OSM算法在不同领域的适应性，如医疗、农业、工业等，以探索其在特定领域的应用潜力。
多机器人协作：研究OSM算法在多机器人协作中的应用，评估其在多机器人系统中的性能和协同能力。

6. 理论和方法研究

理论分析：深入分析OSM算法的理论基础，探索其在不同条件下的性能边界和局限性。
新方法探索：探索新的方法和技术，如生成对抗网络（GANs）、强化学习等，以提升OSM算法的性能。

7. 用户研究和人机交互

用户研究：通过用户研究评估OSM算法在实际应用中的用户体验，了解用户需求和反馈。
人机交互：研究如何将OSM算法与人机交互技术结合，开发更自然、更高效的交互方式。

8. 伦理和社会影响

伦理考量：评估OSM算法在隐私保护、数据安全等方面的伦理影响，确保其符合社会和法律标准。
社会影响：研究OSM技术对社会的影响，包括就业、教育、社会公平等方面。

通过这些进一步的研究方向，可以更全面地评估和改进OSM算法，推动其在实际机器人应用中的广泛部署。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了一个名为OSMa-Bench的基准测试框架，用于评估开放语义映射（Open Semantic Mapping, OSM）算法在不同室内光照条件下的性能。OSM是机器人感知的关键技术，结合了语义分割和SLAM技术，使机器人能够构建环境的丰富语义表示。论文的主要贡献包括：

背景知识

OSM是一个快速发展的领域，它使机器人能够使用自由形式的语言查询来解释非结构化环境。
现有的OSM方法主要利用视觉-语言模型（VLMs）和多模态融合技术，但这些方法在真实世界中的鲁棒性尚未得到充分验证，尤其是在光照条件变化的情况下。

研究方法

动态光照数据集：扩展了ReplicaCAD和HM3D数据集，增加了不同的光照条件（如相机光、动态光照等）和变化的代理速度，以模拟真实世界中的光照变化。
自动化知识图基准测试：开发了一个基于LLM（如Google Gemini）的自动化问答生成和验证流程，用于评估语义图的一致性和准确性。
跨方法鲁棒性分析：对三种最先进的OSM方法（ConceptGraphs、BBQ和OpenScene）进行了基准测试，以评估它们在不同光照条件下的性能。

实验

数据准备：在Habitat Sim环境中配置了测试场景，包括光照条件、代理路径和速度。
语义分割评估：使用平均准确率（mAcc）和频率加权平均交并比（f-mIoU）来评估3D场景的语义分割质量。
语义图评估：通过生成不同类型的问题（如二元问题、测量问题、对象属性问题等）来评估语义图的一致性和准确性，并通过LLM进行答案验证。

关键结论

性能评估：
- ConceptGraphs在所有数据集上都显示出最高的mAcc值，但在检测小物体方面仍存在挑战。
- BBQ在不同光照条件下，性能下降最为显著，显示出对光照变化的敏感性。
- OpenScene在所有测试方法中最稳定（最佳f-mIoU），但语义掩码的质量较差，可能是因为使用了像素对齐的嵌入而不是分割模型。
鲁棒性分析：通过在不同光照条件和速度设置下评估这些方法的语义分割和知识图质量，揭示了它们在动态环境中的鲁棒性差异。
角例分析：识别了一些在光照变化下可能导致性能下降的角例，如物体阴影被误认为是物体的一部分、动态光照导致的均匀表面错误分割等。

未来工作

论文提出了未来工作的方向，包括扩展测试场景和条件、改进评估方法、优化算法、扩展数据集和基准测试、探索跨领域应用、进行理论和方法研究、考虑伦理和社会影响等。

总的来说，这篇论文通过系统性的评估框架，揭示了现有OSM算法在动态环境中的性能局限，并为未来的研究提供了方向。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Maxim Popov, Regina Kurkova, Mikhail Iumanov, Jaafar Mahmoud, Sergey Kolyubin

Categories: cs.CV, cs.AI, cs.CL, cs.RO

PDF URL: https://arxiv.org/pdf/2503.10331v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2503.10331v2

Published: 2025-03-13T13:07:51Z

5. AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models

As Large Language Models (LLMs) are pre-trained on ultra-large-scale corpora, the problem of data contamination is becoming increasingly serious, and there is a risk that static evaluation benchmarks overestimate the performance of LLMs. To address this, this paper proposes a dynamic data evaluation method called AdEval (Alignment-based Dynamic Evaluation). AdEval first extracts knowledge points and main ideas from static datasets to achieve dynamic alignment with the core content of static benchmarks, and by avoiding direct reliance on static datasets, it inherently reduces the risk of data contamination from the source. It then obtains background information through online searches to generate detailed descriptions of the knowledge points. Finally, it designs questions based on Bloom’s cognitive hierarchy across six dimensions-remembering, understanding, applying, analyzing, evaluating, and creating to enable multi-level cognitive assessment. Additionally, AdEval controls the complexity of dynamically generated datasets through iterative question reconstruction. Experimental results on multiple datasets show that AdEval effectively alleviates the impact of data contamination on evaluation results, solves the problems of insufficient complexity control and single-dimensional evaluation, and improves the fairness, reliability and diversity of LLMs evaluation.

中文摘要

由于大型语言模型（LLMs）在超大规模语料库上进行预训练，数据污染的问题变得越来越严重，而静态评估基准可能高估LLMs的性能。为了应对这一问题，本文提出了一种动态数据评估方法，称为AdEval（基于对齐的动态评估）。AdEval首先从静态数据集中提取知识点和主要思想，以实现与静态基准核心内容的动态对齐，通过避免直接依赖静态数据集，固有地降低了来自源头的数据污染风险。然后，它通过在线搜索获取背景信息，以生成知识点的详细描述。最后，它根据布鲁姆的认知层次设计问题，涵盖六个维度-记忆、理解、应用、分析、评价和创造，以实现多层次的认知评估。此外，AdEval通过迭代问题重构控制动态生成数据集的复杂性。在多个数据集上的实验结果表明，AdEval有效减轻了数据污染对评估结果的影响，解决了复杂性控制不足和单维度评估的问题，并提高了LLMs评估的公平性、可靠性和多样性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决大型语言模型（LLMs）在预训练大规模语料库时遇到的数据污染问题。数据污染导致模型性能评估结果可能被高估，从而影响模型比较的公平性和评估结果的可信度。具体来说，论文提出了一种名为AdEval（Alignment-based Dynamic Evaluation）的动态数据评估方法，旨在通过动态生成与静态数据核心概念对齐的评估样本来减轻数据污染对评估结果的影响。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

MMLU ([11])：用于评估跨多个学科的知识和推理能力的基准测试。
HELM ([12])：将评估维度扩展到包括公平性和效率等方面。
BIG-Bench ([13])：引入了204个挑战性任务来探索模型能力的极限。
AGIEval ([14]) 和 C-Eval ([15])：分别关注标准化考试和中文高级知识评估。
DYVAL ([4])：为数学任务定制的动态数据生成。
KIEval ([6])：结合多轮对话的评估。
LatestEval ([8])：在生成无污染数据集方面表现出色。
SciEval ([9])：通过设计全新问题来测试科学研究能力。
EAL (Evasion through Augmented Learning) ([20])：一种有效的污染方法，可以绕过大多数检测策略。
PAC ([21], [22], [23])：通过样本或问题顺序操纵来检测数据泄露。
DICE ([26]) 和 Min-K%++ ([27])：通过分析LLMs的内部状态分布或识别低概率异常标记来检测污染。
CDD 和 TED ([29])：通过检测和纠正输出分布来识别污染。
DetCon 和 ComiEval ([29])：通过改进基准评估来提高评估质量。
ConStat ([30])：通过比较基准性能来识别污染。
Clean-Eval ([36])：使用释义和语义检测来优化样本质量。
DCQ ([39])：创建多项选择题来检测数据泄露。

这些研究涵盖了评估大型语言模型的不同方面，包括数据污染检测、动态数据评估以及特定领域的评估方法。论文提出的AdEval方法在这些现有研究的基础上，进一步探索了如何通过动态生成与静态数据对齐的评估样本来减轻数据污染的影响。

Q: 论文如何解决这个问题？

A: 论文提出了AdEval（Alignment-based Dynamic Evaluation）方法来解决大型语言模型（LLMs）在评估过程中的数据污染问题。AdEval方法的关键创新点如下：

动态生成对齐的评估数据：
- AdEval从静态数据中提取关键知识点和主要思想，并结合在线搜索提供相关内容的详细扩展，生成与静态数据核心概念对齐的动态数据，确保了动态性和一致性。
复杂性控制和动态对齐：
- AdEval包含一个复杂性调节机制，动态调整问题的难度，确保生成的数据与静态数据的难度水平相匹配，同时满足不同的复杂性要求。
多维度认知评估：
- 基于布鲁姆（Bloom’s）认知分类法，AdEval在六个认知维度上评估LLMs：记忆、理解、应用、分析、评估和创造，提供对模型在不同认知任务中性能的全面评估。

具体步骤如下：

A. 提示优化（Prompt Optimization）：

采用多轮迭代提示优化策略，通过多个LLMs不断调整和完善提示词，以引导模型输出更接近预期结果。

B. 数据预处理（Data Preprocessing）：

在将数据整合到AdEval流程之前，需要对数据进行格式化调整和采样，以适应计算资源和时间限制。

C. 知识点和主要思想提取（Knowledge Point and Main Idea Extraction）：

从采样数据中提取相关知识点，并总结问题的主要思想，确保新生成的问题与静态数据集问题的核心思想保持一致。

D. 在线搜索知识点解释（Online Search for Knowledge Point Explanations）：

利用大型语言模型的在线搜索功能，为静态数据集中的每个问题的知识点生成详细解释。

E. 问题设计（Question Design）：

通过嵌入静态数据集问题、知识点、主要思想和知识点解释到提示词中，生成两种新类型的问题：普通新问题和基于布鲁姆分类法的新问题。

F. 问题复杂性控制（Question Complexity Control）：

设计了一个问题难度调整流程，确保生成的数据集的复杂性与静态数据集相匹配。

G. 质量控制（Quality Control）：

引入多模型投票机制进行质量评估，确保AdEval流程的每一步都满足质量要求。

通过这些步骤，AdEval能够有效减少数据污染对评估结果的影响，增强评估过程的公平性和可靠性。实验结果表明，AdEval在多个数据集上有效降低了数据污染的影响，提高了生成数据的可靠性、公平性和多样性。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估AdEval方法的有效性：

A. 实验设置

任务和复杂性：
- 使用了MMLU和ARC-Challenge数据集，每个数据集生成了300个样本。
- 为了减少随机性对评估结果的干扰，每个生成的数据集独立评估了5次，确保生成数据的复杂性与静态数据集相匹配。
动态生成和Few-Shot设置：
- 在动态问题生成过程中，采用了Few-Shot学习策略。
- 知识点提取、主要思想提取、解释和问题生成使用了2-shot策略；而布鲁姆分类问题生成则使用了1-shot策略。
模型设置：
- 实验选择了9个不同组织的大型语言模型（LLMs），每个模型具有不同的大小和访问方式。
评估指标：
- 使用准确率和困惑度（Perplexity）两个核心指标来全面评估LLMs的性能。

B. 数据污染微调测试

探索数据污染对小型模型微调效果的影响。
比较了干净模型（CLN）和被静态数据污染的模型（CTM）的性能差异。

C. 数据重构

展示了AdEval如何通过数据重构控制数据复杂性。
使用Qwen2-7B-Chat模型在MMLU数据集上进行AdEval的数据重构过程，通过多轮数据重构调整生成数据集的复杂性，使其与静态数据集的复杂性大致一致。

D. 布鲁姆的认知层次

使用AdEval生成的雷达图展示了MMLU数据集中动态生成问题的难度分布。

E. 困惑度

评估了Qwen-7BChat干净模型（CLN）和被污染模型（CTM）在多个数据集上的困惑度。

F. 性能评估

使用AdEval在动态生成的数据上测试了表1中列出的各种大型模型。
比较了AdEval、Auto-Dataset和LatestEval三种动态数据生成方法对模型性能的影响。

G. 质量控制

对AdEval、Auto-Dataset和LatestEval生成的问题和答案进行了质量检查。
使用三个大型语言模型（Doubao-pro-32k、Qwen-plus和GPT-4o-mini）进行投票评估正确性。

这些实验全面评估了AdEval方法在控制数据复杂性、维持质量稳定性以及减轻数据污染影响方面的性能，并与其他动态数据生成方法进行了比较。

Q: 有什么可以进一步探索的点？

A: 论文在结论部分提出了一些可以进一步探索的方向，包括：

AdEval的可扩展性和多样性：
- 验证和应用AdEval于更多类型的数据集，增强生成数据的多样性和适应性。
优化生成算法：
- 改进数据生成算法，提高效率和效果。
减少生成过程中的偏见和错误：
- 在数据生成过程中减少潜在的偏见和错误，提升评估结果的准确性。

此外，以下是一些其他可能的研究方向：

跨领域评估：
- 探索AdEval在不同领域（如医疗、法律等专业领域）的应用，并调整以适应特定领域的要求。
多语言和跨文化评估：
- 将AdEval扩展到多语言环境，评估其在处理不同文化背景数据时的有效性和公正性。
实时动态评估：
- 研究如何将AdEval应用于实时数据流，进行即时的性能评估。
结合其他评估方法：
- 将AdEval与其他评估技术（如人工评估、元评估等）结合，形成更全面的评估体系。
自动化调整复杂性：
- 开发更智能的自动化机制来动态调整问题复杂性，以更好地匹配不同的评估需求和模型能力。
深入分析数据污染的影响：
- 对数据污染对模型性能的具体影响进行更深入的分析，包括污染的类型、程度和模型的鲁棒性。
开发新的检测和缓解污染的技术：
- 研究新的技术来检测和缓解数据污染，提高模型评估的可靠性。
用户研究和反馈：
- 通过用户研究收集反馈，了解AdEval在实际应用中的表现，并根据用户需求进行优化。

这些方向可以帮助研究者更全面地理解和改进AdEval方法，以及探索其在不同场景下的应用潜力。

Q: 总结一下论文的主要内容

A: 这篇论文提出了一个名为AdEval（Alignment-based Dynamic Evaluation）的动态数据评估方法，旨在减轻大型语言模型（LLMs）评估中的数据污染问题。以下是论文的主要内容总结：

问题背景：
- 大型语言模型（LLMs）在预训练时使用大规模互联网语料库，导致评估过程中的数据污染问题日益严重，影响模型性能的准确评估。
AdEval方法：
- AdEval通过动态生成与静态数据核心概念对齐的评估样本来减少数据污染的影响。
- 该方法包括提取关键知识点和主要思想、在线搜索提供详细解释、控制问题复杂性以及基于布鲁姆认知分类法的多维度评估。
主要创新点：
- 动态生成与静态数据对齐的评估数据。
- 引入复杂性控制机制，动态调整问题难度。
- 采用布鲁姆认知分类法进行全面评估。
实验验证：
- 在MMLU和ARC-Challenge数据集上进行实验，验证AdEval在控制数据复杂性和维持质量稳定性方面的有效性。
- 与其他动态数据生成方法比较，展示AdEval在减少数据污染影响方面的优势。
实验结果：
- AdEval能够有效降低数据污染对评估结果的影响，提高评估的可靠性和公平性。
- 在不同的认知层次上，AdEval生成的问题难度分布与静态数据集保持一致。
未来研究方向：
- 探索AdEval的可扩展性和多样性，优化生成算法，减少潜在的偏见和错误。

总体而言，这篇论文针对LLMs评估中的数据污染问题提出了一种创新的解决方案，并通过实验验证了其有效性，为未来在这一领域的研究提供了新的方向。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yang Fan

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2501.13983v5.pdf

CoolPaper URL: https://papers.cool/arxiv/2501.13983v5

Published: 2025-01-23T06:57:24Z

6. QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems

Evaluating audio generation systems, including text-to-music (TTM), text-to-speech (TTS), and text-to-audio (TTA), remains challenging due to the subjective and multi-dimensional nature of human perception. Existing methods treat mean opinion score (MOS) prediction as a regression problem, but standard regression losses overlook the relativity of perceptual judgments. To address this limitation, we introduce QAMRO, a novel Quality-aware Adaptive Margin Ranking Optimization framework that seamlessly integrates regression objectives from different perspectives, aiming to highlight perceptual differences and prioritize accurate ratings. Our framework leverages pre-trained audio-text models such as CLAP and Audiobox-Aesthetics, and is trained exclusively on the official AudioMOS Challenge 2025 dataset. It demonstrates superior alignment with human evaluations across all dimensions, significantly outperforming robust baseline models.

中文摘要

评估音频生成系统，包括文本生成音乐（TTM）、文本转语音（TTS）和文本转音频（TTA），仍然具有挑战性，这主要是由于人类感知的主观性和多维性。现有的方法将平均意见评分（MOS）预测视为回归问题，但标准回归损失忽视了感知判断的相对性。为了解决这个限制，我们引入了QAMRO，这是一种新颖的质量感知自适应边际排名优化框架，它无缝集成了来自不同角度的回归目标，旨在突出感知差异并优先考虑准确评分。我们的框架利用了预训练的音频-文本模型，如CLAP和Audiobox-Aesthetics，并且只在官方的AudioMOS挑战2025数据集上进行训练。它在所有维度上都与人类评估表现出卓越的一致性，显著超越了强健的基线模型。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决音频生成系统（包括文本到音乐（TTM）、文本到语音（TTS）和文本到音频（TTA））评估的挑战性问题。现有的方法将平均意见得分（MOS）预测视为一个回归问题，但标准的回归损失函数忽略了感知判断的相对性。为了解决这一局限性，论文提出了一种新的框架QAMRO（Quality-aware Adaptive Margin Ranking Optimization），旨在通过强调感知差异和优先考虑准确评分，更好地与人类评估对齐。

Q: 有哪些相关研究？

A: 论文提到了以下相关研究：

音频生成系统的评估

[18] 提出了MusicEval数据集，用于自动文本到音乐评估，包含由专家评分的音乐片段。
[19]-[23] 采用自监督表示、非侵入式语音质量度量等方法进行MOS预测。

排序损失函数在主观回归任务中的应用

[24]-[41] 在多个应用领域中开发了有效的排序损失函数，以更好地捕捉主观回归任务中的相对排序。

排序损失函数的传统方法

[42]-[44] 提出了传统的排序损失函数，如RankNet、LambdaRank和LambdaMART，但这些方法通常采用固定的间隔，并且对所有样本对一视同仁，忽略了感知差异和高质量内容的不同重要性。

音频-文本模型

[45] 提出了CLAP模型，用于捕获音频-文本联合语义。
[47] 提出了Audiobox-Aesthetics模型，用于统一自动评估语音、音乐和声音的质量。

这些研究为QAMRO框架的提出提供了背景和基础，QAMRO通过引入质量感知的自适应间隔排序优化策略，改进了传统的排序损失函数，并在音频生成系统的MOS预测任务中取得了更好的效果。

Q: 论文如何解决这个问题？

A: 论文通过提出一种名为QAMRO（Quality-aware Adaptive Margin Ranking Optimization）的框架来解决音频生成系统评估的问题。以下是其主要解决方法：

质量感知自适应间隔排序优化（QAMRO）

自适应间隔排序损失：与传统的固定间隔排序损失不同，QAMRO根据感知分数差距调整间隔，并给予高质量样本更高的权重。具体来说，对于每一对样本 ( (i, j) )，其损失函数定义为： [ L_{\text{QAMRO}} = \frac{1}{|P|} \

Authors: Chien-Chun Wang, Kuan-Tang Huang, Cheng-Yeh Yang, Hung-Shin Lee, Hsin-Min Wang, Berlin Chen

Categories: cs.SD, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2508.08957v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.08957v1

Published: 2025-08-12T14:14:04Z

7. RAGtifier: Evaluating RAG Generation Approaches of State-of-the-Art RAG Systems for the SIGIR LiveRAG Competition

Retrieval-Augmented Generation (RAG) enriches Large Language Models (LLMs) by combining their internal, parametric knowledge with external, non-parametric sources, with the goal of improving factual correctness and minimizing hallucinations. The LiveRAG 2025 challenge explores RAG solutions to maximize accuracy on DataMorgana’s QA pairs, which are composed of single-hop and multi-hop questions. The challenge provides access to sparse OpenSearch and dense Pinecone indices of the Fineweb 10BT dataset. It restricts model use to LLMs with up to 10B parameters and final answer generation with Falcon-3-10B. A judge-LLM assesses the submitted answers along with human evaluators. By exploring distinct retriever combinations and RAG solutions under the challenge conditions, our final solution emerged using InstructRAG in combination with a Pinecone retriever and a BGE reranker. Our solution achieved a correctness score of 1.13 and a faithfulness score of 0.55 in the non-human evaluation, placing it overall in third place in the SIGIR 2025 LiveRAG Challenge.

中文摘要

检索增强生成（RAG）通过将大型语言模型（LLM）的内部参数知识与外部非参数源相结合来增强其功能，旨在提高事实正确性并减少幻觉。LiveRAG 2025 挑战探索 RAG 解决方案，以最大化 DataMorgana 的问答对的准确性，这些问答对由单跳和多跳问题组成。该挑战提供对 Fineweb 10BT 数据集的稀疏 OpenSearch 和密集 Pinecone 索引的访问。它限制模型使用的 LLM 拥有最多 10 亿个参数，并使用 Falcon-3-10B 生成最终答案。评委 LLM 评估提交的答案，并与人类评估人员一同进行评审。通过探索在挑战条件下不同检索器组合和 RAG 解决方案，我们的最终解决方案使用 InstructRAG 结合 Pinecone 检索器和 BGE 重新排序器。我们的解决方案在非人工评估中获得了 1.13 的正确性分数和 0.55 的忠实度分数，总体排名在 SIGIR 2025 LiveRAG 挑战中位列第三。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何优化和评估检索增强型生成（Retrieval-Augmented Generation, RAG）系统在特定问答（QA）任务中的性能问题。具体而言，论文的目标是：

探索不同的RAG解决方案：通过结合不同的检索器（retriever）、重排器（reranker）和生成策略，找到在LiveRAG 2025挑战赛中表现最佳的RAG配置。
提高问答的准确性和真实性：利用外部知识源来增强大型语言模型（LLM）的内部知识，以提高生成答案的事实正确性并减少幻觉（hallucinations）。
评估不同的RAG组件：通过实验评估不同的检索器（如OpenSearch和Pinecone）和重排器（如BGE和Rank-R1）的性能，以及它们对最终答案质量的影响。
优化生成策略：比较不同的RAG生成策略（如Simple Prompt、TrustRAG、InstructRAG、AstuteRAG和IterDRAG），以确定哪种策略在给定的挑战条件下表现最佳。
评估生成答案的质量：使用两个评估LLM（Gemma-3-27B和Claude-3.5-Haiku）来评估生成答案的正确性和真实性，并选择最适合的评估方法。

Q: 有哪些相关研究？

A: 论文中提到了多个与检索增强型生成（Retrieval-Augmented Generation, RAG）相关的研究工作，这些研究涵盖了RAG的不同方面，包括检索器（retriever）、重排器（reranker）、生成策略（generation strategies）以及评估方法（evaluation methods）。以下是相关研究的分类总结：

检索器（Retriever）

Sparse Methods：
- BM25：一种基于词频和逆文档频率的稀疏检索方法，常用于OpenSearch中 [26]。
- OpenSearch：一个开源的搜索引擎，支持稀疏检索 [25]。
Dense Methods：
- Pinecone：一个基于向量的密集检索系统，适用于语义检索 [22]。
- ANN-based Systems：近似最近邻（Approximate Nearest Neighbor）系统，用于高效地处理大规模数据集 [17]。

重排器（Reranker）

BGE-M3：一种多语言、多功能、多粒度的文本嵌入方法，通过自知识蒸馏实现 [7]。
Rank-R1：一种基于强化学习的LLM重排器，能够增强文档的相关性 [39]。

生成策略（Generation Strategies）

Simple Prompt：直接将检索到的文档和问题组合起来生成答案 [20]。
TrustRAG：通过比较检索到的信息与模型的内部知识来过滤恶意或不相关的文档，提高答案的安全性和可靠性 [37]。
InstructRAG：通过两阶段方法（理由生成和显式去噪学习）来处理检索到的噪声信息 [29]。
AstuteRAG：通过适应性地提取内部模型知识、整合知识源和基于可靠性的答案最终化来处理不完美的检索结果 [28]。
IterDRAG：一种迭代方法，通过多轮问题细化和检索来处理多跳问题 [32]。

评估方法（Evaluation Methods）

LLM-as-Judge：使用大型语言模型作为评估器来判断生成答案的质量 [35]。
CRAG：一个综合性的RAG基准测试，使用多种指标（如简洁性、正确性和支持性）来评估答案 [30]。
LiveRAG Prompt：基于LiveRAG挑战赛的评估方法，结合正确性和真实性两个指标 [3]。

其他相关研究

DataMorgana：一种生成QA对的新方法，通过定义多样化的用户和问题类别来创建高度可定制的合成基准 [15]。
RetrievalQA：评估适应性检索增强型生成在短形式开放域问答中的表现 [34]。
SUNAR：一种基于语义不确定性的邻域感知检索方法，适用于复杂问答 [27]。
Stochastic RAG：通过期望效用最大化实现端到端的检索增强型生成 [33]。

这些研究为本文的实验设计和方法选择提供了理论基础和实践指导。

Q: 论文如何解决这个问题？

A: 论文通过以下步骤解决如何优化和评估检索增强型生成（Retrieval-Augmented Generation, RAG）系统在特定问答（QA）任务中的性能问题：

1. 数据集生成

使用DataMorgana生成QA对：通过定义多样化的用户和问题类别，生成500个单跳和多跳问题的QA对。这些QA对用于内部基准测试，以评估不同RAG解决方案的性能。

2. 检索器（Retriever）选择

比较OpenSearch和Pinecone：实验比较了稀疏检索器OpenSearch和密集检索器Pinecone在检索金标准文档（gold documents）方面的性能。结果显示Pinecone在多跳问题的@k=20和单跳问题的@k=50时表现更好，且响应时间更快。
选择Pinecone作为检索器：基于上述实验结果，选择Pinecone作为最终解决方案的检索器。

3. 重排器（Reranker）评估

评估BGE和Rank-R1：研究了BGE-M3和Rank-R1两种重排器的性能。BGE在处理大量检索文档时表现出较好的性能，而Rank-R1由于处理时间过长（单个查询需要100秒），被认为不适用于LiveRAG挑战的时间限制。
选择BGE作为重排器：基于性能和时间限制，选择BGE作为最终解决方案的重排器。

4. 生成策略（Generation Strategies）比较

比较不同RAG生成策略：实验了五种不同的RAG生成策略（Simple Prompt、TrustRAG、InstructRAG、AstuteRAG和IterDRAG），并评估了它们在不同检索和重排设置下的性能。
选择InstructRAG作为生成策略：在实验中，InstructRAG和IterDRAG表现最佳。最终选择InstructRAG，因为它在LiveRAG挑战中表现更好，且在手动评估中也显示出更好的问题-答案对齐。

5. 评估方法（Evaluation Methods）

使用Gemma-3-27B和Claude-3.5-Haiku作为评估LLM：选择了Gemma-3-27B作为主要评估模型，并使用Claude-3.5-Haiku作为辅助评估模型，以确保评估的多样性和准确性。
采用LiveRAG评估提示：使用LiveRAG挑战赛指定的评估提示，结合正确性和真实性两个指标，对生成的答案进行详细评估。

6. 最终解决方案

组合最优组件：最终解决方案结合了InstructRAG生成策略、Pinecone检索器和BGE重排器，并采用了倒序上下文排列（inverted context order）。
性能评估：在LiveRAG挑战中，该解决方案取得了正确性分数1.13和真实性分数0.55，排名第四。

通过上述步骤，论文系统地评估了不同的RAG组件，并选择了在给定挑战条件下表现最佳的组合，从而优化了RAG系统的性能。

Q: 论文做了哪些实验？

A: 论文中进行了多个实验来评估不同的RAG组件和策略，以下是具体的实验内容和结果：

1. 数据集生成实验

使用DataMorgana生成QA对：
- 定义了多样化的用户和问题类别，生成了500个单跳和多跳问题的QA对。
- 观察到用户和问题类别的行为描述比代表描述更能生成符合预期的问题。

2. 检索器性能实验

比较OpenSearch和Pinecone：
- 测量了不同检索@k值下，OpenSearch和Pinecone检索到的金标准文档数量。
- 结果显示Pinecone在多跳问题的@k=20和单跳问题的@k=50时表现更好。
- Pinecone的响应时间也比OpenSearch快，特别是在检索@k=50时。

3. 重排器性能实验

评估BGE和Rank-R1：
- 测量了BGE在不同检索@k值下的运行时间和金标准文档的保留比例。
- BGE在处理400个检索文档时需要约11.2秒，因此实验限制在300个检索文档以内。
- Rank-R1由于处理时间过长（单个查询需要100秒），被认为不适用于LiveRAG挑战的时间限制。
- 对于单跳和多跳问题，Pinecone@300与BGE@10和BGE@20的组合表现优于单独使用OpenSearch或Pinecone@50。

4. 生成策略比较实验

比较不同RAG生成策略：
- 实验了五种不同的RAG生成策略（Simple Prompt、TrustRAG、InstructRAG、AstuteRAG和IterDRAG）。
- 使用Gemma-3-27B评估了这些策略在不同检索和重排设置下的性能。
- 结果显示InstructRAG和IterDRAG表现最佳，但InstructRAG在LiveRAG挑战中表现更好，且在手动评估中也显示出更好的问题-答案对齐。

5. 最终系统性能实验

组合最优组件：
- 最终解决方案结合了InstructRAG生成策略、Pinecone检索器和BGE重排器，并采用了倒序上下文排列（inverted context order）。
- 在LiveRAG挑战中，该解决方案取得了正确性分数1.13和真实性分数0.55，排名第四。

6. 评估方法实验

评估不同评估提示：
- 比较了三种不同的评估提示（简单比较、CRAG和LiveRAG提示）对评估结果的影响。
- 选择了LiveRAG提示，因为它在正确性和真实性评估方面更为详细，且与LiveRAG挑战的评估方法相似。
评估LLM性能：
- 比较了Gemma-3-27B和Claude-3.5-Haiku作为评估LLM的性能。
- 发现Gemma-3-27B在评估中表现良好，但Claude-3.5-Haiku在最终评估中给出了更低的分数。

实验结果总结

检索器：Pinecone在检索金标准文档和响应时间方面优于OpenSearch。
重排器：BGE在处理大量检索文档时表现出较好的性能，而Rank-R1由于时间限制不适用。
生成策略：InstructRAG在LiveRAG挑战中表现最佳，且在手动评估中也显示出更好的问题-答案对齐。
评估方法：LiveRAG提示在正确性和真实性评估方面更为详细，且与挑战的评估方法一致。

这些实验结果为优化RAG系统的性能提供了重要的依据。

Q: 有什么可以进一步探索的点？

A: 论文在评估和优化RAG系统方面已经做了很多工作，但仍有一些可以进一步探索的点，以进一步提升RAG系统的性能和适应性。以下是一些潜在的研究方向：

1. 改进检索器和重排器的组合

多模态检索：探索结合文本、图像、音频等多种模态的检索方法，以丰富检索到的信息，从而提高生成答案的准确性和丰富性。
动态检索策略：研究根据问题类型和复杂度动态调整检索策略的方法，例如对于多跳问题采用更复杂的检索流程。
自适应重排器：开发能够根据检索到的文档质量和数量动态调整重排参数的自适应重排器。

2. 优化生成策略

多轮交互式生成：进一步探索多轮交互式生成方法，例如在IterDRAG的基础上，增加用户反馈机制，使系统能够根据用户反馈动态调整生成策略。
融合多种生成策略：研究如何将不同的生成策略（如InstructRAG和AstuteRAG）结合起来，以利用各自的优势，提高生成答案的质量。
生成策略的可解释性：开发能够解释生成策略决策过程的方法，帮助理解生成策略在不同情况下的行为，从而进一步优化这些策略。

3. 评估方法的改进

多维度评估指标：除了正确性和真实性，探索更多维度的评估指标，如答案的多样性、创造性、用户满意度等。
动态评估方法：研究根据问题类型和复杂度动态调整评估方法的策略，以更准确地评估生成答案的质量。
用户反馈驱动的评估：引入用户反馈机制，使评估过程更加贴近实际应用场景，从而提高评估结果的实用性和可靠性。

4. 数据集和任务的多样性

跨领域数据集：在更多领域和任务上测试RAG系统，以评估其在不同场景下的性能和适应性。
多语言数据集：探索RAG系统在多语言环境中的表现，开发能够处理多种语言的RAG解决方案。
动态数据集：研究如何在动态变化的数据集上训练和评估RAG系统，以提高系统的时效性和适应性。

5. 模型的可扩展性和效率

模型压缩和优化：研究如何在不损失性能的前提下，压缩和优化RAG系统中的模型，以提高系统的运行效率和可扩展性。
分布式计算：探索利用分布式计算资源来加速RAG系统的训练和推理过程，从而提高系统的响应速度和处理能力。
资源受限环境下的优化：研究在资源受限的环境中（如移动设备或嵌入式系统）优化RAG系统的方法，以提高系统的实用性和适用性。

6. 对抗攻击和鲁棒性

对抗攻击防御：研究如何增强RAG系统对对抗攻击的防御能力，例如通过引入对抗训练或鲁棒性测试。
鲁棒性测试：开发更全面的鲁棒性测试方法，以评估RAG系统在面对各种干扰和异常情况时的性能和稳定性。
安全性和隐私保护：研究如何在保护用户隐私和数据安全的前提下，优化RAG系统的性能和功能。

7. 长期记忆和上下文管理

长期记忆机制：探索如何在RAG系统中引入长期记忆机制，以更好地处理需要长期上下文信息的问题。
上下文管理策略：研究如何优化上下文管理策略，以提高系统在处理复杂问题时的效率和准确性。
上下文动态更新：开发能够根据新信息动态更新上下文的方法，以提高系统的适应性和灵活性。

8. 用户交互和个性化

用户交互模型：研究如何开发更自然、更有效的用户交互模型，以提高用户与RAG系统的交互体验。
个性化生成：探索如何根据用户的偏好和历史行为，生成更符合用户需求的答案，从而提高系统的个性化程度和用户满意度。
用户反馈循环：建立用户反馈循环机制，使系统能够根据用户的反馈不断优化自身的性能和功能。

这些方向不仅可以帮助进一步提升RAG系统的性能和适应性，还可以为未来的研究提供新的思路和方法。

Q: 总结一下论文的主要内容

Authors: Tim Cofala, Oleh Astappiev, William Xion, Hailay Teklehaymanot

Categories: cs.IR, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2506.14412v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2506.14412v2

Published: 2025-06-17T11:14:22Z

8. An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems

In this paper, we introduce a systematic framework beyond conventional method to assess LLMs’ mathematical-reasoning robustness by stress-testing them on advanced math problems that are mathematically equivalent but with linguistic and parametric variation. These transformations allow us to measure the sensitivity of LLMs to non-mathematical perturbations, thereby enabling a more accurate evaluation of their mathematical reasoning capabilities. Using this new evaluation methodology, we created PutnamGAP, a new benchmark dataset with multiple mathematically-equivalent variations of competition-level math problems. With the new dataset, we evaluate multiple families of representative LLMs and examine their robustness. Across 18 commercial and open-source models we observe sharp performance degradation on the variants. OpenAI’s flagship reasoning model, O3, scores 49 % on the originals but drops by 4 percentage points on surface variants, and by 10.5 percentage points on core-step-based variants, while smaller models fare far worse. Overall, the results show that the proposed new evaluation methodology is effective for deepening our understanding of the robustness of LLMs and generating new insights for further improving their mathematical reasoning capabilities.

中文摘要

在本文中，我们提出了一种系统框架，超越传统方法，通过在 mathematically equivalent 但具有语言和参数变体的高级数学问题上进行压力测试，来评估 LLM 的数学推理鲁棒性。这些转换使我们能够测量 LLM 对非数学扰动的敏感性，从而更准确地评估其数学推理能力。使用这种新的评估方法，我们创建了 PutnamGAP，一个包含多个数学上等价的竞赛级数学问题变体的新基准数据集。凭借这个新数据集，我们评估了多种代表性 LLM 的家族，并检查它们的鲁棒性。在 18 个商业和开源模型中，我们观察到对变体的性能急剧下降。OpenAI 的旗舰推理模型 O3 在原始数据集中的得分为 49%，但在表面变体上下降了 4 个百分点，在基于核心步骤的变体上下降了 10.5 个百分点，而较小的模型的表现更差。整体结果表明，所提出的新评估方法对于加深我们对 LLM 鲁棒性的理解以及为进一步改善其数学推理能力提供新的见解非常有效。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何更准确地评估大型语言模型（LLMs）在数学推理方面的鲁棒性。具体来说，它旨在解决现有数学推理基准测试中存在的两个关键问题：

数据泄露导致的分数膨胀：现有的数学推理基准测试数据集（如GSM8K和MATH）中的问题已经泄露到用于预训练大型语言模型的语料库中，这导致了测试时的准确率被人为地提高。因此，模型在这些基准测试中的高分可能只是反映了对基准测试问题或其解决方案的记忆，而不是真正的推理能力。
鲁棒性覆盖不足：现有的数据集规模较小，缺乏能够真正测试模型泛化能力的系统性变换。这使得现有的基准测试无法充分评估模型在面对非数学扰动时的敏感性，从而无法准确衡量其数学推理能力。

为了解决这些问题，论文提出了一个系统性的框架——Generalization–and–Perturbation（GAP），通过在数学等价的变换下对高级数学问题进行压力测试，来评估LLMs的数学推理鲁棒性。这种方法不仅可以生成无限数量的未见测试项，减少未来数据泄露的风险，还可以量化模型在超出记忆表面形式的泛化能力。

Q: 有哪些相关研究？

A: 论文中提到了多个与评估大型语言模型（LLMs）数学推理能力相关的研究，这些研究主要集中在以下几个方面：

早期数学推理基准测试

GSM8K：包含8.5k个问题，用于测试基本的算术和代数技能（Cobbe et al. 2021）。
MATH：包含1.25k个问题，同样用于测试基本数学技能（Hendrycks et al. 2021）。

更具挑战性的基准测试

OmniMath：包含4,428个经过严格注释的奥林匹克级别问题（Gao et al. 2024）。
OlympiadBench：提供8,476个双语、多模态的奥林匹克级别数学和物理问题（He et al. 2024）。
ARB：跨学科的基准测试，包含数学、物理、生物、化学和法律等领域的问题，采用基于评分表的自我评分协议（Sawada et al. 2023）。
MiniF2F：提供488个奥林匹克级别问题，形式化为多种证明助手（Zheng, Han, and Polu 2022）。
PutnamBench：提供1,692个经过严格手工制作的Putnam竞赛问题的形式化版本（Tsoukalas et al. 2024）。

数据泄露问题

数据泄露审计：Balloccu et al.（2024）对闭源LLMs进行了系统审计，估计大约有470万测试样本可能在预训练阶段暴露给模型。
数据泄露的影响：Sainz et al.（2023）指出，许多基准测试可能因为LLMs在预训练阶段接触到测试数据而被人为地提高分数。

鲁棒性评估

MATH-Perturb：通过简单和困难的扰动应用于279个MATH问题，发现模型在困难变体上的性能下降了12-16个百分点（Huang et al. 2025）。
ASYMOB：包含17k个问题，专注于代数领域的数值和符号扰动，揭示了模型在压力测试下的性能下降高达70个百分点（Shalyt et al. 2025）。
MATHROB：通过指令式方法评估LLMs在数据泄露背景下的鲁棒性（Yu et al. 2025）。

这些研究为当前论文提供了背景和动机，展示了在评估LLMs的数学推理能力时需要考虑的挑战和问题。当前论文通过提出GAP框架和PUTNAMGAP基准测试，进一步扩展了这些研究，提供了一个更系统和全面的方法来评估LLMs的鲁棒性。

Q: 论文如何解决这个问题？

A: 为了解决现有数学推理基准测试中存在的数据泄露和鲁棒性覆盖不足的问题，论文提出了一个名为Generalization–and–Perturbation（GAP）的框架，并基于此框架创建了一个新的基准数据集PUTNAMGAP。以下是论文提出的解决方案的详细步骤和方法：

Generalization–and–Perturbation（GAP）框架

核心思想：通过在数学等价的变换下对问题进行压力测试，来评估LLMs的数学推理鲁棒性。具体来说，对于一个数学问题 ( x ) 和其解集 ( S(x) )，鲁棒性定义为当 ( x ) 被一个等价保持算子家族 ( T ) 变换时的预期准确率。
变换分类：将变换算子家族 ( T ) 分为两类：
- 表面变换 ( T_{\text{surf}} )：改变符号的显著性，但保持语义正确性。
- 参数变换 ( T_{\text{para}} )：在保持相同证明步骤的同时，改变场景和参数。

PUTNAMGAP基准数据集

数据来源：基于1938年至2024年所有的William Lowell Putnam竞赛问题（共1,051个原始问题）。
变体生成：每个原始问题被扩展为五个变体，包括四个表面重命名和一个核心步骤重写，总共生成6,306个压力测试问题。
两阶段QA流程：通过15轮的OpenAI O3模型自审和10%的抽样检查，确保生成的变体没有实质性错误。

评估方法

模型接口：语言模型 ( f_{\theta} ) 接收提示 ( x ) 并返回预测 ( \hat{y} = f_{\theta}(x) )，然后通过自动检查器将其映射到二元标签 ( z = \text{grade}(\hat{y}, y) \in {0, 1} )。
变体家族：对于每个原始问题 ( x_i )，应用表面变换 ( T_{\text{surf}} ) 和参数变换 ( T_{\text{para}} )。
评估矩阵：构建一个包含所有原始问题和变体的笛卡尔积 ( D )，并运行模型 ( f_{\theta} ) 生成一个二元矩阵 ( Z )。
鲁棒性度量：定义鲁棒性度量 ( R(e, h) )，其中 ( e ) 和 ( h ) 分别是原始问题和变体上的逐项正确性。鲁棒性度量将准确率下降转换为(0, 1]范围内的惩罚因子，值为1表示完美不变性，值越小表示模型越脆弱。

实验设置

模型池：评估了18种不同的LLMs，包括商业和开源模型。
提示模板：所有模型都使用统一的零样本提示模板，将模型指定为“数学专家”，并要求其展示所有步骤。
评分和自动评分器：将任务分为计算和证明两类，并使用不同的评分器进行评估。计算任务使用严格字符串匹配和潜在评分器，证明任务则提供参考证明并要求评分器分配二元等级和自然语言解释。

结果分析

鲁棒性结果：所有模型在变体上的性能都有显著下降，尤其是表面重命名和核心步骤重写对模型的准确性影响最大。这表明即使是表现良好的模型，也缺乏在数学等价但表面修改的表示下保持准确性的能力。
错误分类：通过分析错误类型（符号混淆、步骤遗漏、算术错误和逻辑幻觉），发现逻辑幻觉是错误的主要来源，占所有错误答案的约五分之三，这表明数学等价的扰动一致地降低了LLMs的性能。

讨论和建议

基准测试：GAP框架可以生成无限数量的语义等价测试项，限制未来数据泄露和分数膨胀。
训练：建议在微调过程中随机化符号身份和数值参数，以提高模型的泛化能力。
安全性：表面级别的脆弱性可能被用于提示注入攻击，因此建议将GAP风格的变异纳入红队测试流程。

通过这些方法，论文不仅提供了一个新的评估框架和基准数据集，还揭示了现有LLMs在数学推理方面的鲁棒性问题，并为未来的模型训练和安全性评估提供了有价值的见解和建议。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

实验设计

模型选择：论文选择了18种不同的大型语言模型（LLMs），包括商业模型和开源模型。这些模型涵盖了不同的规模和架构，以确保实验结果的广泛适用性。
数据集构建：基于PUTNAMGAP基准数据集，该数据集包含1938年至2024年所有的William Lowell Putnam竞赛问题（共1,051个原始问题），并为每个原始问题生成了五个变体（四个表面重命名和一个核心步骤重写），总共生成了6,306个问题。
提示模板：所有模型都使用统一的零样本提示模板，将模型指定为“数学专家”，并要求其展示所有步骤。这种统一的提示模板确保了实验条件的一致性。

实验过程

模型评估：对每个模型在PUTNAMGAP数据集的原始问题和变体上进行评估。评估分为两个阶段：
- 第一阶段：模型对每个问题生成答案。
- 第二阶段：使用自动评分器对生成的答案进行评分，评分器根据参考答案和评分标准给出二元评分（正确或错误）。
评分和自动评分器：将任务分为计算和证明两类，并使用不同的评分器进行评估。计算任务使用严格字符串匹配和潜在评分器，证明任务则提供参考证明并要求评分器分配二元等级和自然语言解释。

实验结果

鲁棒性评估：通过比较模型在原始问题和变体上的表现，评估模型的鲁棒性。具体来说，计算了每个模型在不同变体上的准确率，并使用鲁棒性度量 ( R(e, h) ) 来量化模型的鲁棒性。
变体类型分析：详细分析了不同变体类型（如描述性长名称、令人困惑的名称、误导性名称、乱码字符串和核心步骤变体）对模型性能的影响。结果显示，即使是简单的表面重命名也会显著降低模型的准确性，而核心步骤变体导致的性能下降更为严重。
错误分类：通过分析模型生成的错误答案，将错误分为符号混淆、步骤遗漏、算术错误和逻辑幻觉四类。结果显示，逻辑幻觉是错误的主要来源，占所有错误答案的约五分之三，这表明数学等价的扰动一致地降低了LLMs的性能。

关键结论

鲁棒性不足：几乎所有模型在变体上的性能都有显著下降，尤其是表面重命名和核心步骤重写对模型的准确性影响最大。这表明即使是表现良好的模型，也缺乏在数学等价但表面修改的表示下保持准确性的能力。
鲁棒性度量的有效性：通过鲁棒性度量 ( R(e, h) )，论文展示了该度量能够有效地量化模型在不同变体上的性能变化，揭示了模型在面对非数学扰动时的脆弱性。
训练和评估的改进方向：实验结果为未来的模型训练和评估提供了有价值的见解，建议在训练过程中随机化符号身份和数值参数，以提高模型的泛化能力，并将GAP风格的变异纳入红队测试流程，以增强模型的安全性。

这些实验不仅验证了GAP框架的有效性，还揭示了现有LLMs在数学推理方面的鲁棒性问题，并为未来的模型训练和安全性评估提供了有价值的见解和建议。

Q: 有什么可以进一步探索的点？

Authors: Yuren Hao, Xiang Wan, Chengxiang Zhai

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2508.08833v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.08833v1

Published: 2025-08-12T10:40:33Z

9. Evaluating Trust in AI, Human, and Co-produced Feedback Among Undergraduate Students

As generative AI models, particularly large language models (LLMs), transform educational feedback practices in higher education (HE) contexts, understanding students’ perceptions of different sources of feedback becomes crucial for their effective implementation and adoption. This study addresses a critical gap by comparing undergraduate students’ trust in LLM, human, and human-AI co-produced feedback in their authentic HE context. More specifically, through a within-subject experimental design involving 91 participants, we investigated factors that predict students’ ability to distinguish between feedback types, their perceptions of feedback quality, and potential biases related to the source of feedback. Findings revealed that when the source was blinded, students generally preferred AI and co-produced feedback over human feedback regarding perceived usefulness and objectivity. However, they presented a strong bias against AI when the source of feedback was disclosed. In addition, only AI feedback suffered a decline in perceived genuineness when feedback sources were revealed, while co-produced feedback maintained its positive perception. Educational AI experience improved students’ ability to identify LLM-generated feedback and increased their trust in all types of feedback. More years of students’ experience using AI for general purposes were associated with lower perceived usefulness and credibility of feedback. These insights offer substantial evidence of the importance of source credibility and the need to enhance both feedback literacy and AI literacy to mitigate bias in student perceptions for AI-generated feedback to be adopted and impact education.

中文摘要

随着生成性人工智能模型，特别是大规模语言模型（LLMs）在高等教育（HE）背景下改变教育反馈实践，理解学生对不同反馈来源的看法对于其有效实施和采用变得至关重要。本研究通过比较本科生对LLM、人工和人机共同产生的反馈的信任，弥补了一个关键的空白，更具体地说，通过涉及91名参与者的被试内实验设计，我们调查了预测学生区分反馈类型能力的因素、他们对反馈质量的看法以及与反馈来源相关的潜在偏见。研究发现，当反馈来源被隐藏时，学生通常更倾向于选择人工智能和共同生成的反馈，而非人类反馈，尤其是在感知的有用性和客观性方面。然而，当反馈来源被披露时，他们对人工智能表现出强烈的偏见。此外，只有人工智能反馈在反馈来源被揭示时感知的真实性下降，而共同生成的反馈则保持了其积极的感知。教育人工智能经验提高了学生识别LLM生成反馈的能力，并增加了他们对所有类型反馈的信任。学生使用人工智能进行一般目的的经历年限与反馈的感知有用性和可信度呈负相关。这些见解提供了关于来源可信度的重要证据，并强调了提升反馈素养和人工智能素养的必要性，以减轻学生对人工智能生成反馈的偏见，使其得到采用并对教育产生影响。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是：在高等教育（Higher Education, HE）背景下，了解本科生对于不同来源反馈（人工智能生成的反馈、人类生成的反馈以及人类与人工智能共同生成的反馈）的信任程度，以及这些反馈来源对学生反馈感知的影响。具体而言，研究旨在填补以下关键研究空白：

学生对不同反馈来源的区分能力：研究学生能否区分由人工智能（AI）、人类（如助教TA）以及人类与AI共同生成的反馈。
反馈来源披露对学生感知的影响：探讨当反馈来源被披露时，学生对反馈质量的感知（如有用性、客观性、真实性）以及对反馈提供者可信度的感知如何变化。
学生对不同反馈类型的偏好和偏见：分析学生是否存在对AI或人类反馈的偏好，以及是否存在对AI反馈的偏见，并探讨这些偏见如何基于学生的背景（如AI使用经验、性别等）而有所不同。

通过解决这些问题，研究旨在为高等教育中AI生成反馈的有效实施和采用提供实证依据，同时为教育者和教育机构提供关于如何在反馈系统中整合AI的基于证据的指导。

Q: 有哪些相关研究？

A: 以下是与本研究相关的研究，这些研究为理解学生对不同反馈来源（人类、AI、人类-AI合作）的感知提供了背景和理论基础：

人类生成反馈的相关研究

Ajjawi & Boud (2018)：强调了教师在高等教育中提供反馈的重要性，指出有效反馈能够满足学生个体需求并促进学习进步。
Gan et al. (2021)：探讨了人类反馈在提升学生学术表现方面的有效性，强调教师需要具备相关能力以提供高质量反馈。
Winstone & Carless (2019)：强调了教师在提供反馈时需要具备对学习目标、评估标准和教学策略的深刻理解，以识别学生误解并提供有效指导。

AI生成反馈的相关研究

Cavalcanti et al. (2021)：研究了AI在不同领域（如数据科学、写作和编程）生成反馈的潜力，发现AI反馈的质量与人类专家反馈相当。
Dai et al. (2023)：探讨了AI在教育中的应用，特别是在生成反馈方面，发现AI反馈在某些情况下比人类反馈更具可读性和详细性。
Escalante et al. (2023)：研究了AI在写作反馈方面的应用，发现学生对AI生成的反馈满意度较高，且AI反馈有助于提升学生的写作能力。
**Nazaretsky et al.

Authors: Audrey Zhang, Yifei Gao, Wannapon Suraworachet, Tanya Nazaretsky, Mutlu Cukurova

Categories: cs.HC, cs.AI

PDF URL: https://arxiv.org/pdf/2504.10961v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2504.10961v2

Published: 2025-04-15T08:06:36Z

10. GRainsaCK: a Comprehensive Software Library for Benchmarking Explanations of Link Prediction Tasks on Knowledge Graphs

Since Knowledge Graphs are often incomplete, link prediction methods are adopted for predicting missing facts. Scalable embedding based solutions are mostly adopted for this purpose, however, they lack comprehensibility, which may be crucial in several domains. Explanation methods tackle this issue by identifying supporting knowledge explaining the predicted facts. Regretfully, evaluating/comparing quantitatively the resulting explanations is challenging as there is no standard evaluation protocol and overall benchmarking resource. We fill this important gap by proposing GRainsaCK, a reusable software resource that fully streamlines all the tasks involved in benchmarking explanations, i.e., from model training to evaluation of explanations along the same evaluation protocol. Moreover, GRainsaCK furthers modularity/extensibility by implementing the main components as functions that can be easily replaced. Finally, fostering its reuse, we provide extensive documentation including a tutorial.

中文摘要

由于知识图谱往往不完整，因此采用链接预测方法来预测缺失的事实。可扩展的基于嵌入的解决方案通常被采用，但它们缺乏可理解性，而这在若干领域中可能是至关重要的。解释方法通过识别支持知识来解决这个问题，从而解释预测的事实。遗憾的是，定量评估/比较所得的解释是具有挑战性的，因为没有标准的评估协议和整体的基准资源。我们通过提出GRainsaCK来填补这个重要的空白，这是一种可重用的软件资源，完全简化了基准测试解释所涉及的所有任务，即从模型训练到沿同一评估协议进行解释的评估。此外，GRainsaCK通过将主要组件实现为可以轻松替换的函数，进一步增强了模块化/可扩展性。最后，为了促进其重用，我们提供了包括教程在内的广泛文档。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决知识图谱中链接预测任务的解释方法（LP-X）缺乏标准化评估和比较工具的问题。具体而言，论文提出了一种名为GRainsaCK的开源软件库，旨在实现以下目标：

标准化评估流程：提供一个全面的软件库，用于标准化LP-X方法的评估和比较，填补现有研究中缺乏统一评估协议和基准资源的空白。
支持多种知识图谱和模型：适用于RDF/RDFS/OWL知识图谱以及大多数现有的知识图谱嵌入（KGE）和LP-X方法。
模块化和可扩展性：采用模块化设计，将主要组件实现为可轻松替换的函数，方便维护和扩展，例如集成新的LP-X方法。
提供基准数据集和文档：收集并提供易于使用的解释基准数据集，并提供详细的文档和教程，以促进软件的复用和扩展。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

LP-X 方法的评估

Quantus：支持多种解释类型（不包括LP-X），并针对解释质量的不同维度进行评估。但未针对用户视角下的解释效用进行评估。
GraphXAI 和 OpenXAI：主要针对有限类型的解释（不包括针对知识图谱的LP-X方法），如特征重要性，并主要将解释质量评估为对预测的保真度。
FR200K、FRUNI 和 FTREE：包含手工制作的规则，反映领域知识，并通过识别支持规则生成事实的三元组来解释事实。FR200K还包含用户对解释的直观性评分，但其构建过程难以大规模推广，因为需要人工干预。

LP-X 方法

DP、Criage：通过返回知识图谱中的一个事实来解释预测，应用扰动或计算近似影响函数。
Kelpie、Kelpie++：采用后训练过程，通过返回一组事实来解释预测。
KE-X：基于信息增益来解释预测。
KGExplainer：采用贪婪搜索和扰动来解释预测。
GEnI：返回包括基于特定KGE类别的数值标准的高级模式公理的解释。
CrossE、SemanticCrossE：通过识别预测实体之间的路径来解释预测，依赖于相似性度量，并通过连接相似实体的路径数量来评估解释。
其他方法：如逻辑规则挖掘、从KGE中提取可解释向量等，但这些方法的评估协议不允许比较不同方法的解释。

LP-DIXIT 方法

LP-DIXIT：是目前唯一一个用户引导的、完全算法化的评估LP任务解释质量的方法，适用于来自通用LP-X方法的解释。它基于前

Authors: Roberto Barile, Claudia d’Amato, Nicola Fanizzi

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2508.08815v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.08815v1

Published: 2025-08-12T10:15:58Z

ArXiv Domain 2025-08-14

LLM Domain Papers

1. OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

2. SinLlama — A Large Language Model for Sinhala

3. AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

4. LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models

5. Utilizing Multilingual Encoders to Improve Large Language Models for Low-Resource Languages

6. Argus Inspection: Do Multimodal Large Language Models Possess the Eye of Panoptes?

7. READER: Retrieval-Assisted Drafter for Efficient LLM Inference

8. RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

9. LLM-as-a-Supervisor: Mistaken Therapeutic Behaviors Trigger Targeted Supervisory Feedback

10. P/D-Device: Disaggregated Large Language Model between Cloud and Devices

Agent Domain Papers

1. BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair

2. OpenCUA: Open Foundations for Computer-Use Agents

3. RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

4. Sleepless Nights, Sugary Days: Creating Synthetic Users with Health Conditions for Realistic Coaching Agent Interactions

5. SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

6. Intrinsic Memory Agents: Heterogeneous Multi-Agent LLM Systems through Structured Contextual Memory

7. AIOS: LLM Agent Operating System

8. Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance

9. Reducing Cognitive Load in Multi-Agent Reinforcement Learning for Mathematical Problem Solving: Decoupling Reasoning and Code Generation

10. Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training

AI Domain Papers

1. Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models

2. Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

3. BrowseMaster: Towards Scalable Web Browsing via Tool-Augmented Programmatic Agent Pair

4. Complex Logical Instruction Generation

5. Retrieval-Augmented Generation with Conflicting Evidence

6. OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

7. OpenCUA: Open Foundations for Computer-Use Agents

8. Deep Neural Network Calibration by Reducing Classifier Shift with Stochastic Masking

9. SinLlama — A Large Language Model for Sinhala

10. Touch and Tell: Multimodal Decoding of Human Emotions and Social Gestures for Robots

Evaluation Domain Papers

1. CulturalFrames: Assessing Cultural Expectation Alignment in Text-to-Image Models and Evaluation Metrics

2. Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams

3. From Lab to Field: Real-World Evaluation of an AI-Driven Smart Video Solution to Enhance Community Safety

4. OSMa-Bench: Evaluating Open Semantic Mapping Under Varying Lighting Conditions

5. AdEval: Alignment-based Dynamic Evaluation to Mitigate Data Contamination in Large Language Models

6. QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems

7. RAGtifier: Evaluating RAG Generation Approaches of State-of-the-Art RAG Systems for the SIGIR LiveRAG Competition

8. An Investigation of Robustness of LLMs in Mathematical Reasoning: Benchmarking with Mathematically-Equivalent Transformation of Advanced Mathematical Problems

9. Evaluating Trust in AI, Human, and Co-produced Feedback Among Undergraduate Students

10. GRainsaCK: a Comprehensive Software Library for Benchmarking Explanations of Link Prediction Tasks on Knowledge Graphs