ArXiv Domain 2025-07-24

数据来源：ArXiv Domain

LLM Domain Papers

1. LingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural Inference with LLMs

We propose LingBench++, a linguistically-informed benchmark and reasoning framework designed to evaluate large language models (LLMs) on complex linguistic tasks inspired by the International Linguistics Olympiad (IOL). Unlike prior benchmarks that focus solely on final answer accuracy, LingBench++ provides structured reasoning traces, stepwise evaluation protocols, and rich typological metadata across over 90 low-resource and cross-cultural languages. We further develop a multi-agent architecture integrating grammatical knowledge retrieval, tool-augmented reasoning, and deliberate hypothesis testing. Through systematic comparisons of baseline and our proposed agentic models, we demonstrate that models equipped with external knowledge sources and iterative reasoning outperform single-pass approaches in both accuracy and interpretability. LingBench++ offers a comprehensive foundation for advancing linguistically grounded, culturally informed, and cognitively plausible reasoning in LLMs.

中文摘要

我们提出了LingBench++，这是一个基于语言的基准和推理框架，旨在评估大型语言模型（LLMs）在复杂语言任务上的表现，这些任务灵感来源于国际语言奥林匹克（IOL）。与以往仅关注最终答案准确性的基准不同，LingBench++提供了结构化的推理轨迹、逐步评估协议，以及跨越90种资源稀缺和跨文化语言的丰富分类元数据。我们进一步开发了一种多智能体架构，整合了语法知识检索、工具增强推理和有目的的假设测试。通过对基线模型和我们提出的代理模型进行系统比较，我们证明了配备外部知识源和迭代推理的模型在准确性和可解释性方面优于单遍处理方式。LingBench++为推动基于语言、文化知情和认知合理的LLM推理提供了一个全面的基础。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一个名为 LingBench++ 的基准测试框架，旨在评估大型语言模型（LLMs）在复杂语言任务上的表现，这些任务受到国际语言学奥林匹克竞赛（IOL）的启发。具体来说，论文试图解决以下问题：

超越最终答案准确性：以往的基准测试主要关注模型最终答案的准确性，而忽略了模型在解决问题过程中的推理步骤。LingBench++ 提供了结构化的推理痕迹、逐步评估协议和丰富的语言类型学元数据，从而能够更全面地评估模型的推理能力。
多步推理和跨文化推理：IOL 问题通常需要多步抽象、结构化推理和文化推理，尤其是在处理低资源或不熟悉的语言时。LingBench++ 通过整合语法知识检索、工具增强推理和假设检验，开发了一个多智能体架构，以更好地处理这些复杂的推理任务。
多模态符号处理：许多 IOL 问题涉及多模态符号，如罕见的书写系统、国际音标（IPA）表示法、音调轮廓符号等。这些任务要求模型不仅能够处理文本，还需要处理视觉符号和跨模态推理。LingBench++ 提供了一个框架，用于评估和推进多模态推理模型的发展。
跨语言和跨文化推理：IOL 问题不仅涉及语言结构的推理，还涉及语义推理、文化概念化和语言学推理。这些问题要求解题者在不熟悉的语言和文化背景下进行推理。LingBench++ 通过提供丰富的语言类型学元数据，支持对模型在跨语言和跨文化推理方面的评估。
改进现有基准测试的局限性：现有的 IOL 风格基准测试存在一些局限性，如缺乏详细的推理步骤、缺乏权威的金标准解决方案以及缺乏语言类型学元数据。LingBench++ 通过提供详细的推理痕迹和类型学注释，弥补了这些不足，从而更全面地评估模型的推理能力。

总的来说，LingBench++ 提供了一个全面的基础，用于推进基于语言学原理、文化背景和认知合理性的推理能力的发展。

Q: 有哪些相关研究？

A: 论文中提到了多个与 LingBench++ 相关的研究工作，这些研究主要集中在以下几个方面：

语言学奥林匹克竞赛相关基准测试

LingOly (Bean et al., 2024)：包含来自英国语言学奥林匹克竞赛（UKLO）的1133个语言学谜题，涵盖90多种低资源语言，测试语言无关的推理能力。该基准排除了图像谜题、非拉丁脚本和开放式问题，以确保机器可评分性。
IOLBENCH (Goyal and Dan, 2025)：包含90个IOL问题，涵盖2003年至2024年的问题。这些问题已被数字化并标准化为文本或结构化表示，包括一些多模态组件。每个问题都配有专家编写的解决方案，以支持对推理链的细粒度分析。
Linguini (Sánchez et al., 2024)：包含160个IOL问题，涵盖2003年至2023年的问题，涉及低资源语言和三种核心任务类型：序列转导（如脚本转换）、填空（如音系推导）和数字转写（如数字到文本转换）。这些问题强调了诸如音系切分、音系推理和音素对齐等技能。

语言学推理相关研究

Chain-of-Thought (CoT) Prompting：通过生成中间推理步骤来提高基本逐步推理能力，但缺乏系统验证机制，限制了其在结构复杂问题上的有效性。
Tree-of-Thoughts (ToT)：扩展了CoT，通过并行假设探索、回溯和状态评估，增强了组合规则归纳的能力。
Hybrid Tool-Integrated Approaches：如ReAct（推理+行动）、Reflexion（自我纠正推理）和Toolformer等框架，将LLMs与外部工具（如计算器、代码解释器）和细化周期结合，用于错误纠正和工具增强推理。
Multimodal Architectures：如GPT-4V和Gemini等模型，结合了视觉、表格和符号输入，但在处理对齐模态（如音系图或形态句法范式）时表现不一致。

语言学推理的挑战和方法

LingBench++：提出了一个基于语言学的基准测试框架，旨在通过提供详细的推理步骤和类型学注释，超越最终答案的准确性，更全面地评估模型的推理能力。
Reference Grammar for Confirmation and Verification：探讨了如何利用参考语法书籍来增强LLMs在语言学问题解决中的推理能力，特别是在处理低资源语言时。

这些研究为 LingBench++ 的开发提供了理论基础和实践指导，同时也展示了在语言学推理领域中，如何通过结构化的推理步骤和类型学注释来提高模型的解释性和泛化能力。

Q: 论文如何解决这个问题？

A: 论文通过以下方法来解决评估大型语言模型（LLMs）在复杂语言任务上的推理能力问题：

1. 提出 LingBench++ 基准测试框架

数据集构建：LingBench++ 包含了来自国际语言学奥林匹克竞赛（IOL）的 96 个问题（225 个子问题），这些问题涵盖了超过 90 种低资源和跨文化语言。这些问题被分为四个部分：介绍、语料库、任务和注释。每个问题都附有详细的推理步骤和官方解决方案。
类型学注释：每个问题都标注了多个语言学维度，包括主题（如形态学、音系学等）、问题类型（如 Rosetta、匹配等）和主题（如亲属关系、数字等）。此外，还记录了每种语言的语言家族、Glottocode 和使用人数。
推理步骤评估：除了评估最终答案的准确性，LingBench++ 还提出了一个“Check-of-Thought”协议，用于评估模型推理步骤的质量。这包括逻辑有效性、信息提取与结构化、假设生成与规则归纳等多个维度。

2. 开发多智能体架构

Solver Agent：提出初始假设，基于提供的语言数据推导出可能的形态学、音系学或句法结构。
Aggregator Agent：收集多个解决方案，并生成自己的解决方案。
Grammar Agent：利用手动收集的参考语法书籍，这些书籍被注释了 Glottocode。给定一个问题，该代理会在数据库中搜索相关的语法书籍，并总结有关语言的语法特征或知识。

3. 提出评估协议和指标

最终解决方案评估：评估模型生成的最终解决方案，包括答案和规则解释两部分。通过将官方解决方案分解为关键语言规则的离散集合（金标准规则清单），并使用 LLM 比较模型生成的解释与金标准规则清单，来确定正确描述的规则数量。
推理步骤评估：提出了一个详细的评分框架，包括逻辑有效性、信息结构完整性、假设生成充分性、规则归纳覆盖范围等多个维度，以系统地评估模型的推理过程。

4. 实验验证

基线模型对比：通过与单次通过的基线模型（如 OpenAI-o4-mini 和 Gemini-2.5-pro）进行对比，展示了多智能体框架在准确性和可解释性方面的优势。
多轮推理的优势：实验结果表明，增加推理轮数可以提高模型的性能，这表明多智能体框架能够更好地处理复杂的语言学问题。
语法知识的利用：通过引入语法知识检索，模型在某些问题上的表现有所提升，尤其是在有参考语法书籍的情况下。

通过这些方法，LingBench++ 不仅能够评估模型在最终答案上的准确性，还能够深入分析模型的推理过程，从而为改进大型语言模型在复杂语言任务上的推理能力提供了有力的支持。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估所提出的 LingBench++ 基准测试框架和多智能体架构的有效性：

1. 基准模型性能评估

数据集：使用 LingBench++ 中的 96 个 IOL 问题（225 个子问题）进行评估。
模型：评估了两种基线模型：
- OpenAI-o4-mini：较小的 LLM 模型。
- Gemini-2.5-pro：较大的 LLM 模型。
评估指标：使用最终解决方案的评分，包括答案和规则解释两部分。评分基于金标准规则清单，通过 LLM 评估模型生成的解释与金标准的匹配程度。
结果：
- OpenAI-o4-mini (baseline)：平均得分 0.193。
- Gemini-2.5-pro (baseline)：平均得分 0.381。
- Gemini-2.5-pro (guided)：平均得分 0.307。
- Gemini-2.5-pro (with grammar agent)：平均得分 0.387。
- OpenAI-o4-mini (MoA, 2 rounds)：平均得分 0.312。
- Gemini-2.5-pro (MoA, 2 rounds)：平均得分 0.419。
- OpenAI-o4-mini (MoA, 3 rounds)：平均得分 0.350。
- Gemini-2.5-pro (MoA, 3 rounds)：平均得分 0.425。

2. 多智能体架构性能评估

数据集：同样使用 LingBench++ 中的 96 个 IOL 问题。
模型：评估了多智能体架构（Mixture-of-Agents, MoA）的不同配置：
- 2 轮 MoA：使用 2 个智能体进行 2 轮推理。
- 3 轮 MoA：使用 2 个智能体进行 3 轮推理。
评估指标：与基准模型相同的最终解决方案评分。
结果：
- OpenAI-o4-mini (MoA, 2 rounds)：平均得分 0.312。
- Gemini-2.5-pro (MoA, 2 rounds)：平均得分 0.419。
- OpenAI-o4-mini (MoA, 3 rounds)：平均得分 0.350。
- Gemini-2.5-pro (MoA, 3 rounds)：平均得分 0.425。

3. 语法知识检索的性能评估

数据集：选择有参考语法书籍的问题子集进行评估。
模型：评估了引入语法知识检索的多智能体架构。
评估指标：与基准模型相同的最终解决方案评分。
结果：
- Gemini-2.5-pro (with grammar agent)：平均得分 0.387。

4. 推理步骤评估

数据集：选择了一个具体的 IOL 问题（2004 年问题 2）进行详细评估。
模型：使用另一个 LLM 作为评估器，根据详细的评分标准评估基线模型的推理步骤。
评估指标：包括逻辑有效性、信息结构完整性、假设生成充分性、规则归纳覆盖范围等多个维度。
结果：
- 详细评估了一个问题的推理步骤，展示了如何通过多维度的评分标准来评估模型的推理过程。

5. 跨语言翻译性能评估

数据集：使用 FLORES-200 数据集的子集，包含 2009 个句子，覆盖 204 种语言。
模型：评估了 Gemini-2.5-flash 模型在不同语言对之间的翻译性能。
评估指标：使用 chrF（character n-gram F-score）评估翻译质量。
结果：
- E → T（英语到目标语言）：平均 chrF 得分 43.92。
- T → E（目标语言到英语）：平均 chrF 得分 64.27。
- 资源类别影响：资源丰富的语言表现更好，资源匮乏的语言表现较差。

实验结论

多智能体架构：多轮推理显著提高了模型的性能，表明多智能体架构能够更好地处理复杂的语言学问题。
语法知识检索：引入语法知识检索可以进一步提升模型的性能，尤其是在有参考语法书籍的情况下。
推理步骤评估：通过详细的推理步骤评估，可以更全面地了解模型的推理过程，为改进模型提供指导。
跨语言翻译：资源匮乏的语言在翻译任务中表现较差，表明需要进一步改进模型在低资源语言上的性能。

这些实验结果表明，LingBench++ 和多智能体架构在评估和提升 LLMs 的语言学推理能力方面具有显著优势。

Q: 有什么可以进一步探索的点？

A: 论文中提出的 LingBench++ 基准测试框架和多智能体架构为评估和改进大型语言模型（LLMs）在复杂语言任务上的推理能力提供了新的视角和方法。然而，仍有一些可以进一步探索的点，以进一步提升模型的性能和泛化能力：

1. 推理步骤的自动化评估

当前状态：虽然论文提出了详细的推理步骤评估方法，但这些评估主要依赖于人工标注和判断，成本较高且难以大规模应用。
进一步探索：开发自动化的推理步骤评估工具，能够自动识别和评分模型生成的推理步骤。这可能需要结合自然语言处理技术，如语义相似度计算、逻辑结构分析等。

2. 多模态数据的整合

当前状态：IOL 问题中包含多模态数据，如图像、符号系统等，但目前的模型在处理这些多模态数据时表现有限。
进一步探索：开发更强大的多模态模型，能够更好地整合文本、图像、符号等多种模态的数据。这可能需要结合计算机视觉和自然语言处理的最新进展，如多模态预训练模型。

3. 跨语言和跨文化推理的泛化能力

当前状态：虽然 LingBench++ 提供了丰富的语言类型学元数据，但模型在低资源语言和跨文化推理任务上的表现仍有待提高。
进一步探索：研究如何提高模型在低资源语言和跨文化推理任务上的泛化能力。这可能需要开发新的数据增强技术、迁移学习方法和跨语言预训练模型。

4. 多智能体架构的优化

当前状态：多智能体架构在多轮推理中表现出了优势，但具体的智能体角色和交互机制仍有改进空间。
进一步探索：优化多智能体架构，例如引入更多的智能体角色（如验证智能体、纠错智能体等），并设计更高效的智能体交互机制。此外，可以研究如何动态调整智能体的数量和类型，以适应不同复杂度的问题。

5. 语法知识检索的改进

当前状态：语法知识检索在某些问题上提升了模型的性能，但其效果依赖于参考语法书籍的可用性和质量。
进一步探索：开发更智能的语法知识检索系统，能够自动从互联网上收集和整理语法知识，并将其整合到模型的推理过程中。此外，可以研究如何利用机器学习技术自动提取和总结语法知识。

6. 长期推理和记忆机制

当前状态：现有的推理模型主要关注短期推理，缺乏长期推理和记忆机制。
进一步探索：开发具有长期推理和记忆机制的模型，能够记住和利用之前的推理结果，从而更高效地解决复杂的多步推理问题。这可能需要结合神经符号计算和记忆网络的最新进展。

7. 跨领域推理能力

当前状态：虽然 LingBench++ 主要关注语言学推理，但类似的推理能力在其他领域（如数学、科学等）也有重要应用。
进一步探索：将 LingBench++ 的方法和框架扩展到其他领域，开发跨领域的推理基准测试，以评估和改进模型在不同领域的推理能力。

8. 模型的可解释性和透明度

当前状态：虽然论文提出了详细的推理步骤评估方法，但模型的内部决策过程仍然难以完全理解。
进一步探索：开发更强大的模型解释工具，能够可视化和解释模型的推理过程。这可能需要结合可解释性人工智能（XAI）技术和自然语言处理的最新进展。

通过这些进一步的探索，可以更全面地评估和改进大型语言模型在复杂语言任务上的推理能力，从而推动自然语言处理技术的发展。

Q: 总结一下论文的主要内容

A: 这篇论文提出了 LingBench++，这是一个用于评估大型语言模型（LLMs）在复杂语言学任务上的推理能力的基准测试框架。它通过提供结构化的推理痕迹、逐步评估协议和丰富的语言类型学元数据，超越了仅评估最终答案准确性的传统方法。以下是论文的主要内容总结：

研究背景

国际语言学奥林匹克竞赛（IOL）提出了需要从微观数据中归纳语言规则的独特挑战性问题，这些任务不仅测试表面模式识别能力，还要求多步抽象、结构化推理和文化推理。
尽管大型语言模型（如 GPT-4 和 Gemini）在许多推理相关任务上表现出色，但它们解决 IOL 风格问题的能力，尤其是涉及多模态符号、罕见脚本或类型学多样性的问题，尚未得到充分探索。

研究方法

LingBench++ 基准测试框架：该框架包含 96 个 IOL 问题（225 个子问题），涵盖超过 90 种低资源和跨文化语言。每个问题都附有详细的推理步骤和官方解决方案。
类型学注释：每个问题都标注了多个语言学维度，包括主题（如形态学、音系学等）、问题类型（如 Rosetta、匹配等）和主题（如亲属关系、数字等）。此外，还记录了每种语言的语言家族、Glottocode 和使用人数。
多智能体架构：开发了一个多智能体架构，整合了语法知识检索、工具增强推理和假设检验。该架构包括求解智能体、聚合智能体和语法智能体。
评估协议和指标：提出了一个详细的评估协议，包括最终解决方案的评分和推理步骤的质量评估。最终解决方案的评分基于金标准规则清单，而推理步骤的评估则涉及多个维度，如逻辑有效性、信息结构完整性等。

实验设计

基准模型性能评估：评估了两种基线模型（OpenAI-o4-mini 和 Gemini-2.5-pro）在 LingBench++ 上的性能。
多智能体架构性能评估：评估了多智能体架构（Mixture-of-Agents, MoA）的不同配置，包括 2 轮和 3 轮推理。
语法知识检索的性能评估：评估了引入语法知识检索的多智能体架构在有参考语法书籍的问题上的性能。
推理步骤评估：对一个具体的 IOL 问题进行了详细的推理步骤评估，展示了如何通过多维度的评分标准来评估模型的推理过程。
跨语言翻译性能评估：使用 FLORES-200 数据集评估了 Gemini-2.5-flash 模型在不同语言对之间的翻译性能。

关键结论

多智能体架构的优势：多轮推理显著提高了模型的性能，表明多智能体架构能够更好地处理复杂的语言学问题。
语法知识检索的效果：引入语法知识检索可以进一步提升模型的性能，尤其是在有参考语法书籍的情况下。
推理步骤评估的重要性：通过详细的推理步骤评估，可以更全面地了解模型的推理过程，为改进模型提供指导。
跨语言翻译的挑战：资源匮乏的语言在翻译任务中表现较差，表明需要进一步改进模型在低资源语言上的性能。

进一步探索的方向

推理步骤的自动化评估：开发自动化的推理步骤评估工具，以降低人工标注的成本并提高评估的效率。
多模态数据的整合：开发更强大的多模态模型，能够更好地整合文本、图像、符号等多种模态的数据。
跨语言和跨文化推理的泛化能力：研究如何提高模型在低资源语言和跨文化推理任务上的泛化能力。
多智能体架构的优化：优化多智能体架构，引入更多的智能体角色和更高效的交互机制。
语法知识检索的改进：开发更智能的语法知识检索系统，自动从互联网上收集和整理语法知识。
长期推理和记忆机制：开发具有长期推理和记忆机制的模型，以更高效地解决复杂的多步推理问题。
跨领域推理能力：将 LingBench++ 的方法和框架扩展到其他领域，开发跨领域的推理基准测试。
模型的可解释性和透明度：开发更强大的模型解释工具，能够可视化和解释模型的推理过程。

通过这些研究方法和实验，论文展示了 LingBench++ 在评估和改进大型语言模型的语言学推理能力方面的潜力，并提出了未来研究的方向。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Da-Chen Lian, Ri-Sheng Huang, Pin-Er Chen, Chunki Lim, You-Kuan Lin, Guan-Yu Tseng, Zi-Cheng Yang, Shu-Kai Hsieh

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.16809v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16809v1

Published: 2025-07-22T17:57:44Z

2. Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent

The rapid advancement of large language models (LLMs) has enabled role-playing language agents to demonstrate significant potential in various applications. However, relying solely on prompts and contextual inputs often proves insufficient for achieving deep immersion in specific roles, particularly well-known fictional or public figures. On the other hand, fine-tuning-based approaches face limitations due to the challenges associated with data collection and the computational resources required for training, thereby restricting their broader applicability. To address these issues, we propose Test-Time-Matching (TTM), a training-free role-playing framework through test-time scaling and context engineering. TTM uses LLM agents to automatically decouple a character’s features into personality, memory, and linguistic style. Our framework involves a structured, three-stage generation pipeline that utilizes these features for controlled role-playing. It achieves high-fidelity role-playing performance, also enables seamless combinations across diverse linguistic styles and even variations in personality and memory. We evaluate our framework through human assessment, and the results demonstrate that our method achieves the outstanding performance in generating expressive and stylistically consistent character dialogues.

中文摘要

大型语言模型（LLMs）的快速发展使得角色扮演语言代理在各种应用中展现出显著的潜力。然而，仅依赖提示和上下文输入通常不足以实现对特定角色的深度沉浸，尤其是对知名的虚构或公众人物。另一方面，基于微调的方法由于数据收集和训练所需计算资源的挑战而面临限制，从而限制了它们更广泛的适用性。为了解决这些问题，我们提出了测试时匹配（TTM）框架，这是一种无需训练的角色扮演框架，通过测试时缩放和上下文工程实现。TTM利用LLM代理自动将角色的特征解耦为个性、记忆和语言风格。我们的框架涉及一个结构化的三阶段生成管道，利用这些特征进行可控的角色扮演。它实现了高保真的角色扮演性能，并允许在多样的语言风格以及个性和记忆的变化之间进行无缝组合。我们通过人工评估来评估我们的框架，结果表明我们的方法在生成富有表现力和风格一致的角色对话方面表现出色。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何在基于大型语言模型（LLM）的角色扮演语言代理（RPLA）中实现更深入的角色沉浸和更精细的角色特征控制的问题。具体而言，它旨在解决以下两个主要问题：

角色沉浸不足：仅依靠提示（prompts）和上下文输入通常不足以实现对特定角色（尤其是知名虚构角色或公众人物）的深度沉浸。角色的个性、记忆和语言风格等特征需要更细致的建模和控制，才能使角色扮演更加真实和一致。
参数训练方法的局限性：基于微调（fine-tuning）的方法由于数据收集困难和训练所需的大量计算资源，限制了其广泛应用。此外，这些方法通常将角色的个性、记忆和语言风格等特征集成在一起，缺乏对这些特征的解耦和独立控制，从而降低了角色扮演的灵活性和可定制性。

Q: 有哪些相关研究？

A: 论文中提到了多个与角色扮演语言代理（RPLA）和文本风格转换（text-style transfer）相关的研究。以下是主要的相关研究：

角色扮演语言代理（RPLA）相关研究

数据集构建：研究者们探索了多种构建高质量RPLA数据集的方法，包括手动创建（Zhou et al. 2024）、自动提取技术（Li et al. 2023a; Wang et al. 2025）以及基于LLM的合成数据生成（Zhou et al. 2024; Wang et al. 2024a; Lu et al. 2024; Li et al. 2024）。
参数化训练：许多研究通过参数化训练策略来提升RPLA的性能和保真度，这些策略通常以结构化的角色档案作为基础数据来指导对话生成（Zhou et al. 2024; Wang et al. 2024a; Lu et al. 2024; Yang et al. 2024; Wang et al. 2025）。此外，一些框架整合了历史对话和体验记忆以保持对话的连续性（Li et al. 2023b; Wang et al. 2024a; Li et al. 2024; Wang et al. 2025），还有研究引入了叙事元素如情节和世界观构建，以使互动置于连贯的虚构或现实场景中（Shao et al. 2023; Yang et al. 2024; Wang et al. 2025）。
非参数化提示：另一条研究路线是通过非参数化提示技术实现RPLA，这些技术旨在无需额外训练即可实现角色一致的行为，主要包括提示工程、上下文学习和检索增强生成（Tu et al. 2023; Li et al. 2023a; Wang et al. 2024a; Huang et al. 2024）。
评估：与RPLA构建和训练的进步相平行，一些研究（Tu et al. 2024; Wang et al. 2024b; Lu et al. 2024; Dai et al. 2025）专注于开发自动评估框架，以评估特定角色中RPLA的性能和保真度。然而，专家人工评估仍然是评估角色扮演表现最权威和有说服力的衡量标准。

文本风格转换相关研究

文本风格转换的挑战：文本风格转换的挑战在于缺乏平行语料库，使得直接应用监督学习方法变得困难（Dai et al. 2019）。此外，风格转换的质量本质上难以量化和客观评估。
风格与内容的解耦：以往的研究主要集中在文本生成中解耦风格和内容（Lee et al. 2021; Zhu et al. 2023），但在转换过程中往往难以保留原始语义内容。
端到端模型：更近期的方法探索了用于文本风格转换的端到端模型（Dai et al. 2019; Lyu et al. 2023; Roy et al. 2023; Tao et al. 2024）。例如，Style Transformer（Dai et al. 2019）不对源句的潜在表示施加先验假设，而是使用额外的判别器网络提供显式的风格监督。Roy et al. (2023)通过风格移除和少样本上下文学习实现风格转换。CAT-LLM（Tao et al. 2024）引入了一个可插入的文本风格定义模块，从输入文本中提取风格特征，通过LLM实现零样本风格转换。

这些相关研究为本文提出的Test-Time-Matching（TTM）框架提供了背景和基础，TTM旨在通过测试时缩放和上下文工程来实现高保真度的角色扮演性能。

Q: 论文如何解决这个问题？

A: 论文提出了一个名为Test-Time-Matching（TTM）的框架，通过测试时缩放（test-time scaling）和上下文工程（context engineering）来解决角色扮演语言代理（RPLA）中的角色沉浸不足和参数训练方法局限性的问题。TTM框架的核心在于将角色的特征（个性、记忆和语言风格）进行解耦，并通过一个结构化的三阶段生成流程来实现可控的角色扮演。以下是TTM框架解决问题的具体方法：

1. 自动提取和分析角色相关特征

TTM框架首先从文本输入中自动提取和分析角色的个性、记忆和语言风格。具体步骤如下：

个性分析（Personality Analysis）：通过分析与目标角色相关的文本片段，使用LLM生成角色的个性特征描述，并将这些描述综合成一个全面的个性档案。为了保持描述的多样性和具体性，使用精心设计的提示来约束LLM的输出。
记忆机制（Memory Mechanism）：将对话的即时历史视为短期记忆，捕捉会话内的上下文。对于长期记忆，从文本片段中总结角色的背景信息，并构建一个基于图的向量数据库，用于编码和检索角色的细粒度个人特质、经历和关系信息。

2. 三阶段生成流程

TTM框架通过一个结构化的三阶段生成流程来生成高保真度的角色扮演对话：

第一阶段：生成无风格响应（Styleless Response Generation）：基于角色的个性和背景，生成一个无风格的响应。这个响应仅包含角色的核心行为和倾向特征，独立于语言风格。
第二阶段：记忆检查响应（Memory-checked Response Generation）：使用检索增强生成（RAG）技术，根据第一阶段生成的无风格响应，从外部数据库中检索相关知识，以纠正事实错误或添加上下文相关的细节。通过查询重写技术，提高检索的准确性和效率。
第三阶段：语言风格注入（Linguistic Style Injection）：将角色的语言风格整合到第二阶段生成的记忆检查响应中。通过检索角色历史对话中的语句，并结合逐步匹配（progressive matching）技术，将目标角色的语言风格应用于响应，使其与角色的语言习惯保持一致。

3. 测试时缩放和上下文工程

TTM框架通过测试时缩放和上下文工程来增强角色扮演的性能，而无需对模型进行微调。具体方法如下：

测试时缩放（Test-Time Scaling）：在测试阶段，通过上下文工程和检索增强生成技术，动态调整模型的输出，使其更符合目标角色的特征。
上下文工程（Context Engineering）：通过精心设计的提示和上下文输入，引导LLM生成更符合角色特征的响应。例如，在生成无风格响应时，将角色的个性和背景信息作为系统提示提供给LLM。

4. 评估和优化

TTM框架通过人类评估和自动评估方法来验证其有效性。具体评估指标包括：

角色一致性（Consistency of Persona, C.P.）：评估代理的对话风格和行为特征是否与所扮演的角色一致。
知识准确性（Accuracy of Knowledge, A.K.）：评估代理是否展示了准确且与角色背景相关的知识，包括正确表达相关信息以及避免与角色已知属性或设置不一致的陈述。
对话质量（Quality of Conversation, Q.C.）：评估对话的整体质量，包括流畅性、参与度以及评估者是否愿意继续与代理进行有意义的深入对话。

通过这些方法，TTM框架能够显著提升LLM在角色扮演任务中的表现，生成更具表现力和风格一致性的角色对话。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估Test-Time-Matching（TTM）框架在角色扮演任务中的性能：

实验设置

角色选择：从经典中文和英文小说中提取角色，包括《红楼梦》中的林黛玉、《天龙八部》中的段誉和虚竹，以及《哈利·波特》中的邓布利多和赫敏，还有《傲慢与偏见》中的伊丽莎白。
对话轮数：为每个角色进行4-6轮对话。
样本数量：每个角色和方法生成一个对话样本。
评估维度：从三个维度评估对话质量：
- 角色一致性（Consistency of Persona, C.P.）：评估对话风格和行为特征是否与角色一致。
- 知识准确性（Accuracy of Knowledge, A.K.）：评估对话中角色相关知识的准确性和上下文适应性。
- 对话质量（Quality of Conversation, Q.C.）：评估对话的整体质量，包括流畅性、参与度和是否愿意继续对话。

评估方法

人类评估：包括普通参与者和语言学专家的评估。共有12名普通参与者和5名语言学专家参与评估，每位评估者需要花费超过50分钟完成评估。
LLM-as-Judge：使用GPT-4.1作为评估模型，通过比较两个对话样本并给出评分来评估对话质量。

对比方法

RPLA方法：
- ChatHaruhi：基于Qwen-3-32B的角色扮演方法。
- CoSER：基于LLaMA-3.1-70B的角色扮演方法。
通用LLM：
- GPT-4o：基于OpenAI的GPT-4o模型。
- Gemini-2.5-pro：基于Google的Gemini-2.5-pro模型。
- Qwen-3-235B-A22B：基于Qwen-3的模型。
- Qwen-3-32B：基于Qwen-3的模型。

实验结果

人类评估结果：TTM在角色一致性（C.P.）、知识准确性（A.K.）和对话质量（Q.C.）三个维度上均表现出色，尤其是在角色一致性和知识准确性方面，显著优于其他方法。具体评分如下表所示：

方法

基础模型

LLM-as-Judge

普通参与者

语言学专家

ChatHaruhi

Qwen-3-32B

8.64/8.73/8.61

6.13/6.42/6.04

5.80/7.35/5.85

CoSER

LLaMA-3.1-70B

7.47/8.47/7.56

6.31/6.67/6.44

6.07/7.47/5.87

GPT-4o

7.79/8.48/7.89

5.79/6.15/5.79

4.97/7.07/5.27

Gemini-2.5-pro

9.10/9.53/9.15

6.99/7.38/6.99

6.10/7.47/6.40

Qwen-3-235B-A22B

8.63/8.89/8.68

6.38/6.56/6.36

5.90/7.37/6.37

Qwen-3-32B

8.03/8.47/8.21

6.50/6.57/6.43

5.43/7.37/6.00

TTM (Ours)

Qwen-3-32B

9.21/9.56/9.27

7.26/7.49/7.07

6.43/7.60/6.30

LLM-as-Judge结果：使用GPT-4.1作为评估模型，TTM在所有维度上均获得了较高的评分，与人类评估结果一致。具体评分如下表所示：

方法

基础模型

LLM-as-Judge

ChatHaruhi

Qwen-3-32B

8.64/8.73/8.61

CoSER

LLaMA-3.1-70B

7.47/8.47/7.56

GPT-4o

7.79/8.48/7.89

Gemini-2.5-pro

9.10/9.53/9.15

Qwen-3-235B-A22B

8.63/8.89/8.68

Qwen-3-32B

8.03/8.47/8.21

TTM (Ours)

Qwen-3-32B

9.21/9.56/9.27

结论

实验结果表明，TTM框架在角色一致性、知识准确性和对话质量方面均优于其他方法，尤其是在角色一致性和知识准确性方面表现突出。这表明TTM通过解耦个性、记忆和语言风格，并结合测试时缩放和上下文工程，能够显著提升角色扮演的性能。

Q: 有什么可以进一步探索的点？

A: 尽管Test-Time-Matching（TTM）框架在角色扮演任务中取得了显著的性能提升，但论文中也提到了一些局限性和可以进一步探索的方向。以下是一些可以进一步探索的点：

1. 计算效率优化

三阶段生成流程的优化：TTM的三阶段生成流程虽然能够生成高质量的角色对话，但会增加测试时的计算成本。可以探索更高效的生成流程，例如通过模型压缩、优化检索算法或引入并行处理来减少计算时间和资源消耗。
动态调整生成阶段：根据对话的具体需求动态调整是否需要进行记忆检查或语言风格注入，以避免不必要的计算开销。

2. 信息提取和分析的准确性

自动提取信息的准确性：虽然TTM能够自动提取角色的个性、记忆和语言风格，但提取的信息可能存在不准确或不完整的描述。可以进一步研究如何提高信息提取的准确性和完整性，例如通过引入更复杂的自然语言处理技术或使用多模态数据来辅助提取。
手动调整和验证：提供更便捷的工具和方法，让用户能够手动调整和验证自动提取的角色特征，以确保生成的角色对话更符合用户的期望。

3. 语言风格的进一步优化

风格一致性：尽管TTM在语言风格的一致性上取得了较好的效果，但在某些情况下，生成的对话可能仍然存在风格不一致的问题。可以进一步研究如何更好地保持整个对话过程中的语言风格一致性，例如通过引入更细粒度的风格特征或使用风格一致性检测机制。
风格多样性：探索如何在保持角色语言风格一致性的同时，增加对话的风格多样性，使对话更加自然和生动。

4. 角色记忆的管理

记忆数据库的优化：TTM使用了一个基于图的向量数据库来存储角色的长期记忆，但这种数据库的构建和维护成本较高。可以研究更高效的记忆数据库架构，例如通过知识图谱或分布式存储来优化记忆管理。
记忆的时效性和动态更新：角色的记忆应该是动态更新的，以反映角色在对话过程中的经历和变化。可以探索如何实现角色记忆的时效性和动态更新，使角色能够根据最新的对话内容调整其行为和反应。

5. 多模态角色扮演

引入多模态信息：目前TTM主要依赖文本信息进行角色扮演，可以探索如何引入多模态信息（如图像、音频等）来丰富角色的表达和互动体验。例如，通过分析角色的外观或语音特征来进一步优化角色的语言风格和行为。
多模态对话生成：研究如何生成包含多种模态的角色对话，使角色不仅能够通过文字表达自己，还能通过语音、表情和动作等方式与用户进行互动。

6. 跨语言和跨文化角色扮演

跨语言角色扮演：TTM目前主要针对特定语言的角色进行研究，可以探索如何实现跨语言的角色扮演，使角色能够与不同语言背景的用户进行互动。
跨文化角色扮演：研究如何在角色扮演中更好地体现跨文化差异，使角色能够适应不同文化背景下的对话场景和行为规范。

7. 伦理和社会影响

身份表示和偏见：角色扮演可能会涉及对特定身份或群体的表示，需要进一步研究如何避免偏见和刻板印象的产生，确保角色的表示更加公正和包容。
用户行为影响：角色扮演可能会对用户的行为和态度产生影响，需要进一步研究如何通过角色扮演促进积极的用户行为，同时避免潜在的负面影响。
有害内容生成：研究如何防止角色扮演生成有害或不适当的内容，确保对话的安全性和合规性。

8. 应用扩展

商业应用：探索TTM在商业场景中的应用，如虚拟客服、智能助手、教育工具等，研究如何根据不同的商业需求定制角色扮演功能。
娱乐应用：研究TTM在游戏、影视等娱乐领域中的应用，例如开发更具沉浸感的角色扮演游戏或虚拟角色互动体验。

通过进一步探索这些方向，可以进一步提升TTM框架的性能和应用范围，为角色扮演语言代理的发展提供更多的可能性。

Q: 总结一下论文的主要内容

A: 当然，以下是论文《Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent》的主要内容总结：

论文标题

Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent

作者

Xiaoyu Zhan, Xinyu Fu, Hao Sun, Yuanqi Li, Jie Guo, and Yanwen Guo*

机构

Nanjing University

摘要

论文提出了一种名为Test-Time-Matching（TTM）的框架，旨在通过测试时缩放（test-time scaling）和上下文工程（context engineering）来实现高保真度的角色扮演。TTM通过解耦角色的个性、记忆和语言风格，并利用结构化的三阶段生成流程，实现了可控的角色扮演。实验结果表明，TTM在生成表达丰富且风格一致的角色对话方面表现出色。

研究背景

角色扮演语言代理（RPLA）在各种应用中展现出巨大潜力，但现有方法存在局限性：基于微调的方法因数据收集和计算资源需求而受限，而仅依赖提示和上下文输入的方法难以实现深度角色沉浸。TTM框架通过解耦角色的个性、记忆和语言风格，克服了这些限制，实现了更模块化和可控的角色扮演行为。

方法

TTM框架包括两个主要部分：自动信息提取与分析，以及结构化的三阶段生成流程。

自动信息提取与分析：
- 个性分析：通过分析与目标角色相关的文本片段，生成角色的个性特征描述，并综合成全面的个性档案。
- 记忆机制：将对话的即时历史视为短期记忆，从文本片段中总结角色的背景信息，并构建基于图的向量数据库以支持长期记忆。
三阶段生成流程：
- 第一阶段：无风格响应生成：基于角色的个性和背景，生成一个无风格的响应，确保核心行为和倾向特征嵌入输出。
- 第二阶段：记忆检查响应生成：通过检索增强生成（RAG）技术，利用第一阶段的响应检索相关知识，纠正事实错误或添加上下文相关细节。
- 第三阶段：语言风格注入：通过检索角色历史对话中的语句，并结合逐步匹配技术，将目标角色的语言风格应用于响应。

实验

实验评估了TTM框架在角色扮演任务中的性能，与现有的RPLA方法和通用LLM进行了对比。评估维度包括角色一致性（C.P.）、知识准确性（A.K.）和对话质量（Q.C.）。

角色选择：从经典中文和英文小说中提取角色，包括《红楼梦》中的林黛玉、《天龙八部》中的段誉和虚竹，以及《哈利·波特》中的邓布利多和赫敏，还有《傲慢与偏见》中的伊丽莎白。
评估方法：包括普通参与者和语言学专家的人类评估，以及使用GPT-4.1的LLM-as-Judge自动评估。

结果

TTM在所有评估维度上均表现出色，尤其是在角色一致性和知识准确性方面显著优于其他方法。具体评分如下表所示：

方法

基础模型

LLM-as-Judge

普通参与者

语言学专家

ChatHaruhi

Qwen-3-32B

8.64/8.73/8.61

6.13/6.42/6.04

5.80/7.35/5.85

CoSER

LLaMA-3.1-70B

7.47/8.47/7.56

6.31/6.67/6.44

6.07/7.47/5.87

GPT-4o

7.79/8.48/7.89

5.79/6.15/5.79

4.97/7.07/5.27

Gemini-2.5-pro

9.10/9.53/9.15

6.99/7.38/6.99

6.10/7.47/6.40

Qwen-3-235B-A22B

8.63/8.89/8.68

6.38/6.56/6.36

5.90/7.37/6.37

Qwen-3-32B

8.03/8.47/8.21

6.50/6.57/6.43

5.43/7.37/6.00

TTM (Ours)

Qwen-3-32B

9.21/9.56/9.27

7.26/7.49/7.07

6.43/7.60/6.30

结论

TTM框架通过解耦角色的个性、记忆和语言风格，并结合测试时缩放和上下文工程，显著提升了角色扮演的性能。尽管取得了显著进展，但TTM在部署时仍需考虑伦理和社会影响，如身份表示、用户行为影响和有害内容生成等问题。此外，TTM的三阶段生成流程虽然能够生成高质量的角色对话，但会增加测试时的计算成本，需要进一步优化以提高效率。

限制

尽管TTM取得了显著优势，但论文也指出了其局限性，包括三阶段生成流程带来的额外计算成本、自动提取信息的准确性问题以及逐步匹配可能导致的句子间连贯性问题。这些限制为未来的研究提供了方向。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Xiaoyu Zhan, Xinyu Fu, Hao Sun, Yuanqi Li, Jie Guo, Yanwen Guo

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.16799v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16799v2

Published: 2025-07-22T17:47:44Z

3. Speech as a Multimodal Digital Phenotype for Multi-Task LLM-based Mental Health Prediction

Speech is a noninvasive digital phenotype that can offer valuable insights into mental health conditions, but it is often treated as a single modality. In contrast, we propose the treatment of patient speech data as a trimodal multimedia data source for depression detection. This study explores the potential of large language model-based architectures for speech-based depression prediction in a multimodal regime that integrates speech-derived text, acoustic landmarks, and vocal biomarkers. Adolescent depression presents a significant challenge and is often comorbid with multiple disorders, such as suicidal ideation and sleep disturbances. This presents an additional opportunity to integrate multi-task learning (MTL) into our study by simultaneously predicting depression, suicidal ideation, and sleep disturbances using the multimodal formulation. We also propose a longitudinal analysis strategy that models temporal changes across multiple clinical interactions, allowing for a comprehensive understanding of the conditions’ progression. Our proposed approach, featuring trimodal, longitudinal MTL is evaluated on the Depression Early Warning dataset. It achieves a balanced accuracy of 70.8%, which is higher than each of the unimodal, single-task, and non-longitudinal methods.

中文摘要

言语是一种非侵入性的数字表型，可以为心理健康状况提供有价值的洞见，但它常常被视为单一的模态。相比之下，我们建议将患者的言语数据视为三模态多媒体数据源，以进行抑郁症的检测。本研究探讨了基于大型语言模型架构在多模态框架中对言语基础的抑郁预测潜力，该框架整合了从言语中提取的文本、声学特征和声学生物标志物。青少年抑郁症呈现出重大挑战，且常常与多种障碍共病，例如自杀意念和睡眠障碍。这为我们的研究提供了一个额外的机会，通过同时使用多模态形式预测抑郁症、自杀意念和睡眠障碍，整合多任务学习（MTL）。我们还提出了一种纵向分析策略，该策略建模了多个临床互动中的时间变化，从而允许对病情进展进行全面理解。我们提出的方法，具有三模态、纵向MTL，在抑郁症早期警告数据集上进行了评估。它达到了70.8%的平衡准确率，超过了每种单模态、单任务和非纵向方法的表现。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何利用语音作为多模态数字表型（digital phenotype）来预测青少年抑郁症及其相关共病（如自杀意念和睡眠障碍）的问题。具体而言，其主要目标包括：

提出一种将患者语音数据视为三模态（trimodal）多媒体数据源的方法，用于抑郁症的检测。该方法整合了语音衍生的文本、声学地标（acoustic landmarks）和声音生物标志物（vocal biomarkers）。
探索基于大型语言模型（LLM）的架构在多模态环境中进行语音基础抑郁症预测的潜力。
在多任务学习（MTL）框架下，同时预测抑郁症、自杀意念和睡眠障碍，以提高模型对这些相互关联的精神健康问题的预测能力。
提出一种纵向分析策略，通过建模多次临床互动中的时间变化，全面理解这些精神健康问题的进展。

Q: 有哪些相关研究？

A: 以下是与本论文相关的研究：

基于语音语义和文本的预测

Xu et al. [7]：对广泛使用的通用大型语言模型（LLM）在心理健康分类任务中的表现进行了系统基准测试。他们发现这些模型在零样本（zero-shot）和少样本（few-shot）场景下展现出有限但有希望的潜力，并引入了两个针对多任务心理健康分类进行指令微调的新LLM——Mental-Alpaca和Mental-FLAN-T5，它们的表现优于一些更大的预训练模型。
纵向方法：一些研究利用患者不同时间点的文本样本之间的联系，通过LLM的对话性质来分析患者治疗轨迹的时间依赖性。例如，有研究使用长时间收集的推文（tweets）与LLM进行“对话”，以生成能够捕捉患者数据时间依赖性的预测。

基于声音生物标志物的预测

Tasnim et al. [14]：提出了一个用于机器学习基础抑郁症检测的数据集，该数据集从患者语音样本中提取了基于临床领域知识的手工策划的声音生物标志物（如基频、梅尔频率倒谱系数（MFCC）等），以增强预测能力。

基于声学地标的预测

Hu et al. [9]：介绍了一种从语音样本中提取声学地标的多阶段策略。这些地标是代表语言和发音模式的离散符号序列，为原始文本转录增加了关键维度。他们采用低秩适应矩阵（LoRA）对LLM进行微调，以开发地标的潜在表示，并在组合模型上应用提示（prompt）调整进行抑郁症分类，取得了最先进的结果。

多任务学习用于心理健康

Authors: Mai Ali, Christopher Lucasius, Tanmay P. Patel, Madison Aitken, Jacob Vorstman, Peter Szatmari, Marco Battaglia, Deepa Kundur

Categories: cs.CL, cs.MM

PDF URL: https://arxiv.org/pdf/2505.23822v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2505.23822v3

Published: 2025-05-28T04:07:17Z

4. Universal Model Routing for Efficient LLM Inference

Model routing is a simple technique for reducing the inference cost of large language models (LLMs), wherein one maintains a pool of candidate LLMs, and learns to route each prompt to the smallest feasible LLM. Existing works focus on learning a router for a fixed pool of LLMs. In this paper, we consider the problem of dynamic routing, where new, previously unobserved LLMs are available at test time. We propose UniRoute, a new approach to this problem that relies on representing each LLM as a feature vector, derived based on predictions on a set of representative prompts. Based on this, we detail two effective instantiations of UniRoute, relying on cluster-based routing and a learned cluster map respectively. We show that these are estimates of a theoretically optimal routing rule, and quantify their errors via an excess risk bound. Experiments on a range of public benchmarks show the effectiveness of UniRoute in routing amongst more than 30 unseen LLMs.

中文摘要

模型路由是一种简单的技术，用于降低大型语言模型（LLMs）的推理成本，其方法是维护一组候选的LLM，并学习将每个提示路由到最小可行的LLM。现有研究主要集中在为固定的LLM池学习一个路由器。在本文中，我们考虑动态路由的问题，其中在测试时可用新的以前未观察到的LLM。我们提出了UniRoute，这是一种针对该问题的新方法，依赖于将每个LLM表示为一个特征向量，该向量是基于一组代表性提示的预测得出的。基于此，我们详细介绍了UniRoute的两种有效实例，分别依赖于基于聚类的路由和学习的聚类图。我们表明这些是理论上最优路由规则的估计，并通过过量风险界限量化它们的误差。在一系列公共基准测试上的实验显示，UniRoute在路由超过30个未见过的LLM方面的有效性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在动态候选池中的大型语言模型（LLM）高效推理时的模型路由问题。具体来说，论文关注的是如何在测试时动态地从一组未见过的LLM中选择最合适的模型来进行推理，同时在保证推理质量的前提下最小化推理成本。现有的模型路由方法大多集中在固定候选池的LLM上，而在实际应用中，候选LLM的集合可能会不断变化，例如旧的LLM可能会被新的、性能更好的LLM所取代。因此，论文提出了一种新的方法，使得训练好的路由系统能够在测试时利用这些新的LLM，而无需重新训练。

Q: 有哪些相关研究？

A: 论文中提到了多个与模型路由（model routing）相关的研究方向和具体工作，这些研究为本文提出的动态模型路由方法提供了背景和基础。以下是相关研究的分类和概述：

模型路由（Model Routing）

静态模型池的路由方法：大多数现有工作都集中在固定候选池的LLM上，例如：
- Pareto-random routing：一种简单的输入无关路由方法，通过在Pareto前沿的LLM之间随机选择来实现成本和质量的权衡。
- 基于学习的路由方法：通过学习每个LLM的性能来预测最适合的模型，例如使用K-NN、线性模型或矩阵分解等方法。
- GraphRouter：利用图神经网络来关联LLM、提示和任务，从而实现更复杂的路由策略。

动态模型池的路由方法

动态路由的挑战：当候选LLM集合在测试时发生变化时，如何有效地利用新的LLM而无需重新训练路由系统。
- Feng et al. [2024]：提出了一种基于图神经网络的方法，但需要预定义的任务标签。
- Li [2025]：通过LLM在基准数据上的表现来构建模型身份向量，但需要变分推断训练。
- Zhao et al. [2024]：考虑了动态LoRA池的路由问题，通过对比学习来训练嵌入向量。

模型融合（Model Fusion）

模型融合与模型路由的对比：模型融合的目标是通过组合多个模型来提高推理质量，而不是像模型路由那样通过选择单个模型来优化成本。
- Mixture of Experts (MoE)：传统的MoE模型专注于学习独立模型的参数和路由规则，但通常不考虑成本因素。

早期退出（Early-Exiting）

自适应计算：通过在中间层提前终止计算来减少推理成本。
- Xin et al. [2020]：提出了一种基于模型置信度的早期退出方法。

推测性解码（Speculative Decoding）

利用两个模型加速推理：使用较小的模型生成草稿，然后由较大的模型验证。
- Stern et al. [2018]：提出了一种基于Transformer的推测性解码方法。

学习拒绝（Learning to Reject）

选择性分类和学习拒绝：这些方法允许模型在不确定时拒绝做出预测，从而提高整体性能。
- Chow [1970]：提出了最优识别错误和拒绝权衡的经典工作。
- Bartlett and Wegkamp [2008]：研究了带有拒绝选项的分类问题。

模型级联（Model Cascading）

模型级联：通过按成本顺序调用模型，并根据输出统计信息决定是否继续调用下一个更昂贵的模型。
- Viola and Jones [2001]：在计算机视觉中提出了级联分类器的经典应用。

零样本学习（Zero-Shot Learning）

使用模型预测向量进行数据选择：通过模型在一组代表性提示上的表现来改进预训练数据选择。
- Thrush et al. [2024]：提出了一种基于困惑度相关性的方法。
- Zhuang et al. [2024]：提出了基于公共基准测试的LLM嵌入方法。

这些相关研究为本文提出的动态模型路由方法提供了理论和实践基础，并展示了在不同场景下模型路由和相关技术的多样化应用。

Q: 论文如何解决这个问题？

A: 论文提出了一种新的方法来解决动态模型路由问题，即在测试时动态地从一组未见过的大型语言模型（LLM）中选择最合适的模型进行推理，同时最小化推理成本。以下是论文解决该问题的主要步骤和方法：

1. 问题定义

论文首先正式定义了动态模型路由问题。假设在训练阶段有一组LLM ( H_{\text{tr}} )，而在测试阶段有一组可能不同的LLM ( H_{\text{te}} )。目标是设计一个动态路由系统 ( r )，能够在测试时从 ( H_{\text{te}} ) 中选择最适合的LLM，同时满足给定的成本预算 ( B )。

2. 最优路由规则

论文分析了动态模型路由问题的最优解，并提出了一个理论上的最优路由规则。具体来说，对于每个输入 ( x ) 和候选LLM集合 ( H )，最优路由规则 ( r^* ) 是： [ r^*(x, H) = \arg\min_{m \in [|H|]} \left( \mathbb{E}_{y|x} [\ell(x, y, h(m))] + \lambda_H \cdot c(h(m)) \right) ] 其中，( \ell(x, y, h(m)) ) 是损失函数，( c(h(m)) ) 是LLM的成本，( \lambda_H ) 是一个调整成本和质量权衡的拉格朗日乘子。

3. LLM的特征表示

为了使路由系统能够处理未见过的LLM，论文提出了一种基于预测正确性的LLM特征表示方法。具体来说，每个LLM ( h ) 被表示为一个特征向量 ( \Psi(h) )，该向量基于 ( h ) 在一组代表性提示上的预测正确性。例如，可以使用一个小的验证集 ( S_{\text{val}} ) 来计算每个LLM的特征向量： [ \Psi(h) = \left( \mathbb{1}(y^{(i)} = h(x^{(i)})) \right){i \in [N{\text{val}}]} ]

4. 基于聚类的路由策略

论文提出了两种基于聚类的路由策略，这些策略利用上述LLM特征表示来选择最适合的LLM。

4.1 无监督聚类

K-means聚类：首先使用K-means算法对训练提示进行聚类，得到 ( K ) 个聚类中心。
计算聚类误差：对于每个测试时的LLM ( h_{\text{te}} )，计算其在每个聚类上的平均误差 ( \hat{\Psi}(h_{\text{te}}) )。
路由规则：对于每个测试提示 ( x )，将其分配到最近的聚类中心，并选择在该聚类上表现最好的LLM： [ \hat{r}(x, H_{\text{te}}) = \arg\min_{n \in [N]} \left( \hat{\gamma}{\text{clust}}(x, h{\text{te}}^{(n)}) + \lambda \cdot c(h_{\text{te}}^{(n)}) \right) ] 其中，( \hat{\gamma}{\text{clust}}(x, h{\text{te}}^{(n)}) = z(x)^\top \hat{\Psi}(h_{\text{te}}^{(n)}) )，( z(x) ) 表示 ( x ) 所属的聚类。

4.2 监督学习聚类

学习聚类映射：使用训练集中的提示和标签，学习一个参数化的聚类映射 ( z(x; \theta) )，该映射将输入提示映射到聚类分布上。
路由规则：与无监督聚类类似，但使用学习到的聚类映射来计算每个提示的聚类分布： [ \hat{r}(x, H_{\text{te}}; \theta) = \arg\min_{n \in [N]} \left( \hat{\gamma}(x, h_{\text{te}}^{(n)}; \theta) + \lambda \cdot c(h_{\text{te}}^{(n)}) \right) ] 其中，( \hat{\gamma}(x, h_{\text{te}}^{(n)}; \theta) = z(x; \theta)^\top \hat{\Psi}(h_{\text{te}}^{(n)}) )。

5. 实验验证

论文通过在多个公共基准数据集上进行实验，验证了所提出方法的有效性。这些数据集包括EmbedLLM、MixInstruct、RouterBench和Chatbot Arena。实验结果表明，基于聚类的路由策略能够在超过30个未见过的LLM中有效地进行路由，同时在质量和成本之间取得了良好的平衡。

6. 理论保证

论文还提供了所提出方法的理论保证，包括一个超额风险界限（excess risk bound），用于量化所提出方法与最优路由规则之间的误差。这一理论结果进一步支持了所提出方法的有效性和可靠性。

通过上述方法，论文成功地解决了动态模型路由问题，使得路由系统能够在测试时动态地选择最适合的LLM，而无需重新训练。

Q: 论文做了哪些实验？

A: 论文通过一系列实验来验证所提出的动态模型路由方法的有效性。这些实验涵盖了多个公共基准数据集，并比较了不同路由策略的性能。以下是实验的详细描述：

实验设置

论文在以下四个公共基准数据集上进行了实验：

EmbedLLM [Zhuang et al., 2024]：包含来自多个LLM的响应，用于评估路由算法。
MixInstruct [Jiang et al., 2023]：包含多种指令跟随任务的数据集。
RouterBench [Hu et al., 2024b]：专门用于评估多LLM路由系统的基准数据集。
Chatbot Arena [Ong et al., 2024]：包含聊天机器人对话数据的数据集。

对于每个数据集，论文将数据分为训练集（60%）、验证集（10%）和测试集（30%）。同时，将每个数据集中的LLM分为训练模型和测试模型，以模拟动态模型池的场景。

实验方法

论文比较了以下几种路由方法：

** Clairvoyant fixed-pool router**：假设所有LLM在训练时都已知，训练一个固定的路由模型。
Pareto-random router：基于Pareto前沿的随机路由方法。
K-NN：基于最近邻的路由方法。
K-means (Gecko)：使用K-means聚类的无监督路由方法，基于Gecko嵌入。
K-means (Attributes)：使用K-means聚类的无监督路由方法，基于查询属性的嵌入。
Learned cluster map：使用监督学习的聚类映射方法。

评估指标

论文使用以下指标来评估路由方法的性能：

Area under the deferral curve (AUC)：表示在不同成本预算下的平均性能提升。
Quality-Neutral Cost (QNC)：表示在达到最准确LLM性能所需的最小相对成本。
Peak Accuracy：表示在所有成本预算下可达到的最高准确率。

实验结果

实验结果如下：

EmbedLLM

AUC：K-means (Gecko) 为 0.650，几乎与 Clairvoyant fixed-pool router 的 0.657 相当。
QNC：K-means (Gecko) 为 0.35，优于 Pareto-random router 的 1.0。
Peak Accuracy：K-means (Gecko) 为 69.3%，接近 Clairvoyant fixed-pool router 的 69.9%。

MixInstruct

AUC：K-means (Gecko) 为 0.489，优于 Pareto-random router 的 0.477。
QNC：K-means (Gecko) 为 0.96，优于 Pareto-random router 的 1.0。
Peak Accuracy：K-means (Gecko) 为 52.4%，接近 Pareto-random router 的 52.8%。

RouterBench

AUC：K-means (Gecko) 为 0.720，优于 Pareto-random router 的 0.692。
QNC：K-means (Gecko) 为 0.961，优于 Pareto-random router 的 1.0。
Peak Accuracy：K-means (Gecko) 为 78.2%，与 Pareto-random router 相当。

Chatbot Arena到EmbedLLM的泛化能力

AUC：K-means (Attributes) 为 0.545，优于 K-means (Gecko) 的 0.529。
QNC：K-means (Attributes) 为 0.97，优于 K-means (Gecko) 的 1.0。
Peak Accuracy：K-means (Attributes) 为 55.8%，优于 K-means (Gecko) 的 54.5%。

关键结论

K-means (Gecko) 和 K-means (Attributes) 在多个数据集上表现优异，尤其是在EmbedLLM和RouterBench上，几乎达到了 Clairvoyant fixed-pool router 的性能。
Learned cluster map 也表现出色，尤其是在 MixInstruct 数据集上。
Pareto-random router 作为一个强基线，在某些数据集上表现良好，但在动态模型池场景下，所提出的方法能够更好地适应新模型。
K-means (Attributes) 在跨数据集泛化（从 Chatbot Arena 到 EmbedLLM）时表现出更强的鲁棒性。

这些实验结果表明，论文提出的基于聚类的路由策略能够在动态模型池场景下有效地选择最适合的LLM，同时在推理成本和性能之间取得了良好的平衡。

Q: 有什么可以进一步探索的点？

A: 论文在动态模型路由方面取得了显著的进展，但仍有一些可以进一步探索的方向。以下是一些潜在的研究点：

1. 改进聚类方法

更复杂的聚类算法：虽然K-means在实验中表现良好，但可以探索更复杂的聚类算法，如层次聚类、谱聚类或基于深度学习的聚类方法，以进一步提高聚类质量和路由性能。
动态聚类：研究如何动态调整聚类中心和聚类数量，以适应不同测试时的LLM集合和查询分布。

2. 增强特征表示

多模态特征：除了文本嵌入和查询属性，可以考虑引入多模态特征（如图像、音频等），以更全面地表示LLM的性能。
自适应特征选择：研究如何自适应地选择最相关的特征，以提高路由的准确性和效率。

3. 提高泛化能力

跨领域泛化：在不同领域（如医疗、金融、教育等）的数据集上验证路由方法的泛化能力，探索如何提高跨领域的适应性。
对抗性训练：引入对抗性训练技术，增强路由系统对分布偏移和对抗性攻击的鲁棒性。

4. 优化路由策略

多目标优化：除了成本和质量的权衡，还可以考虑其他目标，如延迟、资源利用率等，进行多目标优化。
在线学习：研究在线学习方法，使路由系统能够实时适应新到来的LLM和查询，而无需重新训练。

5. 理论分析

更紧的理论界限：进一步研究超额风险界限，尝试提出更紧的理论保证，以更准确地量化路由方法的性能。
泛化误差分析：深入分析路由方法在不同数据分布下的泛化误差，为实际应用提供理论支持。

6. 实际应用

工业级部署：在实际的工业环境中部署路由系统，评估其在大规模、实时应用中的性能和效率。
用户反馈：结合用户反馈，研究如何根据用户满意度进一步优化路由策略。

7. 与其他技术的结合

与模型融合结合：探索如何将模型路由与模型融合技术相结合，以同时提高推理效率和质量。
与早期退出结合：研究如何将模型路由与早期退出技术相结合，进一步降低推理成本。

8. 可解释性和透明度

解释路由决策：研究如何解释路由决策过程，使用户能够理解为什么某个LLM被选中，提高系统的透明度和可信度。
可视化工具：开发可视化工具，帮助用户和开发者更好地理解和优化路由系统。

这些方向不仅可以进一步提升动态模型路由的性能和适应性，还可以为实际应用提供更强大的支持。

Q: 总结一下论文的主要内容

A: 论文《Universal Model Routing for Efficient LLM Inference》提出了一种新的动态模型路由方法，用于在测试时从一组未见过的大型语言模型（LLM）中选择最适合的模型进行推理，同时最小化推理成本。以下是论文的主要内容总结：

研究背景

LLM的推理成本问题：大型语言模型（LLM）在能力上取得了显著进展，但其推理成本高昂，限制了实际应用。
模型路由技术：模型路由通过维护一个候选LLM池，并学习为每个查询选择成本最低的LLM，从而提高推理效率。
动态模型池问题：现有方法主要关注固定候选池的LLM，但在实际应用中，候选LLM池可能会动态变化，需要一种能够适应这种变化的路由方法。

研究方法

问题定义：
- 动态模型路由问题：在测试时，从一组未见过的LLM中选择最适合的模型，同时满足给定的成本预算。
- 优化目标：最小化预期损失，同时满足成本约束。
最优路由规则：
- 提出了一个理论上的最优路由规则，该规则基于每个LLM在给定输入上的预期损失和成本进行权衡。
LLM的特征表示：
- 提出了一种基于预测正确性的LLM特征表示方法，通过在一组代表性提示上的表现来表示每个LLM。
基于聚类的路由策略：
- 无监督聚类：使用K-means算法对训练提示进行聚类，计算每个LLM在每个聚类上的平均误差，作为其特征向量。
- 监督学习聚类：通过监督学习方法学习一个参数化的聚类映射，进一步提高路由性能。

实验验证

数据集：在EmbedLLM、MixInstruct、RouterBench和Chatbot Arena四个公共基准数据集上进行实验。
方法比较：比较了Clairvoyant fixed-pool router、Pareto-random router、K-NN、K-means (Gecko)、K-means (Attributes)和Learned cluster map等方法。
评估指标：使用Area under the deferral curve (AUC)、Quality-Neutral Cost (QNC)和Peak Accuracy等指标评估性能。

实验结果

EmbedLLM：
- K-means (Gecko)的AUC为0.650，接近Clairvoyant fixed-pool router的0.657。
- K-means (Gecko)的QNC为0.35，优于Pareto-random router的1.0。
- K-means (Gecko)的Peak Accuracy为69.3%，接近Clairvoyant fixed-pool router的69.9%。
MixInstruct：
- K-means (Gecko)的AUC为0.489，优于Pareto-random router的0.477。
- K-means (Gecko)的QNC为0.96，优于Pareto-random router的1.0。
- K-means (Gecko)的Peak Accuracy为52.4%，接近Pareto-random router的52.8%。
RouterBench：
- K-means (Gecko)的AUC为0.720，优于Pareto-random router的0.692。
- K-means (Gecko)的QNC为0.961，优于Pareto-random router的1.0。
- K-means (Gecko)的Peak Accuracy为78.2%，与Pareto-random router相当。
Chatbot Arena到EmbedLLM的泛化能力：
- K-means (Attributes)的AUC为0.545，优于K-means (Gecko)的0.529。
- K-means (Attributes)的QNC为0.97，优于K-means (Gecko)的1.0。
- K-means (Attributes)的Peak Accuracy为55.8%，优于K-means (Gecko)的54.5%。

关键结论

**K-means (Gecko)和K-means (Attributes)**在多个数据集上表现优异，尤其是在EmbedLLM和RouterBench上，几乎达到了Clairvoyant fixed-pool router的性能。
Learned cluster map在MixInstruct数据集上也表现出色。
Pareto-random router作为一个强基线，在某些数据集上表现良好，但在动态模型池场景下，所提出的方法能够更好地适应新模型。
**K-means (Attributes)**在跨数据集泛化（从Chatbot Arena到EmbedLLM）时表现出更强的鲁棒性。

未来工作

改进聚类方法：探索更复杂的聚类算法，提高聚类质量和路由性能。
增强特征表示：引入多模态特征和自适应特征选择，提高特征表示的全面性和适应性。
提高泛化能力：研究跨领域泛化和对抗性训练，增强路由系统的鲁棒性。
优化路由策略：结合多目标优化和在线学习，进一步优化路由策略。
理论分析：研究更紧的理论界限和泛化误差分析，为实际应用提供理论支持。
实际应用：在工业环境中部署路由系统，结合用户反馈优化路由策略。
与其他技术结合：探索模型路由与模型融合、早期退出等技术的结合，进一步提高推理效率和质量。
可解释性和透明度：开发解释路由决策和可视化工具，提高系统的透明度和可信度。

这些研究方向不仅可以进一步提升动态模型路由的性能和适应性，还可以为实际应用提供更强大的支持。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Wittawat Jitkrittum, Harikrishna Narasimhan, Ankit Singh Rawat, Jeevesh Juneja, Congchao Wang, Zifeng Wang, Alec Go, Chen-Yu Lee, Pradeep Shenoy, Rina Panigrahy, Aditya Krishna Menon, Sanjiv Kumar

Categories: cs.CL, cs.LG

PDF URL: https://arxiv.org/pdf/2502.08773v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2502.08773v2

Published: 2025-02-12T20:30:28Z

5. PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization

In-Context Learning has shown great potential for aligning Large Language Models (LLMs) with human values, helping reduce harmful outputs and accommodate diverse preferences without costly post-training, known as In-Context Alignment (ICA). However, LLMs’ comprehension of input prompts remains agnostic, limiting ICA’s ability to address value tensions—human values are inherently pluralistic, often imposing conflicting demands, e.g., stimulation vs. tradition. Current ICA methods therefore face the Instruction Bottleneck challenge, where LLMs struggle to reconcile multiple intended values within a single prompt, leading to incomplete or biased alignment. To address this, we propose PICACO, a novel pluralistic ICA method. Without fine-tuning, PICACO optimizes a meta-instruction that navigates multiple values to better elicit LLMs’ understanding of them and improve their alignment. This is achieved by maximizing the total correlation between specified values and LLM responses, theoretically reinforcing value correlation while reducing distractive noise, resulting in effective value instructions. Extensive experiments on five value sets show that PICACO works well with both black-box and open-source LLMs, outperforms several recent strong baselines, and achieves a better balance across up to 8 distinct values.

中文摘要

上下文学习已显示出在使大型语言模型（LLMs）与人类价值观对齐方面的巨大潜力，帮助减少有害输出并适应多样的偏好，而无需昂贵的后期训练，这被称为上下文对齐（ICA）。然而，LLMs对输入提示的理解仍然无所适从，限制了ICA解决价值冲突的能力——人类价值本质上是多元的，通常会施加相互冲突的要求，例如刺激与传统。因此，当前的ICA方法面临指令瓶颈的挑战，LLMs在尝试协调单个提示中的多个期望价值时面临困难，从而导致不完整或偏颇的对齐。为了解决这个问题，我们提议PICACO，一种新颖的多元ICA方法。PICACO在不进行微调的情况下，优化一种元指令，以导航多种价值观，从而更好地引导LLMs对这些价值观的理解并改善其对齐。这是通过最大化指定价值与LLM响应之间的总相关性来实现的，从理论上强化价值相关性，同时减少干扰噪声，最终形成有效的价值指令。在五个价值集上的广泛实验表明，PICACO在黑箱和开源LLMs上都表现良好，超越了几个近期强基准，并在多达8个不同价值观之间实现了更好的平衡。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是在上下文学习（In-Context Learning, ICA）中，大型语言模型（LLMs）在处理具有多种人类价值观的输入提示时面临的“指令瓶颈”（Instruction Bottleneck）挑战。具体来说，人类价值观是多元的，常常存在冲突，例如刺激性（stimulation）与传统（tradition）之间的矛盾。然而，现有的ICA方法在处理单个提示中包含的多种预期价值观时，往往无法合理地协调这些价值观，导致对齐不完整或存在偏差。论文提出了一种新的多元ICA方法PICACO，旨在通过优化元指令（meta-instruction）来更好地引导LLMs理解多种价值观，并提高它们与这些价值观的一致性。

Q: 有哪些相关研究？

A: 以下是与PICACO相关的几类研究：

LLM对齐技术

基于强化学习的人类反馈对齐（RLHF）：如Ouyang等人的工作，通过训练奖励模型并在人类偏好数据上使用强化学习算法来微调LLMs，取得了较好的效果，但依赖大量高质量监督数据和计算资源。
监督式微调（SFT）：Dong等人提出的方法，直接学习最大化偏好响应的概率，同时最小化非偏好响应的概率，同样需要大量监督数据。

上下文对齐（ICA）

辅助模型提供指导和选择示例：如Saley等人和Song等人的研究，利用辅助模型为LLMs提供启发式指导，选择少量示例来帮助对齐。
优化指令以改善对齐：Cheng等人和Trivedi等人的工作，通过优化指令来提高LLMs对价值观的理解和一致性。
解码时对齐：Adila等人和Han等人的研究，在解码阶段通过修改LLMs的内部表示、令牌分布或跨度分数来实现对齐，但这些方法通常限于白盒模型。

多价值观对齐

聚合多样化奖励或奖励模型：如Wu等人、Zhou等人和Rame等人的工作，通过聚合针对特定价值观训练的多样化奖励模型或奖励模型来实现多价值观对齐。
在微调中加入额外上下文信号：Dong等人、Guo等人和Pitis等人的研究，在微调过程中加入额外的上下文信号，以实现针对特定输入的多种目标。
解码时方法：Deng和Raffel、Shi等人和Mudgal等人的工作，通过在解码阶段进行调整来实现多价值观对齐。

Q: 论文如何解决这个问题？

A: 论文提出了PICACO（Pluralistic In-Context Alignment via Total Correlation Optimization）方法来解决大型语言模型（LLMs）在上下文学习（ICA）中面临的“指令瓶颈”问题。以下是PICACO解决该问题的关键步骤和原理：

1. 问题定义

目标：给定一个任务提示 ( x ) 和一组目标价值观 ( v = (v_1, \ldots, v_K) )，目标是找到一个元指令 ( e )，使得LLM生成的响应 ( y ) 最大程度地符合这些价值观，而不改变LLM的内部参数。
挑战：现有ICA方法在处理单个提示中包含的多种价值观时，无法合理协调这些价值观，导致对齐不完整或存在偏差。

2. 总相关性最大化（Total Correlation Maximization）

总相关性（Total Correlation, TC）：量化响应 ( y ) 关于价值观 ( v ) 之间的依赖关系的信息量。通过最大化条件总相关性 ( TC_e(v, y|x) )，可以增强响应与每个价值观的相关性，同时减少无关内容的干扰。
优化目标： [ e^* = \arg\max_e TC_e(v, y|x) = \arg\max_e \left( \sum_{k=1}^K I_e(v_k; y|x) - I_e(v; y|x) \right) ] 其中，( I_e ) 是条件互信息，表示在给定指令 ( e ) 的情况下，响应 ( y ) 与价值观 ( v_k ) 之间的信息量。

3. 变分信息最大化（Variational Information Maximization, VIM）

变分分布：使用两个变分分布 ( q_\omega ) 和 ( q_\phi ) 来近似互信息。( q_\omega(v_k|x, y) ) 评估响应 ( y ) 对价值观 ( v_k ) 的符合程度，而 ( q_\phi(s|x, y) ) 评估响应 ( y ) 中包含的无关内容。
优化公式： [ e^* = \arg\max_e \frac{1}{N} \sum_{i=1}^N \left{ \sum_{j=1}^{M_1} p_e(y_{i,j}|x_i) \left[ \beta \sum_{k=1}^K \log q_\omega(v_k|x_i, y_{i,j}) - \log q_\phi(s|x_i, y_{i,j}) \right] + \sum_{j=1}^{M_2} p(y_{i,j}|x_i) \log q_\phi(s|x_i, y_{i,j}) \right} ] 其中，( N ) 是任务提示的数量，( M_1 ) 和 ( M_2 ) 分别是对齐和未对齐响应的采样数量，( \beta ) 是一个超参数，用于控制响应中价值观符合程度和冗余内容之间的权衡。

4. 迭代优化过程

响应增强步骤（Response Enhancement Step）：固定当前最佳元指令 ( e_{t-1} )，通过优化 ( q_\omega ) 和 ( q_\phi ) 来找到最大化 ( \log q_\omega(v_k|x_i, y_{i,j}) ) 和最小化 ( \log q_\phi(s|x_i, y_{i,j}) ) 的响应 ( y_{i,j} )。
指令细化步骤（Instruction Refinement Step）：固定响应和对应的概率，通过优化元指令 ( e ) 来最大化 ( p_e(y|x) ) 项，从而生成更符合目标价值观的响应。

5. 实验验证

数据集和模型：使用10个基准数据集（如HONEST、JUSTEVAL-INSTRUCT等）收集任务提示，并在GPT-3.5-Turbo、LLaMA-3.1-8B-Instruct和Gemini-1.5-Flash等LLMs上进行实验。
价值组合：实验了五种价值组合，包括Helpfulness、Harmlessness、HH Balance、Confucianism和Modern Liberalism。
结果：PICACO在所有价值组合和目标LLMs上均优于现有的ICA基线方法，显示出更强的引导能力和灵活性。例如，在GPT-3.5-Turbo上，PICACO在HH Balance组合上的得分为4.257，显著高于其他基线方法。

6. 进一步分析

适应性：PICACO在处理包含更多价值观的组合时，表现出更好的适应性和平衡性。
鲁棒性：即使在使用更强大的LLMs（如GPT-4o）作为优化器时，PICACO的性能提升依然显著，表明其对目标LLM的能力具有鲁棒性。
抗攻击性：在面对精心设计的“越狱”提示时，PICACO能够更好地引导LLMs生成无害且有帮助的响应。

通过上述方法，PICACO有效地解决了LLMs在处理多种价值观时的“指令瓶颈”问题，提高了LLMs与人类价值观的一致性。

Q: 论文做了哪些实验？

A: 论文进行了以下实验来验证PICACO方法的有效性：

数据集和模型选择

数据集：从10个基准数据集（如HONEST、JUSTEVAL-INSTRUCT、BEAVERTAILS等）中收集任务提示，并为每种价值组合采样了800个测试提示。
目标LLMs：选择了GPT-3.5-Turbo、LLaMA-3.1-8B-Instruct和Gemini-1.5-Flash作为目标模型。

价值组合

实验了五种价值组合，包括：

Helpfulness：包含四个有帮助的价值观：连贯性（Coherence）、复杂性（Complexity）、详细性（Verbosity）和有帮助（Helpfulness）。
Harmlessness：包含四个无害的价值观：非毒性（Non-Toxicity）、公平性（Fairness）、信息安全（Information Safety）和负责任的使用（Responsible Uses）。
HH Balance：结合了Helpfulness和Harmlessness。
Confucianism：包含四个与儒家核心美德紧密相关的价值观：仁爱（Benevolence）、遵守规范（Conformity）、传统（Tradition）和安全（Security）。
Modern Liberalism：结合了公民自由和平等，支持社会正义和混合经济，可以由普遍主义（Universalism）、自我导向（Self-direction）、享乐主义（Hedonism）和刺激（Stimulation）四个价值观来描述。

基线方法

选择了九种ICA基线方法，涵盖六种类别，包括：

简单ICA方法：如Q+IF和Q+IF+COT。
人类编写的元指令与示范：如URIAL和URIAL+SUM。
基于人格的提示方法：如MP+SYSTEM 1和MP+SYSTEM 2。
社区方法：如MODULAR PLURALISM。
迭代指令优化方法：如OPRO。
CICL启发式方法：结合正负示范。

评估指标

采用GPT-4o-2024-08-06作为评判模型，在1-5的量表上报告整体一致性得分。

实验结果

主结果：在表1和表5中展示了GPT-3.5-Turbo、LLaMA-3.1-8B-Instruct和Gemini-1.5-Flash三种LLMs在五种价值组合上的整体一致性得分。PICACO在所有价值组合和目标LLMs上均优于大多数基线方法，显示出强大的适应性和灵活性。
适应性分析：图3展示了Q+IF、MODULAR PLURALISM和PICACO在HH价值组合中随着目标价值数量增加的适应性。PICACO在平衡和性能上均优于MODULAR PLURALISM。
鲁棒性分析：图4(a)表明，使用GPT-4o作为元指令优化器对性能提升影响不大，说明PICACO对目标LLM的能力具有鲁棒性。图4(b)进一步比较了不同方法在三种不同能力的LLMs上的有效性，PICACO能够进一步增强更强LLMs的能力。
抗攻击性分析：图4(c)展示了在对GPT-3.5-Turbo进行Harmlessness组合对齐时，面对精心设计的越狱攻击，PICACO能够引导LLMs生成更少有害的响应，同时增强有帮助性。
案例研究：图5和图11展示了在面对高度冲突的价值观对（如传统与享乐主义、自我导向与遵守规范）时，使用PICACO、Q+IF和MODULAR PLURALISM对齐的LLMs能够更深入地整合这些价值观到响应中，而不是简单地提及每个价值观或无法理解要求。

这些实验结果表明，PICACO在多种价值组合和不同LLMs上均能有效提升对齐性能，具有良好的适应性、鲁棒性和抗攻击性。

Q: 有什么可以进一步探索的点？

A: 尽管PICACO在多价值观对齐方面取得了显著进展，但仍有一些可以进一步探索的点，以进一步提升其性能和适用性。以下是一些潜在的研究方向：

1. 扩展到更多价值观理论

其他价值观理论：目前的实验主要基于Schwartz基本人类价值观理论（STBHV）和Helpful & Harmless要求。可以考虑扩展到其他价值观理论，如Kohlberg的道德发展理论和Hofstede的文化维度理论，以验证PICACO在不同价值观体系下的适用性。
跨文化价值观对齐：研究PICACO在不同文化背景下的表现，探索如何更好地对齐具有文化特异性的价值观。

2. 提升对齐的鲁棒性

对抗性攻击：进一步测试PICACO在面对更复杂的对抗性攻击时的鲁棒性，例如结合多种攻击策略的组合攻击。
动态价值观对齐：研究如何使PICACO能够动态适应用户在对话过程中不断变化的价值观需求，而不仅仅是静态的任务提示。

3. 优化和改进方法

更高效的优化算法：探索更高效的优化算法，以减少PICACO的计算成本和优化时间，使其更适合实时应用。
结合微调和ICA：研究如何将PICACO与微调方法结合，以进一步提升对齐性能，特别是在处理复杂任务时。

4. 多模态对齐

多模态输入：扩展PICACO以处理多模态输入（如图像、音频和文本），探索如何在多模态场景中实现价值观对齐。
跨模态对齐：研究如何使LLMs在不同模态之间保持一致的价值观表达。

5. 用户反馈和交互

用户反馈集成：研究如何将用户反馈集成到PICACO的优化过程中，以进一步提升对齐的准确性和用户满意度。
交互式对齐：开发交互式对齐方法，使用户能够实时调整和优化对齐过程，以更好地满足其需求。

6. 长期对齐和持续学习

长期对齐：研究如何使PICACO能够实现长期的价值观对齐，而不仅仅是短期的任务对齐。
持续学习：探索如何使LLMs在持续学习过程中保持与人类价值观的一致性，特别是在面对新任务和新数据时。

7. 应用到实际场景

实际应用测试：在实际应用场景中测试PICACO的性能，如智能客服、教育辅导和医疗咨询等，以验证其在真实世界中的适用性和效果。
跨领域对齐：研究如何使PICACO在不同领域（如医疗、金融、法律等）中实现特定的价值观对齐，以满足不同领域的特定需求。

8. 伦理和社会影响

伦理考量：深入研究PICACO在伦理和社会层面的影响，确保其对齐过程符合伦理标准和社会规范。
社会接受度：研究公众对PICACO对齐结果的接受度，探索如何提高公众对AI对齐技术的信任和认可。

这些方向不仅可以进一步提升PICACO的性能和适用性，还可以推动大型语言模型对齐技术的发展，使其更好地服务于人类社会。

Q: 总结一下论文的主要内容

A: 本文提出了PICACO（Pluralistic In-Context Alignment via Total Correlation Optimization），这是一种用于对齐大型语言模型（LLMs）与人类价值观的新方法。PICACO通过优化元指令来协调多种价值观，解决了现有ICA方法在处理复杂人类需求时面临的“指令瓶颈”挑战。以下是论文的主要内容概述：

背景知识

大型语言模型（LLMs）的发展：LLMs在生成式AI领域取得了显著进展，但也引发了诸如生成仇恨言论和强化偏见等社会问题。为了解决这些问题，研究者们提出了对齐技术，以使LLMs更好地符合人类价值观。
上下文对齐（ICA）：ICA通过在推理时将价值指令或示例嵌入到任务提示中，利用LLMs的知识，而无需微调。然而，现有ICA方法在处理多种价值观时存在局限性，因为它们无法有效地协调这些价值观，导致对齐不完整或存在偏差。

研究方法

PICACO框架：PICACO通过最大化总相关性（Total Correlation, TC）来优化元指令，从而增强LLMs对多种价值观的理解和对齐。具体来说，PICACO通过以下两个步骤迭代优化：
1. 响应增强步骤（Response Enhancement Step）：固定当前最佳元指令，优化响应以最大化与价值观的相关性，同时减少无关内容。
2. 指令细化步骤（Instruction Refinement Step）：固定响应，优化元指令以提高LLMs生成符合价值观的响应的概率。
总相关性最大化：通过最大化条件总相关性 ( TC_e(v, y|x) )，增强响应 ( y ) 与每个价值观 ( v_k ) 的相关性，同时减少无关内容的干扰。
变分信息最大化（VIM）：使用变分分布 ( q_\omega ) 和 ( q_\phi ) 来近似互信息，从而实现对总相关性的最大化。

实验

数据集和模型：从10个基准数据集中收集任务提示，并在GPT-3.5-Turbo、LLaMA-3.1-8B-Instruct和Gemini-1.5-Flash等LLMs上进行实验。
价值组合：实验了五种价值组合，包括Helpfulness、Harmlessness、HH Balance、Confucianism和Modern Liberalism。
基线方法：选择了九种ICA基线方法，涵盖六种类别，包括简单ICA方法、人类编写的元指令与示范、基于人格的提示方法、社区方法、迭代指令优化方法和CICL启发式方法。
评估指标：采用GPT-4o-2024-08-06作为评判模型，在1-5的量表上报告整体一致性得分。

关键结论

性能提升：PICACO在所有价值组合和目标LLMs上均优于大多数基线方法，显示出强大的适应性和灵活性。
适应性：PICACO在处理包含更多价值观的组合时，表现出更好的适应性和平衡性。
鲁棒性：即使在使用更强大的LLMs（如GPT-4o）作为优化器时，PICACO的性能提升依然显著，表明其对目标LLM的能力具有鲁棒性。
抗攻击性：在面对精心设计的“越狱”提示时，PICACO能够更好地引导LLMs生成无害且有帮助的响应。
案例研究：PICACO能够更好地处理高度冲突的价值观对，生成更符合多种价值观的响应。

限制

价值观范围：实验主要基于STBHV和Helpful & Harmless价值观，需要进一步扩展到其他价值观理论。
模型范围：虽然评估了三种具有竞争力的LLMs，但需要进一步测试新模型，特别是推理模型。
LLM评分潜在偏差：尽管通过重复实验减少随机性，但LLM评分中可能存在其他类型的偏差。

未来工作

扩展价值观理论：将PICACO应用于其他价值观理论，如Kohlberg的道德发展理论和Hofstede的文化维度理论。
提升鲁棒性：进一步测试PICACO在面对复杂对抗性攻击时的鲁棒性。
优化和改进：探索更高效的优化算法，以减少计算成本和优化时间。
多模态对齐：扩展PICACO以处理多模态输入，探索在多模态场景中的价值观对齐。
实际应用：在实际应用场景中测试PICACO的性能，如智能客服、教育辅导和医疗咨询等。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Han Jiang, Dongyao Zhu, Zhihua Wei, Xiaoyuan Yi, Ziang Xiao, Xing Xie

Categories: cs.CL, cs.AI, cs.CY

PDF URL: https://arxiv.org/pdf/2507.16679v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16679v1

Published: 2025-07-22T15:14:56Z

6. P-CoT: A Pedagogically-motivated Participatory Chain-of-Thought Prompting for Phonological Reasoning in LLMs

This study explores the potential of phonological reasoning within text-based large language models (LLMs). Utilizing the PhonologyBench benchmark, we assess tasks like rhyme word generation, g2p conversion, and syllable counting. Our evaluations across 12 LLMs reveal that while few-shot learning offers inconsistent gains, the introduction of a novel Pedagogically-motivated Participatory Chain-of-Thought (P-CoT) prompt, which is anchored in educational theories like scaffolding and discovery learning, consistently enhances performance. This method leverages structured guidance to activate latent phonological abilities, achieving up to 52% improvement and even surpassing human baselines in certain tasks. Future work could aim to optimize P-CoT prompts for specific models or explore their application across different linguistic domains.

中文摘要

本研究探讨了语音推理在基于文本的大型语言模型（LLMs）中的潜力。通过利用PhonologyBench基准，我们评估了押韵词生成、g2p转换和音节计数等任务。我们对12个LLMs的评估结果显示，尽管少量学习提供了不一致的收益，但引入一种新颖的以教育为动力的参与式思维链（P-CoT）提示，基于支架学习和发现学习等教育理论，始终提升了性能。该方法利用结构化的指导来激活潜在的语音能力，取得了高达52%的提升，甚至在某些任务中超越了人类基准。未来的工作可以旨在为特定模型优化P-CoT提示，或探索其在不同语言领域的应用。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败: Waiting failed: 30000ms exceeded

Authors: Dongjun Jang, Youngchae Ahn, Hyopil Shin

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.16656v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16656v1

Published: 2025-07-22T14:52:25Z

7. Towards Automated Regulatory Compliance Verification in Financial Auditing with Large Language Models

The auditing of financial documents, historically a labor-intensive process, stands on the precipice of transformation. AI-driven solutions have made inroads into streamlining this process by recommending pertinent text passages from financial reports to align with the legal requirements of accounting standards. However, a glaring limitation remains: these systems commonly fall short in verifying if the recommended excerpts indeed comply with the specific legal mandates. Hence, in this paper, we probe the efficiency of publicly available Large Language Models (LLMs) in the realm of regulatory compliance across different model configurations. We place particular emphasis on comparing cutting-edge open-source LLMs, such as Llama-2, with their proprietary counterparts like OpenAI’s GPT models. This comparative analysis leverages two custom datasets provided by our partner PricewaterhouseCoopers (PwC) Germany. We find that the open-source Llama-2 70 billion model demonstrates outstanding performance in detecting non-compliance or true negative occurrences, beating all their proprietary counterparts. Nevertheless, proprietary models such as GPT-4 perform the best in a broad variety of scenarios, particularly in non-English contexts.

中文摘要

审计财务文件，这一历史上劳动密集的过程，正处于转型的边缘。基于人工智能的解决方案已经在简化这个过程方面取得了一定进展，通过推荐财务报告中与会计准则的法律要求相符的相关文本段落。然而，一个显著的局限性仍然存在：这些系统通常无法验证推荐的摘录是否确实符合具体的法律规定。因此，在本文中，我们探讨了公开可用的巨大语言模型（LLM）在不同模型配置下的监管合规效率。我们特别强调比较尖端的开源LLM，如Llama-2，及其专有对手如OpenAI的GPT模型。这一比较分析利用了我们合作伙伴普华永道（PwC）德国提供的两个自定义数据集。我们发现，开源的Llama-2 700亿模型在检测不合规或真实阴性事件方面表现出色，超越了所有专有对手。然而，专有模型如GPT-4在更广泛的场景中表现最佳，尤其是在非英语环境下。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在金融审计领域中，如何利用大型语言模型（LLMs）自动验证财务报告中的文本段落是否符合监管要求的问题。

具体来说，传统的金融审计是一个劳动密集型的过程，需要审计师手动分析大量的财务文本，以确保这些文本符合相关的财务报告框架，如国际财务报告准则（IFRS）和德国的商法典（HGB）。尽管现有的AI驱动解决方案已经在推荐与法律要求相关的文本段落方面取得了一定进展，但这些系统通常无法验证推荐的文本段落是否真正符合具体的法律要求。因此，论文的目标是探索和评估不同配置的公开可用的大型语言模型在监管合规验证方面的效率，特别是比较开源的LLMs（如Llama-2）与专有的LLMs（如OpenAI的GPT模型）。

Q: 有哪些相关研究？

A: 论文中提到了以下几类相关研究：

金融自然语言处理（Financial NLP）领域

Automated List Inspection (ALI) 工具：2019年引入的ALI工具是一个监督推荐系统，它根据审计框架（如IFRS或HGB）的要求对财务文档的文本组件进行排名。该工具使用了传统的NLP技术，如TfIdf、潜在语义索引、神经网络和逻辑回归。
KPI-Check：这是一个基于BERT的系统，用于自动识别和验证财务报告中的关键绩效指标（KPIs）的语义等价性。
结合文本和表格一致性检查：研究了使用预训练的表格模型来检查财务报告中的文本和表格一致性。
其他研究：包括BLOOMBERGGPT和FinBERT等模型，这些模型专门针对金融语言任务进行了优化。

使用GPT系列或Llama-2模型进行金融任务的研究

GPT-4在金融分析中的应用：有研究定性地展示了GPT-4在情感分析、ESG分析、企业文化分析和美联储意见分析等任务中的有效性。
ChatGPT在澳大利亚金融领域的应用：研究发现ChatGPT在处理复杂的金融建议方面效果不佳，需要额外的专业指导。
使用GPT-3.5和GPT-4进行KPI提取：提出了一个框架来增强LLMs从财务报告中提取KPI的能力，发现与简单方法相比有显著的准确率提升。
GPT-3.5和GPT-4在金融分析中的能力：通过使用CFA考试的模拟问题来评估GPT模型在金融分析中的能力，考虑了零样本、链式思考和少样本场景。

完整性或合规性检查的研究

自动矛盾检测：使用基于

Authors: Armin Berger, Lars Hillebrand, David Leonhard, Tobias Deußer, Thiago Bell Felix de Oliveira, Tim Dilmaghani, Mohamed Khaled, Bernd Kliem, Rüdiger Loitz, Christian Bauckhage, Rafet Sifa

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.16642v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16642v1

Published: 2025-07-22T14:39:54Z

8. A Method for the Architecture of a Medical Vertical Large Language Model Based on Deepseek R1

Despite significant advances in foundation models like DeepSeek-R1 and ChatGPT, their deployment in medical settings faces critical challenges including computational requirements and professional knowledge barriers. This paper presents an efficient lightweight medical large language model architecture that systematically addresses these challenges through three-dimensional optimization: knowledge acquisition, model compression, and computational enhancement. We design a knowledge transfer pipeline from DeepSeek-R1-Distill-70B to DeepSeek-R1-Distill-7B using Low-Rank Adaptation (LoRA) for precise medical knowledge retention. Through 4-bit quantization and mixed-precision strategies, we achieve substantial model compression while preserving medical reasoning capabilities. The inference framework incorporates Flash Attention acceleration and continuous batching, complemented by specialized prompt templates for diverse medical queries. Experimental evaluation on medical benchmarks demonstrates that our approach maintains 92.1% accuracy on USMLE examinations while reducing memory consumption by 64.7% and inference latency by 12.4% compared to baseline models. This work provides a practical solution for deploying advanced language models in resource-constrained medical environments, enabling broader accessibility of AI-assisted healthcare.

中文摘要

尽管像DeepSeek-R1和ChatGPT这样的基础模型在技术上取得了显著进展，但它们在医疗环境中的部署面临着关键挑战，包括计算要求和专业知识障碍。本文提出了一种高效的轻量级医疗大语言模型架构，通过知识获取、模型压缩和计算增强三维优化系统性地解决这些挑战。我们设计了一条从DeepSeek-R1-Distill-70B到DeepSeek-R1-Distill-7B的知识迁移管道，采用低秩适应（LoRA）以实现精确的医疗知识保留。通过4位量化和混合精度策略，我们在保持医疗推理能力的同时，实现了显著的模型压缩。推理框架结合了闪存注意力加速和连续批处理，并辅以针对不同医疗查询的专业提示模板。对医疗基准的实验评估表明，我们的方法在USMLE考试中保持了92.1%的准确性，同时与基线模型相比，内存消耗减少了64.7%，推理延迟减少了12.4%。这项工作为在资源有限的医疗环境中部署先进语言模型提供了实用解决方案，从而使AI辅助医疗更广泛地可及。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在医疗领域部署大型语言模型（如DeepSeek-R1和ChatGPT）时面临的几个关键挑战：

专业知识障碍：通用的大型语言模型虽然在语言理解方面表现出色，但在医疗专业知识方面可能存在不足，难以直接应用于医疗场景。
计算资源限制：这些模型通常需要大量的计算资源（如高性能GPU）和存储空间，这使得它们难以在资源受限的初级医疗机构中部署。
部署环境约束：实际医疗环境中对模型的响应速度和资源利用效率有较高要求，而现有的大型模型往往难以满足这些要求。

为了解决这些问题，论文提出了一种高效的轻量级医疗垂直大型语言模型架构方法，通过三维优化（知识获取、模型压缩和计算增强）来系统地解决上述挑战。

Q: 有哪些相关研究？

A: 论文中提到了多个与医疗领域大型语言模型相关的研究，这些研究主要集中在以下几个方面：

医疗领域的知识获取技术

专门训练的医疗模型：如Med-PaLM 2 [16] 和GatorTron [17]，这些模型通过在医疗文本上进行预训练来构建丰富的领域知识表示。然而，它们通常面临医疗数据获取的障碍、计算资源需求过高以及协调专业和通用能力的困难 [15,18]。
领域适应的通用大型模型：通过知识蒸馏技术，将医疗知识从大规模教师模型转移到小规模学生模型中。例如，Chen等人 [6] 尝试将知识蒸馏技术应用于医疗大型语言模型的构建。

医疗语言模型的模型压缩方法

网络结构优化：如DistillBERT-Med [20] 和MiniMedLM [21]，主要通过优化网络结构来减少参数规模，但在复杂的医疗场景中可能会出现专业知识的显著退化。
参数量化技术：虽然INT8/INT4量化可以显著减少计算资源需求，但直接应用于医疗模型时可能会导致临床关键信息的丢失，如药物剂量的准确性降低和专业术语识别错误 [22]。

大型医疗模型的计算优化策略

通用领域的优化技术：如Flash Attention [25] 和CUDA图优化 [26]，在通用领域取得了一定进展，但缺乏针对医疗模型特定特征（如长上下文理解、专业术语的密集推理和差异化医疗问题处理）的针对性优化。
多引擎集成技术：尽管在技术上取得了突破，但由于缺乏针对不同临床场景（如急诊分诊和复杂病例分析）的自适应部署机制，限制了模型在实际医疗环境中的应用灵活性和性能。

这些

Authors: Mingda Zhang, Jianglong Qin

Categories: cs.CL, cs.AI, I.2.7; J.3

PDF URL: https://arxiv.org/pdf/2505.00025v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2505.00025v2

Published: 2025-04-25T14:28:29Z

9. Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training

Large language models have achieved remarkable progress across many languages. However, Tibetan, as a representative low-resource language, is particularly underrepresented in existing models due to the scarcity of high-quality training corpora. To address this gap, we curate the largest Tibetan pre-training corpus to date, aggregating data from diverse sources and applying a dedicated data cleaning and processing pipeline tailored for Tibetan. With the curated data, we continue pre/post-training a multilingual base model to enhance its generative capabilities in Tibetan. To evaluate the Tibetan capabilities of the model, we create new high-quality Tibetan benchmarks, and complement them with existing public benchmarks. Experimental results demonstrate that our model consistently and significantly outperforms both open-source models of similar scale and Tibetan-tailored models across a wide range of tasks.

中文摘要

大型语言模型在许多语言上取得了显著进展。然而，作为一种代表性低资源语言的藏语，由于缺乏高质量的训练语料，在现有模型中特别欠缺。为了弥补这一空白，我们整理了迄今为止最大的藏语预训练语料库，从多种来源聚合数据，并应用了专门为藏语量身定制的数据清理和处理流程。通过整理的数据，我们继续对一个多语言基础模型进行预训练/后训练，以增强其在藏语中的生成能力。为了评估该模型的藏语能力，我们创建了新的高质量藏语基准，并用现有的公共基准进行补充。实验结果表明，我们的模型在广泛任务上始终显著超过相似规模的开源模型和针对藏语的模型。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决藏语在大型语言模型（LLMs）中的支持不足问题。藏语作为一种低资源语言，由于缺乏高质量的训练语料库，在现有的主流大型语言模型中被严重低估。这导致了藏语在语言理解与生成任务上的表现不佳，限制了藏语自然语言处理技术的发展，并阻碍了藏语使用者从最新的人工智能技术进步中受益。此外，这种技术不平衡还可能进一步加剧语言资源和创新向主要语言的集中，对全球语言多样性以及文化传承构成威胁。因此，该论文旨在通过构建高质量的藏语预训练语料库，并进行持续预训练，来提升大型语言模型在藏语上的生成能力。

Q: 有哪些相关研究？

A: 以下是与该论文相关的研究工作：

多语言 LLMs 的进展

多语言模型的扩展：近年来，多语言 LLMs 从仅支持少数高资源语言逐渐扩展到涵盖更多低资源和中等资源语言。例如，相关研究推动了多语言模型在语言数量和每种语言数据量上的扩展，使得模型的多语言能力稳步提升。
跨语言迁移学习：一些研究探索了如何利用高资源语言的知识来提升模型在低资源语言上的表现，这与本文通过持续预训练将中文和英文知识迁移到藏语的思路相似。

低资源语言的 LLMs 研究

数据稀缺问题：针对低资源语言数据稀缺的问题，有研究通过数据合成、数据增强等技术来扩充训练数据，以提升模型性能。本文也采用了合成数据生成的方法来补充藏语数据。
持续预训练方法：一些工作采用持续预训练的方式来增强现有模型在特定低资源语言上的性能，如 Sailor 和 LLaMaTurk 等项目，它们通过在特定语言上进行额外的预训练来提升模型对该语言的支持，这为本文采用持续预训练增强藏语能力提供了借鉴。

藏语 LLMs 的现有工作

藏语模型的开发：近期有一些针对藏语理解与生成的 LLMs 被提出，例如 TiLamb、Sunshine 和 T-LLaMa 等。这些模型尝试通过不同的方法来提升藏语性能，包括采用参数高效的微调技术等。然而，与这些模型相比，本文所构建的藏语训练语料库规模更大、来源更丰富，且在多个藏语基准测试上取得了更好的性能。
藏语数据集的构建：一些研究致力于构建藏语的数据集，以支持藏语自然语言处理任务的发展。例如，有研究构建了用于机器阅读理解的藏语数据集，为藏语 NLP 任务提供了宝贵的资源。

Q: 论文如何解决这个问题？

A: 论文通过以下步骤解决藏语在

Authors: Leiyu Pan, Bojian Xiong, Lei Yang, Renren Jin, Shaowei Zhang, Yue Chen, Ling Shi, Jiang Zhou, Junru Wu, Zhen Wang, Jianxiang Peng, Juesi Xiao, Tianyu Dong, Zhuowen Han, Zhuo Chen, Yuqi Ren, Deyi Xiong

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.09205v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.09205v3

Published: 2025-07-12T08:54:05Z

10. Supernova: Achieving More with Less in Transformer Architectures

We present Supernova, a 650M-parameter decoder-only transformer that demonstrates how careful architectural design and tokenization innovation can achieve the performance of larger models while maintaining computational efficiency. Our architecture combines Rotary Positional Embeddings (RoPE), Grouped Query Attention (GQA) with a 3:1 compression ratio, RMSNorm for computational efficiency, and SwiGLU activation functions. A critical innovation is our custom 128,000-vocabulary byte-level BPE tokenizer, which achieves state-of-the-art compression performance. Through detailed analysis, we show that Supernova achieves 90% of the performance of 1B-parameter models while using 35% fewer parameters and requiring only 100B training tokens—an order of magnitude less than competing models. Our findings challenge the prevailing scaling paradigm, demonstrating that architectural efficiency and tokenization quality can compensate for reduced parameter counts.

中文摘要

我们介绍了Supernova，一个650M参数的解码器-only transformer，它展示了如何通过精心的架构设计和标记化创新在保持计算效率的同时达到更大模型的性能。我们的架构结合了旋转位置嵌入（RoPE）、以3:1压缩比的分组查询注意力（GQA）、为了计算效率的RMSNorm，以及SwiGLU激活函数。一个关键的创新是我们定制的128,000词汇字节级BPE标记器，它实现了最先进的压缩性能。通过详细分析，我们展示了Supernova在使用35%的参数以及仅需要100B训练标记（比竞争模型少一个数量级）的情况下，达到了1B参数模型90%的性能。我们的发现挑战了现有的扩展范式，证明了架构效率和标记化质量可以弥补参数数量的减少。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决当前自然语言处理领域中大型Transformer模型所带来的计算和经济挑战。具体来说，它旨在证明通过精心的架构设计和分词创新，可以在保持计算效率的同时实现与更大模型相当的性能，从而挑战现有的模型规模与性能之间单调增长的假设。主要目标包括：

提高参数效率：通过优化Transformer架构的各个组件，如位置编码、注意力机制、归一化方法和激活函数，减少模型参数数量，同时保持或提升模型性能。
优化分词策略：开发一种高效的分词器，以实现更好的文本压缩性能，从而在有限的上下文窗口内提取更多的语义信息。
提升数据效率：通过高质量的数据筛选和训练方法，减少模型训练所需的训练数据量，从而降低训练成本并提高数据利用效率。
实现可持续的AI部署：探索在保持模型核心能力的同时，降低模型训练和部署的经济成本，使AI服务在经济上更具可持续性。

Q: 有哪些相关研究？

A: 论文提到了以下相关研究领域：

高效Transformer架构

位置编码优化：RoPE（Rotary Position Embeddings）通过旋转矩阵对查询和键向量进行编码，自然地结合了相对位置信息，相比传统的正弦位置编码和学习型绝对位置编码，RoPE在理论和实践中都表现出更好的性能，能够更快地收敛并降低最终损失，且可以外推到训练时未见过的更长序列长度。
注意力机制改进：MQA（Multi-Query Attention）通过在所有查询头之间共享键和值投影来减少内存需求，但会牺牲一些模型质量。GQA（Grouped Query Attention）则在保持大部分多头注意力表达能力的同时，通过分组查询头共享键值对来减少内存需求，论文中直接基于GQA展示了其在十亿参数量级模型中的有效性。
归一化技术革新：Layer Normalization虽然稳定了Transformer的训练，但引入了计算开销，需要进行均值计算和减法操作。RMSNorm通过仅基于输入的均方根进行归一化，消除了LayerNorm中的重新中心化步骤，简化了计算过程，提高了计算效率。
激活函数发展：GLU（Gated Linear Unit）家族中的SwiGLU（Swish-Gated Linear Unit）引入了门控机制，提高了参数效率和梯度动态性能。大规模实证研究表明，SwiGLU变体在Transformer架构中的性能优于ReLU和GELU。

分词和表示学习

分词方法演变：从BPE（Byte Pair Encoding）到GPT-2的字节级BPE，分词方法不断演进。然而，大多数现代分词器为了多语言覆盖而牺牲了特定语言的压缩效率。研究表明，形态感知分词可以提高下游任务的性能，而词汇表大小和组成也显著影响模型效率。论文通过优化特定语言的分词器，同时实现了更好的压缩和模型性能。
分词器性能对比：论文中对比了多种分词器在WikiText-103数据集上的性能，展示了其自定义分词器在压缩比和速度上的优势。

紧凑高效的语言模型

Phi系列：通过高质量的合成数据，使小型模型在推理任务上与大型模型竞争，强调数据质量而非数量，通过精心策划的训练语料库取得了令人印象深刻的结果。
StableLM：通过精心的工程和训练过程，产生了3B参数范围内的高效模型。
Gemma系列：通过架构修改和训练创新探索效率提升，证明了结合多种效率技术可以显著改善参数性能权衡。

模型规模、训练数据和性能的缩放定律

缩放定律研究：建立了模型大小、数据集大小和计算预算之间的基本关系，但这些缩放定律主要关注大型模型领域，没有充分探索小型模型的效率前沿。论文提供了实证证据，挑战了这些缩放定律的一些假设，特别是在最大化架构效率时数据量与模型性能之间的关系。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决上述问题：

架构设计

架构选择：采用解码器仅有的Transformer架构，包含16个Transformer块，每个块有12个注意力头，嵌入维度为1536，处理序列长度可达2048个token。这种配置在保持计算可处理性的同时，为复杂表示学习提供了足够的深度。
关键组件：
- 旋转位置嵌入（RoPE）：通过旋转特征向量来编码位置信息，无需额外参数，且可以外推到训练时未见过的更长序列长度。RoPE与注意力机制无缝结合，兼容高效的注意力实现（如Flash Attention），从而在推理时实现内存和计算效率的提升。
- 分组查询注意力（GQA）：通过分组查询头共享键值对，将KV缓存大小减少了3倍，从而显著降低了推理时的内存带宽需求。GQA在保持大部分多头注意力表达能力的同时，减少了内存需求，这对于内存受限的部署场景尤为重要。
- RMSNorm：通过仅基于输入的均方根进行归一化，消除了LayerNorm中的重新中心化步骤，简化了计算过程，提高了计算效率。在Transformer的每一层中使用RMSNorm，可以实现大约15%的计算加速，同时保持与LayerNorm相当的梯度稳定性。
- SwiGLU激活函数：结合了平滑激活函数和门控机制的优点，提高了参数效率和梯度流动。SwiGLU通过两个分支架构实现，其中一个分支应用SiLU激活函数，另一个分支作为学习门控，两者的输出通过逐元素相乘后进行最终的线性投影。这种设计允许网络学习哪些信息应该通过每一层流动，提供了比固定激活函数更复杂的控制信息传播的方式。
协同作用：这些组件协同工作，相互放大各自的优势，从而在有限的参数预算内最大化每个参数的效率，同时保持模型的表示能力。

分词器设计

自定义分词器：开发了一种自定义的128,000词汇量的字节级BPE分词器，专门针对英语文本表示进行了优化，在WikiText-103上实现了每token 4.78个字符的压缩性能，同时保持了完美的字节级重建保真度。这种分词器在特定语言的优化中，通过优先考虑英语文本的形态结构和常见模式，实现了更高的压缩效率，从而在有限的上下文窗口内提取更多的语义信息。
分词器优化：
- 英语特定优化：通过频率分析英语文本模式，在合并选择过程中优先考虑最有价值的子词单元，实现了对英语形态结构的感知，从而提高了压缩效率，并帮助模型学习更连贯的表示。
- 特殊标记设计：分词器包含了一系列特殊标记，用于处理各种控制和格式化任务，这些标记为模型提供了结构信息，有助于理解不同内容类型，并在指令微调等下游任务中提高模型性能。
- 压缩分析：在WikiText-103数据集上，自定义分词器实现了最高的压缩比（4.78个字符每token），显著优于其他分词器。此外，在特定领域（如源代码和混合内容）中，自定义分词器的压缩效率也表现出色，尤其是在源代码上，与GPT-4o相比，压缩比提高了15.8%。
- 实现优化：采用基于Trie的编码方法，通过构建包含所有合并操作的Trie数据结构，实现了快速查找，从而提高了编码效率。此外，还提供了并行分词功能，通过多线程处理提高了大规模文本处理的速度。

训练方法

数据集构建：构建了Nemotron-CC数据集，这是一个从99个Common Crawl快照中提取的英语预训练语料库，包含6.3万亿个token。为了预训练Supernova，从该数据集中采样了一个1000亿token的子集，该子集由七个部分组成，平衡了大规模真实文本覆盖和针对特定能力的合成内容注入。
数据质量控制：每个部分都经过了严格的五步过滤流程，包括去重、质量评分、安全性过滤、长度过滤和语言检测，以确保数据的一致性、安全性和语言质量。
训练配置：
- 超参数选择：采用了AdamW优化器，初始学习率为6×10^-4，权重衰减为0.1，β1=0.9，β2=0.99，ε=10^-8。学习率调度包括2000步的热身期，之后通过余弦调度在600,000步内衰减到最小值6×10^-5。全局批量大小为480，分布在8个GPU上，每个设备60个样本。梯度累积步数为1，采用bfloat16混合精度训练，以实现显著的内存节省和计算加速，同时保持与全float32精度相当的数值稳定性。
- 优化技术：采用了多种互补的优化技术，包括Flash Attention实现、梯度检查点、混合精度训练和自定义融合CUDA内核，以最大化训练效率。这些技术在内存、计算和数据加载方面都取得了显著的优化效果，使得训练过程更加高效。
- 训练效率：在8个NVIDIA A100 40GB GPU的集群上进行训练，模型FLOPs利用率达到了54%，GPU内存利用率平均为39GB，有效批量大小为每步983,040个token，训练吞吐量约为每秒300,000个token。整个训练过程需要14天进行100,000步，总训练成本低于10,000美元，与训练成本超过100,000美元的大型模型相比，实现了数量级的降低。
训练动态：训练损失遵循可预测的缩放定律模式，从初始值11.2稳步下降到最终值2.14，没有出现过拟合或不稳定的迹象。梯度范数分析显示了稳定优化动态的特征，平均梯度范数在整个训练过程中保持在0.5到0.7之间，表明学习信号强度一致，没有出现梯度爆炸或梯度消失的问题，且各层之间的梯度范数保持平衡，表明模型架构成功地在深度上分布了学习能力。

Q: 论文做了哪些实验？

A: 论文进行了以下实验：

性能评估实验

零样本基准测试：在多个标准基准测试中对Supernova进行了零样本评估，以测试其在没有针对特定任务进行微调的情况下的泛化能力。这些基准测试涵盖了语言理解、推理和知识的不同方面，包括HellaSwag、WinoGrande、ARC-Easy、ARC-Challenge、PIQA、SuperGLUE、MMLU、MMLU-PRO、SIQA和BBH。实验结果表明，Supernova在这些基准测试中的表现与具有更多参数的模型相当，例如在平均分数上达到了43.10，与Llama 3.2 1B的47.73相比，达到了90.3%的性能，但参数数量减少了53%。
效率分析实验：
- 推理性能测试：在NVIDIA A100 GPU上测量了Supernova的推理效率指标，包括吞吐量、内存使用量、延迟、功耗和每百万token的成本。与Llama 3.2 1B相比，Supernova在吞吐量上提高了59.6%，内存使用量减少了35.7%，延迟降低了37.5%，功耗降低了39.5%，每百万token的成本降低了36.8%。
- 内存分解分析：比较了标准多头注意力（MHA）和GQA实现之间的内存使用情况。结果表明，GQA优化使得KV缓存每层节省了66.7%的内存，总内存节省了41.9%。
- 数据效率分析：通过比较不同模型的训练数据需求，发现Supernova在训练数据效率方面表现出色。Supernova仅使用1000亿训练token就达到了约90%的1B模型性能，而其他竞争模型的token/参数比从约1636到约9000不等，这表明Supernova在数据效率方面具有显著优势。
定性分析实验：
- 注意力模式分析：分析了Supernova的16层注意力模式，发现其具有结构化和可解释的行为。前几层主要关注位置信息，中间层关注语义相关性，最后几层则对整个序列进行信息聚合以做出最终决策。这种分层专业化表明，尽管模型规模较小，但其架构选择仍能使模型发展出连贯的内部表示。
- token利用分析：分析了Supernova的词汇表使用情况，发现约45,000个token在推理中经常使用，前10,000个token占用了89%的使用频率，而长尾部分则涵盖了专业技术和罕见术语，为特定领域的内容提供了覆盖。此外，78%的token代表完整的词素，表明分词具有语言学意义。

训练实验

训练成本和效率实验：通过在8个NVIDIA A100 40GB GPU的集群上进行训练，测量了Supernova的训练成本和效率。实验结果表明，与Llama 3.2 1B相比，Supernova的训练时间减少了99.74%，训练成本降低了99%，二氧化碳排放量减少了99.78%。这些结果表明，Supernova在训练效率和成本方面具有显著优势。
训练动态实验：通过分析训练过程中的损失进展和梯度范数，评估了Supernova的训练动态。实验结果显示，训练损失遵循可预测的缩放定律模式，从初始值11.2稳步下降到最终值2.14，没有出现过拟合或不稳定的迹象。梯度范数分析显示了稳定优化动态的特征，平均梯度范数在整个训练过程中保持在0.5到0.7之间，表明学习信号强度一致，没有出现梯度爆炸或梯度消失的问题，且各层之间的梯度范数保持平衡，表明模型架构成功地在深度上分布了学习能力。

Authors: Andrei-Valentin Tanase, Elena Pelican

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.15773v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15773v2

Published: 2025-07-21T16:27:48Z

Agent Domain Papers

1. Uncertainty-Aware Knowledge Transformers for Peer-to-Peer Energy Trading with Multi-Agent Reinforcement Learning

This paper presents a novel framework for Peer-to-Peer (P2P) energy trading that integrates uncertainty-aware prediction with multi-agent reinforcement learning (MARL), addressing a critical gap in current literature. In contrast to previous works relying on deterministic forecasts, the proposed approach employs a heteroscedastic probabilistic transformer-based prediction model called Knowledge Transformer with Uncertainty (KTU) to explicitly quantify prediction uncertainty, which is essential for robust decision-making in the stochastic environment of P2P energy trading. The KTU model leverages domain-specific features and is trained with a custom loss function that ensures reliable probabilistic forecasts and confidence intervals for each prediction. Integrating these uncertainty-aware forecasts into the MARL framework enables agents to optimize trading strategies with a clear understanding of risk and variability. Experimental results show that the uncertainty-aware Deep Q-Network (DQN) reduces energy purchase costs by up to 5.7% without P2P trading and 3.2% with P2P trading, while increasing electricity sales revenue by 6.4% and 44.7%, respectively. Additionally, peak hour grid demand is reduced by 38.8% without P2P and 45.6% with P2P. These improvements are even more pronounced when P2P trading is enabled, highlighting the synergy between advanced forecasting and market mechanisms for resilient, economically efficient energy communities.

中文摘要

本文提出了一种新颖的点对点（P2P）能源交易框架，该框架将不确定性感知预测与多智能体强化学习（MARL）相结合，填补了当前文献中的一个关键空白。与以前依赖于确定性预测的研究不同，所提出的方法采用了一种称为带有不确定性的知识变换器（KTU）的异方差概率变换器预测模型，以明确量化预测的不确定性，这对P2P能源交易的随机环境中的稳健决策至关重要。KTU模型利用特定领域特征，并使用自定义损失函数进行训练，从而确保每个预测的可靠概率预测和置信区间。将这些不确定性感知预测集成到MARL框架中，使得代理能够在明确了解风险和变异性的情况下优化交易策略。实验结果表明，不带P2P交易时，不确定性感知深度Q网络（DQN）将能源采购成本降低了多达5.7%，而带P2P交易时降低了3.2%，同时电力销售收入分别增加了6.4%和44.7%。此外，P2P交易不启用时峰值时段电网需求减少了38.8%，启用时减少了45.6%。在启用P2P交易时，这些改善更加明显，突显了先进预测与市场机制之间的协同作用，从而打造出韧性和经济高效的能源社区。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在对等（Peer-to-Peer, P2P）能源交易中，如何在存在可再生能源发电和动态负荷不确定性的情况下，通过多智能体强化学习（Multi-Agent Reinforcement Learning, MARL）优化交易策略的问题。具体而言，论文提出了一个结合不确定性感知预测（uncertainty-aware prediction）和多智能体强化学习的新框架，以填补当前研究中在处理这种不确定性方面的空白。

Q: 有哪些相关研究？

A: 以下是与本论文相关的研究工作：

P2P 能源交易研究

市场机制和定价方法：Zhou 等人 [41] 指出早期社区市场机制采用统一价格，限制了个体激励。Zheng 等人 [38] 引入基于拍卖的方法以实现交易者特定的定价，但这些方法在处理现实世界中交易者行为和能源供应的不确定性方面存在挑战。
多智能体强化学习（MARL）的应用：May 等人 [19] 展示了 MARL 在动态环境中学习最优策略的潜力。Bhavana 等人 [3] 识别出在 P2P 能源交易中，关于可扩展性和不确定性管理的持续技术挑战。
人工智能在交易策略优化中的应用：Bassey 等人 [2] 探讨了人工智能在交易策略优化中的应用。Uthayansuthi 等人 [32] 结合聚类、预测和深度强化学习来优化 P2P 能源交易，但这些方法要么缺乏先进的神经预测集成，要么主要关注经济优化而未考虑不确定性的影响。

不确定性感知预测研究

可再生能源预测的不确定性：Zhang 等人 [37] 指出预测误差对市场效率有显著影响，强调了需要不确定性感知的预测模型。Liu 等人 [17] 在能源预测中展示了基于 Transformer 的架构的潜力，但主要针对单智能体设置或确定性输出。
强化学习中的不确定性：El 等人 [9] 研究了不确定性感知的消费者联盟博弈，但没有将概率预测与多智能体学习相结合。Yazdani 等人 [36] 提出了用于实时交易的鲁棒优化，但未将不确定性感知预测与多智能体强化学习相结合。

其他相关研究

深度强化学习（DRL）在 P2P 能源交易中的应用：Chen 等人 [5] 开发了基于 DQN 的价格预测方法，但没有不确定性量化。Qiu 等人 [23] 提出了用于 P2P 多能源交易的均场多智能体强化学习方法，但未涉及不确定性感知预测。
不确定性感知预测模型的开发：Pearce 等人 [22] 研究了神经网络中的不确定性，提出了近似贝叶斯集成方法。Salinas 等人 [24] 开发了 DeepAR 模型，用于概率预测，但未专门针对 P2P 能源交易场景。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决对等（Peer-to-Peer, P2P）能源交易中的不确定性问题：

1. 提出不确定性感知的知识转换器（KTU）模型

模型架构：KTU 是一个异方差性概率 Transformer 模型，用于能源预测。它包含输入投影层、Transformer 编码器和双输出头，能够预测目标的均值和方差，从而捕捉预测的不确定性。
不确定性建模：KTU 模型通过预测每个目标的均值和方差来量化不确定性。它使用 Softplus 激活函数确保方差的非负性，并通过物理信息约束（如日照和季节性）调整光伏（PV）发电的预测。
优化与训练：KTU 模型采用自定义的复合损失函数，结合高斯负对数似然和特定于领域的正则化项进行优化。此外，使用 Optuna 进行超参数调整，以确保模型在预测负载和 PV 发电方面的性能。

2. 将不确定性感知预测与多智能体强化学习（MARL）框架相结合

状态空间设计：每个智能体的状态空间包括当前和预测的负载、发电、电池状态以及不确定性估计。这些信息使智能体能够基于预测的不确定性做出决策。
动作空间设计：动作空间包括离散动作，代表能源管理策略，如购买、销售、充电、放电和自用。
奖励函数设计：奖励函数根据不确定性、电价时段和电池约束等因素设计，以激励智能体做出风险敏感的决策。例如，在充电和购买动作中，奖励函数会根据不确定性分数、电价时段和电池状态等因素进行调整。

3. 实现 P2P 能源交易的模拟和优化

市场机制：采用分布式 P2P 能源交易模型，通过集中式拍卖机制进行市场清算。智能体根据内部价格信号提交买卖订单，拍卖机制根据供需比（Supply and Demand Ratio, SDR）动态调整内部销售价格（ISP）和内部购买价格（IBP）。
训练和评估：使用 PettingZoo 框架模拟 10 个智能体在 200 万时间步内的行为。智能体独立训练，以最大化自身效用，同时适应其他智能体的动态行为。通过比较不同模型（如标准 DQN 和不确定性感知 DQN）的性能，验证了所提方法的有效性。

4. 实验验证和性能评估

实验设置：在包含 10 个芬兰农村用户的 P2P 能源交易社区中进行模拟，每个用户都配备了光伏（PV）和电池系统。通过滑动窗口构建监督学习序列，并使用自定义的日照特征来捕捉高纬度地区的太阳能模式。
性能指标：评估指标包括能量购买成本、电力销售收入和高峰时段电网需求。实验结果表明，不确定性感知 DQN 在没有 P2P 交易的情况下将能量购买成本降低了 5.7%，在有 P2P 交易的情况下降低了 3.2%。同时，电力销售收入分别增加了 6.4% 和 44.7%，高峰时段电网需求分别降低了 38.8% 和 45.6%。

通过上述方法，论文不仅提高了 P2P 能源交易系统的经济效率和操作韧性，还展示了不确定性感知预测与多智能体强化学习相结合的强大潜力。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

1. 不确定性感知 DQN 与标准 DQN 的性能比较

实验设置：
- 在包含 10 个芬兰农村用户的 P2P 能源交易社区中进行模拟。
- 每个用户都配备了光伏（PV）和电池系统。
- 使用 PettingZoo 框架模拟 10 个智能体在 200 万时间步内的行为。
- 智能体独立训练，以最大化自身效用，同时适应其他智能体的动态行为。
评估指标：
- 能量购买成本：比较不确定性感知 DQN 和标准 DQN 在有无 P2P 交易情况下的能量购买成本。
- 电力销售收入：比较不确定性感知 DQN 和标准 DQN 在有无 P2P 交易情况下的电力销售收入。
- 高峰时段电网需求：比较不确定性感知 DQN 和标准 DQN 在有无 P2P 交易情况下的高峰时段电网需求。
实验结果：
- 能量购买成本：
  - 没有 P2P 交易时，不确定性感知 DQN 将能量购买成本降低了 5.7%（从 105,000 降低到 99,100）。
  - 有 P2P 交易时，不确定性感知 DQN 将能量购买成本降低了 3.2%（从 102,100 降低到 96,800）。
- 电力销售收入：
  - 没有 P2P 交易时，不确定性感知 DQN 将电力销售收入增加了 6.4%（从 7,850 增加到 8,350）。
  - 有 P2P 交易时，不确定性感知 DQN 将电力销售收入增加了 44.7%（从 14,450 增加到 20,900）。
- 高峰时段电网需求：
  - 没有 P2P 交易时，不确定性感知 DQN 将高峰时段电网需求降低了 38.8%（从 23,200 kW 降低到 14,200 kW）。
  - 有 P2P 交易时，不确定性感知 DQN 将高峰时段电网需求降低了 45.6%（从 21,850 kW 降低到 11,900 kW）。

2. 智能体奖励收敛性测试

实验设置：
- 在 180 万时间步内，记录 10 个智能体的奖励值变化。
评估指标：
- 奖励收敛速度：比较不确定性感知 DQN 和标准 DQN 的奖励收敛速度。
实验结果：
- 不确定性感知 DQN 在大约 600,000 时间步内达到收敛，比标准 DQN 快约 50%，减少了约 25% 的时间步。

3. 电池管理性能测试

实验设置：
- 在模拟中记录每个智能体的电池状态（SOC）、负载和发电情况。
评估指标：
- 电池状态变化：观察电池在一天中的充电和放电情况。
实验结果：
- 电池状态在早晨开始逐渐上升，下午达到峰值，然后在晚上下降，以满足晚上的负载需求。
- 智能体在高可再生能源发电期间协调充电，在高峰需求期间放电，减少了对电网的依赖，降低了成本并减少了高峰时段的碳排放。

4. 不同模型的性能比较

实验设置：
- 比较规则基础（Rule-Based, RB）、规则基础加 Q 学习（RB+QL）、标准 DQN 和不确定性感知 DQN 的性能。
评估指标：
- 能量购买成本、电力销售收入和高峰时段电网需求。
实验结果：
- 能量购买成本：
  - 没有 P2P 交易时，RB 为 125,400，RB+QL 为 121,300，DQN 为 105,000，不确定性感知 DQN 为 99,100。
  - 有 P2P 交易时，RB 为 119,500，RB+QL 为 116,800，DQN 为 102,100，不确定性感知 DQN 为 96,800。
- 电力销售收入：
  - 没有 P2P 交易时，RB 为 3,600，RB+QL 为 3,800，DQN 为 7,850，不确定性感知 DQN 为 8,350。
  - 有 P2P 交易时，RB 为 4,400，RB+QL 为 4,650，DQN 为 14,450，不确定性感知 DQN 为 20,900。
- 高峰时段电网需求：
  - 没有 P2P 交易时，RB 为 36,000，RB+QL 为 34,500，DQN 为 23,200，不确定性感知 DQN 为 14,200。
  - 有 P2P 交易时，RB 为 28,500，RB+QL 为 26,600，DQN 为 21,850，不确定性感知 DQN 为 11,900。

5. 不确定性感知预测的评估

实验设置：
- 使用预测区间覆盖率（PICP）、平均预测区间宽度（MPIW）和连续排名概率得分（CRPS）评估不确定性感知预测的质量和校准。
评估指标：
- PICP：预测区间覆盖概率，衡量预测区间包含真实值的概率。
- MPIW：平均预测区间宽度，衡量预测区间的平均宽度。
- CRPS：连续排名概率得分，衡量预测分布与真实值的匹配程度。
实验结果：
- 通过这些指标评估不确定性感知预测的准确性和可靠性，确保模型在实际应用中的有效性。

6. P2P 交易与非 P2P 交易的性能比较

实验设置：
- 比较在有无 P2P 交易情况下，不同模型的性能。
评估指标：
- 能量购买成本、电力销售收入和高峰时段电网需求。
实验结果：
- 能量购买成本：
  - 没有 P2P 交易时，RB 为 125,400，RB+QL 为 121,300，DQN 为 105,000，不确定性感知 DQN 为 99,100。
  - 有 P2P 交易时，RB 为 119,500，RB+QL 为 116,800，DQN 为 102,100，不确定性感知 DQN 为 96,800。
- 电力销售收入：
  - 没有 P2P 交易时，RB 为 3,600，RB+QL 为 3,800，DQN 为 7,850，不确定性感知 DQN 为 8,350。
  - 有 P2P 交易时，RB 为 4,400，RB+QL 为 4,650，DQN 为 14,450，不确定性感知 DQN 为 20,900。
- 高峰时段电网需求：
  - 没有 P2P 交易时，RB 为 36,000，RB+QL 为 34,500，DQN 为 23,200，不确定性感知 DQN 为 14,200。
  - 有 P2P 交易时，RB 为 28,500，RB+QL 为 26,600，DQN 为 21,850，不确定性感知 DQN 为 11,900。

通过这些实验，论文验证了不确定性感知预测与多智能体强化学习相结合的方法在 P2P 能源交易中的有效性，展示了其在经济效率和操作韧性方面的显著优势。

Q: 有什么可以进一步探索的点？

A: 论文提出了一个结合不确定性感知预测和多智能体强化学习的框架，用于对等（Peer-to-Peer, P2P）能源交易。尽管该框架在实验中表现出了显著的性能提升，但仍有一些可以进一步探索的点：

1. 不确定性感知预测模型的改进

模型复杂度与效率：虽然 KTU 模型在不确定性量化方面表现出色，但其计算复杂度较高。可以探索更高效的模型架构，例如轻量级 Transformer 或混合模型，以提高预测速度和降低计算成本。
多步预测：当前模型主要关注短期预测（如三小时）。可以研究多步预测能力，以支持更长期的决策制定，例如一天或一周的预测。
模型融合：结合多种预测模型（如 LSTM、CNN 和 Transformer）的优势，通过模型融合提高预测的准确性和鲁棒性。

2. 多智能体强化学习的扩展

大规模系统：当前实验在包含 10 个智能体的系统中进行。可以探索更大规模系统的性能，例如包含数百个智能体的社区，研究在大规模系统中如何保持高效的训练和决策。
分布式训练：在大规模系统中，可以探索分布式训练方法，如联邦学习，以提高训练效率和隐私保护。
动态环境适应性：研究如何使智能体更好地适应动态变化的环境，例如可再生能源的季节性变化、用户行为的变化等。

3. 市场机制的优化

实时定价：当前市场机制采用基于供需比（SDR）的定价方法。可以研究更复杂的实时定价策略，例如基于机器学习的动态定价模型，以更好地反映市场供需关系。
多能源交易：除了电力交易，可以探索包括热能、天然气等多能源的联合交易机制，以实现更全面的能源优化。
市场参与者多样性：研究不同类型的市场参与者（如大型能源供应商、小型分布式能源用户等）的交易行为和策略，以设计更公平和高效的市场机制。

4. 实际部署和测试

真实数据测试：在实际的 P2P 能源交易系统中部署和测试该框架，使用真实数据评估其性能和可靠性。
用户行为研究：研究用户对 P2P 能源交易机制的接受度和行为模式，以优化用户界面和交易策略。
政策和法规影响：分析不同政策和法规对 P2P 能源交易的影响，例如碳税、可再生能源补贴等，以设计符合政策要求的交易机制。

5. 经济和环境影响的综合评估

长期经济影响：研究该框架在长期运行中的经济影响，包括投资回报率、系统运行成本等。
环境影响评估：评估该框架在减少碳排放、提高可再生能源利用率等方面的环境效益。
社会影响研究：研究 P2P 能源交易对社区的社会影响，例如能源公平性、用户满意度等。

6. 理论分析和保证

收敛性分析：进行理论分析，研究不确定性感知预测与多智能体强化学习结合的收敛性，提供收敛速度和稳定性的理论保证。
鲁棒性分析：研究在面对极端天气、设备故障等不确定性情况下的鲁棒性，提供系统在异常情况下的性能保证。

7. 用户界面和交互设计

用户友好性：设计更直观的用户界面，使用户能够轻松理解和参与 P2P 能源交易。
交互机制：研究用户与系统之间的交互机制，例如如何提供实时反馈、如何引导用户做出更优的能源管理决策。

通过进一步探索这些方向，可以进一步提升 P2P 能源交易系统的性能和实用性，为实现更高效、更可持续的能源系统提供支持。

Q: 总结一下论文的主要内容

Authors: Mian Ibad Ali Shah, Enda Barrett, Karl Mason

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2507.16796v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16796v1

Published: 2025-07-22T17:46:28Z

Developing safe, aligned agentic AI systems requires comprehensive empirical testing, yet many existing benchmarks neglect crucial themes aligned with biology and economics, both time-tested fundamental sciences describing our needs and preferences. To address this gap, the present work focuses on introducing biologically and economically motivated themes that have been neglected in current mainstream discussions on AI safety - namely a set of multi-objective, multi-agent alignment benchmarks that emphasize homeostasis for bounded and biological objectives, diminishing returns for unbounded, instrumental, and business objectives, sustainability principle, and resource sharing. We implemented eight main benchmark environments on the above themes, to illustrate key pitfalls and challenges in agentic AI-s, such as unboundedly maximizing a homeostatic objective, over-optimizing one objective at the expense of others, neglecting safety constraints, or depleting shared resources.

中文摘要

开发安全、协调的智能代理人工智能系统需要全面的实证测试，但许多现有的基准忽视了与生物学和经济学相关的重要主题，这两者都是描述我们需求和偏好的经过时间检验的基础科学。为了解决这一缺口，本文着重引入在当前主流讨论中被忽视的生物和经济动机主题——即一套强调稳态的多目标、多代理协作基准，适用于有界和生物目标、递减收益的无界、工具性和商业目标、可持续性原则以及资源共享。我们实现了八个主要的基准环境，围绕上述主题，来说明智能代理人工智能中的关键陷阱和挑战，例如无限制地最大化一个稳态目标、以牺牲其他目标为代价而过度优化一个目标、忽视安全约束，或耗尽共享资源。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败: Waiting failed: 30000ms exceeded

Authors: Roland Pihlakas, Joel Pyykkö

Categories: cs.MA, cs.AI

PDF URL: https://arxiv.org/pdf/2410.00081v4.pdf

CoolPaper URL: https://papers.cool/arxiv/2410.00081v4

Published: 2024-09-30T17:24:21Z

3. AI-enhanced conversational agents for personalized asthma support Factors for engagement, value and efficacy

Asthma-related deaths in the UK are the highest in Europe, and only 30% of patients access basic care. There is a need for alternative approaches to reaching people with asthma in order to provide health education, self-management support and bridges to care. Automated conversational agents (specifically, mobile chatbots) present opportunities for providing alternative and individually tailored access to health education, self-management support and risk self-assessment. But would patients engage with a chatbot, and what factors influence engagement? We present results from a patient survey (N=1257) devised by a team of asthma clinicians, patients, and technology developers, conducted to identify optimal factors for efficacy, value and engagement for a chatbot. Results indicate that most adults with asthma (53%) are interested in using a chatbot and the patients most likely to do so are those who believe their asthma is more serious and who are less confident about self-management. Results also indicate enthusiasm for 24/7 access, personalisation, and for WhatsApp as the preferred access method (compared to app, voice assistant, SMS or website). Obstacles to uptake include security/privacy concerns and skepticism of technological capabilities. We present detailed findings and consolidate these into 7 recommendations for developers for optimising efficacy of chatbot-based health support.

中文摘要

英国与哮喘相关的死亡人数是欧洲最高的，只有30%的患者能够接受基本护理。我们需要采用替代方法来接触哮喘患者，以提供健康教育、自我管理支持和治疗的桥梁。自动对话代理（特别是移动聊天机器人）为提供替代的个性化健康教育、自我管理支持和风险自我评估提供了机会。但是患者会愿意与聊天机器人互动吗？是什么因素影响这种互动？我们展示了一项由哮喘临床医生、患者和技术开发者团队设计的患者调查结果（N=1257），旨在确定聊天机器人的最佳有效性、价值和参与度因素。结果表明，大多数哮喘成人（53%）对使用聊天机器人感兴趣，而最有可能这样做的患者是那些认为自己的哮喘更严重且对自我管理信心不足的人。结果还表明，他们对24/7可访问性、个性化以及WhatsApp作为优选接入方式（相比于应用程序、语音助手、短信或网站）表现出热情。影响采用的障碍包括安全/隐私问题和对技术能力的怀疑。我们展示了详细的研究结果，并将其整合为7条建议，供开发者优化基于聊天机器人的健康支持的有效性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是：如何通过人工智能增强的对话代理（特别是移动聊天机器人）为哮喘患者提供个性化的支持，以提高患者的参与度、价值感和效果。具体来说，论文关注以下几个关键问题：

患者对聊天机器人的接受度：研究哮喘患者是否愿意使用聊天机器人来支持他们的哮喘管理。
影响参与度的因素：探讨哪些因素会影响患者对聊天机器人的参与度，包括技术信任、隐私和安全问题、个性化需求等。
聊天机器人的设计和功能：确定哪些设计和功能特征能够最大化患者与聊天机器人的有意义互动，例如24/7访问、个性化、特定的交流风格等。
不同患者群体的需求差异：分析不同哮喘患者群体（如基于疾病严重程度、症状控制、技术使用信心等）对聊天机器人的需求和偏好差异。

总的来说，论文旨在通过患者调查和分析，为开发有效的、针对成人哮喘患者的聊天机器人提供指导和建议，以改善哮喘的风险自我评估、健康素养和获取护理的机会。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

移动技术在健康领域的应用

Ramsey et al., 2019b [27]：系统评估了哮喘管理应用程序，发现这些应用程序在行为改变技术方面存在一定的效果。
Whittamore, 2017 [35]：讨论了技术如何革新哮喘的自我管理，强调了移动技术在健康领域的潜力。

针对哮喘的移动技术

MAX (Kowatsch et al., 2021) [17]：研究了一个名为MAX的对话代理，旨在提高儿童和青少年的哮喘知识和行为技能。研究结果表明，该系统得到了所有利益相关者的高度接受，并且改善了认知和行为技能。
ASTHMAXcel (Hsia et al., 2020) [12,13]：这是一个为成人设计的移动应用程序，旨在提高哮喘知识和临床结果。研究表明，该应用程序增加了哮喘知识，并减少了急诊室就诊、住院和泼尼松使用等临床结果。

WhatsApp在数字健康中的应用

Saeed Tayeb, 2019 [29]：评估了患者对通过WhatsApp分享健康信息的满意度，得出WhatsApp是提高患者知识和行为的有效社交媒体程序。
Calderón et al., 2017 [5]：研究了拉丁美洲哮喘患者对WhatsApp作为沟通工具的兴趣，发现大多数患者对使用WhatsApp接收哮喘信息感兴趣。
Cumella et al., 2020 [10]：提供了一个案例，其中年轻成年人可以通过WhatsApp获得哮喘护士的帮助来管理他们的哮喘，结果表明该服务得到了良好的接受，并提高了患者对哮喘管理的信心。

针对哮喘的对话代理

Singh et al., 2023 [30]：系统回顾了聊天机器人在生活方式行为改变中的有效性。
kBot (Kadariya et. al., 2019) [15]：测试了一个名为kBot的聊天机器人，它可以通过文本和语音与用户交互，旨在支持儿童哮喘患者。研究结果表明，该聊天机器人得到了临床医生和研究人员的好评，但没有进行患者测试。
Rhee et al., 2014 [28]：描述了一个基于移动电话的青少年哮喘自我管理辅助系统，能够解释描述哮喘症状的英语短信。研究结果表明，该系统提高了参与者对症状和触发因素的意识，增强了他们的控制感和治疗依从性。

这些相关研究为当前研究提供了背景和参考，展示了移动技术和对话代理在健康领域的潜力，特别是在哮喘管理方面。

Q: 论文如何解决这个问题？

A: 论文通过以下步骤来解决如何通过人工智能增强的对话代理（聊天机器人）为哮喘患者提供个性化支持的问题：

1. 患者调查

设计调查：研究团队设计了一个包含38个封闭问题和12个开放式问题的调查问卷，旨在了解成人哮喘患者对聊天机器人的兴趣、偏好和期望。调查问卷得到了伦敦帝国学院伦理委员会的批准。
招募参与者：通过YouGov平台招募了1257名自我报告患有哮喘的成人参与者。
数据分析：使用SPSS v28进行定量数据分析，包括描述性统计和相关性分析。对于开放式问题，采用归纳主题分析方法，使用NVIVO软件进行编码和主题生成。

2. 定量分析

描述性统计：分析了参与者的背景信息，包括年龄、性别、教育水平、哮喘诊断年龄等。
信任度分析：通过Spearman秩相关分析，研究了参与者对医疗系统的信任度与他们的教育水平、技术使用信心、是否属于少数族裔、年龄和自我管理信心之间的关系。
兴趣分析：通过卡方检验，比较了对聊天机器人感兴趣和不感兴趣的参与者在信任医疗系统、寻求全科医生支持、对技术的信心、自我管理信心和哮喘严重性自我评估方面的差异。
偏好分析：分析了参与者对聊天机器人访问方式（如WhatsApp、网站、应用程序等）和对话风格（如友好、直接、像护士等）的偏好。

3. 定性分析

主题分析：对开放式问题的回答进行了归纳主题分析，识别了参与者对聊天机器人兴趣或不兴趣的具体原因，包括技术怀疑、个性化怀疑、低哮喘严重性和安全隐私问题等。
动机分析：分析了参与者对聊天机器人感兴趣的原因，包括健康教育和自我管理支持、易于获取、免费使用和可信背书等。

4. 结论和建议

推荐1：优先考虑通过现有技术（如WhatsApp）而不是定制应用程序提供聊天机器人，以确保易于访问。
推荐2：以需要额外支持的患者为中心，特别是那些认为自己的哮喘更严重或对自我管理缺乏信心的患者。
推荐3：包括教育内容、风险评估和定制化自我管理建议。
推荐4：设计一个令人安心且像护士一样的对话风格。
推荐5：解决安全和隐私问题。
推荐6：解决技术怀疑问题。
推荐7：考虑可信背书，如来自全科医生或哮喘慈善机构的支持。

通过这些步骤，论文不仅提供了对成人哮喘患者对聊天机器人兴趣的定量分析，还深入探讨了影响他们参与度的具体因素，并为开发者提供了具体的建议，以优化聊天机器人在哮喘管理中的效果和价值。

Q: 论文做了哪些实验？

A: 论文中没有进行传统意义上的实验，而是通过一项大规模的患者调查来收集数据。以下是调查的具体步骤和方法：

调查设计

问卷设计：设计了一份包含38个封闭问题和12个开放式问题的调查问卷，旨在了解成人哮喘患者对聊天机器人（chatbot）的兴趣、偏好和期望。
伦理批准：调查问卷得到了伦敦帝国学院伦理委员会的批准（#21|C7403）。

参与者招募

招募平台：通过YouGov平台招募了1257名自我报告患有哮喘的成人参与者。
招募标准：仅招募了YouGov数据库中自我报告患有哮喘的参与者。
报酬：参与者根据YouGov的标准获得了报酬。

数据收集

调查内容：调查内容涵盖了参与者的基本信息、对聊天机器人的兴趣、对医疗系统的信任度、对技术的使用信心、哮喘自我管理的信心以及对聊天机器人功能和访问方式的偏好等。
开放式问题：除了封闭问题外，还设置了开放式问题，让参与者能够详细表达他们对聊天机器人的看法和期望。

数据分析

定量分析：
- 描述性统计：分析了参与者的背景信息，包括年龄、性别、教育水平、哮喘诊断年龄等。
- 相关性分析：使用Spearman秩相关分析，研究了参与者对医疗系统的信任度与他们的教育水平、技术使用信心、是否属于少数族裔、年龄和自我管理信心之间的关系。
- 卡方检验：比较了对聊天机器人感兴趣和不感兴趣的参与者在信任医疗系统、寻求全科医生支持、对技术的信心、自我管理信心和哮喘严重性自我评估方面的差异。
定性分析：
- 主题分析：对开放式问题的回答进行了归纳主题分析，识别了参与者对聊天机器人兴趣或不兴趣的具体原因，包括技术怀疑、个性化怀疑、低哮喘严重性和安全隐私问题等。
- 动机分析：分析了参与者对聊天机器人感兴趣的原因，包括健康教育和自我管理支持、易于获取、免费使用和可信背书等。

结果呈现

定量结果：通过统计分析，得出了关于参与者对聊天机器人兴趣、偏好和信任度的具体数据。
定性结果：通过主题分析，得出了参与者对聊天机器人兴趣或不兴趣的具体原因和动机。

限制和未来工作

局限性：研究的局限性包括样本的地理局限性（仅限于英国）、在线调查的局限性、自我报告的哮喘诊断以及少数族裔参与者的样本量较小。
未来工作：计划进行后续研究，测试一个基于当前研究结果设计的聊天机器人原型，以了解实际使用模式、感知效益和最终评估。

总的来说，论文通过一项全面的患者调查，收集了大量数据，分析了成人哮喘患者对聊天机器人的兴趣和期望，并提出了具体的开发建议。这种方法为开发有效的、针对成人哮喘患者的聊天机器人提供了重要的指导。

Q: 有什么可以进一步探索的点？

Authors: Laura Moradbakhti, Dorian Peters, Jennifer K. Quint, Björn Schuller, Darren Cook, Rafael A. Calvo

Categories: cs.HC, cs.AI, cs.CY, cs.ET, K.4.2; J.3

PDF URL: https://arxiv.org/pdf/2507.16735v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16735v1

Published: 2025-07-22T16:21:00Z

4. RAVine: Reality-Aligned Evaluation for Agentic Search

Agentic search, as a more autonomous and adaptive paradigm of retrieval augmentation, is driving the evolution of intelligent search systems. However, existing evaluation frameworks fail to align well with the goals of agentic search. First, the complex queries commonly used in current benchmarks often deviate from realistic user search scenarios. Second, prior approaches tend to introduce noise when extracting ground truth for end-to-end evaluations, leading to distorted assessments at a fine-grained level. Third, most current frameworks focus solely on the quality of final answers, neglecting the evaluation of the iterative process inherent to agentic search. To address these limitations, we propose RAVine — a Reality-Aligned eValuation framework for agentic LLMs with search. RAVine targets multi-point queries and long-form answers that better reflect user intents, and introduces an attributable ground truth construction strategy to enhance the accuracy of fine-grained evaluation. Moreover, RAVine examines model’s interaction with search tools throughout the iterative process, and accounts for factors of efficiency. We benchmark a series of models using RAVine and derive several insights, which we hope will contribute to advancing the development of agentic search systems. The code and datasets are available at https://github.com/SwordFaith/RAVine.

中文摘要

自主搜索作为一种更自主和自适应的检索增强范式，正在推动智能搜索系统的演变。然而，现有的评估框架与自主搜索的目标并不契合。首先，当前基准中常用的复杂查询通常偏离实际用户搜索场景。其次，以往的方法在提取端到端评估的真实结果时往往引入噪音，导致细粒度评估的扭曲。第三，大多数当前框架仅关注最终答案的质量，忽略了对自主搜索固有的迭代过程的评估。为了解决这些局限性，我们提出了RAVine——一个与现实对齐的自主大型语言模型搜索评估框架。RAVine针对多点查询和更能反映用户意图的长格式答案，提出了一种可归因的真实结果构建策略，以提高细粒度评估的准确性。此外，RAVine在整个迭代过程中考察模型与搜索工具的互动，并考虑效率因素。我们使用RAVine对一系列模型进行了基准测试，并获得了一些见解，我们希望这些见解有助于推进自主搜索系统的发展。代码和数据集可以在 https://github.com/SwordFaith/RAVine 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决现有的用于评估具有搜索能力的智能体（agentic search）的评估框架与实际目标不一致的问题。具体来说，论文指出现有评估框架存在以下三个主要问题：

查询与用户需求的不一致：现有的基准测试中使用的复杂查询往往偏离真实的用户搜索场景。在实际中，用户通常期望的不仅仅是深度搜索，还需要广度，即收集和整合多个信息点，最终形成一个长篇、全面的答案。
噪声信息收集与端到端评估的不一致：在需要整合多点信息并生成长篇输出的任务中，需要进行细粒度的、基于声明的评估，这通常包括任务的完整性和真实性。然而，现有的方法在收集用于评估的“信息单元”（nuggets）时存在不足，导致评估结果可能不准确，增加了评估成本。
端到端评估与过程导向架构的不一致：尽管端到端评估可以直接反映整体性能，但具有搜索能力的智能体本质上是过程导向的模型，它们在任务执行过程中自主迭代、调用搜索工具并阅读网页内容。然而，现有的评估框架主要关注最终答案的质量，忽略了中间行为和过程效率，而这些因素对于模型的区分和能力诊断也非常重要。

为了解决这些问题，论文提出了一个名为RAVine（Reality-Aligned eValuation framework for agentic LLMs with search）的评估框架，旨在提供一个与现实对齐的、全面的、可复现的评估环境，以更好地评估智能体搜索系统。

Q: 有哪些相关研究？

A: 论文中提到了多个与检索增强型生成（Retrieval-Augmented Generation, RAG）和智能体搜索（Agentic Search）相关的研究工作。以下是一些主要的相关研究：

检索增强型生成（Retrieval-Augmented Generation）

RAG 的提出：Lewis 等人 [10] 提出了检索增强型生成（RAG），通过结合外部知识检索来增强大型语言模型（LLMs），从而减少仅依赖内部参数时出现的幻觉问题。
RAG 的应用：RAG 在多个领域得到了应用，例如在多跳问答任务中，通过检索外部知识来提高模型的准确性和可靠性 [17]。

智能体搜索（Agentic Search）

智能体搜索的提出：Li 等人 [18] 提出了智能体搜索的概念，强调模型通过自主引导搜索过程来增强生成能力。
Deep Research 系统：Google 的 Gemini Deep Research [12] 是一个产品级的智能体搜索系统，通过结构化的智能体工作流实现更全面和针对性的搜索。

评估方法

多跳问答数据集：Ho 等人 [14] 构建了一个多跳问答数据集，用于评估模型在推理步骤上的表现。
长篇问答评估：Krishna 等人 [16] 探讨了长篇问答中的挑战，强调了生成长篇、全面答案的难度。
信息检索评估：Pradeep 等人 [25] 提出了 AutoNuggetizer 框架，用于自动化事实提取和 RAG 评估。
检索增强生成的评估：Qi 等人 [27] 提出了 LONG2RAG 数据集，用于评估长上下文和长篇生成的检索增强生成。

模型和工具

大型语言模型（LLMs）：如 Qwen [28] 和 LLaMA [13] 等，这些模型在智能体搜索任务中被广泛使用。
检索工具：如 gte-modernbert-base [40] 和 BM25 [29] 等，用于构建检索索引，支持模型的搜索能力。

这些研究为 RAVine 框架的提出提供了背景和基础，RAVine 旨在解决现有评估方法与智能体搜索目标之间的不一致问题，提供一个更全面、更现实的评估框架。

Q: 论文如何解决这个问题？

A: 为了解决现有评估框架与智能体搜索目标之间的不一致问题，论文提出了一个名为 RAVine（Reality-Aligned eValuation framework for agentic LLMs with search） 的评估框架。RAVine 通过以下几个关键方面来解决这些问题：

1. 多点查询和长篇答案

RAVine 针对多点查询和长篇答案进行评估，这些查询和答案更能反映用户的真实意图。具体来说：

测试集：使用 TREC 2024 RAG Track [24] 的查询作为测试集，这些查询来源于 Bing 搜索日志，更贴近真实的用户行为。
长篇答案：要求模型生成长篇、全面的答案，而不是简短的实体或片段。

2. 可归因的“信息单元”（Nuggets）收集策略

为了提高细粒度评估的准确性，RAVine 引入了一种可归因的“信息单元”（nuggets）收集方法。具体步骤如下：

段级提取：在段级（而不是文档级）提取 nuggets，因为段级单位更细粒度，更符合声明语句的格式。
动态聚类：使用 HDBSCAN [22] 等密度聚类算法对提取的 nuggets 进行动态聚类，合并语义相似的 nuggets，并将合并后的 nuggets 归因于原始的网页。
灵活的 nuggets 数量：根据每个查询的复杂性动态调整 nuggets 的数量，而不是使用固定的上限。

3. 块级评估

RAVine 采用块级评估方法来衡量任务的完整性和真实性，避免了现有方法中的不一致性和扭曲问题。具体方法如下：

块的定义：将报告按引用边界分割成块，每个块包含一个或多个句子，并且每个块都与一个或多个引用相关联。
联合评估：同时评估每个块对 nuggets 的支持程度，计算任务的完整性分数，并追溯匹配的 nuggets 到其来源网页，计算引用的召回率和精确率。

4. 过程导向评估

RAVine 不仅评估最终答案的质量，还评估模型在迭代过程中的行为和工具使用效率。具体评估指标包括：

工具调用性能：评估工具选择的正确性、参数的正确性以及每次调用的有效性。
效率指标：评估模型的迭代效率、工具调用的延迟和成本。

5. 实验和分析

RAVine 对一系列模型进行了基准测试，揭示了当前模型在任务完整性、真实性和搜索性能方面的局限性。具体发现包括：

任务完整性不足：许多模型在任务完成率和任务完整性分数上表现不佳，表明它们在信息收集和整合方面存在不足。
真实性不足：模型在引用生成方面表现不佳，表明它们在多轮搜索中的上下文管理能力有限。
查询探索能力不足：模型在搜索召回和搜索增益方面表现不佳，表明它们在信息探索方面存在局限性。
“思考”模式的增强：启用“思考”模式的模型在任务完成率和任务完整性上表现更好，但会增加延迟和成本。
内部知识的依赖：模型在生成答案时过度依赖内部知识，而不是检索到的外部知识，这会影响答案的可归因性和真实性。

通过这些方法，RAVine 提供了一个全面、可复现且与现实对齐的评估环境，有助于推动智能体搜索系统的发展。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验，以评估不同模型在提出的 RAVine 框架下的性能。以下是实验的详细设置和结果：

实验设置

模型选择：选择了多个具有工具使用能力的先进智能体 LLMs 进行评估，包括 Qwen2.5-7B-Instruct [28]、Qwen2.5-32B-Instruct [28]、Qwen3-8B [37]、Qwen3-32B [37]、Qwen3-30B-A3B [37] 和 LLaMA-3.1-8B-Instruct [13]。对于支持“思考”模式的模型（如 Qwen3 系列），分别评估了它们在开启和关闭思考模式下的性能。
上下文长度：将模型分为两组，分别在最大上下文长度为 32k 和 128k 的情况下进行评估。
索引类型：对每组模型分别使用两种不同的索引进行评估，一种是基于 gte-modernbert-base [40] 构建的密集索引，另一种是基于 BM25 [29] 的词法索引。
实验环境：所有实验均在配备 8×H100 GPU 的机器上进行。

评估指标

任务完成率（Task Completion Rate）：模型成功遵循指令、完成迭代过程并生成最终报告的比例。
任务完整性（Task Completeness）：模型生成的报告在多大程度上涵盖了所有相关的信息点（nuggets）。
引用召回率（Citation Recall） 和 引用精确率（Citation Precision）：评估模型生成的引用与真实引用的匹配程度。
搜索召回率（Search Recall） 和 搜索增益（Search Gain）：评估模型在搜索过程中的表现，包括检索到的相关信息的比例和每次搜索调用带来的边际增益。
延迟（Latency） 和 成本（Cost）：评估模型的运行效率和经济成本。
迭代次数（Turns）：模型完成任务所需的平均迭代次数。
URL 错误率（URL Error）：模型在调用 fetch 工具时出现无效 URL 的比例。
搜索精确率（Search Precision） 和 fetch 精确率（Fetch Precision）：评估模型在搜索和获取网页内容时的准确性。

实验结果

任务完成率和完整性：一些模型如 Qwen2.5-7B-Instruct 和 Qwen3-8B（非思考模式）的任务完成率较低，表明它们在遵循指令和执行任务时存在困难。大多数模型在任务完整性方面表现不佳，例如 Qwen3-8B（非思考模式）的平均召回率仅为 22.3%，无法满足生成全面、深入长篇回答的要求。
引用生成能力：模型在引用生成方面存在显著限制，例如 Qwen3-32B 的最大引用召回率为 13.2%，精确率为 11.9%，这表明多轮搜索增加了上下文管理的难度，导致真实性下降。
查询探索能力：模型在搜索召回和搜索增益方面表现不佳，说明它们在信息探索方面的能力有限，可能在运行过程中停留在某个信息领域，缺乏广度和深度。
思考模式的影响：开启思考模式的模型通常在任务完成率和任务完整性上表现更好，但会增加延迟和成本。例如，Qwen3-32B（思考模式）的任务完成率达到 98.8%，任务完整性得分为 45.2%，而 Qwen3-8B（非思考模式）的任务完成率为 28.6%，任务完整性得分为 12.4%。
内部知识的依赖：通过 Compin 指标发现，模型在生成答案时过度依赖内部知识，而不是检索到的外部知识。例如，一些模型超过一半的 nuggets 是通过内部知识命中的，这种行为虽然可能在某些非长尾事实中是准确的，但无法通过引用进行归因，影响了答案的可验证性和真实性。
中间性能与最终性能的关系：实验结果表明，最终任务完整性分数与搜索精确率分数之间没有显著的正相关性。通过 Compin 指标对运行进行分类分析发现，依赖检索知识的运行在任务完整性和搜索精确率之间显示出更明显的正相关性，这表明过度依赖内部知识是导致中间性能与最终性能不一致的因素之一。

结论

RAVine 框架的实验结果揭示了当前智能体 LLMs 在信息收集、真实性和搜索性能方面的局限性。此外，过程级评估还发现模型在中间行为和最终性能之间存在不一致性，并揭示了模型过度依赖内部知识而不是搜索的不良行为。这些发现为未来智能体搜索系统的研究和开发提供了有价值的见解。

Q: 有什么可以进一步探索的点？

A: 论文提出了 RAVine 框架来评估智能体搜索系统，并通过一系列实验揭示了当前模型的局限性。基于这些发现，以下是一些可以进一步探索的研究方向：

1. 改进智能体搜索模型

增强查询理解能力：当前模型在理解复杂查询和执行任务时存在困难。可以探索如何通过更好的预训练或微调策略来提高模型对用户查询的理解能力。
优化搜索策略：模型在信息探索方面的能力有限，可能停留在某个信息领域。可以研究如何设计更有效的搜索策略，例如通过强化学习来优化搜索路径。
提高引用生成能力：模型在引用生成方面表现不佳，可以探索如何改进上下文管理，以提高引用的准确性和真实性。

2. 改进评估框架

动态查询生成：当前的评估框架主要依赖于静态查询集。可以研究如何生成动态查询，以更好地模拟真实用户行为。
多模态评估：除了文本信息，还可以考虑将图像、视频等多模态信息纳入评估框架，以更全面地评估模型的能力。
用户反馈集成：将用户反馈纳入评估过程，以更直接地反映模型在实际应用中的表现。

3. 探索不同的索引和检索技术

混合索引策略：结合密集索引和词法索引的优点，探索混合索引策略，以提高检索的准确性和效率。
实时索引更新：研究如何实时更新索引，以应对动态变化的网络环境。
跨语言检索：探索跨语言检索技术，以支持多语言环境下的智能体搜索。

4. 研究模型的经济性和效率

成本效益分析：进一步研究模型的经济性和效率，探索如何在保证性能的同时降低运行成本。
资源优化：研究如何优化模型的资源使用，例如通过模型压缩或分布式计算来提高效率。

5. 探索模型的可解释性和透明度

决策过程可视化：研究如何可视化模型的决策过程，以提高模型的可解释性和透明度。
用户信任建立：探索如何通过提高模型的可解释性来建立用户信任，特别是在关键应用领域如医疗、金融等。

6. 研究模型的社会影响和伦理问题

偏见和公平性：研究模型在生成内容时可能存在的偏见和不公平性，探索如何减少这些偏见。
隐私保护：研究如何在智能体搜索中保护用户隐私，特别是在处理敏感信息时。

7. 跨领域应用

特定领域应用：研究如何将智能体搜索应用于特定领域，如医疗、法律、教育等，以满足不同领域的特定需求。
多领域综合应用：探索如何在多个领域综合应用智能体搜索，以实现更广泛的应用场景。

8. 用户交互和反馈机制

交互式评估：研究如何设计交互式评估机制，让用户直接参与模型的评估过程。
反馈驱动的优化：探索如何利用用户反馈来优化模型的性能，例如通过在线学习或增量训练。

这些方向不仅可以帮助改进当前的智能体搜索系统，还可以推动相关技术在更广泛的应用场景中的发展。

Q: 总结一下论文的主要内容

Authors: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao

Categories: cs.CL, cs.AI, cs.IR

PDF URL: https://arxiv.org/pdf/2507.16725v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16725v1

Published: 2025-07-22T16:08:12Z

5. InternAgent: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification

Artificial Intelligence (AI) is accelerating the transformation of scientific research paradigms, not only enhancing research efficiency but also driving innovation. We introduce InternAgent, a unified closed-loop multi-agent framework to conduct Autonomous Scientific Research (ASR) across various scientific research fields, enabling researchers to tackle complicated problems in these fields with unprecedented speed and precision. InternAgent highlights three key advantages: 1) Scalability: InternAgent has demonstrated its versatility across 12 scientific research tasks, capable of generating innovative ideas to enhance the performance of baseline code. 2) Interactivity: InternAgent provides an interface for human expert feedback and multi-agent interaction in automated end-to-end processes, allowing for the seamless integration of domain expert knowledge. 3) Efficiency: InternAgent has achieved promising performance gains in several scientific fields with significantly less time cost compared to human efforts. For instance, in reaction yield prediction, it increased from 27.6% to 35.4% in just 12 hours; in enhancer activity prediction, accuracy rose from 0.65 to 0.79 with only 4 hours of processing; and in 2D semantic segmentation, precision advanced from 78.8% to 81.0% in a mere 30 hours.

中文摘要

翻译失败: Unexpected end of JSON input

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了 NOVELSEEK，这是一个用于 自主科学研究（Autonomous Scientific Research, ASR） 的统一闭环多智能体框架。它旨在解决科学研究范式转变中面临的挑战，特别是在生成有效且新颖的研究提案以及实现实验验证的闭环反馈方面。具体来说，NOVELSEEK 试图解决以下问题：

生成有效且新颖的提案：
- 自动化系统需要在识别研究空白的基础上生成不仅具有创新性而且科学上有效的假设。这需要在创造力和严谨性之间取得平衡，对于依赖现有数据和模式的 AI 模型来说是一个挑战。
- 此外，确保提案的新颖性通常需要对更广泛的科学背景有深入的理解，这对于受训练数据质量和范围限制的模型来说是困难的。
实现闭环反馈：
- 自动化系统需要设计实验、执行实验、分析结果，并在无缝的循环中迭代地完善假设。这需要跨多个领域的整合，例如用于实验执行的机器人技术和用于结果解释的高级分析。
- 实验过程中常常出现意外变量和噪声，使得自动化系统难以适应和有效学习。实现真正的闭环系统需要强大的协调能力、适应性和处理不确定性的能力，这些仍然是技术和概念上的障碍。
跨学科的通用性和效率：
- 现有的自动研究系统大多在相对简单的任务或狭窄的科学领域中进行评估，但在更复杂的系统级科学挑战中往往面临显著限制。
- 当应用于更复杂的科学任务时，这些方法通常无法有效地处理多文件代码库和复杂的实验设计，限制了其在实际研究中的应用。

为了解决这些问题，NOVELSEEK 提出了一个端到端的自动研究流程，涵盖了从想法生成、想法到方法的转化、实验执行到结果反馈的整个研究周期。它通过多智能体协作实现了这一目标，每个智能体都负责不同的任务，从而提高了科学研究的效率和创新能力。

Q: 有哪些相关研究？

A: 论文中提到了多个与 NOVELSEEK 相关的研究工作，这些研究主要集中在以下几个方面：

自动科学研究（ASR）和自主科学发现（ASD）

AI Scientist：Lu et al. (2024) 提出了 AI Scientist 框架，这是最早实现机器学习领域全自动研究流程的框架之一，覆盖了问题定义、实验执行和结果报告的全过程。
AI Scientist-V2：Yamada et al. (2025) 在 AI Scientist 的基础上进行了增强，引入了智能体树搜索、视觉-语言模型反馈和并行化实验执行，实现了 AI 生成和同行评审的工作坊论文。
AI-Researcher：Lab (2025) 提出了 AI-Researcher，这是一个基于 LLM 的框架，能够自动化整个研究过程，包括文献综述、实验执行和报告撰写。
DOLPHIN：Yuan et al. (2025) 提出了 DOLPHIN，这是一个闭环的 LLM 驱动框架，能够自动化多个简单任务的研究流程。

研究想法生成

Chain of Ideas：Li et al. (2024b) 提出了一种通过分析相互关联的学术作品来生成研究想法的方法。
Hypothesis Generation：Yang et al. (2023) 和 Wang et al. (2023) 研究了从大规模网络数据和科学文献中提取假设的方法。

人类-AI协作

Agent Laboratory：Schmidgall et al. (2025) 提出了 Agent Laboratory，它将人类反馈整合到多阶段 LLM 智能体工作流中，自动化文献综述、实验执行和报告撰写。
AgentRxiv：Schmidgall & Moor (2025) 提出了 AgentRxiv，它通过共享预印本服务器促进 LLM 智能体实验室之间的通信和协作。
AI Co-Scientist：Gottweis et al. (2025) 提出了 AI Co-Scientist，这是一个基于 Gemini 2.0 的多智能体系统，采用“生成-辩论-进化”策略进行假设生成。

知识检索和表示

SurveyForge：Yan et al. (2025) 提出了 SurveyForge，这是一个用于自动化综述写作的框架，包括大纲启发式、记忆驱动生成和多维度评估。

思想评估和基准测试

AI Idea Bench：Qiu et al. (2025) 提出了 AI Idea Bench，这是一个用于评估 AI 研究想法生成的基准测试平台。

这些研究为 NOVELSEEK 提供了理论基础和技术支持，同时也展示了该领域的发展趋势和挑战。

Q: 论文如何解决这个问题？

A: 论文通过提出 NOVELSEEK，一个统一的闭环多智能体框架，来解决自主科学研究（ASR）中的挑战。NOVELSEEK 通过以下三个核心能力来实现这一目标：

1. 自进化想法生成与人类交互反馈（Self-evolving Idea Generation with Human-interactive Feedback）

NOVELSEEK 的自进化想法生成能力是其核心，能够自主生成并优化创新的研究想法。这一过程涉及多个专门的智能体，每个智能体在想法发展的不同阶段发挥作用：

Survey Agent：负责搜索科学论文，提供两种模式：文献综述模式和深入研究模式。文献综述模式通过关键词组合广泛搜索学术数据库，而深入研究模式则深入分析相关论文的全文，生成新的关键词组合，进一步探索文献。
Code Review Agent：分析基线代码，提供详细分析，帮助 NOVELSEEK 理解现有代码库，并识别潜在的改进点。
Idea Innovation Agent：负责生成和进化想法。它利用 LLM 生成多样化的想法，并通过反馈循环不断优化这些想法。
Assessment Agent：对生成的想法进行多维度评估，确保其质量。评估维度包括连贯性、可信度、可验证性、新颖性和与研究目标的一致性。
Human-interactive Feedback：整合人类专家的反馈，确保想法与实际需求和目标一致。
Orchestration Agent：协调所有其他智能体，确保任务的同步和数据流的管理，使框架能够高效、连贯地运行。

2. 想法到方法的全面构建（Comprehensive Idea-to-Methodology Construction）

NOVELSEEK 通过想法到方法的构建过程，将粗略的想法转化为详细且可实施的方法。这一过程由 Method Development Agent 负责，包括两个核心能力：

Methodology Initialization：通过整合想法、任务描述、基线方法和相关文献，构建方法的基本结构和内容。
Methodology Refinement：通过结构化批评和最新科学文献的见解，迭代改进方法的基本结构，确保其严谨性和完整性。

3. 进化式实验规划与执行（Evolutionary Experimental Planning and Execution）

NOVELSEEK 通过进化式实验规划和执行，将理论概念转化为可运行的代码，并通过实验验证其有效性。这一过程包括：

异常引导调试框架（Exception-Guided Debugging Framework）：通过捕获运行时异常，分析错误上下文，并通过 LLM 推理制定针对性的修复策略，将抽象的方法描述转化为可执行的代码。
实验规划与自适应进化（Experimental Planning and Adaptive Evolution）：确定需要修改的核心模块，制定逐步实施策略，并通过性能评估和潜在改进的迭代过程，逐步优化复杂实现。

实验验证

NOVELSEEK 在 12 种不同的科学研究任务上进行了验证，这些任务涵盖了从基础任务到复杂的多模态任务。实验结果表明，NOVELSEEK 在多个任务上均取得了显著的性能提升，例如：

在反应产率预测任务中，性能从 27.6% 提升到 35.4%，仅用了 12 小时。
在增强子活性预测任务中，准确率从 0.52 提升到 0.79，仅用了 4 小时。
在 2D 语义分割任务中，精度从 78.8% 提升到 81.0%，仅用了 30 小时。

人类研究与 NOVELSEEK 的效率比较

论文还通过人类研究者与 NOVELSEEK 的效率比较，进一步验证了 NOVELSEEK 的优势。例如，在反应产率预测任务中，人类研究者通常需要数月时间才能实现类似的性能提升，而 NOVELSEEK 仅用了 12 小时。

总结

通过上述三个核心能力，NOVELSEEK 实现了从想法生成到实验验证的整个科学研究周期的自动化，显著提高了科学研究的效率和创新能力。

Q: 论文做了哪些实验？

A: 论文中进行了广泛的实验，以验证 NOVELSEEK 在不同科学研究任务中的有效性和效率。实验涵盖了从基础任务到复杂的多模态任务，具体如下：

实验设置

任务选择：论文选择了 12 种不同的任务，包括反应产率预测（AutoRYP）、分子动力学（AutoMD）、电力潮流估计（AutoPower）、时间序列预测（AutoTSF）、转录预测（AutoTPPR）、增强子活性预测（AutoEAP）、情感分类（AutoSenCls）、2D 图像分类（Auto2DCls）、3D 点云分类（Auto3DCls）、2D 语义分割（Auto2DSeg）、3D 点云自动驾驶（AutoPCDet）和大型视觉-语言模型微调（AutoVLM）。
数据集：每个任务都使用了相应的标准数据集，例如反应产率预测任务使用了 Suzuki-Miyaura 反应数据集，分子动力学任务使用了 MD17 数据集，电力潮流估计任务使用了 IEEE 39-Bus 数据集等。
基线模型：为每个任务选择了一个基线模型，例如反应产率预测任务的基线是 LoRA-finetuned LLaMA3-8B，分子动力学任务的基线是 VisNet，电力潮流估计任务的基线是 SenseFlow 等。
评估指标：根据任务的不同，使用了不同的评估指标，如反应产率预测任务使用了决定系数（R²），分子动力学任务使用了力的平均绝对误差（Force-MAE），电力潮流估计任务使用了均方根误差（RMSE）等。

实验结果

性能提升：NOVELSEEK 在多个任务上均取得了显著的性能提升。例如，在反应产率预测任务中，性能从基线的 27.6% 提升到 35.4%，仅用了 12 小时；在增强子活性预测任务中，准确率从基线的 0.52 提升到 0.79，仅用了 4 小时；在 2D 语义分割任务中，精度从基线的 78.8% 提升到 81.0%，仅用了 30 小时。
执行成功率：NOVELSEEK 在复杂任务上也保持了较高的执行成功率。例如，在 AutoPCDet 任务中，成功执行率为 50%，在 Auto2DSeg 任务中，成功执行率为 90%。
与现有系统的比较：NOVELSEEK 与现有的自动研究系统（如 DOLPHIN）进行了比较。在所有任务中，NOVELSEEK 均优于 DOLPHIN，例如在 AutoRYP 任务中，NOVELSEEK 的最大性能提升了 7.8%，而 DOLPHIN 只提升了 4.2%。

实验分析

想法生成与进化：论文通过展示想法进化树，说明了 NOVELSEEK 如何通过迭代过程优化想法。例如，在反应产率预测任务中，从一个基本想法开始，通过逐步引入更具体的化学描述符、交叉模态注意力机制或层次结构，不断改进想法。
想法到方法的转化：论文展示了 NOVELSEEK 如何将想法转化为详细的方法描述，从而便于代码实现。例如，在反应产率预测任务中，NOVELSEEK 生成了一个名为“Adaptive Dual-Attention Graph-Transformer with Dynamic Freezing”的方法，该方法通过结合 SMILES 和基于图的反应描述符，使用混合图-变换器网络，引入层次化的注意力机制，同时最小化过拟合。
实验规划与自适应进化：论文通过具体的实验案例，展示了 NOVELSEEK 的实验规划和自适应进化过程。例如，在 3D 点云分类任务中，NOVELSEEK 通过逐步改进实验计划，最终实现了 2.1% 的准确率提升。

人类评估

想法新颖性评估：论文邀请了领域专家对 NOVELSEEK 和 AI-Scientist-V2 生成的想法进行了评估。评估维度包括合理性、贡献度、总体评价和置信度。在所有任务中，NOVELSEEK 生成的想法在各个维度上均优于 AI-Scientist-V2。例如，在反应产率预测任务中，NOVELSEEK 的总体评价为 4.35，而 AI-Scientist-V2 为 3.50。

总结

通过这些实验，论文验证了 NOVELSEEK 在多个科学研究任务中的有效性和效率，展示了其在想法生成、方法转化和实验验证方面的强大能力。

Q: 有什么可以进一步探索的点？

Authors: InternAgent Team, Bo Zhang, Shiyang Feng, Xiangchao Yan, Jiakang Yuan, Runmin Ma, Yusong Hu, Zhiyin Yu, Xiaohan He, Songtao Huang, Shaowei Hou, Zheng Nie, Zhilong Wang, Jinyao Liu, Tianshuo Peng, Peng Ye, Dongzhan Zhou, Shufei Zhang, Xiaosong Wang, Yilan Zhang, Meng Li, Zhongying Tu, Xiangyu Yue, Wangli Ouyang, Bowen Zhou, Lei Bai

Categories: cs.AI, cs.CL, cs.CV

PDF URL: https://arxiv.org/pdf/2505.16938v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2505.16938v3

Published: 2025-05-22T17:27:43Z

6. Novel Multi-Agent Action Masked Deep Reinforcement Learning for General Industrial Assembly Lines Balancing Problems

Efficient planning of activities is essential for modern industrial assembly lines to uphold manufacturing standards, prevent project constraint violations, and achieve cost-effective operations. While exact solutions to such challenges can be obtained through Integer Programming (IP), the dependence of the search space on input parameters often makes IP computationally infeasible for large-scale scenarios. Heuristic methods, such as Genetic Algorithms, can also be applied, but they frequently produce suboptimal solutions in extensive cases. This paper introduces a novel mathematical model of a generic industrial assembly line formulated as a Markov Decision Process (MDP), without imposing assumptions on the type of assembly line a notable distinction from most existing models. The proposed model is employed to create a virtual environment for training Deep Reinforcement Learning (DRL) agents to optimize task and resource scheduling. To enhance the efficiency of agent training, the paper proposes two innovative tools. The first is an action-masking technique, which ensures the agent selects only feasible actions, thereby reducing training time. The second is a multi-agent approach, where each workstation is managed by an individual agent, as a result, the state and action spaces were reduced. A centralized training framework with decentralized execution is adopted, offering a scalable learning architecture for optimizing industrial assembly lines. This framework allows the agents to learn offline and subsequently provide real-time solutions during operations by leveraging a neural network that maps the current factory state to the optimal action. The effectiveness of the proposed scheme is validated through numerical simulations, demonstrating significantly faster convergence to the optimal solution compared to a comparable model-based approach.

中文摘要

现代工业装配线的高效活动规划对于维护制造标准、预防项目约束违规以及实现成本效益运营至关重要。虽然可以通过整数规划（IP）获得这些挑战的确切解决方案，但搜索空间对输入参数的依赖性常常使得IP在大规模场景中的计算变得不可行。启发式方法，例如遗传算法，也可以应用，但在广泛的案例中，它们常常产生次优解决方案。本文介绍了一种将通用工业装配线建模为马尔可夫决策过程（MDP）的新颖数学模型，不对装配线类型施加假设，这与现有大多数模型有显著不同。所提出的模型用于创建一个虚拟环境，以训练深度强化学习（DRL）代理，优化任务和资源调度。为了提高代理训练的效率，本文提出了两种创新工具。第一种是动作屏蔽技术，确保代理仅选择可行动作，从而减少训练时间。第二种是多代理方法，每个工作站由单个代理管理，因此状态和动作空间得以减少。采用集中训练与分散执行的框架，提供了一种可扩展的学习架构以优化工业装配线。该框架允许代理离线学习，并在操作期间利用神经网络将当前工厂状态映射到最优动作，从而提供实时解决方案。通过数值模拟验证了所提出方案的有效性，结果显示其收敛到最优解决方案的速度显著快于可比的基于模型的方法。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是现代工业装配线中的任务和资源调度问题，特别是针对一般工业装配线平衡问题（General Industrial Assembly Lines Balancing Problems, ALBPs）。具体来说，论文的目标是通过优化任务和资源的分配来提高装配线的效率，同时满足各种操作约束，如任务截止时间、资源可用性、任务优先级等。这些问题在大规模工业场景中尤为重要，因为传统的精确求解方法（如整数规划）在计算上往往是不可行的，而启发式方法（如遗传算法）又常常产生次优解。论文提出了一种基于深度强化学习（Deep Reinforcement Learning, DRL）的新方法，旨在提供一种更高效、可扩展的解决方案，能够在复杂和动态的工业环境中实现实时优化。

Q: 有哪些相关研究？

A: 论文中提到了多个与装配线平衡问题（ALBPs）和深度强化学习（DRL）相关的研究，以下是这些研究的分类和详细信息：

装配线平衡问题（ALBPs）

早期研究：
- Salveson (1955)：首次提出装配线平衡问题，主要关注单模型装配线的平衡。
- Battaïa and Dolgui (2013)：对装配线平衡问题进行了分类，区分了单装配线平衡问题（SALBP）和广义装配线平衡问题（GALBP）。
- Kucukkoc and Zhang (2015)：研究了并行U型装配线的平衡问题。
- Gyulai et al. (2017)：探讨了可重构装配系统中的调度和操作员控制问题。
- Koskinen et al. (2020)：研究了多模型PCB的滚动地平线生产调度问题。
优化方法：
- Gyulai et al. (2015)：提出了一种鲁棒生产计划和容量控制方法，用于灵活装配线。
- Manzini et al. (2018)：提出了一种集成框架，用于设计、管理和操作可重构装配系统。
- Chen et al. (2023)：提出了一种新的双层多目标遗传算法，用于集成装配线平衡和零件供应问题。

深度强化学习（DRL）在ALBPs中的应用

DRL在ALBPs中的应用：
- Zhou et al. (2020)：提出了一种基于DRL的动态调度方法，用于智能制造中的智能调度。
- Wang et al. (2021)：研究了智能制造中的动态作业车间调度问题，使用DRL进行优化。
- Geurtsen et al. (2023)：研究了DRL在装配线维护规划中的应用。
DRL算法：
- Schulman et al. (2017)：提出了近端策略优化（PPO）算法，这是一种用于策略梯度方法的高效算法。
- Mnih et al. (2015)：提出了深度Q网络（DQN）算法，用于解决强化学习中的非线性问题。

动作掩码（Action Masking）在强化学习中的应用

动作掩码技术：
- Alshiekh et al. (2018)：提出了“屏蔽”技术，用于监控代理的动作并纠正违反安全属性的行为。
- Huang and Ontañón (2020)：研究了策略梯度算法中的无效动作掩码，提出了状态依赖的动作掩码器。
- Elsayed-Aly et al. (2021)：将屏蔽技术扩展到多代理框架中，确保每个代理的行为符合约束条件。

多代理强化学习（MARL）

多代理强化学习：
- Dai et al. (2022)：提出了分布式演员-评论家算法，用于多代理强化学习。
- Busoniu et al. (2010)：对多代理强化学习进行了综述，分类了不同的任务类型。
- Gupta et al. (2017)：研究了基于DRL的合作多代理控制问题。
- Rashid et al. (2020)：提出了加权QMix算法，用于多代理强化学习中的值函数分解。
- Wang et al. (2020)：提出了QPlex算法，用于多代理Q学习。

这些研究为本文提出的基于DRL的多代理动作掩码方法提供了理论基础和实践指导。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决一般工业装配线平衡问题（ALBPs）：

1. 数学模型构建

马尔可夫决策过程（MDP）：将装配线平衡问题建模为一个马尔可夫决策过程（MDP），定义了状态空间、动作空间、状态转移概率和即时奖励。这种建模方式允许使用强化学习（RL）方法来解决装配线平衡问题。
状态变量和动作空间：定义了状态变量（如工作站的占用情况、任务的剩余持续时间、资源的当前存储情况）和动作空间（如任务和资源的分配）。这些定义为RL代理提供了必要的信息，使其能够在给定状态下选择最优动作。

2. 动作掩码技术（Action Masking）

动作掩码的作用：为了确保代理只选择可行的动作，论文提出了一种动作掩码技术。该技术通过一个状态依赖的函数来过滤掉不可行的动作，从而减少训练时间并提高学习效率。
DQN和PPO的实现：论文分别对DQN和PPO算法进行了修改，以集成动作掩码技术。在DQN中，不可行动作的Q值被设置为负无穷大；在PPO中，不可行动作的概率被设置为零，并通过Softmax层重新归一化。

3. 多代理方法（Multi-Agent Approach）

问题去中心化：将单代理问题去中心化为多代理问题，每个工作站由一个独立的代理管理。这种去中心化方法减少了状态和动作空间的维度，从而提高了训练效率。
顺序可行性检查：为了确保多个代理选择的动作不会相互冲突，论文提出了一种顺序可行性检查机制。该机制通过模拟环境逐步验证每个代理的动作，确保最终的联合动作是可行的。

4. 中心化训练与去中心化执行

训练框架：采用中心化训练和去中心化执行的框架。在训练阶段，所有代理共享环境信息并协同学习；在执行阶段，每个代理独立地根据当前状态选择最优动作。
神经网络映射：训练好的神经网络能够将工厂的当前状态映射到最优动作，从而在实际操作中提供实时解决方案。

5. 数值模拟与验证

模拟环境：构建了一个虚拟环境，用于训练DRL代理。该环境模拟了装配线的动态行为，包括任务分配、资源分配和任务执行。
性能评估：通过数值模拟验证了所提出方法的有效性。与传统的基于最优控制（OC）的方法相比，DRL代理在训练时间和收敛速度方面表现出显著优势。

6. 实验结果与分析

训练时间：多代理PPO方法在训练时间上显著优于单代理PPO和DQN方法，几乎减少了50%的训练时间。
收敛速度：多代理PPO方法在较少的训练周期内就能收敛到最优策略，显示出高效的训练性能。
鲁棒性测试：通过随机初始化测试，验证了PPO代理在不同初始状态下提供最优解的能力，展示了该方法的鲁棒性。

通过上述步骤，论文提出了一种高效、可扩展的解决方案，能够优化工业装配线的任务和资源调度，同时满足各种操作约束。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证所提出的多代理动作掩码深度强化学习（DRL）方法在解决一般工业装配线平衡问题（ALBPs）中的有效性：

1. 训练过程比较

实验目的：比较不同DRL算法（DQN和PPO）在集中式和分布式框架下的训练性能。
实验设置：
- 使用了三种不同的装配线配置：
  - 3个工作站，5个任务
  - 15个工作站，10个任务
  - 10个工作站，15个任务
- 每种配置下，分别训练了集中式DQN、分布式DQN、集中式PPO和分布式PPO四种算法。
实验结果：
- 训练时间：分布式PPO在所有配置中均表现出最短的训练时间，显著优于其他算法。
- 收敛速度：分布式PPO在较少的训练周期内就能收敛到最优策略。
- 最优解比例：分布式PPO在随机初始化测试中，超过90%的情况下能够提供最优解。

2. 动作空间维度比较

实验目的：验证分布式框架相对于集中式框架在动作空间维度上的优势。
实验设置：
- 通过改变任务数量，观察不同算法的动作空间维度变化。
实验结果：
- 分布式框架的动作空间维度呈多项式增长，而集中式框架的动作空间维度呈指数增长。这表明分布式框架在处理大规模问题时具有显著优势。

3. 鲁棒性测试

实验目的：评估预训练的PPO代理在随机初始状态下提供最优解的能力。
实验设置：
- 使用预训练的PPO代理，随机初始化装配线状态。
- 对每种配置进行了多次随机初始化测试。
实验结果：
- PPO代理在超过90%的情况下能够提供最优解，显示出良好的鲁棒性。

4. 与最优控制（OC）方法的比较

实验目的：将DRL方法与传统的最优控制（OC）方法进行比较，验证DRL方法在解决ALBPs中的效率。
实验设置：
- 使用相同的装配线配置，分别使用DRL方法和OC方法求解。
实验结果：
- DRL方法在训练时间和解的质量方面均优于OC方法。具体来说，DRL方法的训练时间比OC方法的求解时间短一个数量级以上。

5. 参数调优实验

实验目的：通过实验确定DRL算法的关键参数（如学习率、批次大小、折扣因子等）的最佳值。
实验设置：
- 对DQN和PPO算法的关键参数进行了多次实验，记录不同参数设置下的训练性能。
实验结果：
- 确定了每种算法的最佳参数设置，为后续实验提供了参考。

6. 不同算法的损失函数和结束时间

实验目的：观察不同算法在训练过程中的损失函数变化和任务完成时间。
实验设置：
- 记录了DQN和PPO算法在训练过程中的损失函数值和每轮训练的结束时间。
实验结果：
- 分布式PPO在训练过程中损失函数下降最快，任务完成时间最短，显示出高效的训练性能。

这些实验结果表明，所提出的多代理动作掩码DRL方法在训练效率、解的质量和鲁棒性方面均优于传统的集中式DRL方法和最优控制方法。

Q: 有什么可以进一步探索的点？

A: 论文提出了一种基于深度强化学习（DRL）的多代理动作掩码方法来解决一般工业装配线平衡问题（ALBPs），并取得了显著的成果。然而，仍有一些可以进一步探索的方向，以进一步提升该方法的性能和适用性：

1. 环境模拟与实际部署的差异

问题：当前的DRL代理在模拟环境中训练，但实际部署环境可能与模拟环境存在差异，这可能导致性能下降。
探索方向：
- 迁移学习：研究如何将模拟环境中训练的模型迁移到实际环境中，减少因环境差异导致的性能下降。
- 在线学习：开发在线学习机制，使代理能够在实际环境中持续学习和适应，以应对动态变化的环境。
- 环境建模：进一步完善模拟环境的建模，使其更接近实际生产环境，减少模拟与实际之间的差距。

2. 多代理系统的进一步优化

问题：虽然多代理方法已经显著减少了动作空间的维度，但在大规模装配线场景中，动作空间仍然可能非常大。
探索方向：
- 进一步去中心化：探索更细粒度的去中心化方法，例如将任务分配进一步分解到更小的子系统中，以进一步减少动作空间的维度。
- 代理间的通信机制：研究代理间的通信机制，以提高合作效率和减少冲突。
- 异构代理：考虑不同代理可能具有不同的能力和限制，设计异构代理系统，以更好地适应复杂的装配线环境。

3. 动作掩码技术的改进

问题：动作掩码技术虽然有效，但在某些复杂场景下，可能需要更精细的掩码策略。
探索方向：
- 动态掩码：研究动态掩码技术，使掩码能够根据环境状态的变化实时调整，以适应更复杂的约束条件。
- 掩码学习：探索如何通过学习自动设计掩码，而不是手动定义掩码规则，以提高掩码的适应性和灵活性。

4. 算法性能提升

问题：尽管PPO算法在实验中表现出色，但在某些情况下，可能需要进一步提升算法的性能。
探索方向：
- 算法融合：研究将PPO与其他DRL算法（如DQN）融合，以结合不同算法的优点，提高性能。
- 超参数优化：进一步优化DRL算法的超参数，以提高训练效率和解的质量。
- 模型改进：探索更先进的神经网络架构，如Transformer或图神经网络（GNN），以更好地捕捉装配线的复杂动态。

5. 鲁棒性和泛化能力

问题：虽然PPO代理在随机初始化测试中表现良好，但在更复杂的实际场景中，可能需要更强的鲁棒性和泛化能力。
探索方向：
- 对抗训练：引入对抗训练机制，使代理能够在对抗环境中学习，提高鲁棒性。
- 多任务学习：研究多任务学习方法，使代理能够同时学习多个相关任务，提高泛化能力。
- 不确定性建模：考虑环境中的不确定性因素，如设备故障、任务到达时间的波动等，设计能够处理不确定性的DRL方法。

6. 实际应用案例

问题：虽然论文中的方法在模拟环境中取得了良好的结果，但在实际工业应用中，可能需要进一步验证其有效性和可行性。
探索方向：
- 工业案例研究：与实际工业合作伙伴合作，将所提出的方法应用于真实的装配线场景，验证其在实际生产中的性能和效益。
- 性能评估：开发更全面的性能评估指标，不仅包括任务完成时间，还包括生产成本、资源利用率、设备利用率等，以全面评估方法的实际效益。

7. 可扩展性和模块化设计

问题：随着装配线规模的扩大，系统的可扩展性和模块化设计变得尤为重要。
探索方向：
- 模块化设计：研究如何将系统设计为模块化的，以便在不同规模和类型的装配线中灵活部署。
- 可扩展性测试：进行大规模的可扩展性测试，验证系统在不同规模下的性能和稳定性。

这些方向为未来的研究提供了丰富的可能性，有望进一步提升DRL方法在工业装配线平衡问题中的应用效果。

Q: 总结一下论文的主要内容

A: 本文提出了一种基于深度强化学习（DRL）的多代理动作掩码方法，用于解决一般工业装配线平衡问题（ALBPs）。该方法通过构建一个马尔可夫决策过程（MDP）模型，将装配线平衡问题转化为一个优化任务和资源调度的问题。论文的主要贡献包括：

背景知识

装配线平衡问题（ALBPs）：在现代工业中，装配线平衡问题是一个关键的优化问题，涉及到任务和资源的高效分配，以满足生产约束并优化性能指标。传统的解决方法如整数规划（IP）在大规模场景下计算上不可行，而启发式方法如遗传算法常产生次优解。
深度强化学习（DRL）：DRL方法因其适应性和灵活性而被广泛应用于各种优化问题。DRL代理通过与环境的交互学习最优策略，能够在动态环境中提供实时解决方案。

研究方法

马尔可夫决策过程（MDP）模型：将装配线平衡问题建模为MDP，定义了状态空间、动作空间、状态转移概率和即时奖励。状态变量包括工作站的占用情况、任务的剩余持续时间和资源的当前存储情况。
动作掩码技术：提出了一种动作掩码技术，通过状态依赖的函数过滤不可行动作，减少训练时间并提高学习效率。该技术被集成到DQN和PPO算法中。
多代理方法：将单代理问题去中心化为多代理问题，每个工作站由一个独立的代理管理。通过顺序可行性检查机制，确保多个代理选择的动作不会相互冲突。
中心化训练与去中心化执行：采用中心化训练和去中心化执行的框架，训练阶段所有代理共享环境信息并协同学习，执行阶段每个代理独立选择最优动作。

实验

训练过程比较：比较了集中式和分布式DQN和PPO算法在不同装配线配置下的训练性能。结果表明，分布式PPO在训练时间和收敛速度方面表现最佳。
动作空间维度比较：验证了分布式框架相对于集中式框架在动作空间维度上的优势，分布式框架的动作空间维度呈多项式增长，而集中式框架呈指数增长。
鲁棒性测试：评估了预训练的PPO代理在随机初始状态下提供最优解的能力，结果显示PPO代理在超过90%的情况下能够提供最优解。
与最优控制（OC）方法的比较：将DRL方法与传统的OC方法进行比较，结果表明DRL方法在训练时间和解的质量方面均优于OC方法。

关键结论

多代理动作掩码DRL方法：提出的方法在训练效率、解的质量和鲁棒性方面均优于传统的集中式DRL方法和最优控制方法。
动作掩码技术的有效性：动作掩码技术显著减少了训练时间，提高了学习效率。
分布式框架的优势：分布式框架在处理大规模问题时具有显著优势，能够有效减少动作空间的维度。
PPO算法的优越性：PPO算法在训练时间和收敛速度方面表现优于DQN算法，显示出更高的训练效率和解的质量。

未来工作

环境模拟与实际部署的差异：研究如何将模拟环境中训练的模型迁移到实际环境中，减少因环境差异导致的性能下降。
多代理系统的进一步优化：探索更细粒度的去中心化方法和代理间的通信机制，以进一步减少动作空间的维度并提高合作效率。
动作掩码技术的改进：研究动态掩码技术和掩码学习方法，以提高掩码的适应性和灵活性。
算法性能提升：探索算法融合、超参数优化和更先进的神经网络架构，以进一步提升DRL算法的性能。
鲁棒性和泛化能力：引入对抗训练和多任务学习方法，提高代理的鲁棒性和泛化能力。
实际应用案例：与实际工业合作伙伴合作，将所提出的方法应用于真实的装配线场景，验证其在实际生产中的性能和效益。

Authors: Ali Mohamed Ali, Luca Tirel, Hashim A. Hashim

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2507.16635v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16635v1

Published: 2025-07-22T14:34:36Z

In this paper, we present the findings of a user study that evaluated the social acceptance of eXtended Reality (XR) agent technology, focusing on a remotely accessible, web-based XR training system developed for journalists. This system involves user interaction with a virtual avatar, enabled by a modular toolkit. The interactions are designed to provide tailored training for journalists in digital-remote settings, especially for sensitive or dangerous scenarios, without requiring specialized end-user equipment like headsets. Our research adapts and extends the Almere model, representing social acceptance through existing attributes such as perceived ease of use and perceived usefulness, along with added ones like dependability and security in the user-agent interaction. The XR agent was tested through a controlled experiment in a real-world setting, with data collected on users’ perceptions. Our findings, based on quantitative and qualitative measurements involving questionnaires, contribute to the understanding of user perceptions and acceptance of XR agent solutions within a specific social context, while also identifying areas for the improvement of XR systems.

中文摘要

在本文中，我们呈现了一项用户研究的结果，该研究评估了扩展现实（XR）代理技术的社会接受度，重点关注为记者开发的可远程访问的基于网络的XR培训系统。该系统涉及用户与虚拟化身的互动，由一个模块化工具包驱动。这些互动旨在为记者提供量身定制的培训，特别是在敏感或危险场景下的数字远程环境中，无需专门的终端用户设备，如头戴式显示器。我们的研究调整并扩展了阿尔梅雷模型，通过现有属性如感知易用性和感知有用性来代表社会接受度，并增加了用户与代理互动中的可靠性和安全性等新增属性。XR代理通过在真实环境中的控制实验进行测试，收集了关于用户感知的数据。我们的研究成果基于问卷的定量和定性测量，有助于理解特定社会背景下用户对XR代理解决方案的感知和接受度，同时也识别出XR系统改进的领域。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文旨在评估用户对扩展现实（XR）代理技术的社会接受度，特别是针对记者培训的基于网络的XR培训系统。研究的核心问题是了解用户对与虚拟代理互动的接受程度，以及这种技术在特定社会背景下的可行性和改进方向。具体而言，研究试图回答以下问题：

用户对与虚拟代理互动的反应如何？
代理的对话和社交能力（如响应性、表现力或真实性）在多大程度上影响用户的态度和参与意愿？
用户在不同部署环境中如何看待这些代理的安全性、隐私性和可信度？

通过这些问题，研究旨在为XR代理技术的大规模部署提供可行性评估，并为开发更有效、以用户为中心的工具提供指导，这些工具能够赢得用户的信任并激励他们使用，从而促进技术的接受。

Q: 有哪些相关研究？

A: 论文中提到了多个与研究主题相关的研究，这些研究主要集中在以下几个领域：

1. XR技术在培训中的应用

教育和专业培训：研究显示XR技术在教育和专业培训中可以增强参与度、知识获取和知识传递。例如，XR技术在高风险行业（如建筑和石油天然气）的安全培训中表现出色。
- 参考文献：[8,11,24]
特定领域的应用：
- 在医疗保健教育中，XR技术被用于支持临床推理和患者教育。
  - 参考文献：[31]
- 在紧急准备和商业培训中，XR技术被用于支持决策制定和领导力培训。
  - 参考文献：[1]
- 在新闻领域，XR技术被用于模拟危险环境和互动，帮助记者培训应对不可预测的挑战。
  - 参考文献：[15]

2. XR代理技术的社交接受度

技术接受模型（TAM）和统一理论（UTAUT）：这些模型被广泛用于评估用户对XR及其组成部分（如VR和AR）的接受度。研究扩展了TAM，加入了感知愉悦、个人和情境因素以及特定的XR特征。
- 参考文献：[5, 20, 35, 39]
XR代理技术的社交接受度研究：虽然研究较多集中在用户对XR及其组成部分的接受度，但对XR代理技术的社交接受度研究较少，尤其是新闻培训中的应用。
- 参考文献：[19]
信任和隐私：信任被认为是影响社交接受度的一个重要因素，但很少有研究在XR代理技术的背景下评估这一点。
- 参考文献：[27]

3. XR技术的用户体验

感知愉悦和易用性：研究表明，感知愉悦和易用性是影响用户接受XR技术的重要因素。
- 参考文献：[23]
存在感和适应性：存在感和感知适应性也是影响用户接受XR技术的重要因素。
- 参考文献：[22]

4. XR技术的安全性和隐私性

安全性和隐私性：研究指出，用户对XR技术的安全性和隐私性的担忧会影响其接受度。
- 参考文献：[12, 17]

这些相关研究为本文提供了理论基础和方法论指导，帮助作者设计和实施用户研究，以评估XR代理技术在记者培训中的社会接受度。

Q: 论文如何解决这个问题？

A: 为了评估用户对扩展现实（XR）代理技术的社会接受度，特别是针对记者培训的基于网络的XR培训系统，论文采用了以下方法来解决问题：

1. 研究设计

研究背景和目标：研究聚焦于一个名为Guardia的远程XR培训系统，该系统为记者提供定制化的培训，特别是在敏感和高风险的情境下。研究旨在通过定量和定性方法评估用户对这种XR代理技术的接受度。
研究模型：研究基于并扩展了Almere模型，该模型通过感知易用性、感知有用性等属性来衡量技术的社会接受度。在此基础上，研究增加了安全性、隐私性和可信度等新属性，以更全面地评估用户对XR代理技术的接受度。

2. 实验方法

实验对象：实验对象为德国国际媒体组织Deutsche Welle的员工，包括记者、制片人和培训师，共25人。这些参与者具有在高风险环境中工作的经验，并且接受过安全培训。
实验环境：实验在Deutsche Welle位于波恩和柏林的办公地点进行，参与者使用标准笔记本电脑与Guardia虚拟代理进行交互。
实验流程：
1. 介绍和同意：参与者在实验前签署知情同意书。
2. 培训任务：参与者完成由Guardia呈现的三个培训课程，涵盖在检查点的行为、从政治示威或动荡地区报道以及应急包的内容。
3. 测验和互动：参与者完成与培训内容相关的三个测验，并至少与Guardia进行一次关于安全问题的聊天互动。
4. 数据收集：实验结束后，参与者填写在线问卷并接受简短访谈，以收集他们对Guardia和培训的反馈。

3. 数据收集和分析

问卷设计：问卷基于Almere模型设计，包含51个Likert量表问题，涵盖感知易用性、感知有用性、安全性、隐私性、可信度等属性。此外，还设计了10个开放式问题，用于收集定性反馈。
数据分析：
- 定量分析：计算每个代表属性的加权平均分，考虑基本属性的影响。使用公式（1）计算调整后的平均分，以反映每个代表属性的最终评分。
- 定性分析：通过访谈收集的定性数据用于补充和解释定量结果，提供更深入的用户反馈。

4. 研究结果

定量结果：通过加权平均分的计算，研究发现大多数基本属性的平均分高于中性值3.0，表明参与者对这些属性有较高的正面评价。然而，社交存在感（Social Presence）的平均分较低（1.66），表明参与者不认为Guardia特别像人类。这一发现导致感知愉悦（Perceived Enjoyment）的调整后平均分从3.50降至2.85。
定性结果：访谈结果显示，参与者对Guardia的互动能力给予了积极评价，特别是其能够提供超出课程内容的相关回答，使体验更加智能化和个性化。然而，也有参与者指出Guardia的某些方面（如肢体语言）不够自然，需要改进。

5. 结论和未来工作

结论：研究结果表明，用户对XR代理技术的接受度较高，但存在改进空间，特别是在提高虚拟代理的人类相似性和互动自然性方面。
未来工作：作者计划进行第二轮用户研究，以改进Guardia原型，重点关注增强虚拟代理的人类相似性、优化培训内容和升级用户界面。此外，作者还计划将研究扩展到其他社会背景，如邮局，以评估XR代理技术在服务导向场景中的适用性。

通过上述方法，论文系统地评估了用户对XR代理技术的社会接受度，并为未来的研究和系统改进提供了有价值的见解。

Q: 论文做了哪些实验？

A: 论文中进行的实验旨在评估用户对扩展现实（XR）代理技术的社会接受度，特别是针对记者培训的基于网络的XR培训系统。以下是实验的详细步骤和设置：

实验设计

目标：评估记者对虚拟培训代理Guardia的社会接受度。
地点：实验在德国国际媒体组织Deutsche Welle位于波恩和柏林的办公地点进行。
时间：实验于2024年9月进行。

参与者

数量：共25名参与者。
背景：参与者均为Deutsche Welle的员工，包括记者、制片人和培训师。他们具有在高风险环境中工作的经验，并且接受过安全培训。
性别分布：
- 女性：48%
- 男性：44%
- 非二元性别：4%
- 未透露：4%
年龄分布：
- 25-34岁：20%
- 35-44岁：24%
- 45-54岁：44%
- 55-64岁：12%
与虚拟代理的互动经验：
- 18名参与者曾几次与虚拟代理互动。
- 3名参与者了解虚拟代理但从未互动过。
- 3名参与者曾使用过虚拟代理。
- 1名参与者没有接触过虚拟代理。

实验流程

介绍和同意：
- 每位参与者在实验前签署知情同意书。
- 实验开始前，参与者接受关于实验流程的简短介绍。
培训任务：
- 参与者使用标准笔记本电脑与Guardia虚拟代理进行交互。
- Guardia通过语音、键盘和鼠标与参与者互动。
- 参与者完成以下任务：
  - 三个由Guardia呈现的培训课程，涵盖以下主题：
    - 在检查点的行为。
    - 从政治示威或动荡地区报道。
    - 应急包的内容。
  - 三个与这些主题相关的测验。
  - 至少一次与Guardia关于安全问题的聊天互动。
数据收集：
- 实验结束后，参与者填写在线问卷。
- 问卷包含51个Likert量表问题，涵盖感知易用性、感知有用性、安全性、隐私性、可信度等属性。
- 问卷还包含10个开放式问题，用于收集定性反馈。
- 实验过程中，记录参与者完成各项任务的时间和方式，以及是否需要协助。

数据分析

定量分析：
- 计算每个代表属性的加权平均分，考虑基本属性的影响。
- 使用公式（1）计算调整后的平均分，以反映每个代表属性的最终评分。
定性分析：
- 通过访谈收集的定性数据用于补充和解释定量结果，提供更深入的用户反馈。

实验结果

定量结果：
- 大多数基本属性的平均分高于中性值3.0，表明参与者对这些属性有较高的正面评价。
- 社交存在感（Social Presence）的平均分较低（1.66），表明参与者不认为Guardia特别像人类。
- 感知愉悦（Perceived Enjoyment）的调整后平均分从3.50降至2.85，主要受社交存在感低的影响。
定性结果：
- 参与者对Guardia的互动能力给予了积极评价，特别是其能够提供超出课程内容的相关回答，使体验更加智能化和个性化。
- 一些参与者指出Guardia的某些方面（如肢体语言）不够自然，需要改进。

通过这些实验步骤，论文系统地评估了用户对XR代理技术的社会接受度，并为未来的研究和系统改进提供了有价值的见解。

Q: 有什么可以进一步探索的点？

Authors: Megha Quamara, Viktor Schmuck, Cristina Iani, Axel Primavesi, Alexander Plaum, Luca Vigano

Categories: cs.HC, cs.AI

PDF URL: https://arxiv.org/pdf/2507.16562v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16562v1

Published: 2025-07-22T13:14:05Z

8. Agentic RAG with Knowledge Graphs for Complex Multi-Hop Reasoning in Real-World Applications

Conventional Retrieval-Augmented Generation (RAG) systems enhance Large Language Models (LLMs) but often fall short on complex queries, delivering limited, extractive answers and struggling with multiple targeted retrievals or navigating intricate entity relationships. This is a critical gap in knowledge-intensive domains. We introduce INRAExplorer, an agentic RAG system for exploring the scientific data of INRAE (France’s National Research Institute for Agriculture, Food and Environment). INRAExplorer employs an LLM-based agent with a multi-tool architecture to dynamically engage a rich knowledge base, through a comprehensive knowledge graph derived from open access INRAE publications. This design empowers INRAExplorer to conduct iterative, targeted queries, retrieve exhaustive datasets (e.g., all publications by an author), perform multi-hop reasoning, and deliver structured, comprehensive answers. INRAExplorer serves as a concrete illustration of enhancing knowledge interaction in specialized fields.

中文摘要

传统的检索增强生成（RAG）系统增强了大型语言模型（LLMs），但在复杂查询上往往不尽如人意，提供有限的extractive回答，并在多个目标检索或处理复杂实体关系时遇到困难。这在知识密集型领域是一个关键的缺口。我们推出了INRAExplorer，这是一种用于探索INRAE（法国国家农业、食品和环境研究院）科学数据的代理性RAG系统。INRAExplorer采用基于LLM的代理，具有多工具架构，能够动态访问丰富的知识库，通过源自开放获取INRAE出版物的综合知识图谱。这一设计使得INRAExplorer能够进行迭代、针对性查询，检索详尽的数据集（例如，某作者的所有出版物），执行多跳推理，并提供结构化、全面的回答。INRAExplorer作为在专业领域增强知识互动的具体实例。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决传统检索增强型生成（Retrieval-Augmented Generation, RAG）系统在处理复杂查询时的局限性问题。具体来说，传统RAG系统在以下几个方面存在不足：

复杂查询处理能力有限：传统RAG系统通常只能检索有限数量的语义相似文本片段（top-k），这对于需要穷尽列表、从多个不同数据点综合信息或导航复杂关系路径的查询来说是不够的。例如，用户可能需要检索某个作者的所有出版物，或者从作者到出版物再到资助项目的多跳推理。
缺乏结构化和穷尽的答案：传统RAG系统往往只能提供有限的、提取式的答案，难以提供结构化和全面的答案，这对于知识密集型领域来说是一个关键的不足。
难以处理多目标检索：传统RAG系统在处理需要多个目标检索的查询时表现不佳，例如同时检索多个相关实体及其关系。

为了解决这些问题，论文提出了INRAExplorer，这是一个结合了代理（agentic）RAG和知识图谱（Knowledge Graph, KG）增强的RAG系统，专门用于探索法国国家农业、食品和环境研究所（INRAE）的科学数据。INRAExplorer通过动态交互丰富的知识库，利用全面的知识图谱，实现了迭代、针对性的查询、多跳推理，并提供结构化、全面的答案。

Q: 有哪些相关研究？

A: 论文中提到了多个与检索增强型生成（Retrieval-Augmented Generation, RAG）和知识图谱（Knowledge Graph, KG）相关的研究，这些研究为INRAExplorer的设计和实现提供了理论和技术基础。以下是主要的相关研究：

检索增强型生成（RAG）相关研究

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [5]：这是RAG领域的开创性工作，提出了一种将大型语言模型（LLMs）与检索系统相结合的方法，通过检索语义相似的文本片段来增强LLMs的生成能力。
Dense Passage Retrieval for Open-Domain Question Answering [4]：该研究提出了一种密集向量检索方法，用于开放域问答系统，通过计算文本片段的密集向量来检索与问题最相关的文本。
A Graph RAG Approach to Query-Focused Summarization [1]：该研究探索了将图结构数据与RAG结合，用于查询聚焦的文本摘要，为知识图谱增强的RAG提供了思路。
G-retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [3]：该研究提出了一种针对图结构数据的检索增强型生成方法，用于文本图理解和问答，进一步推动了RAG在图数据上的应用。

知识图谱（KG）相关研究

Augmenting Orbital Debris Identification with Neo4j-Enabled Graph-Based Retrieval-Augmented Generation for Multimodal Large Language Models [8]：该研究展示了如何利用Neo4j图数据库增强RAG系统，用于处理多模态大型语言模型中的轨道碎片识别问题。
A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models [12]：该研究对图检索增强型生成进行了综述，提供了该领域的发展现状和未来方向。
Knowledge Graph-Guided Retrieval Augmented Generation [13]：该研究提出了一种知识图谱引导的检索增强型生成方法，用于定制化大型语言模型，为INRAExplorer的知识图谱集成提供了参考。

代理（Agentic）和多工具框架相关研究

Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG [10]：该研究对代理RAG进行了综述，探讨了代理在RAG系统中的应用，为INRAExplorer的代理驱动多工具架构提供了理论基础。
Toolformer: Language Models Can Teach Themselves to Use Tools [9]：该研究提出了一种方法，使语言模型能够自主学习使用工具，为INRAExplorer的多工具架构提供了技术参考。
ReAct: Synergizing Reasoning and Acting in Language Models [11]：该研究探讨了如何在语言模型中结合推理和行动，为INRAExplorer的多跳推理和动态工具使用提供了思路。

其他相关技术

Jina Embeddings: A Novel Set of High-Performance Sentence Embedding Models [2]：该研究提出了一种高性能的句子嵌入模型，用于语义相似性计算，为INRAExplorer的向量数据库提供了技术支持。
GROBID: Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications [6]：该研究提出了一种用于学术出版物的自动书目数据识别和术语提取方法，为INRAExplorer的全文处理提供了技术支持。
The Probabilistic Relevance Framework: BM25 and Beyond [7]：该研究介绍了BM25算法及其在信息检索中的应用，为INRAExplorer的关键词匹配提供了技术支持。

这些相关研究为INRAExplorer的设计和实现提供了坚实的理论和技术基础，使其能够在处理复杂查询时提供结构化、全面的答案。

Q: 论文如何解决这个问题？

A: 论文通过提出 INRAExplorer 系统来解决传统 RAG 系统在处理复杂查询时的局限性问题。INRAExplorer 的核心思想是结合代理（agentic）RAG 和知识图谱（Knowledge Graph, KG）增强的 RAG，以实现动态推理和结构化、穷尽的信息检索。以下是 INRAExplorer 解决问题的具体方法：

1. 知识库构建

INRAExplorer 的基础是一个综合性的知识库，该知识库从 INRAE 的科学出版物中构建，涵盖了从 2019 年 1 月到 2024 年 8 月的开放获取文档。知识库的构建包括以下几个关键步骤：

数据来源：核心数据来自 HAL（Hyper Articles en Ligne）和 OpenAire，通过 DOI 进行数据去重和丰富，同时整合了其他公共数据源，如 BBI（Base Bibliographique INRAE）、ScanR 和数据集存储库。
文本处理：使用 GROBID 对开放获取的 PDF 全文进行结构化文本提取，提取标题、摘要、关键词、引言和结论等部分，形成有意义的文本块。
知识图谱构建：将 INRAE 词表（Thesaurus）整合到知识图谱中，形成 “Domain” 和 “Concept” 节点，并通过精确匹配将出版物与这些节点链接起来，提供受控词汇表以支持语义探索。
存储结构：知识库包括两个主要部分：
- 向量数据库：存储文本块的密集向量（使用 Jina v3 嵌入模型）和稀疏向量（使用 BM25），支持混合搜索。
- 知识图谱：建模核心实体及其多面关系，包含超过 100 万条关系，支持精确、结构化的查询和多跳推理。

2. 代理驱动的多工具编排

INRAExplorer 的核心是一个基于 LLM 的代理，使用 open-weight 模型 deepseek-r1-0528。代理的主要职责包括：

理解用户查询：解析用户的问题，必要时进行分解。
制定行动计划：根据查询的复杂性，制定多步骤的检索和推理计划。
动态选择和调用工具：根据计划动态选择和调用以下工具：
- SearchGraph：用于与 Neo4j 知识图谱进行深度交互，执行 Cypher 查询，检索特定实体、遍历复杂关系路径，并获取穷尽的列表（例如，特定作者的所有出版物）。
- SearchPublications：用于在向量数据库中执行混合搜索（语义和关键词），找到与查询相关的初始文档集合，作为进一步通过知识图谱进行推理的入口点。
- SearchConceptsKeywords：用于在知识图谱中查找与用户查询相关的概念或关键词，帮助消除歧义，找到精确的入口点进行后续图遍历。
- IdentifyExperts：用于识别特定主题的专家，通过分析相关论文的作者、引用次数、合作网络等指标，生成专家排名列表。

3. 多跳推理和复杂查询处理

INRAExplorer 通过多跳推理处理复杂的查询，例如：

初始信息收集：使用 SearchPublications 或 SearchConceptsKeywords 识别与 “气候变化适应策略” 相关的初始出版物及其作者。
第一跳 - 识别资助项目：使用 SearchGraph 查询知识图谱，找到与这些出版物通过 “FUNDED_BY” 关系链接的 “Project” 节点。
第二跳 - 探索相关项目主题：再次使用 SearchGraph，查找与这些项目通过 “DESCRIBES” 关系链接的其他 “Concept” 节点，扩展对项目主题范围的理解。
综合回答：将这些相互关联的发现综合成一个结构化的回答，明确展示从作者到出版物、再到资助项目和其他相关研究主题的链条。

4. 模块化和受控的专家识别

INRAExplorer 的架构支持将复杂的领域特定逻辑封装到专门的工具中，例如 IdentifyExperts 工具：

工具调用：代理识别查询意图，调用 IdentifyExperts 工具，输入主题 “人畜共患病”。
封装的工作流程：IdentifyExperts 工具执行预定义的行动序列，包括调用 SearchPublications 找到高度相关的论文，使用 SearchGraph 提取这些论文的作者，并基于多个加权指标（如文章与主题的相关性、引用次数等）计算综合专家评分。
结构化输出：工具返回一个按专家评分排名的专家列表，以及评分的详细分解。
代理综合：代理将这些结构化信息呈现给用户。

5. 系统设计和可扩展性

INRAExplorer 的设计利用了关键的开源组件，如 Mirascope（代理编排）、Qdrant（向量存储）、Neo4j（知识图谱）和 GROBID（PDF 处理），并使用 open-weight 模型 deepseek-r1-0528。这种开放设计确保了系统的可扩展性，使其不仅适用于当前领域，还可以轻松扩展和集成新的 AI 方法，用于高级信息交互和复杂推理任务。

通过这些方法，INRAExplorer 能够有效地处理复杂的科学知识导航和推理任务，提供结构化、全面的答案，从而解决了传统 RAG 系统在处理复杂查询时的局限性问题。

Q: 论文做了哪些实验？

A: 论文中并没有明确提到具体的实验设计或实验结果。相反，它主要通过描述两个代表性场景来展示INRAExplorer的能力，这些场景突出了系统在处理复杂多跳推理和模块化工具使用方面的优势。以下是这两个场景的详细描述：

1. 多跳顺序推理以应对复杂查询

论文通过一个具体的查询示例来说明INRAExplorer如何进行多跳推理。查询内容为：“找出在‘气候变化适应策略’方面发表过文章的INRAE作者，确定资助这些出版物的项目，并列出这些资助项目还涉及的其他关键主题。”INRAExplorer的代理通过以下步骤来处理这个复杂查询：

初始信息收集：代理首先使用SearchPublications或SearchConceptsKeywords工具，识别与“气候变化适应策略”相关的初始出版物及其作者集合。
第一跳 - 确定资助来源：接着，代理利用SearchGraph工具查询知识图谱，找到与这些初始出版物通过“FUNDED_BY”关系相连的“Project”节点。这构成了推理链中的第一个“跳”，将出版物与它们的资助来源联系起来。
第二跳 - 探索相关项目主题：然后，对于每个已识别的资助项目，代理再次使用SearchGraph工具，寻找与这些项目通过“DESCRIBES”等关系相连的其他“Concept”节点（代表主题）。这是第二个“跳”，通过共同的出版物节点，扩展对项目主题范围的理解。
综合回答：最后，代理将这些相互关联的发现综合成一个结构化的回答，明确展示从作者到出版物、再到资助项目以及其他相关研究主题的完整链条。

2. 模块化和受控的专家识别

论文还展示了INRAExplorer如何通过其模块化架构来处理特定任务，以“识别INRAE在‘人畜共患病’领域的领先专家”为例：

工具调用：代理识别出查询的意图后，调用IdentifyExperts工具，并将“人畜共患病”作为主题输入。
封装的工作流程：IdentifyExperts工具执行一系列预定义的行动，这些行动本身又涉及对其他基础工具的调用：
- 首先，使用SearchPublications工具找到与“人畜共患病”高度相关的论文。
- 然后，利用SearchGraph

Authors: Jean Lelong, Adnane Errazine, Annabelle Blangero

Categories: cs.AI, cs.IR

PDF URL: https://arxiv.org/pdf/2507.16507v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16507v1

Published: 2025-07-22T12:03:10Z

9. Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

In this report, we introduce the Gemini 2.X model family: Gemini 2.5 Pro and Gemini 2.5 Flash, as well as our earlier Gemini 2.0 Flash and Flash-Lite models. Gemini 2.5 Pro is our most capable model yet, achieving SoTA performance on frontier coding and reasoning benchmarks. In addition to its incredible coding and reasoning skills, Gemini 2.5 Pro is a thinking model that excels at multimodal understanding and it is now able to process up to 3 hours of video content. Its unique combination of long context, multimodal and reasoning capabilities can be combined to unlock new agentic workflows. Gemini 2.5 Flash provides excellent reasoning abilities at a fraction of the compute and latency requirements and Gemini 2.0 Flash and Flash-Lite provide high performance at low latency and cost. Taken together, the Gemini 2.X model generation spans the full Pareto frontier of model capability vs cost, allowing users to explore the boundaries of what is possible with complex agentic problem solving.

中文摘要

在本报告中，我们介绍了Gemini 2.X模型系列：Gemini 2.5 Pro和Gemini 2.5 Flash，以及我们早期的Gemini 2.0 Flash和Flash-Lite模型。Gemini 2.5 Pro是我们迄今为止能力最强的模型，在前沿编码和推理基准上达到了最先进的性能。除了令人难以置信的编码和推理能力，Gemini 2.5 Pro还是一个思维模型，在多模态理解方面表现出色，现在能够处理长达3小时的视频内容。它独特的长上下文、多模态和推理能力的结合可以解锁新的自主工作流程。Gemini 2.5 Flash在计算和延迟要求上提供出色的推理能力，而Gemini 2.0 Flash和Flash-Lite则以低延迟和低成本提供高性能。总的来说，Gemini 2.X模型系列涵盖了模型能力与成本的完整帕累托前沿，使用户能够探索复杂自主问题解决的可能边界。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了 Gemini 2.X 模型家族，特别是 Gemini 2.5 Pro 和 Gemini 2.5 Flash，旨在推动先进推理、多模态、长文本上下文和新一代代理能力的前沿。具体来说，它试图解决以下几个关键问题：

1. 先进推理能力

目标：开发能够处理复杂推理任务的模型，如数学问题、编程任务和多步骤逻辑推理。
方法：通过改进模型架构和训练方法，使模型能够更好地理解和生成复杂的推理过程。
成果：Gemini 2.5 Pro 在多个推理基准测试中取得了显著的性能提升，例如在 AIME 2025 数学竞赛中，准确率从 Gemini 1.5 Pro 的 17.5% 提升到 88.0%。

2. 多模态理解

目标：使模型能够理解和生成多种模态的数据，包括文本、图像、音频和视频。
方法：通过扩展模型的输入和输出模态，使其能够处理和生成多种类型的数据。
成果：Gemini 2.5 Pro 在多模态任务上表现出色，例如在视频理解任务 VideoMME 上，准确率从 Gemini 1.5 Pro 的 67.7% 提升到 82.0%。

3. 长文本上下文处理

目标：使模型能够处理和理解超过 100 万个标记的长文本上下文。
方法：通过改进模型架构和训练方法，使模型能够更好地处理长文本输入。
成果：Gemini 2.5 Pro 在长文本上下文任务上表现出色，例如在 LOFT 任务中，128K 上下文长度的准确率从 Gemini 1.5 Pro 的 75.9% 提升到 87.0%。

4. 新一代代理能力

目标：开发能够自主完成复杂任务的代理系统，例如在复杂环境中进行导航和决策。
方法：通过结合模型的推理能力和工具使用能力，使代理能够自主完成任务。
成果：Gemini 2.5 Pro 在代理任务上表现出色，例如在 Gemini Plays Pokémon 实验中，成功完成了整个游戏。

5. 安全性和可靠性

目标：确保模型在生成内容时遵守安全和道德标准，避免生成有害内容。
方法：通过在预训练和微调阶段引入安全性和道德标准的训练，以及进行自动化红队测试和外部安全评估。
成果：Gemini 2.5 Pro 在安全性和可靠性方面表现出色，相比 Gemini 1.5 Pro，减少了违反安全政策的行为，并且在帮助性方面有显著提升。

6. 性能与成本的权衡

目标：在保持高性能的同时，降低模型的计算成本和延迟。
方法：通过模型压缩和优化，开发了 Gemini 2.5 Flash 和 Gemini 2.0 Flash-Lite 等模型，这些模型在保持高性能的同时，显著降低了计算成本和延迟。
成果：Gemini 2.5 Flash 在性能和成本之间取得了良好的平衡，成为 Gemini 家族中第二强大的模型。

总的来说，这篇论文展示了 Gemini 2.X 模型家族在多个关键领域取得的显著进展，特别是在推理、多模态理解、长文本上下文处理和代理能力方面的突破。

Q: 有哪些相关研究？

A: 在 Gemini 2.5 的研究中，涉及了多个领域的相关工作，这些工作为 Gemini 2.5 的开发和改进提供了理论基础和技术支持。以下是一些关键的相关研究领域和具体工作：

1. 模型架构

Sparse Mixture-of-Experts (MoE) Transformers:
- Clark et al., 2022: 研究了稀疏 MoE 模型的训练和优化方法。
- Du et al., 2021: 提出了 GLaM，一种高效的 MoE 模型，通过稀疏激活和动态路由提高了模型的计算效率。
- Fedus et al., 2021: 提出了 Switch Transformers，通过稀疏激活和动态路由实现了大规模训练。
- Jiang et al., 2024: 研究了 MoE 模型的扩展和优化。
- Lepikhin et al., 2020: 提出了 GShard，一种用于大规模训练的 MoE 模型。
- Riquelme et al., 2021: 研究了 MoE 模型在视觉任务中的应用。
- Roller et al., 2021: 提出了 Hash Layers，用于大规模稀疏模型的训练。
- Shazeer et al., 2017: 提出了 Outrageously Large Neural Networks，一种稀疏激活的 MoE 模型。
- Vaswani et al., 2017: 提出了 Transformer 架构，为 MoE 模型提供了基础。

2. 训练方法

Distillation:
- Anil et al., 2018: 研究了大规模分布式神经网络的在线蒸馏方法。
- Hinton et al., 2015: 提出了知识蒸馏方法，用于模型压缩和优化。
Reinforcement Learning:
- Bai et al., 2022: 提出了 Constitutional AI，通过强化学习提高模型的安全性和道德性。
- Beutel et al., 2024: 研究了自动化红队测试，用于动态评估模型的安全性。
- Perez et al., 2022: 提出了红队测试方法，用于评估模型的安全性。
- Samvelyan et al., 2024: 研究了彩虹团队方法，用于生成多样化的对抗性提示。

3. 数据集和基准测试

LiveCodeBench:
- Jain et al., 2024: 提出了 LiveCodeBench，用于评估模型的代码生成能力。
Aider Polyglot:
- Gauthier, 2025: 提出了 Aider Polyglot，用于评估模型的多语言代码编辑能力。
SWE-bench Verified:
- Chowdhury et al., 2024: 提出了 SWE-bench Verified，用于评估模型在实际编程任务中的表现。
GPQA (diamond):
- Rein et al., 2024: 提出了 GPQA，用于评估模型在生物学、物理学和化学领域的推理能力。
Humanity’s Last Exam:
- Phan et al., 2025: 提出了 Humanity’s Last Exam，用于评估模型在多个学科领域的推理能力。
FACTS Grounding:
- Jacovi et al., 2024, 2025: 提出了 FACTS Grounding，用于评估模型在给定文档和用户请求时生成事实正确响应的能力。
Global MMLU (Lite):
- Singh et al., 2024: 提出了 Global MMLU (Lite)，用于评估模型在多语言环境中的理解能力。
ECLeKTic:
- Goldman et al., 2025: 提出了 ECLeKTic，用于评估模型在跨语言知识转移中的表现。
AIME 2025:
- Balunović et al., 2025: 提出了 AIME 2025，用于评估模型在数学竞赛中的表现。
LOFT:
- Lee et al., 2024: 提出了 LOFT，用于评估模型在长文本上下文中的检索能力。
MRCR-V2:
- Vodrahalli et al., 2024: 提出了 MRCR-V2，用于评估模型在长文本上下文中的推理能力。
MMMU:
- Yue et al., 2024: 提出了 MMMU，用于评估模型在多学科领域的多模态理解能力。
Vibe-Eval (Reka):
- Padlewski et al., 2024: 提出了 Vibe-Eval，用于评估模型在图像理解任务中的表现。
ZeroBench:
- Roberts et al., 2025: 提出了 ZeroBench，用于评估模型在图像理解任务中的多步骤推理能力。
BetterChartQA:
- Gemini Team, 2024: 提出了 BetterChartQA，用于评估模型在图表理解任务中的表现。

4. 安全性和责任

Frontier Safety Framework:
- Google DeepMind, 2025a: 提出了 Frontier Safety Framework，用于评估模型在 CBRN、网络安全、机器学习 R&D 和欺骗性对齐等领域的潜在风险。
External Safety Testing:
- Weidinger et al., 2024: 研究了外部安全测试方法，用于评估模型的安全性和责任性。

5. 多模态理解

VideoMME:
- Fu et al., 2025: 提出了 VideoMME，用于评估模型在视频理解任务中的表现。
Minerva:
- Nagrani et al., 2025a: 提出了 Minerva，用于评估模型在复杂视频推理任务中的表现。
Neptune:
- Nagrani et al., 2025b: 提出了 Neptune，用于评估模型在长视频理解任务中的表现。

6. 其他相关研究

Conneau et al., 2023: 提出了 FLEURS，用于评估模型在自动语音识别任务中的表现。
Wang et al., 2020: 提出了 CoVoST 2，用于评估模型在语音到文本翻译任务中的表现。
Yu et al., 2019: 提出了 ActivityNet-QA，用于评估模型在视频理解任务中的表现。
Plizzari et al., 2025: 提出了 EgoTempo，用于评估模型在第一人称视频理解任务中的表现。
Patraucean et al., 2023: 提出了 Perception Test，用于评估模型在感知理解任务中的表现。
Lei et al., 2021: 提出了 QVHighlights，用于评估模型在时刻检索任务中的表现。
Hu et al., 2025: 提出了 VideoMMMU，用于评估模型在视频知识获取任务中的表现。
Zhou et al., 2018: 提出了 YouCook2 Cap，用于评估模型在教学视频字幕生成任务中的表现。

这些研究为 Gemini 2.5 的开发提供了坚实的理论基础和技术支持，使其在多个领域取得了显著的进展。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键方面来解决上述问题，推动 Gemini 2.5 模型在先进推理、多模态理解、长文本上下文处理和新一代代理能力等方面的进步：

1. 模型架构改进

Sparse Mixture-of-Experts (MoE) Transformers:
- Gemini 2.5 模型采用了稀疏 MoE 架构，这种架构允许模型在处理每个输入标记时动态激活一部分参数（专家），从而在保持高性能的同时降低了计算成本。
- 通过改进 MoE 模型的训练稳定性，Gemini 2.5 在预训练阶段就表现出显著的性能提升，特别是在长文本上下文处理和多模态任务中。

2. 训练方法优化

Distillation:
- 使用知识蒸馏技术，将大型模型的知识转移到较小的模型中，从而在保持高性能的同时降低模型的计算成本和延迟。例如，Gemini 2.5 Flash 和 Gemini 2.0 Flash-Lite 通过蒸馏技术实现了高效的推理。
Reinforcement Learning:
- 引入强化学习（RL）来训练模型在推理时使用额外的计算资源（思考预算），从而提高模型的推理能力。Gemini 2.5 Pro 和 Gemini 2.5 Flash 都支持动态思考预算，允许用户根据需要调整推理的深度和成本。

3. 数据集和基准测试

多样化数据集:
- 使用大规模、多样化的数据集进行预训练，包括文本、代码、图像、音频和视频等多种模态的数据。这使得模型能够更好地理解和生成多种类型的数据。
基准测试:
- 通过一系列基准测试评估模型的性能，包括 LiveCodeBench、Aider Polyglot、SWE-bench Verified、GPQA (diamond)、Humanity’s Last Exam 等。这些基准测试覆盖了代码生成、数学推理、多语言理解等多个领域，确保模型在不同任务上的全面性能提升。

4. 多模态理解

多模态输入输出:
- Gemini 2.5 模型支持多种模态的输入和输出，例如可以处理图像、视频和音频数据，并生成相应的文本或代码。这种多模态能力使得模型能够更好地理解和生成复杂的内容。
长视频理解:
- 通过改进视频处理能力，Gemini 2.5 Pro 现在能够处理长达 3 小时的视频内容，并在视频理解任务中表现出色。例如，在 VideoMME 和 Neptune 等基准测试中，Gemini 2.5 Pro 的性能显著优于前代模型。

5. 长文本上下文处理

长文本上下文支持:
- Gemini 2.5 模型能够处理超过 100 万个标记的长文本上下文，这使得模型能够更好地理解和生成长文本内容。在 LOFT 和 MRCR-V2 等长文本上下文任务中，Gemini 2.5 Pro 的性能显著优于前代模型。

6. 新一代代理能力

代理系统:
- Gemini 2.5 Pro 和 Gemini 2.5 Flash 支持工具使用和多步骤推理，使得模型能够自主完成复杂任务。例如，在 Gemini Plays Pokémon 实验中，Gemini 2.5 Pro 成功完成了整个游戏，展示了其在复杂环境中的导航和决策能力。

7. 安全性和责任

安全训练:
- 在预训练和微调阶段引入安全性和道德标准的训练，确保模型在生成内容时遵守安全和道德标准。通过自动化红队测试和外部安全评估，进一步验证模型的安全性。
外部安全测试:
- 与独立的外部团队合作，进行结构化的安全评估和红队测试，确保模型在实际应用中的安全性和可靠性。

8. 性能与成本的权衡

模型压缩和优化:
- 通过模型压缩和优化技术，开发了 Gemini 2.5 Flash 和 Gemini 2.0 Flash-Lite 等模型，这些模型在保持高性能的同时，显著降低了计算成本和延迟。Gemini 2.5 Flash 在性能和成本之间取得了良好的平衡，成为 Gemini 家族中第二强大的模型。

通过这些方法，Gemini 2.5 模型在多个关键领域取得了显著的进展，特别是在推理、多模态理解、长文本上下文处理和代理能力方面的突破。这些改进不仅提升了模型的性能，还确保了其在实际应用中的安全性和可靠性。

Q: 论文做了哪些实验？

A: 论文中进行了多种实验来评估 Gemini 2.5 模型家族的性能和能力，这些实验涵盖了从编码、数学推理、多模态理解到长文本上下文处理等多个方面。以下是一些关键的实验和结果：

编码和数学推理实验

LiveCodeBench：评估模型在 Python 编程任务中的代码生成能力。Gemini 2.5 Pro 的性能从 Gemini 1.5 Pro 的 30.3% 提升到了 74.2%。
Aider Polyglot：测试模型在多种编程语言（C++、Go、Java、JavaScript、Python 和 Rust）中的代码编辑能力。Gemini 2.5 Pro 的通过率从 Gemini 1.5 Pro 的 2.8% 提升到了 82.2%。
SWE-bench Verified：评估模型在实际 GitHub 编程任务中的表现。Gemini 2.5 Pro 在单次尝试中的性能从 Gemini 1.5 Pro 的 9.6% 提升到了 59.6%，在多次尝试中从 19.7% 提升到了 67.2%。
AIME 2025：测试模型在数学竞赛中的表现。Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 17.5% 提升到了 88.0%。

多模态理解实验

GPQA (diamond)：评估模型在生物学、物理学和化学领域的推理能力。Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 58.1% 提升到了 86.4%。
MMMU：测试模型在多学科领域的多模态理解能力。Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 67.7% 提升到了 82.0%。
Vibe-Eval (Reka)：评估模型在图像理解任务中的表现。Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 55.9% 提升到了 67.2%。
ZeroBench：测试模型在图像理解任务中的多步骤推理能力。Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 0.5% 提升到了 4.5%。

长文本上下文处理实验

LOFT：评估模型在长文本上下文中的检索能力。Gemini 2.5 Pro 在 128K 上下文长度的准确率从 Gemini 1.5 Pro 的 75.9% 提升到了 87.0%，在 1M 上下文长度的准确率从 36.7% 提升到了 69.8%。
MRCR-V2：测试模型在长文本上下文中的推理能力。Gemini 2.5 Pro 在 128K 上下文长度的准确率从 Gemini 1.5 Pro 的 54.3% 提升到了 58.0%，在 1M 上下文长度的准确率从 10.2% 提升到了 21.0%。

代理能力实验

Gemini Plays Pokémon：一个独立开发者设置了一个 Twitch 流，让 Gemini 2.5 Pro 玩 Pokémon Blue 游戏。Gemini 2.5 Pro 成功完成了整个游戏，展示了其在复杂环境中的导航和决策能力。
Gemini Deep Research：一个基于 Gemini 2.5 Pro 的代理，用于战略性地浏览网络并提供信息丰富的答案。在 Humanity’s Last Exam 基准测试中，性能从 2024 年 12 月的 7.95% 提升到了 2025 年 6 月的 32.4%。

安全性和责任实验

Automated Red Teaming (ART)：通过自动化红队测试，动态评估模型在安全性方面的表现。Gemini 2.5 Pro 在政策违反和帮助性方面的表现优于 Gemini 1.5 Pro。
External Safety Testing：与独立的外部团队合作，进行结构化的安全评估和红队测试，确保模型在实际应用中的安全性和可靠性。

这些实验结果表明，Gemini 2.5 模型家族在多个关键领域取得了显著的性能提升，特别是在推理、多模态理解、长文本上下文处理和代理能力方面。同时，模型在安全性和责任性方面的表现也得到了验证和提升。

Q: 有什么可以进一步探索的点？

A: 尽管 Gemini 2.5 在多个领域取得了显著的进展，但仍有几个方向可以进一步探索和改进：

1. 模型架构和训练方法

进一步优化 MoE 架构：
- 研究更高效的稀疏激活和动态路由机制，以进一步提高模型的计算效率和性能。
- 探索新的 MoE 架构变体，以更好地处理多模态数据和长文本上下文。
改进训练稳定性：
- 深入研究训练过程中的不稳定性问题，开发更稳定的优化算法和训练策略。
- 探索新的正则化方法，以减少过拟合并提高模型的泛化能力。
多任务学习：
- 探索多任务学习框架，使模型能够同时学习多个相关任务，从而提高模型的综合性能。
- 研究如何在多任务学习中平衡不同任务的权重，以实现最佳的性能。

2. 多模态理解

跨模态融合：
- 研究更有效的跨模态融合方法，使模型能够更好地理解和生成多种模态的数据。
- 探索新的多模态数据集和任务，以进一步评估和改进模型的多模态理解能力。
视频和音频理解：
- 进一步提高模型在长视频和音频理解任务中的性能，特别是在复杂的多模态场景中。
- 开发新的视频和音频处理技术，以更好地提取和利用多模态信息。

3. 长文本上下文处理

长文本生成：
- 研究如何在长文本生成任务中保持连贯性和一致性，特别是在生成长篇故事、报告和论文时。
- 探索新的生成策略，以提高长文本生成的质量和效率。
长文本检索和推理：
- 进一步提高模型在长文本检索和推理任务中的性能，特别是在处理复杂的多步骤推理时。
- 研究如何更好地利用长文本上下文中的结构化信息，以提高检索和推理的准确性。

4. 新一代代理能力

自主代理系统：
- 研究如何开发更智能的自主代理系统，使模型能够自主完成复杂的任务，如在复杂环境中进行导航和决策。
- 探索新的代理架构和算法，以提高代理系统的性能和可靠性。
工具使用和多步骤推理：
- 进一步提高模型在工具使用和多步骤推理任务中的性能，特别是在处理复杂的多步骤任务时。
- 研究如何更好地结合模型的推理能力和工具使用能力，以实现更高效的代理行为。

5. 安全性和责任

对抗性攻击和防御：
- 研究如何提高模型在对抗性攻击下的鲁棒性，特别是在面对复杂的攻击时。
- 探索新的防御策略，以减少模型在对抗性攻击下的漏洞。
安全性和责任评估：
- 进一步改进安全性和责任评估方法，以更全面地评估模型在实际应用中的安全性和责任性。
- 研究如何在模型开发过程中更好地融入安全性和责任性，以确保模型的可靠性和安全性。

6. 性能与成本的权衡

模型压缩和优化：
- 研究更高效的模型压缩和优化技术，以进一步降低模型的计算成本和延迟。
- 探索新的模型架构和训练方法，以实现更好的性能与成本的权衡。
推理效率：
- 研究如何提高模型在推理阶段的效率，特别是在处理大规模数据时。
- 探索新的推理策略，以减少推理时间和资源消耗。

7. 应用和部署

实际应用场景：
- 研究如何将 Gemini 2.5 模型应用于实际场景，如教育、医疗、金融等领域，以解决实际问题。
- 探索新的应用场景和任务，以进一步评估和改进模型的性能。
部署和优化：
- 研究如何优化模型的部署过程，以提高模型的可用性和可扩展性。
- 探索新的部署策略，以确保模型在实际应用中的高效运行。

8. 基准测试和评估

新的基准测试：
- 开发新的基准测试，以更全面地评估模型的性能，特别是在复杂任务和多模态场景中。
- 探索新的评估指标，以更好地衡量模型的性能和能力。
持续评估：
- 研究如何进行持续评估，以及时发现和解决模型在实际应用中的问题。
- 探索新的评估方法，以确保模型的性能在不同条件下保持稳定。

通过这些方向的进一步探索和研究，可以进一步提升 Gemini 2.5 模型的性能和能力，使其在更多领域和实际应用中发挥更大的作用。

Q: 总结一下论文的主要内容

A: 这篇论文详细介绍了 Gemini 2.5 模型家族，包括 Gemini 2.5 Pro 和 Gemini 2.5 Flash，以及它们在多个领域的性能和能力。以下是论文的主要内容总结：

1. 引言

Gemini 2.5 模型家族：介绍了 Gemini 2.5 Pro 和 Gemini 2.5 Flash，以及之前的 Gemini 2.0 Flash 和 Flash-Lite 模型。Gemini 2.5 Pro 是目前最强大的模型，具有出色的编码和推理能力，支持多模态理解，并能够处理长达 3 小时的视频内容。
目标：推动先进推理、多模态理解、长文本上下文处理和新一代代理能力的前沿。

2. 模型架构、训练和数据集

模型架构：Gemini 2.5 模型采用了稀疏 MoE 架构，支持多模态输入（文本、图像、音频）和长文本上下文处理。
训练方法：通过改进训练稳定性和优化动态，Gemini 2.5 在预训练阶段就表现出显著的性能提升。使用知识蒸馏技术，将大型模型的知识转移到较小的模型中，以降低计算成本和延迟。
数据集：使用大规模、多样化的数据集进行预训练，包括文本、代码、图像、音频和视频等多种模态的数据。

3. 性能评估

编码和数学推理：
- LiveCodeBench：Gemini 2.5 Pro 的性能从 Gemini 1.5 Pro 的 30.3% 提升到了 74.2%。
- Aider Polyglot：Gemini 2.5 Pro 的通过率从 Gemini 1.5 Pro 的 2.8% 提升到了 82.2%。
- SWE-bench Verified：Gemini 2.5 Pro 在单次尝试中的性能从 Gemini 1.5 Pro 的 9.6% 提升到了 59.6%，在多次尝试中从 19.7% 提升到了 67.2%。
- AIME 2025：Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 17.5% 提升到了 88.0%。
多模态理解：
- GPQA (diamond)：Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 58.1% 提升到了 86.4%。
- MMMU：Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 67.7% 提升到了 82.0%。
- Vibe-Eval (Reka)：Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 55.9% 提升到了 67.2%。
- ZeroBench：Gemini 2.5 Pro 的准确率从 Gemini 1.5 Pro 的 0.5% 提升到了 4.5%。
长文本上下文处理：
- LOFT：Gemini 2.5 Pro 在 128K 上下文长度的准确率从 Gemini 1.5 Pro 的 75.9% 提升到了 87.0%，在 1M 上下文长度的准确率从 36.7% 提升到了 69.8%。
- MRCR-V2：Gemini 2.5 Pro 在 128K 上下文长度的准确率从 Gemini 1.5 Pro 的 54.3% 提升到了 58.0%，在 1M 上下文长度的准确率从 10.2% 提升到了 21.0%。

4. 代理能力

Gemini Plays Pokémon：一个独立开发者设置了一个 Twitch 流，让 Gemini 2.5 Pro 玩 Pokémon Blue 游戏。Gemini 2.5 Pro 成功完成了整个游戏，展示了其在复杂环境中的导航和决策能力。
Gemini Deep Research：一个基于 Gemini 2.5 Pro 的代理，用于战略性地浏览网络并提供信息丰富的答案。在 Humanity’s Last Exam 基准测试中，性能从 2024 年 12 月的 7.95% 提升到了 2025 年 6 月的 32.4%。

5. 安全性和责任

自动化红队测试 (ART)：通过自动化红队测试，动态评估模型在安全性方面的表现。Gemini 2.5 Pro 在政策违反和帮助性方面的表现优于 Gemini 1.5 Pro。
外部安全测试：与独立的外部团队合作，进行结构化的安全评估和红队测试，确保模型在实际应用中的安全性和可靠性。

6. 讨论

性能提升：Gemini 2.5 模型家族在多个关键领域取得了显著的性能提升，特别是在推理、多模态理解、长文本上下文处理和代理能力方面。
安全性和责任：模型在安全性和责任性方面的表现也得到了验证和提升。
未来方向：提出了进一步优化模型架构、训练方法、多模态理解、长文本上下文处理和代理能力的潜在方向。

7. 结论

Gemini 2.5 模型家族：通过改进模型架构、训练方法和数据集，Gemini 2.5 模型在多个领域取得了显著的性能提升，特别是在推理、多模态理解、长文本上下文处理和代理能力方面。
安全性和责任：模型在安全性和责任性方面的表现也得到了验证和提升，确保其在实际应用中的可靠性和安全性。
未来工作：提出了进一步优化模型架构、训练方法、多模态理解、长文本上下文处理和代理能力的潜在方向，以推动模型在更多领域和实际应用中发挥更大的作用。

这篇论文展示了 Gemini 2.5 模型家族在多个关键领域的显著进展，特别是在推理、多模态理解、长文本上下文处理和代理能力方面的突破。同时，模型在安全性和责任性方面的表现也得到了验证和提升。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Gheorghe Comanici, Eric Bieber, Mike Schaekermann, Ice Pasupat, Noveen Sachdeva, Inderjit Dhillon, Marcel Blistein, Ori Ram, Dan Zhang, Evan Rosen, Luke Marris, Sam Petulla, Colin Gaffney, Asaf Aharoni, Nathan Lintz, Tiago Cardal Pais, Henrik Jacobsson, Idan Szpektor, Nan-Jiang Jiang, Krishna Haridasan, Ahmed Omran, Nikunj Saunshi, Dara Bahri, Gaurav Mishra, Eric Chu, Toby Boyd, Brad Hekman, Aaron Parisi, Chaoyi Zhang, Kornraphop Kawintiranon, Tania Bedrax-Weiss, Oliver Wang, Ya Xu, Ollie Purkiss, Uri Mendlovic, Ilaï Deutel, Nam Nguyen, Adam Langley, Flip Korn, Lucia Rossazza, Alexandre Ramé, Sagar Waghmare, Helen Miller, Nathan Byrd, Ashrith Sheshan, Raia Hadsell Sangnie Bhardwaj, Pawel Janus, Tero Rissa, Dan Horgan, Sharon Silver, Ayzaan Wahid, Sergey Brin, Yves Raimond, Klemen Kloboves, Cindy Wang, Nitesh Bharadwaj Gundavarapu, Ilia Shumailov, Bo Wang, Mantas Pajarskas, Joe Heyward, Martin Nikoltchev, Maciej Kula, Hao Zhou, Zachary Garrett, Sushant Kafle, Sercan Arik, Ankita Goel, Mingyao Yang, Jiho Park, Koji Kojima, Parsa Mahmoudieh, Koray Kavukcuoglu, Grace Chen, Doug Fritz, Anton Bulyenov, Sudeshna Roy, Dimitris Paparas, Hadar Shemtov, Bo-Juen Chen, Robin Strudel, David Reitter, Aurko Roy, Andrey Vlasov, Changwan Ryu, Chas Leichner, Haichuan Yang, Zelda Mariet, Denis Vnukov, Tim Sohn, Amy Stuart, Wei Liang, Minmin Chen, Praynaa Rawlani, Christy Koh, JD Co-Reyes, Guangda Lai, Praseem Banzal, Dimitrios Vytiniotis, Jieru Mei, Mu Cai, Mohammed Badawi, Corey Fry, Ale Hartman, Daniel Zheng, Eric Jia, James Keeling, Annie Louis, Ying Chen, Efren Robles, Wei-Chih Hung, Howard Zhou, Nikita Saxena, Sonam Goenka, Olivia Ma, Zach Fisher, Mor Hazan Taege, Emily Graves, David Steiner, Yujia Li, Sarah Nguyen, Rahul Sukthankar, Joe Stanton, Ali Eslami, Gloria Shen, Berkin Akin, Alexey Guseynov, Yiqian Zhou, Jean-Baptiste Alayrac, Armand Joulin, Efrat Farkash, Ashish Thapliyal, Stephen Roller, Noam Shazeer, Todor Davchev, Terry Koo, Hannah Forbes-Pollard, Kartik Audhkhasi, Greg Farquhar, Adi Mayrav Gilady, Maggie Song, John Aslanides, Piermaria Mendolicchio, Alicia Parrish, John Blitzer, Pramod Gupta, Xiaoen Ju, Xiaochen Yang, Puranjay Datta, Andrea Tacchetti, Sanket Vaibhav Mehta, Gregory Dibb, Shubham Gupta, Federico Piccinini, Raia Hadsell, Sujee Rajayogam, Jiepu Jiang, Patrick Griffin, Patrik Sundberg, Jamie Hayes, Alexey Frolov, Tian Xie, Adam Zhang, Kingshuk Dasgupta, Uday Kalra, Lior Shani, Klaus Macherey, Tzu-Kuo Huang, Liam MacDermed, Karthik Duddu, Paulo Zacchello, Zi Yang, Jessica Lo, Kai Hui, Matej Kastelic, Derek Gasaway, Qijun Tan, Summer Yue, Pablo Barrio, John Wieting, Weel Yang, Andrew Nystrom, Solomon Demmessie, Anselm Levskaya, Fabio Viola, Chetan Tekur, Greg Billock, George Necula, Mandar Joshi, Rylan Schaeffer, Swachhand Lokhande, Christina Sorokin, Pradeep Shenoy, Mia Chen, Mark Collier, Hongji Li, Taylor Bos, Nevan Wichers, Sun Jae Lee, Angéline Pouget, Santhosh Thangaraj, Kyriakos Axiotis, Phil Crone, Rachel Sterneck, Nikolai Chinaev, Victoria Krakovna, Oleksandr Ferludin, Ian Gemp, Stephanie Winkler, Dan Goldberg, Ivan Korotkov, Kefan Xiao, Malika Mehrotra, Sandeep Mariserla, Vihari Piratla, Terry Thurk, Khiem Pham, Hongxu Ma, Alexandre Senges, Ravi Kumar, Clemens Meyer, Ellie Talius, Nuo Wang Pierse, Ballie Sandhu, Horia Toma, Kuo Lin, Swaroop Nath, Tom Stone, Dorsa Sadigh, Nikita Gupta, Arthur Guez, Avi Singh, Matt Thomas, Tom Duerig, Yuan Gong, Richard Tanburn, Lydia Lihui Zhang, Phuong Dao, Mohamed Hammad, Sirui Xie, Shruti Rijhwani, Ben Murdoch, Duhyeon Kim, Will Thompson, Heng-Tze Cheng, Daniel Sohn, Pablo Sprechmann, Qiantong Xu, Srinivas Tadepalli, Peter Young, Ye Zhang, Hansa Srinivasan, Miranda Aperghis, Aditya Ayyar, Hen Fitoussi, Ryan Burnell, David Madras, Mike Dusenberry, Xi Xiong, Tayo Oguntebi, Ben Albrecht, Jörg Bornschein, Jovana Mitrović, Mason Dimarco, Bhargav Kanagal Shamanna, Premal Shah, Eren Sezener, Shyam Upadhyay, Dave Lacey, Craig Schiff, Sebastien Baur, Sanjay Ganapathy, Eva Schnider, Mateo Wirth, Connor Schenck, Andrey Simanovsky, Yi-Xuan Tan, Philipp Fränken, Dennis Duan, Bharath Mankalale, Nikhil Dhawan, Kevin Sequeira, Zichuan Wei, Shivanker Goel, Caglar Unlu, Yukun Zhu, Haitian Sun, Ananth Balashankar, Kurt Shuster, Megh Umekar, Mahmoud Alnahlawi, Aäron van den Oord, Kelly Chen, Yuexiang Zhai, Zihang Dai, Kuang-Huei Lee, Eric Doi, Lukas Zilka, Rohith Vallu, Disha Shrivastava, Jason Lee, Hisham Husain, Honglei Zhuang, Vincent Cohen-Addad, Jarred Barber, James Atwood, Adam Sadovsky, Quentin Wellens, Steven Hand, Arunkumar Rajendran, Aybuke Turker, CJ Carey, Yuanzhong Xu, Hagen Soltau, Zefei Li, Xinying Song, Conglong Li, Iurii Kemaev, Sasha Brown, Andrea Burns, Viorica Patraucean, Piotr Stanczyk, Renga Aravamudhan, Mathieu Blondel, Hila Noga, Lorenzo Blanco, Will Song, Michael Isard, Mandar Sharma, Reid Hayes, Dalia El Badawy, Avery Lamp, Itay Laish, Olga Kozlova, Kelvin Chan, Sahil Singla, Srinivas Sunkara, Mayank Upadhyay, Chang Liu, Aijun Bai, Jarek Wilkiewicz, Martin Zlocha, Jeremiah Liu, Zhuowan Li, Haiguang Li, Omer Barak, Ganna Raboshchuk, Jiho Choi, Fangyu Liu, Erik Jue, Mohit Sharma, Andreea Marzoca, Robert Busa-Fekete, Anna Korsun, Andre Elisseeff, Zhe Shen, Sara Mc Carthy, Kay Lamerigts, Anahita Hosseini, Hanzhao Lin, Charlie Chen, Fan Yang, Kushal Chauhan, Mark Omernick, Dawei Jia, Karina Zainullina, Demis Hassabis, Danny Vainstein, Ehsan Amid, Xiang Zhou, Ronny Votel, Eszter Vértes, Xinjian Li, Zongwei Zhou, Angeliki Lazaridou, Brendan McMahan, Arjun Narayanan, Hubert Soyer, Sujoy Basu, Kayi Lee, Bryan Perozzi, Qin Cao, Leonard Berrada, Rahul Arya, Ke Chen, Katrina, Xu, Matthias Lochbrunner, Alex Hofer, Sahand Sharifzadeh, Renjie Wu, Sally Goldman, Pranjal Awasthi, Xuezhi Wang, Yan Wu, Claire Sha, Biao Zhang, Maciej Mikuła, Filippo Graziano, Siobhan Mcloughlin, Irene Giannoumis, Youhei Namiki, Chase Malik, Carey Radebaugh, Jamie Hall, Ramiro Leal-Cavazos, Jianmin Chen, Vikas Sindhwani, David Kao, David Greene, Jordan Griffith, Chris Welty, Ceslee Montgomery, Toshihiro Yoshino, Liangzhe Yuan, Noah Goodman, Assaf Hurwitz Michaely, Kevin Lee, KP Sawhney, Wei Chen, Zheng Zheng, Megan Shum, Nikolay Savinov, Etienne Pot, Alex Pak, Morteza Zadimoghaddam, Sijal Bhatnagar, Yoad Lewenberg, Blair Kutzman, Ji Liu, Lesley Katzen, Jeremy Selier, Josip Djolonga, Dmitry Lepikhin, Kelvin Xu, Jacky Liang, Jiewen Tan, Benoit Schillings, Muge Ersoy, Pete Blois, Bernd Bandemer, Abhimanyu Singh, Sergei Lebedev, Pankaj Joshi, Adam R. Brown, Evan Palmer, Shreya Pathak, Komal Jalan, Fedir Zubach, Shuba Lall, Randall Parker, Alok Gunjan, Sergey Rogulenko, Sumit Sanghai, Zhaoqi Leng, Zoltan Egyed, Shixin Li, Maria Ivanova, Kostas Andriopoulos, Jin Xie, Elan Rosenfeld, Auriel Wright, Ankur Sharma, Xinyang Geng, Yicheng Wang, Sam Kwei, Renke Pan, Yujing Zhang, Gabby Wang, Xi Liu, Chak Yeung, Elizabeth Cole, Aviv Rosenberg, Zhen Yang, Phil Chen, George Polovets, Pranav Nair, Rohun Saxena, Josh Smith, Shuo-yiin Chang, Aroma Mahendru, Svetlana Grant, Anand Iyer, Irene Cai, Jed McGiffin, Jiaming Shen, Alanna Walton, Antonious Girgis, Oliver Woodman, Rosemary Ke, Mike Kwong, Louis Rouillard, Jinmeng Rao, Zhihao Li, Yuntao Xu, Flavien Prost, Chi Zou, Ziwei Ji, Alberto Magni, Tyler Liechty, Dan A. Calian, Deepak Ramachandran, Igor Krivokon, Hui Huang, Terry Chen, Anja Hauth, Anastasija Ilić, Weijuan Xi, Hyeontaek Lim, Vlad-Doru Ion, Pooya Moradi, Metin Toksoz-Exley, Kalesha Bullard, Miltos Allamanis, Xiaomeng Yang, Sophie Wang, Zhi Hong, Anita Gergely, Cheng Li, Bhavishya Mittal, Vitaly Kovalev, Victor Ungureanu, Jane Labanowski, Jan Wassenberg, Nicolas Lacasse, Geoffrey Cideron, Petar Dević, Annie Marsden, Lynn Nguyen, Michael Fink, Yin Zhong, Tatsuya Kiyono, Desi Ivanov, Sally Ma, Max Bain, Kiran Yalasangi, Jennifer She, Anastasia Petrushkina, Mayank Lunayach, Carla Bromberg, Sarah Hodkinson, Vilobh Meshram, Daniel Vlasic, Austin Kyker, Steve Xu, Jeff Stanway, Zuguang Yang, Kai Zhao, Matthew Tung, Seth Odoom, Yasuhisa Fujii, Justin Gilmer, Eunyoung Kim, Felix Halim, Quoc Le, Bernd Bohnet, Seliem El-Sayed, Behnam Neyshabur, Malcolm Reynolds, Dean Reich, Yang Xu, Erica Moreira, Anuj Sharma, Zeyu Liu, Mohammad Javad Hosseini, Naina Raisinghani, Yi Su, Ni Lao, Daniel Formoso, Marco Gelmi, Almog Gueta, Tapomay Dey, Elena Gribovskaya, Domagoj Ćevid, Sidharth Mudgal, Garrett Bingham, Jianling Wang, Anurag Kumar, Alex Cullum, Feng Han, Konstantinos Bousmalis, Diego Cedillo, Grace Chu, Vladimir Magay, Paul Michel, Ester Hlavnova, Daniele Calandriello, Setareh Ariafar, Kaisheng Yao, Vikash Sehwag, Arpi Vezer, Agustin Dal Lago, Zhenkai Zhu, Paul Kishan Rubenstein, Allen Porter, Anirudh Baddepudi, Oriana Riva, Mihai Dorin Istin, Chih-Kuan Yeh, Zhi Li, Andrew Howard, Nilpa Jha, Jeremy Chen, Raoul de Liedekerke, Zafarali Ahmed, Mikel Rodriguez, Tanuj Bhatia, Bangju Wang, Ali Elqursh, David Klinghoffer, Peter Chen, Pushmeet Kohli, Te I, Weiyang Zhang, Zack Nado, Jilin Chen, Maxwell Chen, George Zhang, Aayush Singh, Adam Hillier, Federico Lebron, Yiqing Tao, Ting Liu, Gabriel Dulac-Arnold, Jingwei Zhang, Shashi Narayan, Buhuang Liu, Orhan Firat, Abhishek Bhowmick, Bingyuan Liu, Hao Zhang, Zizhao Zhang, Georges Rotival, Nathan Howard, Anu Sinha, Alexander Grushetsky, Benjamin Beyret, Keerthana Gopalakrishnan, James Zhao, Kyle He, Szabolcs Payrits, Zaid Nabulsi, Zhaoyi Zhang, Weijie Chen, Edward Lee, Nova Fallen, Sreenivas Gollapudi, Aurick Zhou, Filip Pavetić, Thomas Köppe, Shiyu Huang, Rama Pasumarthi, Nick Fernando, Felix Fischer, Daria Ćurko, Yang Gao, James Svensson, Austin Stone, Haroon Qureshi, Abhishek Sinha, Apoorv Kulshreshtha, Martin Matysiak, Jieming Mao, Carl Saroufim, Aleksandra Faust, Qingnan Duan, Gil Fidel, Kaan Katircioglu, Raphaël Lopez Kaufman, Dhruv Shah, Weize Kong, Abhishek Bapna, Gellért Weisz, Emma Dunleavy, Praneet Dutta, Tianqi Liu, Rahma Chaabouni, Carolina Parada, Marcus Wu, Alexandra Belias, Alessandro Bissacco, Stanislav Fort, Li Xiao, Fantine Huot, Chris Knutsen, Yochai Blau, Gang Li, Jennifer Prendki, Juliette Love, Yinlam Chow, Pichi Charoenpanit, Hidetoshi Shimokawa, Vincent Coriou, Karol Gregor, Tomas Izo, Arjun Akula, Mario Pinto, Chris Hahn, Dominik Paulus, Jiaxian Guo, Neha Sharma, Cho-Jui Hsieh, Adaeze Chukwuka, Kazuma Hashimoto, Nathalie Rauschmayr, Ling Wu, Christof Angermueller, Yulong Wang, Sebastian Gerlach, Michael Pliskin, Daniil Mirylenka, Min Ma, Lexi Baugher, Bryan Gale, Shaan Bijwadia, Nemanja Rakićević, David Wood, Jane Park, Chung-Ching Chang, Babi Seal, Chris Tar, Kacper Krasowiak, Yiwen Song, Georgi Stephanov, Gary Wang, Marcello Maggioni, Stein Xudong Lin, Felix Wu, Shachi Paul, Zixuan Jiang, Shubham Agrawal, Bilal Piot, Alex Feng, Cheolmin Kim, Tulsee Doshi, Jonathan Lai, Chuqiao, Xu, Sharad Vikram, Ciprian Chelba, Sebastian Krause, Vincent Zhuang, Jack Rae, Timo Denk, Adrian Collister, Lotte Weerts, Xianghong Luo, Yifeng Lu, Håvard Garnes, Nitish Gupta, Terry Spitz, Avinatan Hassidim, Lihao Liang, Izhak Shafran, Peter Humphreys, Kenny Vassigh, Phil Wallis, Virat Shejwalkar, Nicolas Perez-Nieves, Rachel Hornung, Melissa Tan, Beka Westberg, Andy Ly, Richard Zhang, Brian Farris, Jongbin Park, Alec Kosik, Zeynep Cankara, Andrii Maksai, Yunhan Xu, Albin Cassirer, Sergi Caelles, Abbas Abdolmaleki, Mencher Chiang, Alex Fabrikant, Shravya Shetty, Luheng He, Mai Giménez, Hadi Hashemi, Sheena Panthaplackel, Yana Kulizhskaya, Salil Deshmukh, Daniele Pighin, Robin Alazard, Disha Jindal, Seb Noury, Pradeep Kumar S, Siyang Qin, Xerxes Dotiwalla, Stephen Spencer, Mohammad Babaeizadeh, Blake JianHang Chen, Vaibhav Mehta, Jennie Lees, Andrew Leach, Penporn Koanantakool, Ilia Akolzin, Ramona Comanescu, Junwhan Ahn, Alexey Svyatkovskiy, Basil Mustafa, David D’Ambrosio, Shiva Mohan Reddy Garlapati, Pascal Lamblin, Alekh Agarwal, Shuang Song, Pier Giuseppe Sessa, Pauline Coquinot, John Maggs, Hussain Masoom, Divya Pitta, Yaqing Wang, Patrick Morris-Suzuki, Billy Porter, Johnson Jia, Jeffrey Dudek, Raghavender R, Cosmin Paduraru, Alan Ansell, Tolga Bolukbasi, Tony Lu, Ramya Ganeshan, Zi Wang, Henry Griffiths, Rodrigo Benenson, Yifan He, James Swirhun, George Papamakarios, Aditya Chawla, Kuntal Sengupta, Yan Wang, Vedrana Milutinovic, Igor Mordatch, Zhipeng Jia, Jamie Smith, Will Ng, Shitij Nigam, Matt Young, Eugen Vušak, Blake Hechtman, Sheela Goenka, Avital Zipori, Kareem Ayoub, Ashok Popat, Trilok Acharya, Luo Yu, Dawn Bloxwich, Hugo Song, Paul Roit, Haiqiong Li, Aviel Boag, Nigamaa Nayakanti, Bilva Chandra, Tianli Ding, Aahil Mehta, Cath Hope, Jiageng Zhang, Idan Heimlich Shtacher, Kartikeya Badola, Ryo Nakashima, Andrei Sozanschi, Iulia Comşa, Ante Žužul, Emily Caveness, Julian Odell, Matthew Watson, Dario de Cesare, Phillip Lippe, Derek Lockhart, Siddharth Verma, Huizhong Chen, Sean Sun, Lin Zhuo, Aditya Shah, Prakhar Gupta, Alex Muzio, Ning Niu, Amir Zait, Abhinav Singh, Meenu Gaba, Fan Ye, Prajit Ramachandran, Mohammad Saleh, Raluca Ada Popa, Ayush Dubey, Frederick Liu, Sara Javanmardi, Mark Epstein, Ross Hemsley, Richard Green, Nishant Ranka, Eden Cohen, Chuyuan Kelly Fu, Sanjay Ghemawat, Jed Borovik, James Martens, Anthony Chen, Pranav Shyam, André Susano Pinto, Ming-Hsuan Yang, Alexandru Ţifrea, David Du, Boqing Gong, Ayushi Agarwal, Seungyeon Kim, Christian Frank, Saloni Shah, Xiaodan Song, Zhiwei Deng, Ales Mikhalap, Kleopatra Chatziprimou, Timothy Chung, Toni Creswell, Susan Zhang, Yennie Jun, Carl Lebsack, Will Truong, Slavica Andačić, Itay Yona, Marco Fornoni, Rong Rong, Serge Toropov, Afzal Shama Soudagar, Andrew Audibert, Salah Zaiem, Zaheer Abbas, Andrei Rusu, Sahitya Potluri, Shitao Weng, Anastasios Kementsietsidis, Anton Tsitsulin, Daiyi Peng, Natalie Ha, Sanil Jain, Tejasi Latkar, Simeon Ivanov, Cory McLean, Anirudh GP, Rajesh Venkataraman, Canoee Liu, Dilip Krishnan, Joel D’sa, Roey Yogev, Paul Collins, Benjamin Lee, Lewis Ho, Carl Doersch, Gal Yona, Shawn Gao, Felipe Tiengo Ferreira, Adnan Ozturel, Hannah Muckenhirn, Ce Zheng, Gargi Balasubramaniam, Mudit Bansal, George van den Driessche, Sivan Eiger, Salem Haykal, Vedant Misra, Abhimanyu Goyal, Danilo Martins, Gary Leung, Jonas Valfridsson, Four Flynn, Will Bishop, Chenxi Pang, Yoni Halpern, Honglin Yu, Lawrence Moore, Yuvein, Zhu, Sridhar Thiagarajan, Yoel Drori, Zhisheng Xiao, Lucio Dery, Rolf Jagerman, Jing Lu, Eric Ge, Vaibhav Aggarwal, Arjun Khare, Vinh Tran, Oded Elyada, Ferran Alet, James Rubin, Ian Chou, David Tian, Libin Bai, Lawrence Chan, Lukasz Lew, Karolis Misiunas, Taylan Bilal, Aniket Ray, Sindhu Raghuram, Alex Castro-Ros, Viral Carpenter, CJ Zheng, Michael Kilgore, Josef Broder, Emily Xue, Praveen Kallakuri, Dheeru Dua, Nancy Yuen, Steve Chien, John Schultz, Saurabh Agrawal, Reut Tsarfaty, Jingcao Hu, Ajay Kannan, Dror Marcus, Nisarg Kothari, Baochen Sun, Ben Horn, Matko Bošnjak, Ferjad Naeem, Dean Hirsch, Lewis Chiang, Boya Fang, Jie Han, Qifei Wang, Ben Hora, Antoine He, Mario Lučić, Beer Changpinyo, Anshuman Tripathi, John Youssef, Chester Kwak, Philippe Schlattner, Cat Graves, Rémi Leblond, Wenjun Zeng, Anders Andreassen, Gabriel Rasskin, Yue Song, Eddie Cao, Junhyuk Oh, Matt Hoffman, Wojtek Skut, Yichi Zhang, Jon Stritar, Xingyu Cai, Saarthak Khanna, Kathie Wang, Shriya Sharma, Christian Reisswig, Younghoon Jun, Aman Prasad, Tatiana Sholokhova, Preeti Singh, Adi Gerzi Rosenthal, Anian Ruoss, Françoise Beaufays, Sean Kirmani, Dongkai Chen, Johan Schalkwyk, Jonathan Herzig, Been Kim, Josh Jacob, Damien Vincent, Adrian N Reyes, Ivana Balazevic, Léonard Hussenot, Jon Schneider, Parker Barnes, Luis Castro, Spandana Raj Babbula, Simon Green, Serkan Cabi, Nico Duduta, Danny Driess, Rich Galt, Noam Velan, Junjie Wang, Hongyang Jiao, Matthew Mauger, Du Phan, Miteyan Patel, Vlado Galić, Jerry Chang, Eyal Marcus, Matt Harvey, Julian Salazar, Elahe Dabir, Suraj Satishkumar Sheth, Amol Mandhane, Hanie Sedghi, Jeremiah Willcock, Amir Zandieh, Shruthi Prabhakara, Aida Amini, Antoine Miech, Victor Stone, Massimo Nicosia, Paul Niemczyk, Ying Xiao, Lucy Kim, Sławek Kwasiborski, Vikas Verma, Ada Maksutaj Oflazer, Christoph Hirnschall, Peter Sung, Lu Liu, Richard Everett, Michiel Bakker, Ágoston Weisz, Yufei Wang, Vivek Sampathkumar, Uri Shaham, Bibo Xu, Yasemin Altun, Mingqiu Wang, Takaaki Saeki, Guanjie Chen, Emanuel Taropa, Shanthal Vasanth, Sophia Austin, Lu Huang, Goran Petrovic, Qingyun Dou, Daniel Golovin, Grigory Rozhdestvenskiy, Allie Culp, Will Wu, Motoki Sano, Divya Jain, Julia Proskurnia, Sébastien Cevey, Alejandro Cruzado Ruiz, Piyush Patil, Mahdi Mirzazadeh, Eric Ni, Javier Snaider, Lijie Fan, Alexandre Fréchette, AJ Pierigiovanni, Shariq Iqbal, Kenton Lee, Claudio Fantacci, Jinwei Xing, Lisa Wang, Alex Irpan, David Raposo, Yi Luan, Zhuoyuan Chen, Harish Ganapathy, Kevin Hui, Jiazhong Nie, Isabelle Guyon, Heming Ge, Roopali Vij, Hui Zheng, Dayeong Lee, Alfonso Castaño, Khuslen Baatarsukh, Gabriel Ibagon, Alexandra Chronopoulou, Nicholas FitzGerald, Shashank Viswanadha, Safeen Huda, Rivka Moroshko, Georgi Stoyanov, Prateek Kolhar, Alain Vaucher, Ishaan Watts, Adhi Kuncoro, Henryk Michalewski, Satish Kambala, Bat-Orgil Batsaikhan, Alek Andreev, Irina Jurenka, Maigo Le, Qihang Chen, Wael Al Jishi, Sarah Chakera, Zhe Chen, Aditya Kini, Vikas Yadav, Aditya Siddhant, Ilia Labzovsky, Balaji Lakshminarayanan, Carrie Grimes Bostock, Pankil Botadra, Ankesh Anand, Colton Bishop, Sam Conway-Rahman, Mohit Agarwal, Yani Donchev, Achintya Singhal, Félix de Chaumont Quitry, Natalia Ponomareva, Nishant Agrawal, Bin Ni, Kalpesh Krishna, Masha Samsikova, John Karro, Yilun Du, Tamara von Glehn, Caden Lu, Christopher A. Choquette-Choo, Zhen Qin, Tingnan Zhang, Sicheng Li, Divya Tyam, Swaroop Mishra, Wing Lowe, Colin Ji, Weiyi Wang, Manaal Faruqui, Ambrose Slone, Valentin Dalibard, Arunachalam Narayanaswamy, John Lambert, Pierre-Antoine Manzagol, Dan Karliner, Andrew Bolt, Ivan Lobov, Aditya Kusupati, Chang Ye, Xuan Yang, Heiga Zen, Nelson George, Mukul Bhutani, Olivier Lacombe, Robert Riachi, Gagan Bansal, Rachel Soh, Yue Gao, Yang Yu, Adams Yu, Emily Nottage, Tania Rojas-Esponda, James Noraky, Manish Gupta, Ragha Kotikalapudi, Jichuan Chang, Sanja Deur, Dan Graur, Alex Mossin, Erin Farnese, Ricardo Figueira, Alexandre Moufarek, Austin Huang, Patrik Zochbauer, Ben Ingram, Tongzhou Chen, Zelin Wu, Adrià Puigdomènech, Leland Rechis, Da Yu, Sri Gayatri Sundara Padmanabhan, Rui Zhu, Chu-ling Ko, Andrea Banino, Samira Daruki, Aarush Selvan, Dhruva Bhaswar, Daniel Hernandez Diaz, Chen Su, Salvatore Scellato, Jennifer Brennan, Woohyun Han, Grace Chung, Priyanka Agrawal, Urvashi Khandelwal, Khe Chai Sim, Morgane Lustman, Sam Ritter, Kelvin Guu, Jiawei Xia, Prateek Jain, Emma Wang, Tyrone Hill, Mirko Rossini, Marija Kostelac, Tautvydas Misiunas, Amit Sabne, Kyuyeun Kim, Ahmet Iscen, Congchao Wang, José Leal, Ashwin Sreevatsa, Utku Evci, Manfred Warmuth, Saket Joshi, Daniel Suo, James Lottes, Garrett Honke, Brendan Jou, Stefani Karp, Jieru Hu, Himanshu Sahni, Adrien Ali Taïga, William Kong, Samrat Ghosh, Renshen Wang, Jay Pavagadhi, Natalie Axelsson, Nikolai Grigorev, Patrick Siegler, Rebecca Lin, Guohui Wang, Emilio Parisotto, Sharath Maddineni, Krishan Subudhi, Eyal Ben-David, Elena Pochernina, Orgad Keller, Thi Avrahami, Zhe Yuan, Pulkit Mehta, Jialu Liu, Sherry Yang, Wendy Kan, Katherine Lee, Tom Funkhouser, Derek Cheng, Hongzhi Shi, Archit Sharma, Joe Kelley, Matan Eyal, Yury Malkov, Corentin Tallec, Yuval Bahat, Shen Yan, Xintian, Wu, David Lindner, Chengda Wu, Avi Caciularu, Xiyang Luo, Rodolphe Jenatton, Tim Zaman, Yingying Bi, Ilya Kornakov, Ganesh Mallya, Daisuke Ikeda, Itay Karo, Anima Singh, Colin Evans, Praneeth Netrapalli, Vincent Nallatamby, Isaac Tian, Yannis Assael, Vikas Raunak, Victor Carbune, Ioana Bica, Lior Madmoni, Dee Cattle, Snchit Grover, Krishna Somandepalli, Sid Lall, Amelio Vázquez-Reina, Riccardo Patana, Jiaqi Mu, Pranav Talluri, Maggie Tran, Rajeev Aggarwal, RJ Skerry-Ryan, Jun Xu, Mike Burrows, Xiaoyue Pan, Edouard Yvinec, Di Lu, Zhiying Zhang, Duc Dung Nguyen, Hairong Mu, Gabriel Barcik, Helen Ran, Lauren Beltrone, Krzysztof Choromanski, Dia Kharrat, Samuel Albanie, Sean Purser-haskell, David Bieber, Carrie Zhang, Jing Wang, Tom Hudson, Zhiyuan Zhang, Han Fu, Johannes Mauerer, Mohammad Hossein Bateni, AJ Maschinot, Bing Wang, Muye Zhu, Arjun Pillai, Tobias Weyand, Shuang Liu, Oscar Akerlund, Fred Bertsch, Vittal Premachandran, Alicia Jin, Vincent Roulet, Peter de Boursac, Shubham Mittal, Ndaba Ndebele, Georgi Karadzhov, Sahra Ghalebikesabi, Ricky Liang, Allen Wu, Yale Cong, Nimesh Ghelani, Sumeet Singh, Bahar Fatemi, Warren, Chen, Charles Kwong, Alexey Kolganov, Steve Li, Richard Song, Chenkai Kuang, Sobhan Miryoosefi, Dale Webster, James Wendt, Arkadiusz Socala, Guolong Su, Artur Mendonça, Abhinav Gupta, Xiaowei Li, Tomy Tsai, Qiong, Hu, Kai Kang, Angie Chen, Sertan Girgin, Yongqin Xian, Andrew Lee, Nolan Ramsden, Leslie Baker, Madeleine Clare Elish, Varvara Krayvanova, Rishabh Joshi, Jiri Simsa, Yao-Yuan Yang, Piotr Ambroszczyk, Dipankar Ghosh, Arjun Kar, Yuan Shangguan, Yumeya Yamamori, Yaroslav Akulov, Andy Brock, Haotian Tang, Siddharth Vashishtha, Rich Munoz, Andreas Steiner, Kalyan Andra, Daniel Eppens, Qixuan Feng, Hayato Kobayashi, Sasha Goldshtein, Mona El Mahdy, Xin Wang, Jilei, Wang, Richard Killam, Tom Kwiatkowski, Kavya Kopparapu, Serena Zhan, Chao Jia, Alexei Bendebury, Sheryl Luo, Adrià Recasens, Timothy Knight, Jing Chen, Mohak Patel, YaGuang Li, Ben Withbroe, Dean Weesner, Kush Bhatia, Jie Ren, Danielle Eisenbud, Ebrahim Songhori, Yanhua Sun, Travis Choma, Tasos Kementsietsidis, Lucas Manning, Brian Roark, Wael Farhan, Jie Feng, Susheel Tatineni, James Cobon-Kerr, Yunjie Li, Lisa Anne Hendricks, Isaac Noble, Chris Breaux, Nate Kushman, Liqian Peng, Fuzhao Xue, Taylor Tobin, Jamie Rogers, Josh Lipschultz, Chris Alberti, Alexey Vlaskin, Mostafa Dehghani, Roshan Sharma, Tris Warkentin, Chen-Yu Lee, Benigno Uria, Da-Cheng Juan, Angad Chandorkar, Hila Sheftel, Ruibo Liu, Elnaz Davoodi, Borja De Balle Pigem, Kedar Dhamdhere, David Ross, Jonathan Hoech, Mahdis Mahdieh, Li Liu, Qiujia Li, Liam McCafferty, Chenxi Liu, Markus Mircea, Yunting Song, Omkar Savant, Alaa Saade, Colin Cherry, Vincent Hellendoorn, Siddharth Goyal, Paul Pucciarelli, David Vilar Torres, Zohar Yahav, Hyo Lee, Lars Lowe Sjoesund, Christo Kirov, Bo Chang, Deepanway Ghoshal, Lu Li, Gilles Baechler, Sébastien Pereira, Tara Sainath, Anudhyan Boral, Dominik Grewe, Afief Halumi, Nguyet Minh Phu, Tianxiao Shen, Marco Tulio Ribeiro, Dhriti Varma, Alex Kaskasoli, Vlad Feinberg, Navneet Potti, Jarrod Kahn, Matheus Wisniewski, Shakir Mohamed, Arnar Mar Hrafnkelsson, Bobak Shahriari, Jean-Baptiste Lespiau, Lisa Patel, Legg Yeung, Tom Paine, Lantao Mei, Alex Ramirez, Rakesh Shivanna, Li Zhong, Josh Woodward, Guilherme Tubone, Samira Khan, Heng Chen, Elizabeth Nielsen, Catalin Ionescu, Utsav Prabhu, Mingcen Gao, Qingze Wang, Sean Augenstein, Neesha Subramaniam, Jason Chang, Fotis Iliopoulos, Jiaming Luo, Myriam Khan, Weicheng Kuo, Denis Teplyashin, Florence Perot, Logan Kilpatrick, Amir Globerson, Hongkun Yu, Anfal Siddiqui, Nick Sukhanov, Arun Kandoor, Umang Gupta, Marco Andreetto, Moran Ambar, Donnie Kim, Paweł Wesołowski, Sarah Perrin, Ben Limonchik, Wei Fan, Jim Stephan, Ian Stewart-Binks, Ryan Kappedal, Tong He, Sarah Cogan, Romina Datta, Tong Zhou, Jiayu Ye, Leandro Kieliger, Ana Ramalho, Kyle Kastner, Fabian Mentzer, Wei-Jen Ko, Arun Suggala, Tianhao Zhou, Shiraz Butt, Hana Strejček, Lior Belenki, Subhashini Venugopalan, Mingyang Ling, Evgenii Eltyshev, Yunxiao Deng, Geza Kovacs, Mukund Raghavachari, Hanjun Dai, Tal Schuster, Steven Schwarcz, Richard Nguyen, Arthur Nguyen, Gavin Buttimore, Shrestha Basu Mallick, Sudeep Gandhe, Seth Benjamin, Michal Jastrzebski, Le Yan, Sugato Basu, Chris Apps, Isabel Edkins, James Allingham, Immanuel Odisho, Tomas Kocisky, Jewel Zhao, Linting Xue, Apoorv Reddy, Chrysovalantis Anastasiou, Aviel Atias, Sam Redmond, Kieran Milan, Nicolas Heess, Herman Schmit, Allan Dafoe, Daniel Andor, Tynan Gangwani, Anca Dragan, Sheng Zhang, Ashyana Kachra, Gang Wu, Siyang Xue, Kevin Aydin, Siqi Liu, Yuxiang Zhou, Mahan Malihi, Austin Wu, Siddharth Gopal, Candice Schumann, Peter Stys, Alek Wang, Mirek Olšák, Dangyi Liu, Christian Schallhart, Yiran Mao, Demetra Brady, Hao Xu, Tomas Mery, Chawin Sitawarin, Siva Velusamy, Tom Cobley, Alex Zhai, Christian Walder, Nitzan Katz, Ganesh Jawahar, Chinmay Kulkarni, Antoine Yang, Adam Paszke, Yinan Wang, Bogdan Damoc, Zalán Borsos, Ray Smith, Jinning Li, Mansi Gupta, Andrei Kapishnikov, Sushant Prakash, Florian Luisier, Rishabh Agarwal, Will Grathwohl, Kuangyuan Chen, Kehang Han, Nikhil Mehta, Andrew Over, Shekoofeh Azizi, Lei Meng, Niccolò Dal Santo, Kelvin Zheng, Jane Shapiro, Igor Petrovski, Jeffrey Hui, Amin Ghafouri, Jasper Snoek, James Qin, Mandy Jordan, Caitlin Sikora, Jonathan Malmaud, Yuheng Kuang, Aga Świetlik, Ruoxin Sang, Chongyang Shi, Leon Li, Andrew Rosenberg, Shubin Zhao, Andy Crawford, Jan-Thorsten Peter, Yun Lei, Xavier Garcia, Long Le, Todd Wang, Julien Amelot, Dave Orr, Praneeth Kacham, Dana Alon, Gladys Tyen, Abhinav Arora, James Lyon, Alex Kurakin, Mimi Ly, Theo Guidroz, Zhipeng Yan, Rina Panigrahy, Pingmei Xu, Thais Kagohara, Yong Cheng, Eric Noland, Jinhyuk Lee, Jonathan Lee, Cathy Yip, Maria Wang, Efrat Nehoran, Alexander Bykovsky, Zhihao Shan, Ankit Bhagatwala, Chaochao Yan, Jie Tan, Guillermo Garrido, Dan Ethier, Nate Hurley, Grace Vesom, Xu Chen, Siyuan Qiao, Abhishek Nayyar, Julian Walker, Paramjit Sandhu, Mihaela Rosca, Danny Swisher, Mikhail Dektiarev, Josh Dillon, George-Cristian Muraru, Manuel Tragut, Artiom Myaskovsky, David Reid, Marko Velic, Owen Xiao, Jasmine George, Mark Brand, Jing Li, Wenhao Yu, Shane Gu, Xiang Deng, François-Xavier Aubet, Soheil Hassas Yeganeh, Fred Alcober, Celine Smith, Trevor Cohn, Kay McKinney, Michael Tschannen, Ramesh Sampath, Gowoon Cheon, Liangchen Luo, Luyang Liu, Jordi Orbay, Hui Peng, Gabriela Botea, Xiaofan Zhang, Charles Yoon, Cesar Magalhaes, Paweł Stradomski, Ian Mackinnon, Steven Hemingray, Kumaran Venkatesan, Rhys May, Jaeyoun Kim, Alex Druinsky, Jingchen Ye, Zheng Xu, Terry Huang, Jad Al Abdallah, Adil Dostmohamed, Rachana Fellinger, Tsendsuren Munkhdalai, Akanksha Maurya, Peter Garst, Yin Zhang, Maxim Krikun, Simon Bucher, Aditya Srikanth Veerubhotla, Yaxin Liu, Sheng Li, Nishesh Gupta, Jakub Adamek, Hanwen Chen, Bernett Orlando, Aleksandr Zaks, Joost van Amersfoort, Josh Camp, Hui Wan, HyunJeong Choe, Zhichun Wu, Kate Olszewska, Weiren Yu, Archita Vadali, Martin Scholz, Daniel De Freitas, Jason Lin, Amy Hua, Xin Liu, Frank Ding, Yichao Zhou, Boone Severson, Katerina Tsihlas, Samuel Yang, Tammo Spalink, Varun Yerram, Helena Pankov, Rory Blevins, Ben Vargas, Sarthak Jauhari, Matt Miecnikowski, Ming Zhang, Sandeep Kumar, Clement Farabet, Charline Le Lan, Sebastian Flennerhag, Yonatan Bitton, Ada Ma, Arthur Bražinskas, Eli Collins, Niharika Ahuja, Sneha Kudugunta, Anna Bortsova, Minh Giang, Wanzheng Zhu, Ed Chi, Scott Lundberg, Alexey Stern, Subha Puttagunta, Jing Xiong, Xiao Wu, Yash Pande, Amit Jhindal, Daniel Murphy, Jon Clark, Marc Brockschmidt, Maxine Deines, Kevin R. McKee, Dan Bahir, Jiajun Shen, Minh Truong, Daniel McDuff, Andrea Gesmundo, Edouard Rosseel, Bowen Liang, Ken Caluwaerts, Jessica Hamrick, Joseph Kready, Mary Cassin, Rishikesh Ingale, Li Lao, Scott Pollom, Yifan Ding, Wei He, Lizzetth Bellot, Joana Iljazi, Ramya Sree Boppana, Shan Han, Tara Thompson, Amr Khalifa, Anna Bulanova, Blagoj Mitrevski, Bo Pang, Emma Cooney, Tian Shi, Rey Coaguila, Tamar Yakar, Marc’aurelio Ranzato, Nikola Momchev, Chris Rawles, Zachary Charles, Young Maeng, Yuan Zhang, Rishabh Bansal, Xiaokai Zhao, Brian Albert, Yuan Yuan, Sudheendra Vijayanarasimhan, Roy Hirsch, Vinay Ramasesh, Kiran Vodrahalli, Xingyu Wang, Arushi Gupta, DJ Strouse, Jianmo Ni, Roma Patel, Gabe Taubman, Zhouyuan Huo, Dero Gharibian, Marianne Monteiro, Hoi Lam, Shobha Vasudevan, Aditi Chaudhary, Isabela Albuquerque, Kilol Gupta, Sebastian Riedel, Chaitra Hegde, Avraham Ruderman, András György, Marcus Wainwright, Ashwin Chaugule, Burcu Karagol Ayan, Tomer Levinboim, Sam Shleifer, Yogesh Kalley, Vahab Mirrokni, Abhishek Rao, Prabakar Radhakrishnan, Jay Hartford, Jialin Wu, Zhenhai Zhu, Francesco Bertolini, Hao Xiong, Nicolas Serrano, Hamish Tomlinson, Myle Ott, Yifan Chang, Mark Graham, Jian Li, Marco Liang, Xiangzhu Long, Sebastian Borgeaud, Yanif Ahmad, Alex Grills, Diana Mincu, Martin Izzard, Yuan Liu, Jinyu Xie, Louis O’Bryan, Sameera Ponda, Simon Tong, Michelle Liu, Dan Malkin, Khalid Salama, Yuankai Chen, Rohan Anil, Anand Rao, Rigel Swavely, Misha Bilenko, Nina Anderson, Tat Tan, Jing Xie, Xing Wu, Lijun Yu, Oriol Vinyals, Andrey Ryabtsev, Rumen Dangovski, Kate Baumli, Daniel Keysers, Christian Wright, Zoe Ashwood, Betty Chan, Artem Shtefan, Yaohui Guo, Ankur Bapna, Radu Soricut, Steven Pecht, Sabela Ramos, Rui Wang, Jiahao Cai, Trieu Trinh, Paul Barham, Linda Friso, Eli Stickgold, Xiangzhuo Ding, Siamak Shakeri, Diego Ardila, Eleftheria Briakou, Phil Culliton, Adam Raveret, Jingyu Cui, David Saxton, Subhrajit Roy, Javad Azizi, Pengcheng Yin, Lucia Loher, Andrew Bunner, Min Choi, Faruk Ahmed, Eric Li, Yin Li, Shengyang Dai, Michael Elabd, Sriram Ganapathy, Shivani Agrawal, Yiqing Hua, Paige Kunkle, Sujeevan Rajayogam, Arun Ahuja, Arthur Conmy, Alex Vasiloff, Parker Beak, Christopher Yew, Jayaram Mudigonda, Bartek Wydrowski, Jon Blanton, Zhengdong Wang, Yann Dauphin, Zhuo Xu, Martin Polacek, Xi Chen, Hexiang Hu, Pauline Sho, Markus Kunesch, Mehdi Hafezi Manshadi, Eliza Rutherford, Bo Li, Sissie Hsiao, Iain Barr, Alex Tudor, Matija Kecman, Arsha Nagrani, Vladimir Pchelin, Martin Sundermeyer, Aishwarya P S, Abhijit Karmarkar, Yi Gao, Grishma Chole, Olivier Bachem, Isabel Gao, Arturo BC, Matt Dibb, Mauro Verzetti, Felix Hernandez-Campos, Yana Lunts, Matthew Johnson, Julia Di Trapani, Raphael Koster, Idan Brusilovsky, Binbin Xiong, Megha Mohabey, Han Ke, Joe Zou, Tea Sabolić, Víctor Campos, John Palowitch, Alex Morris, Linhai Qiu, Pranavaraj Ponnuramu, Fangtao Li, Vivek Sharma, Kiranbir Sodhia, Kaan Tekelioglu, Aleksandr Chuklin, Madhavi Yenugula, Erika Gemzer, Theofilos Strinopoulos, Sam El-Husseini, Huiyu Wang, Yan Zhong, Edouard Leurent, Paul Natsev, Weijun Wang, Dre Mahaarachchi, Tao Zhu, Songyou Peng, Sami Alabed, Cheng-Chun Lee, Anthony Brohan, Arthur Szlam, GS Oh, Anton Kovsharov, Jenny Lee, Renee Wong, Megan Barnes, Gregory Thornton, Felix Gimeno, Omer Levy, Martin Sevenich, Melvin Johnson, Jonathan Mallinson, Robert Dadashi, Ziyue Wang, Qingchun Ren, Preethi Lahoti, Arka Dhar, Josh Feldman, Dan Zheng, Thatcher Ulrich, Liviu Panait, Michiel Blokzijl, Cip Baetu, Josip Matak, Jitendra Harlalka, Maulik Shah, Tal Marian, Daniel von Dincklage, Cosmo Du, Ruy Ley-Wild, Bethanie Brownfield, Max Schumacher, Yury Stuken, Shadi Noghabi, Sonal Gupta, Xiaoqi Ren, Eric Malmi, Felix Weissenberger, Blanca Huergo, Maria Bauza, Thomas Lampe, Arthur Douillard, Mojtaba Seyedhosseini, Roy Frostig, Zoubin Ghahramani, Kelvin Nguyen, Kashyap Krishnakumar, Chengxi Ye, Rahul Gupta, Alireza Nazari, Robert Geirhos, Pete Shaw, Ahmed Eleryan, Dima Damen, Jennimaria Palomaki, Ted Xiao, Qiyin Wu, Quan Yuan, Phoenix Meadowlark, Matthew Bilotti, Raymond Lin, Mukund Sridhar, Yannick Schroecker, Da-Woon Chung, Jincheng Luo, Trevor Strohman, Tianlin Liu, Anne Zheng, Jesse Emond, Wei Wang, Andrew Lampinen, Toshiyuki Fukuzawa, Folawiyo Campbell-Ajala, Monica Roy, James Lee-Thorp, Lily Wang, Iftekhar Naim, Tony, Nguy~ên, Guy Bensky, Aditya Gupta, Dominika Rogozińska, Justin Fu, Thanumalayan Sankaranarayana Pillai, Petar Veličković, Shahar Drath, Philipp Neubeck, Vaibhav Tulsyan, Arseniy Klimovskiy, Don Metzler, Sage Stevens, Angel Yeh, Junwei Yuan, Tianhe Yu, Kelvin Zhang, Alec Go, Vincent Tsang, Ying Xu, Andy Wan, Isaac Galatzer-Levy, Sam Sobell, Abodunrinwa Toki, Elizabeth Salesky, Wenlei Zhou, Diego Antognini, Sholto Douglas, Shimu Wu, Adam Lelkes, Frank Kim, Paul Cavallaro, Ana Salazar, Yuchi Liu, James Besley, Tiziana Refice, Yiling Jia, Zhang Li, Michal Sokolik, Arvind Kannan, Jon Simon, Jo Chick, Avia Aharon, Meet Gandhi, Mayank Daswani, Keyvan Amiri, Vighnesh Birodkar, Abe Ittycheriah, Peter Grabowski, Oscar Chang, Charles Sutton, Zhixin, Lai, Umesh Telang, Susie Sargsyan, Tao Jiang, Raphael Hoffmann, Nicole Brichtova, Matteo Hessel, Jonathan Halcrow, Sammy Jerome, Geoff Brown, Alex Tomala, Elena Buchatskaya, Dian Yu, Sachit Menon, Pol Moreno, Yuguo Liao, Vicky Zayats, Luming Tang, SQ Mah, Ashish Shenoy, Alex Siegman, Majid Hadian, Okwan Kwon, Tao Tu, Nima Khajehnouri, Ryan Foley, Parisa Haghani, Zhongru Wu, Vaishakh Keshava, Khyatti Gupta, Tony Bruguier, Rui Yao, Danny Karmon, Luisa Zintgraf, Zhicheng Wang, Enrique Piqueras, Junehyuk Jung, Jenny Brennan, Diego Machado, Marissa Giustina, MH Tessler, Kamyu Lee, Qiao Zhang, Joss Moore, Kaspar Daugaard, Alexander Frömmgen, Jennifer Beattie, Fred Zhang, Daniel Kasenberg, Ty Geri, Danfeng Qin, Gaurav Singh Tomar, Tom Ouyang, Tianli Yu, Luowei Zhou, Rajiv Mathews, Andy Davis, Yaoyiran Li, Jai Gupta, Damion Yates, Linda Deng, Elizabeth Kemp, Ga-Young Joung, Sergei Vassilvitskii, Mandy Guo, Pallavi LV, Dave Dopson, Sami Lachgar, Lara McConnaughey, Himadri Choudhury, Dragos Dena, Aaron Cohen, Joshua Ainslie, Sergey Levi, Parthasarathy Gopavarapu, Polina Zablotskaia, Hugo Vallet, Sanaz Bahargam, Xiaodan Tang, Nenad Tomasev, Ethan Dyer, Daniel Balle, Hongrae Lee, William Bono, Jorge Gonzalez Mendez, Vadim Zubov, Shentao Yang, Ivor Rendulic, Yanyan Zheng, Andrew Hogue, Golan Pundak, Ralph Leith, Avishkar Bhoopchand, Michael Han, Mislav Žanić, Tom Schaul, Manolis Delakis, Tejas Iyer, Guanyu Wang, Harman Singh, Abdelrahman Abdelhamed, Tara Thomas, Siddhartha Brahma, Hilal Dib, Naveen Kumar, Wenxuan Zhou, Liang Bai, Pushkar Mishra, Jiao Sun, Valentin Anklin, Roykrong Sukkerd, Lauren Agubuzu, Anton Briukhov, Anmol Gulati, Maximilian Sieb, Fabio Pardo, Sara Nasso, Junquan Chen, Kexin Zhu, Tiberiu Sosea, Alex Goldin, Keith Rush, Spurthi Amba Hombaiah, Andreas Noever, Allan Zhou, Sam Haves, Mary Phuong, Jake Ades, Yi-ting Chen, Lin Yang, Joseph Pagadora, Stan Bileschi, Victor Cotruta, Rachel Saputro, Arijit Pramanik, Sean Ammirati, Dan Garrette, Kevin Villela, Tim Blyth, Canfer Akbulut, Neha Jha, Alban Rrustemi, Arissa Wongpanich, Chirag Nagpal, Yonghui Wu, Morgane Rivière, Sergey Kishchenko, Pranesh Srinivasan, Alice Chen, Animesh Sinha, Trang Pham, Bill Jia, Tom Hennigan, Anton Bakalov, Nithya Attaluri, Drew Garmon, Daniel Rodriguez, Dawid Wegner, Wenhao Jia, Evan Senter, Noah Fiedel, Denis Petek, Yuchuan Liu, Cassidy Hardin, Harshal Tushar Lehri, Joao Carreira, Sara Smoot, Marcel Prasetya, Nami Akazawa, Anca Stefanoiu, Chia-Hua Ho, Anelia Angelova, Kate Lin, Min Kim, Charles Chen, Marcin Sieniek, Alice Li, Tongfei Guo, Sorin Baltateanu, Pouya Tafti, Michael Wunder, Nadav Olmert, Divyansh Shukla, Jingwei Shen, Neel Kovelamudi, Balaji Venkatraman, Seth Neel, Romal Thoppilan, Jerome Connor, Frederik Benzing, Axel Stjerngren, Golnaz Ghiasi, Alex Polozov, Joshua Howland, Theophane Weber, Justin Chiu, Ganesh Poomal Girirajan, Andreas Terzis, Pidong Wang, Fangda Li, Yoav Ben Shalom, Dinesh Tewari, Matthew Denton, Roee Aharoni, Norbert Kalb, Heri Zhao, Junlin Zhang, Angelos Filos, Matthew Rahtz, Lalit Jain, Connie Fan, Vitor Rodrigues, Ruth Wang, Richard Shin, Jacob Austin, Roman Ring, Mariella Sanchez-Vargas, Mehadi Hassen, Ido Kessler, Uri Alon, Gufeng Zhang, Wenhu Chen, Yenai Ma, Xiance Si, Le Hou, Azalia Mirhoseini, Marc Wilson, Geoff Bacon, Becca Roelofs, Lei Shu, Gautam Vasudevan, Jonas Adler, Artur Dwornik, Tayfun Terzi, Matt Lawlor, Harry Askham, Mike Bernico, Xuanyi Dong, Chris Hidey, Kevin Kilgour, Gaël Liu, Surya Bhupatiraju, Luke Leonhard, Siqi Zuo, Partha Talukdar, Qing Wei, Aliaksei Severyn, Vít Listík, Jong Lee, Aditya Tripathi, SK Park, Yossi Matias, Hao Liu, Alex Ruiz, Rajesh Jayaram, Jackson Tolins, Pierre Marcenac, Yiming Wang, Bryan Seybold, Henry Prior, Deepak Sharma, Jack Weber, Mikhail Sirotenko, Yunhsuan Sung, Dayou Du, Ellie Pavlick, Stefan Zinke, Markus Freitag, Max Dylla, Montse Gonzalez Arenas, Natan Potikha, Omer Goldman, Connie Tao, Rachita Chhaparia, Maria Voitovich, Pawan Dogra, Andrija Ražnatović, Zak Tsai, Chong You, Oleaser Johnson, George Tucker, Chenjie Gu, Jae Yoo, Maryam Majzoubi, Valentin Gabeur, Bahram Raad, Rocky Rhodes, Kashyap Kolipaka, Heidi Howard, Geta Sampemane, Benny Li, Chulayuth Asawaroengchai, Duy Nguyen, Chiyuan Zhang, Timothee Cour, Xinxin Yu, Zhao Fu, Joe Jiang, Po-Sen Huang, Gabriela Surita, Iñaki Iturrate, Yael Karov, Michael Collins, Martin Baeuml, Fabian Fuchs, Shilpa Shetty, Swaroop Ramaswamy, Sayna Ebrahimi, Qiuchen Guo, Jeremy Shar, Gabe Barth-Maron, Sravanti Addepalli, Bryan Richter, Chin-Yi Cheng, Eugénie Rives, Fei Zheng, Johannes Griesser, Nishanth Dikkala, Yoel Zeldes, Ilkin Safarli, Dipanjan Das, Himanshu Srivastava, Sadh MNM Khan, Xin Li, Aditya Pandey, Larisa Markeeva, Dan Belov, Qiqi Yan, Mikołaj Rybiński, Tao Chen, Megha Nawhal, Michael Quinn, Vineetha Govindaraj, Sarah York, Reed Roberts, Roopal Garg, Namrata Godbole, Jake Abernethy, Anil Das, Lam Nguyen Thiet, Jonathan Tompson, John Nham, Neera Vats, Ben Caine, Wesley Helmholz, Francesco Pongetti, Yeongil Ko, James An, Clara Huiyi Hu, Yu-Cheng Ling, Julia Pawar, Robert Leland, Keisuke Kinoshita, Waleed Khawaja, Marco Selvi, Eugene Ie, Danila Sinopalnikov, Lev Proleev, Nilesh Tripuraneni, Michele Bevilacqua, Seungji Lee, Clayton Sanford, Dan Suh, Dustin Tran, Jeff Dean, Simon Baumgartner, Jens Heitkaemper, Sagar Gubbi, Kristina Toutanova, Yichong Xu, Chandu Thekkath, Keran Rong, Palak Jain, Annie Xie, Yan Virin, Yang Li, Lubo Litchev, Richard Powell, Tarun Bharti, Adam Kraft, Nan Hua, Marissa Ikonomidis, Ayal Hitron, Sanjiv Kumar, Loic Matthey, Sophie Bridgers, Lauren Lax, Ishaan Malhi, Ondrej Skopek, Ashish Gupta, Jiawei Cao, Mitchelle Rasquinha, Siim Põder, Wojciech Stokowiec, Nicholas Roth, Guowang Li, Michaël Sander, Joshua Kessinger, Vihan Jain, Edward Loper, Wonpyo Park, Michal Yarom, Liqun Cheng, Guru Guruganesh, Kanishka Rao, Yan Li, Catarina Barros, Mikhail Sushkov, Chun-Sung Ferng, Rohin Shah, Ophir Aharoni, Ravin Kumar, Tim McConnell, Peiran Li, Chen Wang, Fernando Pereira, Craig Swanson, Fayaz Jamil, Yan Xiong, Anitha Vijayakumar, Prakash Shroff, Kedar Soparkar, Jindong Gu, Livio Baldini Soares, Eric Wang, Kushal Majmundar, Aurora Wei, Kai Bailey, Nora Kassner, Chizu Kawamoto, Goran Žužić, Victor Gomes, Abhirut Gupta, Michael Guzman, Ishita Dasgupta, Xinyi Bai, Zhufeng Pan, Francesco Piccinno, Hadas Natalie Vogel, Octavio Ponce, Adrian Hutter, Paul Chang, Pan-Pan Jiang, Ionel Gog, Vlad Ionescu, James Manyika, Fabian Pedregosa, Harry Ragan, Zach Behrman, Ryan Mullins, Coline Devin, Aroonalok Pyne, Swapnil Gawde, Martin Chadwick, Yiming Gu, Sasan Tavakkol, Andy Twigg, Naman Goyal, Ndidi Elue, Anna Goldie, Srinivasan Venkatachary, Hongliang Fei, Ziqiang Feng, Marvin Ritter, Isabel Leal, Sudeep Dasari, Pei Sun, Alif Raditya Rochman, Brendan O’Donoghue, Yuchen Liu, Jim Sproch, Kai Chen, Natalie Clay, Slav Petrov, Sailesh Sidhwani, Ioana Mihailescu, Alex Panagopoulos, AJ Piergiovanni, Yunfei Bai, George Powell, Deep Karkhanis, Trevor Yacovone, Petr Mitrichev, Joe Kovac, Dave Uthus, Amir Yazdanbakhsh, David Amos, Steven Zheng, Bing Zhang, Jin Miao, Bhuvana Ramabhadran, Soroush Radpour, Shantanu Thakoor, Josh Newlan, Oran Lang, Orion Jankowski, Shikhar Bharadwaj, Jean-Michel Sarr, Shereen Ashraf, Sneha Mondal, Jun Yan, Ankit Singh Rawat, Sarmishta Velury, Greg Kochanski, Tom Eccles, Franz Och, Abhanshu Sharma, Ethan Mahintorabi, Alex Gurney, Carrie Muir, Vered Cohen, Saksham Thakur, Adam Bloniarz, Asier Mujika, Alexander Pritzel, Paul Caron, Altaf Rahman, Fiona Lang, Yasumasa Onoe, Petar Sirkovic, Jay Hoover, Ying Jian, Pablo Duque, Arun Narayanan, David Soergel, Alex Haig, Loren Maggiore, Shyamal Buch, Josef Dean, Ilya Figotin, Igor Karpov, Shaleen Gupta, Denny Zhou, Muhuan Huang, Ashwin Vaswani, Christopher Semturs, Kaushik Shivakumar, Yu Watanabe, Vinodh Kumar Rajendran, Eva Lu, Yanhan Hou, Wenting Ye, Shikhar Vashishth, Nana Nti, Vytenis Sakenas, Darren Ni, Doug DeCarlo, Michael Bendersky, Sumit Bagri, Nacho Cano, Elijah Peake, Simon Tokumine, Varun Godbole, Carlos Guía, Tanya Lando, Vittorio Selo, Seher Ellis, Danny Tarlow, Daniel Gillick, Alessandro Epasto, Siddhartha Reddy Jonnalagadda, Meng Wei, Meiyan Xie, Ankur Taly, Michela Paganini, Mukund Sundararajan, Daniel Toyama, Ting Yu, Dessie Petrova, Aneesh Pappu, Rohan Agrawal, Senaka Buthpitiya, Justin Frye, Thomas Buschmann, Remi Crocker, Marco Tagliasacchi, Mengchao Wang, Da Huang, Sagi Perel, Brian Wieder, Hideto Kazawa, Weiyue Wang, Jeremy Cole, Himanshu Gupta, Ben Golan, Seojin Bang, Nitish Kulkarni, Ken Franko, Casper Liu, Doug Reid, Sid Dalmia, Jay Whang, Kevin Cen, Prasha Sundaram, Johan Ferret, Berivan Isik, Lucian Ionita, Guan Sun, Anna Shekhawat, Muqthar Mohammad, Philip Pham, Ronny Huang, Karthik Raman, Xingyi Zhou, Ross Mcilroy, Austin Myers, Sheng Peng, Jacob Scott, Paul Covington, Sofia Erell, Pratik Joshi, João Gabriel Oliveira, Natasha Noy, Tajwar Nasir, Jake Walker, Vera Axelrod, Tim Dozat, Pu Han, Chun-Te Chu, Eugene Weinstein, Anand Shukla, Shreyas Chandrakaladharan, Petra Poklukar, Bonnie Li, Ye Jin, Prem Eruvbetine, Steven Hansen, Avigail Dabush, Alon Jacovi, Samrat Phatale, Chen Zhu, Steven Baker, Mo Shomrat, Yang Xiao, Jean Pouget-Abadie, Mingyang Zhang, Fanny Wei, Yang Song, Helen King, Yiling Huang, Yun Zhu, Ruoxi Sun, Juliana Vicente Franco, Chu-Cheng Lin, Sho Arora, Hui, Li, Vivian Xia, Luke Vilnis, Mariano Schain, Kaiz Alarakyia, Laurel Prince, Aaron Phillips, Caleb Habtegebriel, Luyao Xu, Huan Gui, Santiago Ontanon, Lora Aroyo, Karan Gill, Peggy Lu, Yash Katariya, Dhruv Madeka, Shankar Krishnan, Shubha Srinivas Raghvendra, James Freedman, Yi Tay, Gaurav Menghani, Peter Choy, Nishita Shetty, Dan Abolafia, Doron Kukliansky, Edward Chou, Jared Lichtarge, Ken Burke, Ben Coleman, Dee Guo, Larry Jin, Indro Bhattacharya, Victoria Langston, Yiming Li, Suyog Kotecha, Alex Yakubovich, Xinyun Chen, Petre Petrov, Tolly Powell, Yanzhang He, Corbin Quick, Kanav Garg, Dawsen Hwang, Yang Lu, Srinadh Bhojanapalli, Kristian Kjems, Ramin Mehran, Aaron Archer, Hado van Hasselt, Ashwin Balakrishna, JK Kearns, Meiqi Guo, Jason Riesa, Mikita Sazanovich, Xu Gao, Chris Sauer, Chengrun Yang, XiangHai Sheng, Thomas Jimma, Wouter Van Gansbeke, Vitaly Nikolaev, Wei Wei, Katie Millican, Ruizhe Zhao, Justin Snyder, Levent Bolelli, Maura O’Brien, Shawn Xu, Fei Xia, Wentao Yuan, Arvind Neelakantan, David Barker, Sachin Yadav, Hannah Kirkwood, Farooq Ahmad, Joel Wee, Jordan Grimstad, Boyu Wang, Matthew Wiethoff, Shane Settle, Miaosen Wang, Charles Blundell, Jingjing Chen, Chris Duvarney, Grace Hu, Olaf Ronneberger, Alex Lee, Yuanzhen Li, Abhishek Chakladar, Alena Butryna, Georgios Evangelopoulos, Guillaume Desjardins, Jonni Kanerva, Henry Wang, Averi Nowak, Nick Li, Alyssa Loo, Art Khurshudov, Laurent El Shafey, Nagabhushan Baddi, Karel Lenc, Yasaman Razeghi, Tom Lieber, Amer Sinha, Xiao Ma, Yao Su, James Huang, Asahi Ushio, Hanna Klimczak-Plucińska, Kareem Mohamed, JD Chen, Simon Osindero, Stav Ginzburg, Lampros Lamprou, Vasilisa Bashlovkina, Duc-Hieu Tran, Ali Khodaei, Ankit Anand, Yixian Di, Ramy Eskander, Manish Reddy Vuyyuru, Jasmine Liu, Aishwarya Kamath, Roman Goldenberg, Mathias Bellaiche, Juliette Pluto, Bill Rosgen, Hassan Mansoor, William Wong, Suhas Ganesh, Eric Bailey, Scott Baird, Dan Deutsch, Jinoo Baek, Xuhui Jia, Chansoo Lee, Abe Friesen, Nathaniel Braun, Kate Lee, Amayika Panda, Steven M. Hernandez, Duncan Williams, Jianqiao Liu, Ethan Liang, Arnaud Autef, Emily Pitler, Deepali Jain, Phoebe Kirk, Oskar Bunyan, Jaume Sanchez Elias, Tongxin Yin, Machel Reid, Aedan Pope, Nikita Putikhin, Bidisha Samanta, Sergio Guadarrama, Dahun Kim, Simon Rowe, Marcella Valentine, Geng Yan, Alex Salcianu, David Silver, Gan Song, Richa Singh, Shuai Ye, Hannah DeBalsi, Majd Al Merey, Eran Ofek, Albert Webson, Shibl Mourad, Ashwin Kakarla, Silvio Lattanzi, Nick Roy, Evgeny Sluzhaev, Christina Butterfield, Alessio Tonioni, Nathan Waters, Sudhindra Kopalle, Jason Chase, James Cohan, Girish Ramchandra Rao, Robert Berry, Michael Voznesensky, Shuguang Hu, Kristen Chiafullo, Sharat Chikkerur, George Scrivener, Ivy Zheng, Jeremy Wiesner, Wolfgang Macherey, Timothy Lillicrap, Fei Liu, Brian Walker, David Welling, Elinor Davies, Yangsibo Huang, Lijie Ren, Nir Shabat, Alessandro Agostini, Mariko Iinuma, Dustin Zelle, Rohit Sathyanarayana, Andrea D’olimpio, Morgan Redshaw, Matt Ginsberg, Ashwin Murthy, Mark Geller, Tatiana Matejovicova, Ayan Chakrabarti, Ryan Julian, Christine Chan, Qiong Hu, Daniel Jarrett, Manu Agarwal, Jeshwanth Challagundla, Tao Li, Sandeep Tata, Wen Ding, Maya Meng, Zhuyun Dai, Giulia Vezzani, Shefali Garg, Jannis Bulian, Mary Jasarevic, Honglong Cai, Harish Rajamani, Adam Santoro, Florian Hartmann, Chen Liang, Bartek Perz, Apoorv Jindal, Fan Bu, Sungyong Seo, Ryan Poplin, Adrian Goedeckemeyer, Badih Ghazi, Nikhil Khadke, Leon Liu, Kevin Mather, Mingda Zhang, Ali Shah, Alex Chen, Jinliang Wei, Keshav Shivam, Yuan Cao, Donghyun Cho, Angelo Scorza Scarpati, Michael Moffitt, Clara Barbu, Ivan Jurin, Ming-Wei Chang, Hongbin Liu, Hao Zheng, Shachi Dave, Christine Kaeser-Chen, Xiaobin Yu, Alvin Abdagic, Lucas Gonzalez, Yanping Huang, Peilin Zhong, Cordelia Schmid, Bryce Petrini, Alex Wertheim, Jifan Zhu, Hoang Nguyen, Kaiyang Ji, Yanqi Zhou, Tao Zhou, Fangxiaoyu Feng, Regev Cohen, David Rim, Shubham Milind Phal, Petko Georgiev, Ariel Brand, Yue Ma, Wei Li, Somit Gupta, Chao Wang, Pavel Dubov, Jean Tarbouriech, Kingshuk Majumder, Huijian Li, Norman Rink, Apurv Suman, Yang Guo, Yinghao Sun, Arun Nair, Xiaowei Xu, Mohamed Elhawaty, Rodrigo Cabrera, Guangxing Han, Julian Eisenschlos, Junwen Bai, Yuqi Li, Yamini Bansal, Thibault Sellam, Mina Khan, Hung Nguyen, Justin Mao-Jones, Nikos Parotsidis, Jake Marcus, Cindy Fan, Roland Zimmermann, Yony Kochinski, Laura Graesser, Feryal Behbahani, Alvaro Caceres, Michael Riley, Patrick Kane, Sandra Lefdal, Rob Willoughby, Paul Vicol, Lun Wang, Shujian Zhang, Ashleah Gill, Yu Liang, Gautam Prasad, Soroosh Mariooryad, Mehran Kazemi, Zifeng Wang, Kritika Muralidharan, Paul Voigtlaender, Jeffrey Zhao, Huanjie Zhou, Nina D’Souza, Aditi Mavalankar, Séb Arnold, Nick Young, Obaid Sarvana, Chace Lee, Milad Nasr, Tingting Zou, Seokhwan Kim, Lukas Haas, Kaushal Patel, Neslihan Bulut, David Parkinson, Courtney Biles, Dmitry Kalashnikov, Chi Ming To, Aviral Kumar, Jessica Austin, Alex Greve, Lei Zhang, Megha Goel, Yeqing Li, Sergey Yaroshenko, Max Chang, Abhishek Jindal, Geoff Clark, Hagai Taitelbaum, Dale Johnson, Ofir Roval, Jeongwoo Ko, Anhad Mohananey, Christian Schuler, Shenil Dodhia, Ruichao Li, Kazuki Osawa, Claire Cui, Peng Xu, Rushin Shah, Tao Huang, Ela Gruzewska, Nathan Clement, Mudit Verma, Olcan Sercinoglu, Hai Qian, Viral Shah, Masa Yamaguchi, Abhinit Modi, Takahiro Kosakai, Thomas Strohmann, Junhao Zeng, Beliz Gunel, Jun Qian, Austin Tarango, Krzysztof Jastrzębski, Robert David, Jyn Shan, Parker Schuh, Kunal Lad, Willi Gierke, Mukundan Madhavan, Xinyi Chen, Mark Kurzeja, Rebeca Santamaria-Fernandez, Dawn Chen, Alexandra Cordell, Yuri Chervonyi, Frankie Garcia, Nithish Kannen, Vincent Perot, Nan Ding, Shlomi Cohen-Ganor, Victor Lavrenko, Junru Wu, Georgie Evans, Cicero Nogueira dos Santos, Madhavi Sewak, Ashley Brown, Andrew Hard, Joan Puigcerver, Zeyu Zheng, Yizhong Liang, Evgeny Gladchenko, Reeve Ingle, Uri First, Pierre Sermanet, Charlotte Magister, Mihajlo Velimirović, Sashank Reddi, Susanna Ricco, Eirikur Agustsson, Hartwig Adam, Nir Levine, David Gaddy, Dan Holtmann-Rice, Xuanhui Wang, Ashutosh Sathe, Abhijit Guha Roy, Blaž Bratanič, Alen Carin, Harsh Mehta, Silvano Bonacina, Nicola De Cao, Mara Finkelstein, Verena Rieser, Xinyi Wu, Florent Altché, Dylan Scandinaro, Li Li, Nino Vieillard, Nikhil Sethi, Garrett Tanzer, Zhi Xing, Shibo Wang, Parul Bhatia, Gui Citovsky, Thomas Anthony, Sharon Lin, Tianze Shi, Shoshana Jakobovits, Gena Gibson, Raj Apte, Lisa Lee, Mingqing Chen, Arunkumar Byravan, Petros Maniatis, Kellie Webster, Andrew Dai, Pu-Chin Chen, Jiaqi Pan, Asya Fadeeva, Zach Gleicher, Thang Luong, Niket Kumar Bhumihar

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2507.06261v4.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.06261v4

Published: 2025-07-07T17:36:04Z

10. Routine: A Structural Planning Framework for LLM Agent System in Enterprise

The deployment of agent systems in an enterprise environment is often hindered by several challenges: common models lack domain-specific process knowledge, leading to disorganized plans, missing key tools, and poor execution stability. To address this, this paper introduces Routine, a multi-step agent planning framework designed with a clear structure, explicit instructions, and seamless parameter passing to guide the agent’s execution module in performing multi-step tool-calling tasks with high stability. In evaluations conducted within a real-world enterprise scenario, Routine significantly increases the execution accuracy in model tool calls, increasing the performance of GPT-4o from 41.1% to 96.3%, and Qwen3-14B from 32.6% to 83.3%. We further constructed a Routine-following training dataset and fine-tuned Qwen3-14B, resulting in an accuracy increase to 88.2% on scenario-specific evaluations, indicating improved adherence to execution plans. In addition, we employed Routine-based distillation to create a scenario-specific, multi-step tool-calling dataset. Fine-tuning on this distilled dataset raised the model’s accuracy to 95.5%, approaching GPT-4o’s performance. These results highlight Routine’s effectiveness in distilling domain-specific tool-usage patterns and enhancing model adaptability to new scenarios. Our experimental results demonstrate that Routine provides a practical and accessible approach to building stable agent workflows, accelerating the deployment and adoption of agent systems in enterprise environments, and advancing the technical vision of AI for Process.

中文摘要

在企业环境中部署代理系统常常受到多个挑战的阻碍：常见模型缺乏特定领域的过程知识，导致计划混乱、缺少关键工具和执行稳定性差。为了解决这个问题，本文介绍了Routine，一个多步骤代理规划框架，设计有清晰的结构、明确的指令和无缝的参数传递，以指导代理的执行模块进行高稳定性的多步骤工具调用任务。在真实企业场景中的评估中，Routine显著提高了模型工具调用的执行准确性，使GPT-4o的性能从41.1%提升到96.3%，Qwen3-14B则从32.6%提升到83.3%。我们还构建了一个遵循Routine的训练数据集，并对Qwen3-14B进行了微调，使其在特定场景评估中的准确率提高到88.2%，表明其对执行计划的遵循有所改善。此外，我们采用基于Routine的蒸馏技术创建了一个特定场景的多步骤工具调用数据集。对这个蒸馏数据集的微调使模型的准确率提高到95.5%，接近GPT-4o的性能。这些结果突显了Routine在提炼特定领域工具使用模式方面的有效性，并增强了模型对新场景的适应能力。我们的实验结果表明，Routine提供了一种务实且可访问的方法来构建稳定的代理工作流程，加速代理系统在企业环境中的部署和采纳，推动了人工智能在流程方面的技术愿景。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在企业环境中部署代理系统（agent systems）时遇到的挑战。具体问题包括：

缺乏领域特定的流程知识：常见的模型在生成执行计划时，由于缺乏特定领域的知识，往往无法生成稳健的执行计划，容易遗漏关键工具，导致执行稳定性差。
工具调用的不稳定性：在企业特定场景中，模型难以可靠地与特定场景的工具进行集成，并有效地解决实际任务。由于缺乏对工具的准确描述，模型在选择合适的工具和参数时存在困难，进一步导致任务执行的不稳定性。
缺乏统一、结构化和完整的计划格式：现有的代理规划缺乏统一的结构化格式，导致规划步骤与工具调用之间存在不匹配，执行模块在没有明确结构指导的情况下需要推断工具调用指令，增加了执行过程中的不确定性。
低代码平台的局限性：虽然低代码平台提供了一种更稳定的替代方案，但它们仍然依赖大量的人工努力，限制了工作流开发的效率。

为了解决这些问题，论文提出了一个名为“Routine”的多步骤代理规划框架，旨在通过清晰的结构、明确的指令和无缝的参数传递，指导代理的执行模块以高稳定性执行多步骤工具调用任务。

Q: 有哪些相关研究？

A: 论文中提到了多个与代理系统规划和执行相关的研究，主要集中在以下几个方面：

代理规划和执行框架

早期的LLM代理实践：2023至2024年期间，出现了多个基于LLM的代理系统，如AutoGPT、BabyAGI和AutoGen。这些系统展示了使用LLM进行自主推理、任务分解和多步骤工具编排的可行性，但也暴露了上下文管理效率低下、执行流程碎片化和任务完成成功率不稳定等问题。
改进的代理架构：2025年，研究重点转向提高代理的稳定性、可靠性和企业适用性。一些系统采用了面向生产的代理架构，遵循计划-行动范式，即先进行高级任务规划，然后动态选择和执行工具来完成各个子任务。例如，Manus采用了规划器、执行器和验证器的三阶段流程，以确保准确性和可追溯性。
结构化规划脚本：尽管有这些进展，许多现有系统仍然以非结构化或半结构化的自然语言表示计划，这在实际应用中引入了执行过程中的模糊性，阻碍了计划的验证、调试和重用。为了解决这些挑战，论文提出了Routine，这是一个结构化的规划脚本，作为LLM生成的计划和执行引擎之间的中间表示，增强了执行模型遵循指令的能力。

模型指令遵循能力

指令遵循的训练和评估：随着模型规模的增加，LLM展现出了上下文学习能力。通过在系统提示中提供特定任务的规则和输出约束，LLM可以解释指令并适应具体任务。研究者越来越关注指令遵循能力，提出了专门的训练方案和评估协议。例如，Google DeepMind的IFEval提供了可验证指令和提示，为指令遵循提供了标准化的基线。然而，其在任务链、状态依赖和复合约束方面的覆盖有限。清华大学提出的ComplexBench通过结合链式、并行和嵌套结构，展示了GPT-4在链式结构和深度嵌套选择上的准确性显著下降，突出了结构意识和分布泛化方面的弱点。
输入输出偏好优化：为了在复杂约束下加强对齐，Tongyi Lab提出了IOPO（输入-输出偏好优化），并发布了TRACE基准。IOPO联合建模了指令和响应中的偏好对，从而在困难的指令遵循任务上取得了显著的进展。字节跳动构建了GuideBench，引入了模拟动态演变领域规定的指导规则。实验表明，主流LLM在处理细粒度、领域特定的规则时仍然存在困难。作为替代方案，上下文工程提供了一种轻量级的方法，通过结构化提示和添加任务相关线索来提高模型的遵从性。然而，手动设计仍然不切实际，且难以处理深度结构化或分支任务。

工具调用数据合成和后训练

训练数据质量的重要性：LLM的性能在很大程度上依赖于训练数据的质量和结构。然而，收集高质量、人工标注的特定场景数据集需要大量的人力成本。一种常见的策略是提示LLM合成训练数据，然后通过针对性的后训练来提高模型性能。
数据合成框架：在工具调用方面，数据合成管道对于一致性和有效性至关重要。一些研究提出了数据集生成框架，主要关注生成工具调用数据集以提高模型读取输入和产生标准化工具调用指令的能力，确保工具调用指令的输出与生态系统中普遍接受的结构规范一致。
知识蒸馏：尽管取得了这些进展，常见的工具使用模型在特定场景下仍然表现不佳。虽然它们能够保持一致的输出格式，但由于缺乏特定场景的知识，它们在选择正确的函数或参数时常常失败。通过提示工程和使用知识蒸馏构建基于场景的训练数据集可以解决这一问题。将专家关于工具选择和参数配置的知识蒸馏到较小的模型中，可以使轻量级专家代理解决特定场景的任务。

Q: 论文如何解决这个问题？

A: 论文通过提出一个名为 Routine 的结构化规划框架来解决上述问题。Routine 的核心思想是通过明确的结构和详细的指令来指导代理系统在企业环境中执行多步骤任务，从而提高任务执行的稳定性和准确性。以下是论文提出的解决方案的主要组成部分：

1. Routine 的结构化规划框架

Routine 是一个由多个具体执行步骤组成的结构化计划，每个步骤都包含足够的信息，以便代理能够可靠地按照计划执行任务。Routine 的主要组成部分包括：

步骤编号：步骤在主流程中的顺序编号。
步骤名称：对步骤目的或功能的简洁总结。
步骤描述：详细的执行指令、执行条件和目标。
输入描述（可选）：执行该步骤所需的参数描述。
输出描述（可选）：成功执行后生成的输出参数。
步骤工具（可选）：该步骤中使用的对应功能工具。

此外，Routine 支持分支逻辑，允许在不同条件下执行不同的步骤序列，从而处理复杂的工作流程。

2. AI 驱动的 Routine 生成和优化

为了提高 Routine 的生成效率，论文提出了一种 AI 驱动的优化机制。具体来说，领域专家可以提供一个简单的规划草稿，然后由一个经过专门提示模板优化的模型将其细化为详细的 Routine。这个过程包括：

分解计划：将计划分解为详细的子步骤。
映射工具：将这些步骤映射到可用的工具。
输出结构化 Routine：生成一个结构化且易于执行模块遵循的自然语言 Routine。

3. 执行模块和小规模 LLM

执行模块负责接收规划模块提供的计划，并按照计划输出工具调用指令。论文建议使用小规模的、专门的指令遵循模型来驱动执行模块，而不是使用大型模型。这种设计可以显著节省资源，提高企业环境中代理系统的可行性。执行模块的核心能力包括：

多步骤工具调用：按照计划执行多步骤任务。
指令遵循：严格按照规划模块提供的计划执行，不进行复杂的逻辑推理或抽象。

4. 工具模块和 MCP 服务器

工具模块负责接收执行模块的工具调用指令，执行任务，并返回执行结果。论文中使用了 MCP（Model Context Protocol）服务器作为工具模块，它不仅作为执行模块的资源，还定义和管理代理可用的工具集合。MCP 协议以结构化的方式描述每个工具，包括工具名称、参数类型和调用约束。这种设计使得执行模块只需要确定“调用哪个工具”和“传递哪些参数”，从而简化了工具调用过程。

5. 内存模块：流程和变量

为了有效管理代理系统处理的大量上下文信息，论文提出了两种内存形式：

流程内存：存储与特定场景相关的 Routine 集合，以便在执行模块需要时快速检索。
变量内存：优化多步骤工具调用之间的参数传递。当工具调用返回过长的参数时，系统会自动将其存储在变量内存中，执行模块只需提供对应的键，而不是完整的值。这显著减少了上下文压力，降低了令牌消耗，并提高了语法准确性。

6. 模型训练

为了进一步提高执行模型遵循 Routine 的能力，论文提出了两种训练策略：

通用 Routine 遵循数据集：通过从开放多工具数据集（如 BUTTON）合成通用 Routine 数据，训练模型在多样化场景中遵循 Routine 的能力。
场景特定的工具调用数据蒸馏：使用高容量模型和 Routine 生成特定场景的多步骤工具调用训练数据，然后用这些数据训练轻量级学生模型，使其能够在特定场景中执行多步骤工具调用，减少对显式规划的依赖。

7. 实验验证

论文通过在真实企业场景（一个大型企业的人力资源代理应用）中进行实验，验证了 Routine 的有效性。实验结果表明：

显著提高执行准确性：使用 Routine 后，GPT-4o 的执行准确率从 41.1% 提高到 96.3%，Qwen3-14B 的准确率从 32.6% 提高到 83.3%。
进一步的训练改进：通过对 Routine 遵循数据集进行微调，Qwen3-14B 的准确率进一步提高到 88.2%。通过场景特定的数据蒸馏，Qwen3-14B 的准确率提高到 95.5%，接近 GPT-4o 的性能。

这些结果表明，Routine 在提取领域特定的工具使用模式和增强模型适应新场景方面具有显著效果，为在企业环境中构建稳定的工作流提供了一种实用且可行的方法。

Q: 论文做了哪些实验？

Authors: Guancheng Zeng, Xueyi Chen, Jiawang Hu, Shaohua Qi, Yaxuan Mao, Zhantao Wang, Yifan Nie, Shuang Li, Qiuyang Feng, Pengxu Qiu, Yujia Wang, Wenqiang Han, Linyan Huang, Gang Li, Jingjing Mo, Haowen Hu

Categories: cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2507.14447v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.14447v2

Published: 2025-07-19T02:46:19Z

AI Domain Papers

1. ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

Vision-language-action (VLA) reasoning tasks require agents to interpret multimodal instructions, perform long-horizon planning, and act adaptively in dynamic environments. Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations. In this paper, we propose ThinkAct, a dual-system framework that bridges high-level reasoning with low-level action execution via reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency. These reasoning plans are compressed into a visual plan latent that conditions a downstream action model for robust action execution on target environments. Extensive experiments on embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct enables few-shot adaptation, long-horizon planning, and self-correction behaviors in complex embodied AI tasks.

中文摘要

视觉-语言-行动（VLA）推理任务要求智能体理解多模态指令，进行长期规划，并在动态环境中自适应地行动。现有的方法通常以端到端的方式训练VLA模型，直接将输入映射到动作，缺乏明确的推理能力，这限制了它们在多步骤规划或适应复杂任务变体方面的能力。本文提出了ThinkAct，一个双系统框架，通过强化的视觉潜在规划将高层推理与低层行动执行连接起来。ThinkAct训练一个多模态语言模型，生成由基于目标完成和轨迹一致性的强化行动对齐视觉奖励引导的具身推理计划。这些推理计划被压缩成一个视觉计划潜在，作为下游行动模型的条件，从而在目标环境中实现稳健的行动执行。在具身推理和机器人操控基准上的大量实验表明，ThinkAct在复杂的具身人工智能任务中实现了少量示例适应、长期规划和自我纠正行为。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何让智能体在动态环境中根据多模态指令（视觉和语言）进行有效的推理和行动。具体来说，论文提出了一个名为 ThinkAct 的框架，旨在解决以下关键问题：

多模态指令的解释和长期规划：
- 现有的方法通常以端到端的方式训练视觉-语言-行动（VLA）模型，直接将输入映射到动作，而缺乏明确的推理过程。这限制了模型在多步规划和适应复杂任务变化方面的能力。
- ThinkAct 通过引入强化视觉潜在规划（reinforced visual latent planning），使模型能够在执行动作之前进行高层次的推理和长期规划。
将推理与行动执行相结合：
- 论文提出了一种双系统框架，将高层次的推理与低层次的行动执行通过视觉潜在规划连接起来。推理模块生成的推理计划被压缩成一个视觉潜在轨迹，用于指导下游的行动模型在目标环境中执行鲁棒的动作。
- 这种设计使得模型能够在复杂环境中进行自适应动作执行，同时保持推理的灵活性和行动的精确性。
提高模型的泛化能力和适应性：
- 通过强化学习（RL）和视觉反馈机制，ThinkAct 能够在不同的视觉场景中进行有效的推理和规划，从而提高模型在未见环境中的泛化能力。
- 论文通过在多个基准测试上的实验验证了 ThinkAct 在少样本适应、长期规划和自我修正行为方面的优势。
解决现有方法的局限性：
- 现有的 VLA 模型在短期技能上表现良好，但在长期目标规划和复杂任务适应方面存在局限性。ThinkAct 通过引入显式的推理步骤和强化学习机制，克服了这些局限性，使得模型能够更好地处理复杂的多步任务。

总的来说，ThinkAct 旨在通过结合视觉、语言和行动模态，使智能体能够在动态环境中进行有效的推理和行动，从而推动物理 AI 应用的发展。

Q: 有哪些相关研究？

A: 论文中提到了多个与视觉-语言-行动（VLA）模型相关的研究工作，这些工作主要集中在以下几个方面：

视觉-语言-行动模型（VLA 模型）

RoboPoint [Yuan et al., 2024]：通过将点和视觉轨迹嵌入到文本提示中，增强语言模型对空间动作的理解能力。
LLARVA [Niu et al., 2024]：利用点和视觉轨迹增强语言模型，使其能够更好地理解空间动作。
AHA [Duan et al., 2024]：通过将机器人操作中的失败检测问题转化为自由形式的问答任务，利用合成失败数据进行训练。
OpenVLA [Kim et al., 2024]：基于预训练的视觉语言模型（VLM），通过大规模机器人演示数据进行训练，实现通用的动作执行。
TraceVLA [Zheng et al., 2024]：通过引入视觉轨迹提示，增强空间动作感知能力。
HAMSTER [Li et al., 2025]：通过层次化动作模型，实现开放世界机器人操作。

推理在视觉-语言-行动模型中的应用

ECoT [Zawalski et al., 2024]：通过合成中间子目标，利用监督微调（SFT）教授 VLA 模型在行动前进行推理。
RAD [Clark et al., 2025]：利用无动作的人类视频生成推理轨迹，并通过机器人数据学习将推理映射到真实动作。
CoT-VLA [Zhao et al., 2025]：用视觉子目标帧代替语言推理，提前生成动作预测。
Video-R1 [Feng et al., 2025]：采用 R1 风格的强化学习优化，通过可验证的答案准确性诱导推理轨迹。
NVIDIA [NVIDIA et al., 2025]：应用强化学习优化推理模型，使用问答格式的奖励信号。
Reason-RFT [Tan et al., 2025]：通过强化学习微调视觉推理模型。

其他相关研究

RoboVQA [Sermanet et al., 2024]：一个包含机器人和人类操作的多样化真实世界任务视频数据集，每个视频都标注了多个问答对。
Reflect [Liu et al., 2023]：一个捕捉机器人操作失败案例的数据集，包括模拟和真实世界场景。
EgoPlan-Bench [Chen et al., 2023]：一个包含第一人称视频的数据集，标注了任务目标、进度历史和当前观察，旨在增强多模态大型语言模型（LLM）在长期日常任务中的规划能力。
Video-R1-CoT [Feng et al., 2025]：一个包含 165K 问答样本的数据集，这些样本带有由 Qwen2.5-VL-72B 生成的链式思考（CoT）注释。
LLaVA-Video-178K [Zhang et al., 2024]：一个包含 178K 视频的数据集，每个视频都有详细的字幕、960K 开放性问题和 196K 多项选择问题。

这些研究为 ThinkAct 的提出提供了理论基础和实践指导，ThinkAct 在此基础上进一步发展，通过强化视觉潜在规划，将高层次的推理与低层次的行动执行相结合，从而在动态环境中实现更有效的视觉-语言-行动推理。

Q: 论文如何解决这个问题？

A: 论文通过提出 ThinkAct 框架来解决视觉-语言-行动（VLA）推理任务中的关键问题。ThinkAct 采用了一个双系统架构，将高层次的推理与低层次的行动执行通过强化视觉潜在规划（reinforced visual latent planning）连接起来。以下是 ThinkAct 解决问题的具体方法：

1. 双系统架构

ThinkAct 由两个主要模块组成：

推理模块（Reasoning Module）：基于多模态大型语言模型（MLLM），负责生成高层次的推理计划。
行动模块（Action Module）：基于 Transformer 的扩散策略（Diffusion Policy），负责执行具体的动作。

这两个模块通过视觉潜在规划（visual latent planning）相互连接，推理模块生成的推理计划被压缩成一个视觉潜在轨迹，用于指导行动模块在目标环境中执行鲁棒的动作。

2. 强化视觉潜在规划

为了使推理模块能够生成有效的推理计划，论文引入了强化学习（RL）机制，通过视觉反馈激励推理行为。具体方法如下：

2.1 视觉反馈的奖励设计

目标奖励（Goal Reward）：通过比较预测的起始点和终点与实际轨迹的起始点和终点，激励模型预测正确的目标位置。 [ r_{\text{goal}} = \frac{1}{2} \left( f(p_1, \hat{p}_1) + f(p_K, \hat{p}_K) \right), \quad \text{where} \quad f(p, p’) = \max \left( 0, 1 - | p - p’ |_2^2 \right) ]
轨迹奖励（Trajectory Reward）：通过动态时间规整（DTW）距离，激励模型预测的轨迹与实际轨迹分布一致。 [ r_{\text{traj}} = \max \left( 0, 1 - d(\tau, \hat{\tau}) \right) ]
总体奖励：结合目标奖励和轨迹奖励，以及格式正确性分数。 [ r = 0.9 r_{\text{visual}} + 0.1 r_{\text{format}}, \quad \text{where} \quad r_{\text{visual}} = \omega_{\text{goal}} r_{\text{goal}} + \omega_{\text{traj}} r_{\text{traj}} ]

2.2 强化微调（Reinforced Fine-Tuning）

使用 Group Relative Policy Optimization (GRPO) 对 MLLM 进行微调，通过采样一组不同的响应并评估其奖励，优化模型以生成更有效的推理计划。 [ \mathcal{J}{\text{GRPO}}(\theta) = \frac{1}{M} \sum{i=1}^{M} \left( \frac{\mathcal{F}\theta(z_i | o_t, l)}{\mathcal{F}{\theta_{\text{old}}}(z_i | o_t, l)} A_i - \beta D_{\text{KL}}(\mathcal{F}\theta(z_i | o_t, l) | \mathcal{F}{\theta_{\text{old}}}(z_i | o_t, l)) \right) ] 其中，( A_i = r_i - \frac{\text{mean}({r_1, \ldots, r_M})}{\text{std}({r_1, \ldots, r_M})} )。

3. 推理增强的行动适应

推理模块生成的视觉潜在轨迹 ( c_t ) 被传递给行动模块，通过一个潜在投影器（latent projector）连接到行动模块的输入空间，从而增强行动模块的执行能力。行动模块通过模仿学习（imitation learning）进行训练，以适应目标环境中的具体任务。

4. 多阶段训练策略

监督微调（Supervised Fine-Tuning, SFT）：使用标注的视觉轨迹和问答数据对 MLLM 进行冷启动训练，使其能够生成推理和答案。
强化微调（Reinforced Fine-Tuning）：使用视觉反馈奖励对 MLLM 进行微调，激励其生成更有效的推理计划。
推理增强的行动适应：使用标注的动作演示数据对行动模块进行训练，使其能够在目标环境中执行鲁棒的动作。

5. 实验验证

通过在多个机器人操作和推理基准测试上的实验，验证了 ThinkAct 的有效性。实验结果表明，ThinkAct 在少样本适应、长期规划和自我修正行为方面表现出色，能够显著提高模型在复杂任务中的性能。

总结

ThinkAct 通过结合高层次的推理和低层次的行动执行，利用强化学习和视觉反馈机制，有效地解决了 VLA 任务中的关键问题。这种方法不仅提高了模型在复杂环境中的适应能力，还实现了更鲁棒的动作执行。

Q: 论文做了哪些实验？

A: 论文通过一系列实验验证了 ThinkAct 框架在视觉-语言-行动（VLA）推理任务中的有效性。实验涵盖了机器人操作和推理基准测试，具体如下：

1. 实验设置

数据集：
- SimplerEnv [Li et al., 2024]：一个模拟基准测试，包含视觉匹配和变体聚合两种评估设置，提供多样化的操作场景，用于评估 VLA 模型在不同视觉条件下的鲁棒性和推理能力。
- LIBERO [Liu et al., 2023]：一个模拟基准测试，用于评估机器人操作在空间布局变化（LIBERO-Spatial）、物体多样性（LIBERO-Object）、目标多样性（LIBERO-Goal）和长期规划（LIBERO-Long）方面的泛化能力。
- EgoPlan-Bench2 [Qiu et al., 2024]：一个评估多模态大型语言模型（LLM）在复杂现实场景中第一人称规划能力的基准测试，包含 24 种场景，覆盖 4 种日常生活领域。
- RoboVQA [Sermanet et al., 2024]：一个专注于机器人操作中的视觉问答（VQA）的基准测试，强调长期推理、上下文理解和基于功能的决策制定。
- OpenEQA [Majumdar et al., 2024]：一个评估智能体在现实世界环境中通过自然语言理解并推理的基准测试，包含超过 1600 个高质量的人类编写问题，覆盖 180 多个现实场景。
模型初始化：
- MLLM：使用 Qwen2.5-VL 7B [Bai et al., 2025] 初始化推理模块。
- 行动模型：使用基于 Transformer 的扩散策略（Diffusion Policy）[Chi et al., 2023]，预训练于 Open X-Embodiment (OXE) 数据集 [O’Neill et al., 2024]。

2. 机器人操作任务

SimplerEnv：
- Google-VM（视觉匹配）：评估模型在不同颜色、材质、光照和相机姿态下的鲁棒性。
- Google-VA（变体聚合）：评估模型在不同视觉条件下的泛化能力。
- Bridge-VM：评估模型在桥接任务中的表现。
LIBERO：
- LIBERO-Spatial：评估模型在空间布局变化下的泛化能力。
- LIBERO-Object：评估模型在物体多样性下的泛化能力。
- LIBERO-Goal：评估模型在目标多样性下的泛化能力。
- LIBERO-Long：评估模型在长期规划任务中的表现。

3. 推理任务

EgoPlan-Bench2：评估模型在第一人称日常场景中的多步规划能力。
RoboVQA：评估模型在机器人操作中的长期推理和上下文理解能力。
OpenEQA：评估模型在现实世界环境中的零样本泛化能力。

4. 实验结果

机器人操作任务：
- 在 SimplerEnv 上，ThinkAct 在 Google-VM、Google-VA 和 Bridge-VM 任务中分别比基线模型 DiT-Policy 提高了 15.5%、16.9% 和 11.4%，总体得分分别为 71.5%、65.1% 和 43.8%。
- 在 LIBERO 上，ThinkAct 在所有子任务中均优于基线模型，总体成功率为 84.4%，优于 DiT-Policy 和其他最新方法。
推理任务：
- 在 EgoPlan-Bench2 上，ThinkAct 的准确率为 48.2%，优于第二好的方法 2.5%。
- 在 RoboVQA 上，ThinkAct 的 BLEU 分数为 59.8，优于第二好的方法 4.1 分。
- 在 OpenEQA 上，ThinkAct 的总体得分为 56.2%，优于其他方法。

5. 少样本适应实验

在 LIBERO 上进行少样本适应实验，使用 10 个演示样本进行微调，评估模型在新任务和环境中的适应能力。ThinkAct 在所有任务中均优于其他方法，特别是在长期规划任务中，成功率达到 70.9%，优于其他方法 11.8%。

6. 自我修正能力实验

通过在任务执行过程中引入失败情况，评估模型的自我修正能力。例如，在机器人操作任务中，机器人意外掉落目标物体，ThinkAct 能够识别失败并重新规划，成功完成任务。

7. 消融研究

奖励机制的消融：
- 移除轨迹奖励 ( r_{\text{traj}} ) 和目标奖励 ( r_{\text{goal}} )，验证它们对推理和规划的贡献。
- 结果表明，这两个奖励机制对模型的性能至关重要，移除任何一个都会导致性能下降。
推理频率的消融：
- 通过改变每次推理后执行的动作数量 ( N )，评估推理频率对性能的影响。
- 结果表明，适当的推理频率能够平衡推理的开销和任务执行的效率。

8. 小模型实验

将 ThinkAct 应用于较小的模型（如 Qwen2.5-VL-3B），验证其在不同规模模型上的有效性。在 EgoPlan-Bench2、RoboVQA 和 OpenEQA 任务中，ThinkAct 一致优于其他类似规模的模型。

总结

通过这些实验，论文验证了 ThinkAct 在机器人操作和推理任务中的有效性，特别是在少样本适应、长期规划和自我修正行为方面。这些结果表明，ThinkAct 能够显著提高模型在复杂任务中的性能，为动态环境中的视觉-语言-行动推理提供了一种有效的解决方案。

Q: 有什么可以进一步探索的点？

Authors: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang

Categories: cs.CV, cs.AI, cs.LG, cs.RO

PDF URL: https://arxiv.org/pdf/2507.16815v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16815v1

Published: 2025-07-22T17:59:46Z

2. Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning

Enhancing large vision-language models (LVLMs) with visual slow-thinking reasoning is crucial for solving complex multimodal tasks. However, since LVLMs are mainly trained with vision-language alignment, it is difficult to adopt on-policy reinforcement learning (RL) to develop the slow thinking ability because the rollout space is restricted by its initial abilities. Off-policy RL offers a way to go beyond the current policy, but directly distilling trajectories from external models may cause visual hallucinations due to mismatched visual perception abilities across models. To address these issues, this paper proposes SOPHIA, a simple and scalable Semi-Off-Policy RL for vision-language slow-tHInking reAsoning. SOPHIA builds a semi-off-policy behavior model by combining on-policy visual understanding from a trainable LVLM with off-policy slow-thinking reasoning from a language model, assigns outcome-based rewards to reasoning, and propagates visual rewards backward. Then LVLM learns slow-thinking reasoning ability from the obtained reasoning trajectories using propagated rewards via off-policy RL algorithms. Extensive experiments with InternVL2.5 and InternVL3.0 with 8B and 38B sizes show the effectiveness of SOPHIA. Notably, SOPHIA improves InternVL3.0-38B by 8.50% in average, reaching state-of-the-art performance among open-source LVLMs on multiple multimodal reasoning benchmarks, and even outperforms some closed-source models (e.g., GPT-4.1) on the challenging MathVision and OlympiadBench, achieving 49.08% and 49.95% pass@1 accuracy, respectively. Analysis shows SOPHIA outperforms supervised fine-tuning and direct on-policy RL methods, offering a better policy initialization for further on-policy training.

中文摘要

增强大型视觉-语言模型（LVLMs）与视觉缓慢思维推理的结合，对于解决复杂的多模态任务至关重要。然而，由于LVLM主要是通过视觉-语言对齐进行训练，因此采用基于当前策略的强化学习（RL）来发展缓慢思维能力是困难的，因为回滚空间受其初始能力的限制。离线策略RL提供了一种超越当前策略的方法，但直接从外部模型中提取轨迹可能会由于模型间视觉感知能力的不匹配而导致视觉幻觉。为了解决这些问题，本文提出了SOPHIA，一种简单且可扩展的半离线策略强化学习，用于视觉-语言缓慢思维推理。SOPHIA通过结合来自可训练LVLM的基于当前策略的视觉理解与来自语言模型的离线缓慢思维推理，建立了一种半离线策略行为模型，为推理分配基于结果的奖励，并向后传播视觉奖励。然后，LVLM使用通过离线策略RL算法传播的奖励，从获得的推理轨迹中学习缓慢思维推理能力。与规模为8B和38B的InternVL2.5和InternVL3.0进行的大量实验表明了SOPHIA的有效性。值得注意的是，SOPHIA使InternVL3.0-38B的平均提升了8.50%，在多个多模态推理基准测试中达到了开源LVLM的最先进性能，甚至在具有挑战性的MathVision和OlympiadBench上超越了一些闭源模型（例如，GPT-4.1），分别达到了49.08%和49.95%的pass@1准确率。分析表明，SOPHIA优于监督微调和直接的基于当前策略的RL方法，为进一步的基于当前策略的训练提供了更好的策略初始化。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何增强大型视觉-语言模型（LVLMs）的视觉慢思考推理能力，以更好地解决复杂的多模态任务。具体来说，论文指出，尽管LVLMs主要通过视觉-语言对齐进行训练，但要通过在线策略强化学习（on-policy RL）来发展慢思考能力是困难的，因为其rollout空间受到初始能力的限制。而离线策略强化学习（off-policy RL）虽然可以超越当前策略，但直接从外部模型蒸馏轨迹可能会导致视觉幻觉（hallucinations），因为不同模型之间的视觉感知能力不匹配。为了解决这些问题，论文提出了SOPHIA框架，旨在通过结合在线策略的视觉理解和离线策略的慢思考推理，来提升LVLMs的视觉慢思考推理能力。

Q: 有哪些相关研究？

A: 论文中提到了多个与视觉慢思考推理和强化学习相关的研究方向，以下是主要的相关研究：

视觉慢思考推理任务

视觉-语言模型（LVLMs）：LVLMs在各种视觉任务中取得了显著进展，包括图像描述、目标检测和视频理解等。然而，在复杂的视觉推理任务中，这些模型仍然面临挑战，尤其是在需要慢思考推理的场景中。
慢思考推理：大型语言模型（LLMs）在复杂问题解决中表现出色，其慢思考能力受到关注。然而，直接将这些技术应用于LVLMs时，往往无法有效提升文本和视觉推理能力，主要是因为LVLMs依赖于视觉-文本对齐进行预训练和微调，这限制了它们发展真正的视觉慢思考推理能力。

监督式微调用于LVLM推理

推理轨迹生成：早期的研究通过构建推理轨迹或结构化流程来生成训练数据，以增强LVLMs的推理能力。然而，这些方法往往导致模式记忆，而不是真正的推理能力提升。
数据生成：最近的研究利用LLMs生成基于图像描述的推理轨迹，但这些数据可能包含视觉幻觉，且这些流程很少考虑这一点。在这样的噪声数据上进行训练可能会降低性能。

强化学习用于LVLM推理

在线策略强化学习（on-policy RL）：在线策略RL通过从当前策略中采样轨迹来更新模型，但其性能受到初始策略分布的限制，只能放大LVLMs中已存在的行为。
离线策略强化学习（off-policy RL）：离线策略RL通过使用不同的行为策略生成的轨迹来学习，能够超越模型的当前能力。然而，直接应用离线策略RL到LVLMs存在挑战，因为离线策略中的视觉特征可能与LVLMs自身的视觉理解不一致，导致优化方向与视觉理解之间的冲突，加剧了视觉推理中的幻觉问题。

其他相关研究

视觉幻觉问题：研究了LVLMs中的视觉幻觉现象，并提出了一些缓解方法，如通过CLIP引导的解码或全局和局部注意力的组合来减少幻觉。
视觉-语言对齐：探讨了如何通过视觉-语言对齐来训练LVLMs，以及如何通过视觉指令微调来提升模型的性能。

论文通过提出SOPHIA框架，旨在克服这些限制，通过结合在线策略的视觉理解和离线策略的慢思考推理，提升LVLMs的视觉慢思考推理能力。

Q: 论文如何解决这个问题？

A: 论文提出了一个名为SOPHIA（Semi-Off-Policy RL for vision-language slow-tHInking reAsoning）的框架，通过结合在线策略（on-policy）的视觉理解和离线策略（off-policy）的慢思考推理来解决LVLMs在复杂多模态任务中的视觉慢思考推理能力不足的问题。以下是SOPHIA框架的具体解决方法：

1. Semi-off-Policy Sampling（半离线策略采样）

SOPHIA构建了一个半离线策略行为模型，该模型结合了可训练LVLM的在线策略视觉理解和来自开源推理LLM的离线策略慢思考推理。具体步骤如下：

在线策略视觉理解：对于每个输入图像，LVLM以在线策略的方式生成详细的图像描述（captions），这些描述涵盖了图像的空间布局、语义关系和细粒度视觉细节。
离线策略慢思考推理：给定一个查询和相应的图像描述，推理模型（如QwQ或DeepSeek-R1）被用来生成慢思考推理轨迹。这些轨迹模拟了LVLM能够“看到”图像的情况，并基于提供的描述进行推理。

2. Reward Evaluation and Propagation（奖励评估与传播）

SOPHIA为推理轨迹和视觉理解分配奖励，并通过奖励反向传播来优化LVLM的视觉理解能力：

推理轨迹的奖励：基于推理结果的正确性给予最终答案的奖励。如果最终答案正确，则给予正奖励；否则给予零奖励。
视觉理解的奖励：通过推理轨迹的平均正确性来评估每个图像描述的质量。如果一个描述能够支持更多正确的推理轨迹，则该描述获得更高的奖励。
奖励传播：将视觉理解的奖励反向传播到LVLM中，以加强视觉理解和推理之间的联系。

3. Policy Updating（策略更新）

SOPHIA使用离线策略强化学习算法来更新LVLM的策略。具体步骤如下：

构建离线策略数据集：使用采样得到的推理轨迹和视觉描述，以及它们的奖励，构建离线策略数据集。
策略更新：通过最大化期望累积回报来更新LVLM的策略。使用重要性采样（Importance Sampling）来校正行为策略和当前策略之间的分布差异，并通过奖励反向传播来优化策略。

4. Implementation（实现细节）

策略初始化：使用预训练的LVLM（如InternVL2.5和InternVL3.0）作为基础模型，并在通用视觉问答数据上进行微调，以增强模型的视觉描述能力。
强化学习设置：使用开源的推理LLM（如QwQ和DeepSeek-R1）作为推理模型，并根据推理结果的正确性给予奖励。训练过程中使用了多种提示工程（prompt engineering）技术来引导模型生成高质量的推理轨迹。

5. 实验验证

基准测试：在多个多模态推理基准测试（如MMMU、MathVista、MathVision和OlympiadBench）上评估SOPHIA的性能。
结果：SOPHIA在多个基准测试中取得了显著的性能提升，特别是在MathVision和OlympiadBench等具有挑战性的数据集上，甚至超越了一些闭源模型（如GPT-4.1）。

6. 分析与讨论

消融研究：通过消融研究验证了冻结视觉变换器（ViT）和奖励设计的有效性。
数据规模和质量：分析了SOPHIA在不同数据规模和质量下的性能，发现数据的质量和难度比数据量更重要。
持续训练：SOPHIA作为更好的策略初始化，可以支持进一步的在线策略强化学习，而不会导致性能下降。

通过这些方法，SOPHIA有效地提升了LVLMs在复杂多模态任务中的视觉慢思考推理能力，同时保持了模型的泛化能力和训练效率。

Q: 论文做了哪些实验？

A: 论文进行了广泛的实验，以验证SOPHIA框架在提升大型视觉-语言模型（LVLMs）视觉慢思考推理能力方面的有效性。以下是实验的主要内容和结果：

1. 实验设置

基准模型：使用InternVL2.5和InternVL3.0的8B和38B版本作为基础模型。
基准测试：涵盖了多种多模态推理基准测试，包括：
- MMMU 和 MMMU Pro：评估模型在多学科多模态理解上的能力。
- MathVista、MathVerse、DynaMath：评估模型在数学相关问题上的推理能力。
- MathVision 和 OlympiadBench：评估模型在更具挑战性的科学推理问题上的表现。
评估指标：使用pass@1准确率作为评估指标，即模型在零样本设置下给出正确答案的概率。

2. 主要实验结果

性能提升：
- SOPHIA在多个基准测试中显著提升了基础模型的性能。例如，InternVL3.0-38B + SOPHIA在MathVision和OlympiadBench上的pass@1准确率分别达到了49.08%和49.95%，相较于基础模型分别提升了26.16%和24.45%。
- 在38B规模下，InternVL3.0-38B + SOPHIA在大多数基准测试中达到了最佳或第二好的pass@1准确率，平均性能提升了8.50%，接近闭源模型GPT-4.1的性能。
- 在8B规模下，SOPHIA同样在多个基准测试中超越了基础模型和其他开源模型，平均性能提升了3.63%。
与监督式微调和在线策略强化学习的比较：
- SOPHIA在多个基准测试中优于监督式微调方法（如MPO）和在线策略强化学习方法（如GRPO），证明了其在提升视觉慢思考推理能力方面的优势。
- 在持续训练方面，SOPHIA初始化的模型在进一步的在线策略强化学习中表现更好，没有出现性能下降的情况。

3. 消融研究

冻结/解冻视觉变换器（ViT）：
- 实验表明，冻结视觉变换器可以提升模型的平均性能，尤其是在通用基准测试如MMMU上。这可能是因为长推理轨迹可能会干扰视觉-语言对齐，冻结视觉变换器可以提高性能并增强训练效率。
奖励设计的有效性：
- 通过对比随机采样、仅使用推理结果奖励、不选择最短轨迹等不同策略，验证了SOPHIA奖励设计的有效性。结果表明，结合视觉描述奖励和选择最短轨迹的策略在挑战性基准测试中表现更好。

4. 训练数据的分析

数据质量和数量的权衡：
- 在公共数据集MathV360K上进行的实验表明，即使在数据量更大的情况下，SOPHIA依然能够带来性能提升，但数据的质量和难度比数据量更为关键。
数据规模的影响：
- 在不同数据规模（5K到80K）上训练InternVL2.5-38B的结果显示，随着数据量的增加，平均性能有所提升，但在更具挑战性的基准测试中，性能提升更为显著。

5. 几何问题的性能

在几何问题上，SOPHIA在多个基准测试中优于其他开源模型，尤其是在复杂的OlympiadBench任务上，验证了其在利用视觉理解进行推理方面的有效性。

6. 持续训练的性能

在持续训练过程中，SOPHIA初始化的模型在进一步的在线策略强化学习中表现更好，没有出现性能下降的情况，这表明SOPHIA为模型提供了更好的策略初始化。

这些实验结果综合证明了SOPHIA框架在提升LVLMs视觉慢思考推理能力方面的有效性，同时展示了其在不同规模和类型的数据上的泛化能力。

Q: 有什么可以进一步探索的点？

A: 尽管SOPHIA在提升大型视觉-语言模型（LVLMs）的视觉慢思考推理能力方面取得了显著成果，但仍有多个方向可以进一步探索和改进：

1. 改进视觉编码器

更强的视觉特征提取：当前的视觉编码器可能在处理复杂场景和长距离视觉依赖时存在局限性。可以探索更先进的视觉编码器架构，如Transformer-based的视觉编码器，以提高模型对复杂视觉信息的理解能力。
多尺度视觉特征：引入多尺度视觉特征提取，使模型能够更好地处理不同尺度的视觉信息，从而提高对细节和整体场景的理解。

2. 适应性课程学习

自适应课程设计：根据模型的当前能力和学习进度，动态调整训练数据的难度和类型。例如，对于模型已经掌握的任务，可以逐渐增加更复杂的任务，以促进模型的持续学习和泛化能力。
阶段性训练：将训练过程分为多个阶段，每个阶段专注于不同的能力提升，如先提升视觉理解能力，再提升推理能力，最后进行综合训练。

3. 更鲁棒的数据增强

数据增强技术：探索更鲁棒的数据增强技术，如图像变换、噪声注入等，以提高模型对不同视觉条件的适应能力。
多模态数据融合：结合多种模态的数据（如图像、视频、文本）进行训练，以增强模型的多模态理解能力。

4. 减少幻觉和冗余

幻觉检测和校正：开发更有效的幻觉检测和校正机制，以减少模型在推理过程中产生的视觉幻觉。
推理轨迹优化：通过引入更复杂的推理轨迹优化算法，如剪枝和去重，减少推理过程中的冗余和重复，提高推理效率和质量。

5. 跨领域泛化

领域适应性：研究如何使模型更好地适应不同领域的任务，特别是在数据分布差异较大的情况下。可以探索领域适应性训练方法，如领域对抗训练。
零样本和少样本学习：探索如何在零样本或少样本的情况下，使模型能够快速适应新任务和新领域。

6. 多模型融合

模型集成：探索将多个LVLMs或推理模型集成在一起，以利用不同模型的优势，提高整体性能。
协同训练：设计协同训练机制，使多个模型在训练过程中相互学习和改进，从而提升整体的推理能力。

7. 可解释性和透明度

推理过程可视化：开发工具和技术，使模型的推理过程更加可视化和可解释，帮助研究人员和实践者理解模型的决策过程。
因果推理：探索如何使模型进行因果推理，而不仅仅是相关性推理，从而提高模型的可靠性和可信度。

8. 实时交互和反馈

实时交互：设计实时交互机制，使模型能够在推理过程中与用户或其他系统进行交互，获取反馈并调整推理策略。
用户反馈学习：探索如何利用用户反馈来进一步优化模型的推理能力，提高模型的实用性和用户满意度。

9. 多语言和跨文化推理

多语言支持：扩展模型的多语言能力，使其能够处理多语言的视觉和文本信息，以适应全球化的应用场景。
跨文化推理：研究如何使模型更好地理解和处理不同文化背景下的视觉和文本信息，提高模型的跨文化适应性。

10. 资源效率和可扩展性

资源优化：研究如何在有限的计算资源下，优化模型的训练和推理过程，提高资源利用效率。
分布式训练：探索分布式训练方法，以支持大规模数据集和复杂模型的训练，提高训练速度和可扩展性。

这些方向不仅有助于进一步提升LVLMs的视觉慢思考推理能力，还能推动多模态人工智能技术在更广泛的应用场景中的发展和应用。

Q: 总结一下论文的主要内容

A: 本文提出了SOPHIA，这是一个用于提升大型视觉-语言模型（LVLMs）视觉慢思考推理能力的半离线策略强化学习（Semi-Off-Policy RL）框架。通过结合在线策略的视觉理解和离线策略的慢思考推理，SOPHIA能够有效地增强LVLMs在复杂多模态任务中的推理能力，同时保持模型的泛化能力和训练效率。

背景知识

LVLMs在视觉任务中取得了显著进展，但在需要慢思考推理的复杂多模态任务中仍面临挑战。
在线策略强化学习（on-policy RL）受限于初始策略分布，难以采样出慢思考行为。
离线策略强化学习（off-policy RL）虽然可以超越当前策略，但直接从外部模型蒸馏轨迹可能导致视觉幻觉。

研究方法

SOPHIA框架：

半离线策略采样（Semi-off-Policy Sampling）：
- 结合LVLM的在线策略视觉理解和开源推理LLM的离线策略慢思考推理，构建半离线策略行为模型。
- 对于每个输入图像，LVLM生成详细的图像描述，推理模型基于这些描述生成慢思考推理轨迹。
奖励评估与传播（Reward Evaluation and Propagation）：
- 为推理轨迹和视觉理解分配奖励，基于推理结果的正确性给予最终答案的奖励。
- 通过推理轨迹的平均正确性评估每个图像描述的质量，并将视觉理解的奖励反向传播到LVLM中。
策略更新（Policy Updating）：
- 使用离线策略强化学习算法更新LVLM的策略，通过重要性采样校正行为策略和当前策略之间的分布差异。

实验

基准模型：使用InternVL2.5和InternVL3.0的8B和38B版本作为基础模型。
基准测试：涵盖多个多模态推理基准测试，包括MMMU、MathVista、MathVision和OlympiadBench等。
评估指标：使用pass@1准确率作为评估指标。

关键结论

性能提升：SOPHIA在多个基准测试中显著提升了基础模型的性能，特别是在MathVision和OlympiadBench等具有挑战性的数据集上，甚至超越了一些闭源模型（如GPT-4.1）。
与监督式微调和在线策略强化学习的比较：SOPHIA在多个基准测试中优于监督式微调方法（如MPO）和在线策略强化学习方法（如GRPO），证明了其在提升视觉慢思考推理能力方面的优势。
持续训练：SOPHIA初始化的模型在进一步的在线策略强化学习中表现更好，没有出现性能下降的情况。
消融研究：冻结视觉变换器（ViT）和奖励设计的有效性得到了验证，结合视觉描述奖励和选择最短轨迹的策略在挑战性基准测试中表现更好。

进一步探索方向

改进视觉编码器：探索更先进的视觉编码器架构，以提高模型对复杂视觉信息的理解能力。
适应性课程学习：根据模型的当前能力和学习进度，动态调整训练数据的难度和类型。
更鲁棒的数据增强：探索更鲁棒的数据增强技术，以提高模型对不同视觉条件的适应能力。
减少幻觉和冗余：开发更有效的幻觉检测和校正机制，减少推理过程中的冗余和重复。
跨领域泛化：研究如何使模型更好地适应不同领域的任务，特别是在数据分布差异较大的情况下。
多模型融合：探索将多个LVLMs或推理模型集成在一起，以利用不同模型的优势，提高整体性能。
可解释性和透明度：开发工具和技术，使模型的推理过程更加可视化和可解释。
实时交互和反馈：设计实时交互机制，使模型能够在推理过程中与用户或其他系统进行交互，获取反馈并调整推理策略。
多语言和跨文化推理：扩展模型的多语言能力，使其能够处理多语言的视觉和文本信息，提高模型的跨文化适应性。
资源效率和可扩展性：研究如何在有限的计算资源下，优化模型的训练和推理过程，提高资源利用效率和训练速度。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Junhao Shen, Haiteng Zhao, Yuzhe Gu, Songyang Gao, Kuikun Liu, Haian Huang, Jianfei Gao, Dahua Lin, Wenwei Zhang, Kai Chen

Categories: cs.LG, cs.CV

PDF URL: https://arxiv.org/pdf/2507.16814v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16814v1

Published: 2025-07-22T17:59:34Z

3. MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

Scientific reasoning is critical for developing AI scientists and supporting human researchers in advancing the frontiers of natural science discovery. However, the open-source community has primarily focused on mathematics and coding while neglecting the scientific domain, largely due to the absence of open, large-scale, high-quality, verifiable scientific reasoning datasets. To bridge this gap, we first present TextbookReasoning, an open dataset featuring truthful reference answers extracted from 12k university-level scientific textbooks, comprising 650k reasoning questions spanning 7 scientific disciplines. We further introduce MegaScience, a large-scale mixture of high-quality open-source datasets totaling 1.25 million instances, developed through systematic ablation studies that evaluate various data selection methodologies to identify the optimal subset for each publicly available scientific dataset. Meanwhile, we build a comprehensive evaluation system covering diverse subjects and question types across 15 benchmarks, incorporating comprehensive answer extraction strategies to ensure accurate evaluation metrics. Our experiments demonstrate that our datasets achieve superior performance and training efficiency with more concise response lengths compared to existing open-source scientific datasets. Furthermore, we train Llama3.1, Qwen2.5, and Qwen3 series base models on MegaScience, which significantly outperform the corresponding official instruct models in average performance. In addition, MegaScience exhibits greater effectiveness for larger and stronger models, suggesting a scaling benefit for scientific tuning. We release our data curation pipeline, evaluation system, datasets, and seven trained models to the community to advance scientific reasoning research.

中文摘要

科学推理对于培养人工智能科学家和支持人类研究人员推动自然科学发现的前沿至关重要。然而，开放源代码社区主要集中于数学和编码，而忽视了科学领域，这在很大程度上是由于缺乏开放的大规模高质量可验证的科学推理数据集。为了填补这一空白，我们首先提出了TextbookReasoning，这是一个开放数据集，包含从12,000本大学级科学教科书中提取的真实参考答案，涵盖了650,000个跨越7个科学学科的推理问题。我们进一步介绍了MegaScience，这是一个大规模的高质量开放源数据集的混合，总计125万个实例，通过系统的消融研究开发，评估各种数据选择方法，以识别每个公开可用科学数据集的最佳子集。同时，我们建立了一个全面的评估系统，覆盖15个基准中的不同主题和问题类型，结合全面的答案提取策略，以确保准确的评估指标。我们的实验表明，与现有的开放源科学数据集相比，我们的数据集在表现和训练效率上取得了优越的成绩，并具有更简洁的响应长度。此外，我们在MegaScience上训练了Llama3.1、Qwen2.5和Qwen3系列基础模型，这些模型在平均性能上显著超越了相应的官方指导模型。此外，MegaScience对更大更强的模型表现出更大的有效性，暗示着科学调优的规模效益。我们向社区发布我们的数据策划流程、评估系统、数据集和七个训练模型，以推动科学推理研究。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是科学推理领域中高质量训练数据的缺乏。尽管在数学和编程领域已经有许多开源的、大规模的、高质量的数据集，但在科学领域，尤其是开源社区中，这样的数据集相对较少。这主要是因为缺乏开放的、大规模的、高质量的、可验证的科学推理数据集。为了填补这一空白，论文提出了两个主要的贡献：

TEXTBOOKREASONING 数据集：这是一个开放的、包含真实参考答案的数据集，从12,000本大学级别的科学教科书中提取了650,000个推理问题，覆盖了7个科学学科。这个数据集通过一个全面的数据处理流程创建，包括教科书数字化、双问答对提取、去重、问答对精炼、过滤和基于LLM的去污染等步骤。
MEGASCIENCE 数据集：这是一个大规模的高质量开源数据集混合体，包含125万实例。通过系统性的消融研究，评估了不同的数据选择方法，以确定每个公开科学数据集的最佳子集。此外，论文还构建了一个全面的评估系统，覆盖了15个基准测试，涵盖了多样化的主题和问题类型，并设计了全面的答案提取策略，以确保准确的评估指标。

通过这些贡献，论文旨在推动科学推理研究的发展，帮助AI科学家的发展，并支持人类研究人员在自然科学发现的前沿领域取得进展。

Q: 有哪些相关研究？

A: 论文中提到了多个与科学推理和大型语言模型（LLMs）相关的研究工作，这些研究为本文的工作提供了背景和基础。以下是一些关键的相关研究：

科学推理能力的评估

MMLU (Hendrycks et al., 2020)：这是一个大规模的多任务语言理解基准测试，用于评估模型在多个学科上的知识和推理能力。
GPQA (Rein et al., 2024)：这是一个研究生级别的谷歌证明问题基准测试，用于评估模型在高级学术问题上的表现。
SciBench (Wang et al., 2023)：这个基准测试评估了大型语言模型在大学级别的科学问题解决能力，特别是计算问题。
OlympicArena (Huang et al., 2024)：这个基准测试涵盖了多个学科的认知推理能力，用于评估超级智能AI的多学科推理能力。

科学推理数据集的开发

SCP-116K (Lu et al., 2025)：这是一个包含274K实例的科学问题和解决方案数据集，问题来自网络，解决方案由DeepSeek-R1生成。
NaturalReasoning (Yuan et al., 2025)：这是一个包含1.1M实例的通用推理数据集，由Llama3.3-70B-instruct合成，涵盖数学、STEM、经济学等多个学科。
Nemotron-Science (Bercovich et al., 2025)：这是一个包含708K实例的多样化数据集，包括开放性问题和多项选择题，结合了从StackOverflow提取的问题和合成的多项选择题。

科学推理模型的训练和优化

DeepSeek-R1 (Guo et al., 2025)：这是一个通过强化学习激励推理能力的大型语言模型，用于生成长链思考（CoT）解决方案。
Qwen2.5 (Yang et al., 2025b) 和 Qwen3 (Yang et al., 2025a)：这些是高性能的大型语言模型，用于评估和改进科学推理能力。
Llama3.1 (Grattafiori et al., 2024)：这是另一个高性能的大型语言模型，用于科学推理任务的训练和评估。

科学推理数据集的去污染和验证

Benchmark Leakage (Xu et al., 2024; Sainz et al., 2024)：这些研究关注于评估和减少大型语言模型在科学推理任务中的基准泄漏问题。
LLM-based Decontamination (Toshniwal et al., 2024; He et al., 2025)：这些研究提出了基于大型语言模型的去污染方法，用于识别和排除与基准测试问题语义相似的数据。

科学推理的教育和应用

Textbooks as Knowledge Sources (Gunasekar et al., 2023; Li et al., 2023b)：这些研究探讨了如何利用教科书作为知识源，以提高大型语言模型的预训练效果。
Chain-of-Thought Prompting (Wei et al., 2022)：这项研究探讨了如何通过链式思考提示来激发大型语言模型中的推理能力。

这些相关研究为本文提出的TEXTBOOKREASONING和MEGASCIENCE数据集的开发提供了理论和实践基础，并展示了科学推理领域当前的研究进展和挑战。

Q: 论文如何解决这个问题？

A: 论文通过以下步骤解决科学推理领域中高质量训练数据缺乏的问题：

1. 提出 TEXTBOOKREASONING 数据集

数据来源：从12,000本大学级别的科学教科书中提取数据，涵盖7个科学学科（物理、生物、化学、医学、计算机科学、数学和经济学）。
数据处理流程：
- 教科书数字化：将PDF文档转换为机器可读文本。
- 双问答对提取：采用高标凈和低标凈双重标准提取问答对，确保涵盖不同清晰度和结构的内容。
- 去重：使用局部敏感哈希技术去除重复问题。
- 问答对精炼：通过LLM确保问题包含所有必要上下文，答案提供完整解释和清晰推理过程。
- 过滤：移除引用外部来源、答案矛盾或信息缺失的问答对。
- 基于LLM的去污染：使用LLM检测并移除与下游基准测试问题语义相似的样本，确保评估结果的可靠性。

2. 提出 MEGASCIENCE 数据集

数据来源：整合多个公开数据集，包括NaturalReasoning、Nemotron-Science和TEXTBOOKREASONING。
数据选择方法：
- 响应长度选择：选择响应长度最长的问题。
- 难度选择：通过LLM生成参考答案并评估问题难度，过滤掉过于简单或可能有噪声的样本。
- 随机选择：随机选择问题。
解决方案注释：为所有数据集（除TEXTBOOKREASONING外）标注逐步解决方案，确保数据质量和简洁性。

3. 构建全面的评估系统

评估框架：设计了一个涵盖15个基准测试的评估系统，覆盖多样化的主题和问题类型（如多项选择题、计算问题等）。
答案提取策略：开发了一套全面的规则方法，用于从模型响应中准确提取答案，确保最终评估指标的准确性。

4. 实验验证

监督微调实验：在Qwen2.5、Qwen3和Llama3系列模型上进行监督微调，验证TEXTBOOKREASONING和MEGASCIENCE数据集的有效性。
性能比较：与现有的开源科学数据集（如SCP-116K、NaturalReasoning和Nemotron-Science）进行比较，展示TEXTBOOKREASONING和MEGASCIENCE在性能和训练效率上的优势。
模型性能提升：训练后的模型在科学领域任务上的表现显著优于官方指令调整模型，且对于更大更强的模型效果更佳，显示出科学调整的规模效益。

通过这些步骤，论文不仅提供了高质量的科学推理数据集，还通过实验验证了这些数据集在提升模型科学推理能力方面的有效性。

Q: 论文做了哪些实验？

A: 论文中进行了多种实验，以验证TEXTBOOKREASONING和MEGASCIENCE数据集的有效性以及它们在提升科学推理能力方面的效果。以下是主要的实验内容和结果：

1. TEXTBOOKREASONING数据集的性能验证

实验设置：
- 使用Qwen2.5-7B模型进行监督微调。
- 评估指标包括在多个科学推理基准测试上的平均性能。
实验结果：
- TEXTBOOKREASONING在大多数基准测试中优于现有的开源科学数据集，尤其是在计算推理任务上表现出色。
- 例如，在SciBench和OlympicArena这两个计算任务上，TEXTBOOKREASONING分别比Nemotron-Science高出20.62%和5.23%。

2. MEGASCIENCE数据集的性能验证

实验设置：
- 同样使用Qwen2.5-7B模型进行监督微调。
- 评估指标包括在15个基准测试上的平均性能。
实验结果：
- MEGASCIENCE在7个基准测试上取得了最佳性能，并在另外3个基准测试上取得了第二好的性能。
- 与Qwen2.5-7B-Instruct相比，MEGASCIENCE在所有基准测试上的平均性能提高了2.21%。
- MEGASCIENCE在SciBench和OlympicArena等计算任务上表现出色，分别达到了48.75%和40.23%的准确率。

3. 不同模型规模下的性能验证

实验设置：
- 在Qwen2.5系列（1.5B、3B、7B）、Qwen3系列（1.7B、4B、8B、14B、30B-A3B）和Llama3.1系列（8B）模型上进行监督微调。
- 评估指标包括在15个基准测试上的平均性能。
实验结果：
- MEGASCIENCE训练的模型在所有模型规模上均优于官方指令调整模型。
- 随着模型规模的增加，MEGASCIENCE的效果更加显著，显示出科学调整的规模效益。
- 例如，Qwen3-30B-A3B-MEGASCIENCE在所有基准测试上的平均性能比Qwen3-30B-A3B-Instruct高出3.24%。

4. 不同数据选择方法的消融研究

实验设置：
- 在Qwen2.5-7B模型上进行监督微调，分别使用响应长度选择、难度选择和随机选择方法。
- 评估指标包括在15个基准测试上的平均性能。
实验结果：
- 对于NaturalReasoning，随机选择方法效果最佳。
- 对于Nemotron-Science，难度选择方法效果最佳。
- TEXTBOOKREASONING数据集整体质量较高，无需进一步筛选。

5. 性能与效率的权衡分析

实验设置：
- 比较不同数据集训练的Qwen2.5-7B模型在训练时的响应长度与下游任务性能之间的关系。
- 分析模型在推理时的平均响应长度与性能之间的关系。
实验结果：
- TEXTBOOKREASONING数据集在训练时响应长度较短（410 tokens），但在下游任务上表现优异，显示出高效训练和推理能力。
- MEGASCIENCE数据集在推理时能够生成更长的响应，且性能显著提升，表明训练时的高效性并不影响推理时的灵活性和有效性。

6. 不同模型用于问答对精炼的影响

实验设置：
- 使用Llama3.3-70B-Instruct和DeepSeek-V3两种模型对TEXTBOOKREASONING数据集进行问答对精炼。
- 评估指标包括在15个基准测试上的平均性能。
实验结果：
- DeepSeek-V3在所有评估类别中均优于Llama3.3-70B-Instruct，表明使用更强大的模型进行数据精炼可以提升下游任务的性能。

这些实验结果表明，TEXTBOOKREASONING和MEGASCIENCE数据集在提升科学推理能力方面具有显著效果，且在训练效率和推理性能之间取得了良好的平衡。

Q: 有什么可以进一步探索的点？

A: 论文提出了多个未来研究方向，以下是一些可以进一步探索的点：

1. 强化学习在科学推理中的应用

研究方向：探索如何将强化学习（RL）应用于科学推理任务，以进一步提升模型的推理能力。
具体方法：利用TEXTBOOKREASONING数据集中的可靠参考答案作为高质量的监督信号，生成可靠的奖励信号，从而训练模型在科学推理任务中表现更好。
潜在影响：这可能为科学推理任务提供一种更有效的训练方法，尤其是在处理复杂问题时。

2. 从监督微调到长链思考推理的过渡

研究方向：研究如何在监督微调的基础上应用强化学习，以实现长链思考（CoT）推理能力。
具体方法：在监督微调后的模型上应用强化学习，探索是否可以作为一种更高效的替代方法来实现长链思考推理，而不是传统的中训练阶段。
潜在影响：如果成功，这将表明监督微调不仅补充了中训练，还为扩展基于强化学习的方法提供了更高效的基础。

3. 长链思考推理的压缩

研究方向：研究是否可以将长链思考推理压缩成更简洁的形式，同时保持或提高性能。
具体方法：探索不同的方法来压缩长链思考推理，例如通过模型蒸馏或特定的优化技术。
潜在影响：这可能有助于提高模型在推理时的效率，同时保持或提高推理的准确性。

4. 不同模型能力下的数据选择策略

研究方向：研究如何为不同能力的模型选择最优的数据混合策略。
具体方法：通过实验验证，确定不同模型在处理复杂推理数据时的最佳数据选择方法。
潜在影响：这将有助于为不同能力的模型提供更有效的训练数据，从而提高模型的泛化能力。

5. 数据去污染方法的改进

研究方向：进一步改进数据去污染方法，以更有效地识别和排除与基准测试问题语义相似的数据。
具体方法：探索更先进的LLM-based去污染技术，例如结合多种LLM模型的判断，或使用更复杂的语义相似度度量方法。
潜在影响：这将有助于提高评估结果的可靠性和公正性。

6. 跨学科推理能力的提升

研究方向：研究如何提升模型在跨学科推理任务中的表现。
具体方法：开发更多跨学科的推理数据集，并探索如何在这些数据集上训练模型以提高其跨学科推理能力。
潜在影响：这将有助于模型在更复杂的现实世界问题中表现出更强的推理能力。

7. 模型性能与效率的进一步优化

研究方向：探索如何在保持高性能的同时进一步提高模型的训练和推理效率。
具体方法：研究新的模型架构、训练技术和优化方法，以实现更高效的训练和推理过程。
潜在影响：这将有助于在实际应用中更广泛地部署科学推理模型。

这些方向为未来的研究提供了丰富的可能性，有望进一步推动科学推理领域的发展。

Q: 总结一下论文的主要内容

A: 这篇论文的核心内容是关于如何推动科学推理领域的发展，特别是在开源社区中，通过提供高质量的训练数据集来提升AI模型的科学推理能力。以下是论文的主要内容总结：

研究背景

科学推理对于开发AI科学家和辅助人类研究人员在自然科学发现中至关重要。
开源社区在数学和编程领域投入较多，但在科学领域相对忽视，主要是因为缺乏开放、大规模、高质量、可验证的科学推理数据集。

研究方法

TEXTBOOKREASONING 数据集：
- 从12,000本大学级别的科学教科书中提取了650,000个推理问题，覆盖7个科学学科。
- 数据处理流程包括教科书数字化、双问答对提取、去重、问答对精炼、过滤和基于LLM的去污染。
- 该数据集包含真实参考答案，确保了数据的高质量和可靠性。
MEGASCIENCE 数据集：
- 一个大规模的高质量开源数据集混合体，包含125万实例。
- 通过系统性的消融研究，评估了不同的数据选择方法，以确定每个公开科学数据集的最佳子集。
- 为所有数据集（除TEXTBOOKREASONING外）标注了逐步解决方案，确保数据质量和简洁性。
评估系统：
- 设计了一个涵盖15个基准测试的全面评估系统，覆盖多样化的主题和问题类型。
- 开发了一套全面的答案提取策略，确保最终评估指标的准确性。

实验

在Qwen2.5、Qwen3和Llama3系列模型上进行监督微调，验证TEXTBOOKREASONING和MEGASCIENCE数据集的有效性。
实验结果表明，这些数据集在提升模型科学推理能力方面表现出色，且在训练效率和推理性能之间取得了良好的平衡。

关键结论

TEXTBOOKREASONING和MEGASCIENCE数据集在科学推理任务上优于现有的开源科学数据集。
MEGASCIENCE数据集在不同模型规模上均显示出显著的性能提升，尤其是对于更大更强的模型，显示出科学调整的规模效益。
论文还提出了未来研究方向，包括强化学习在科学推理中的应用、从监督微调到长链思考推理的过渡、以及长链思考推理的压缩等。

贡献

提供了TEXTBOOKREASONING和MEGASCIENCE两个高质量的数据集，以及相关的数据处理流程、评估系统和训练后的模型。
通过实验验证了这些数据集在提升科学推理能力方面的有效性。
为开源社区提供了宝贵的资源，推动了科学推理领域的研究和发展。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Run-Ze Fan, Zengzhi Wang, Pengfei Liu

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.16812v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16812v1

Published: 2025-07-22T17:59:03Z

4. LingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural Inference with LLMs

中文摘要

LLM Analysis

Q: 这篇论文试图解决什么问题？

超越最终答案准确性：以往的基准测试主要关注模型最终答案的准确性，而忽略了模型在解决问题过程中的推理步骤。LingBench++ 提供了结构化的推理痕迹、逐步评估协议和丰富的语言类型学元数据，从而能够更全面地评估模型的推理能力。
多步推理和跨文化推理：IOL 问题通常需要多步抽象、结构化推理和文化推理，尤其是在处理低资源或不熟悉的语言时。LingBench++ 通过整合语法知识检索、工具增强推理和假设检验，开发了一个多智能体架构，以更好地处理这些复杂的推理任务。
多模态符号处理：许多 IOL 问题涉及多模态符号，如罕见的书写系统、国际音标（IPA）表示法、音调轮廓符号等。这些任务要求模型不仅能够处理文本，还需要处理视觉符号和跨模态推理。LingBench++ 提供了一个框架，用于评估和推进多模态推理模型的发展。
跨语言和跨文化推理：IOL 问题不仅涉及语言结构的推理，还涉及语义推理、文化概念化和语言学推理。这些问题要求解题者在不熟悉的语言和文化背景下进行推理。LingBench++ 通过提供丰富的语言类型学元数据，支持对模型在跨语言和跨文化推理方面的评估。
改进现有基准测试的局限性：现有的 IOL 风格基准测试存在一些局限性，如缺乏详细的推理步骤、缺乏权威的金标准解决方案以及缺乏语言类型学元数据。LingBench++ 通过提供详细的推理痕迹和类型学注释，弥补了这些不足，从而更全面地评估模型的推理能力。

总的来说，LingBench++ 提供了一个全面的基础，用于推进基于语言学原理、文化背景和认知合理性的推理能力的发展。

Q: 有哪些相关研究？

A: 论文中提到了多个与 LingBench++ 相关的研究工作，这些研究主要集中在以下几个方面：

语言学奥林匹克竞赛相关基准测试

LingOly (Bean et al., 2024)：包含来自英国语言学奥林匹克竞赛（UKLO）的1133个语言学谜题，涵盖90多种低资源语言，测试语言无关的推理能力。该基准排除了图像谜题、非拉丁脚本和开放式问题，以确保机器可评分性。
IOLBENCH (Goyal and Dan, 2025)：包含90个IOL问题，涵盖2003年至2024年的问题。这些问题已被数字化并标准化为文本或结构化表示，包括一些多模态组件。每个问题都配有专家编写的解决方案，以支持对推理链的细粒度分析。
Linguini (Sánchez et al., 2024)：包含160个IOL问题，涵盖2003年至2023年的问题，涉及低资源语言和三种核心任务类型：序列转导（如脚本转换）、填空（如音系推导）和数字转写（如数字到文本转换）。这些问题强调了诸如音系切分、音系推理和音素对齐等技能。

语言学推理相关研究

Chain-of-Thought (CoT) Prompting：通过生成中间推理步骤来提高基本逐步推理能力，但缺乏系统验证机制，限制了其在结构复杂问题上的有效性。
Tree-of-Thoughts (ToT)：扩展了CoT，通过并行假设探索、回溯和状态评估，增强了组合规则归纳的能力。
Hybrid Tool-Integrated Approaches：如ReAct（推理+行动）、Reflexion（自我纠正推理）和Toolformer等框架，将LLMs与外部工具（如计算器、代码解释器）和细化周期结合，用于错误纠正和工具增强推理。
Multimodal Architectures：如GPT-4V和Gemini等模型，结合了视觉、表格和符号输入，但在处理对齐模态（如音系图或形态句法范式）时表现不一致。

语言学推理的挑战和方法

LingBench++：提出了一个基于语言学的基准测试框架，旨在通过提供详细的推理步骤和类型学注释，超越最终答案的准确性，更全面地评估模型的推理能力。
Reference Grammar for Confirmation and Verification：探讨了如何利用参考语法书籍来增强LLMs在语言学问题解决中的推理能力，特别是在处理低资源语言时。

Q: 论文如何解决这个问题？

A: 论文通过以下方法来解决评估大型语言模型（LLMs）在复杂语言任务上的推理能力问题：

1. 提出 LingBench++ 基准测试框架

数据集构建：LingBench++ 包含了来自国际语言学奥林匹克竞赛（IOL）的 96 个问题（225 个子问题），这些问题涵盖了超过 90 种低资源和跨文化语言。这些问题被分为四个部分：介绍、语料库、任务和注释。每个问题都附有详细的推理步骤和官方解决方案。
类型学注释：每个问题都标注了多个语言学维度，包括主题（如形态学、音系学等）、问题类型（如 Rosetta、匹配等）和主题（如亲属关系、数字等）。此外，还记录了每种语言的语言家族、Glottocode 和使用人数。
推理步骤评估：除了评估最终答案的准确性，LingBench++ 还提出了一个“Check-of-Thought”协议，用于评估模型推理步骤的质量。这包括逻辑有效性、信息提取与结构化、假设生成与规则归纳等多个维度。

2. 开发多智能体架构

Solver Agent：提出初始假设，基于提供的语言数据推导出可能的形态学、音系学或句法结构。
Aggregator Agent：收集多个解决方案，并生成自己的解决方案。
Grammar Agent：利用手动收集的参考语法书籍，这些书籍被注释了 Glottocode。给定一个问题，该代理会在数据库中搜索相关的语法书籍，并总结有关语言的语法特征或知识。

3. 提出评估协议和指标

最终解决方案评估：评估模型生成的最终解决方案，包括答案和规则解释两部分。通过将官方解决方案分解为关键语言规则的离散集合（金标准规则清单），并使用 LLM 比较模型生成的解释与金标准规则清单，来确定正确描述的规则数量。
推理步骤评估：提出了一个详细的评分框架，包括逻辑有效性、信息结构完整性、假设生成充分性、规则归纳覆盖范围等多个维度，以系统地评估模型的推理过程。

4. 实验验证

基线模型对比：通过与单次通过的基线模型（如 OpenAI-o4-mini 和 Gemini-2.5-pro）进行对比，展示了多智能体框架在准确性和可解释性方面的优势。
多轮推理的优势：实验结果表明，增加推理轮数可以提高模型的性能，这表明多智能体框架能够更好地处理复杂的语言学问题。
语法知识的利用：通过引入语法知识检索，模型在某些问题上的表现有所提升，尤其是在有参考语法书籍的情况下。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估所提出的 LingBench++ 基准测试框架和多智能体架构的有效性：

1. 基准模型性能评估

数据集：使用 LingBench++ 中的 96 个 IOL 问题（225 个子问题）进行评估。
模型：评估了两种基线模型：
- OpenAI-o4-mini：较小的 LLM 模型。
- Gemini-2.5-pro：较大的 LLM 模型。
评估指标：使用最终解决方案的评分，包括答案和规则解释两部分。评分基于金标准规则清单，通过 LLM 评估模型生成的解释与金标准的匹配程度。
结果：
- OpenAI-o4-mini (baseline)：平均得分 0.193。
- Gemini-2.5-pro (baseline)：平均得分 0.381。
- Gemini-2.5-pro (guided)：平均得分 0.307。
- Gemini-2.5-pro (with grammar agent)：平均得分 0.387。
- OpenAI-o4-mini (MoA, 2 rounds)：平均得分 0.312。
- Gemini-2.5-pro (MoA, 2 rounds)：平均得分 0.419。
- OpenAI-o4-mini (MoA, 3 rounds)：平均得分 0.350。
- Gemini-2.5-pro (MoA, 3 rounds)：平均得分 0.425。

2. 多智能体架构性能评估

数据集：同样使用 LingBench++ 中的 96 个 IOL 问题。
模型：评估了多智能体架构（Mixture-of-Agents, MoA）的不同配置：
- 2 轮 MoA：使用 2 个智能体进行 2 轮推理。
- 3 轮 MoA：使用 2 个智能体进行 3 轮推理。
评估指标：与基准模型相同的最终解决方案评分。
结果：
- OpenAI-o4-mini (MoA, 2 rounds)：平均得分 0.312。
- Gemini-2.5-pro (MoA, 2 rounds)：平均得分 0.419。
- OpenAI-o4-mini (MoA, 3 rounds)：平均得分 0.350。
- Gemini-2.5-pro (MoA, 3 rounds)：平均得分 0.425。

3. 语法知识检索的性能评估

数据集：选择有参考语法书籍的问题子集进行评估。
模型：评估了引入语法知识检索的多智能体架构。
评估指标：与基准模型相同的最终解决方案评分。
结果：
- Gemini-2.5-pro (with grammar agent)：平均得分 0.387。

4. 推理步骤评估

数据集：选择了一个具体的 IOL 问题（2004 年问题 2）进行详细评估。
模型：使用另一个 LLM 作为评估器，根据详细的评分标准评估基线模型的推理步骤。
评估指标：包括逻辑有效性、信息结构完整性、假设生成充分性、规则归纳覆盖范围等多个维度。
结果：
- 详细评估了一个问题的推理步骤，展示了如何通过多维度的评分标准来评估模型的推理过程。

5. 跨语言翻译性能评估

数据集：使用 FLORES-200 数据集的子集，包含 2009 个句子，覆盖 204 种语言。
模型：评估了 Gemini-2.5-flash 模型在不同语言对之间的翻译性能。
评估指标：使用 chrF（character n-gram F-score）评估翻译质量。
结果：
- E → T（英语到目标语言）：平均 chrF 得分 43.92。
- T → E（目标语言到英语）：平均 chrF 得分 64.27。
- 资源类别影响：资源丰富的语言表现更好，资源匮乏的语言表现较差。

实验结论

多智能体架构：多轮推理显著提高了模型的性能，表明多智能体架构能够更好地处理复杂的语言学问题。
语法知识检索：引入语法知识检索可以进一步提升模型的性能，尤其是在有参考语法书籍的情况下。
推理步骤评估：通过详细的推理步骤评估，可以更全面地了解模型的推理过程，为改进模型提供指导。
跨语言翻译：资源匮乏的语言在翻译任务中表现较差，表明需要进一步改进模型在低资源语言上的性能。

这些实验结果表明，LingBench++ 和多智能体架构在评估和提升 LLMs 的语言学推理能力方面具有显著优势。

Q: 有什么可以进一步探索的点？

1. 推理步骤的自动化评估

当前状态：虽然论文提出了详细的推理步骤评估方法，但这些评估主要依赖于人工标注和判断，成本较高且难以大规模应用。
进一步探索：开发自动化的推理步骤评估工具，能够自动识别和评分模型生成的推理步骤。这可能需要结合自然语言处理技术，如语义相似度计算、逻辑结构分析等。

2. 多模态数据的整合

当前状态：IOL 问题中包含多模态数据，如图像、符号系统等，但目前的模型在处理这些多模态数据时表现有限。
进一步探索：开发更强大的多模态模型，能够更好地整合文本、图像、符号等多种模态的数据。这可能需要结合计算机视觉和自然语言处理的最新进展，如多模态预训练模型。

3. 跨语言和跨文化推理的泛化能力

当前状态：虽然 LingBench++ 提供了丰富的语言类型学元数据，但模型在低资源语言和跨文化推理任务上的表现仍有待提高。
进一步探索：研究如何提高模型在低资源语言和跨文化推理任务上的泛化能力。这可能需要开发新的数据增强技术、迁移学习方法和跨语言预训练模型。

4. 多智能体架构的优化

当前状态：多智能体架构在多轮推理中表现出了优势，但具体的智能体角色和交互机制仍有改进空间。
进一步探索：优化多智能体架构，例如引入更多的智能体角色（如验证智能体、纠错智能体等），并设计更高效的智能体交互机制。此外，可以研究如何动态调整智能体的数量和类型，以适应不同复杂度的问题。

5. 语法知识检索的改进

当前状态：语法知识检索在某些问题上提升了模型的性能，但其效果依赖于参考语法书籍的可用性和质量。
进一步探索：开发更智能的语法知识检索系统，能够自动从互联网上收集和整理语法知识，并将其整合到模型的推理过程中。此外，可以研究如何利用机器学习技术自动提取和总结语法知识。

6. 长期推理和记忆机制

当前状态：现有的推理模型主要关注短期推理，缺乏长期推理和记忆机制。
进一步探索：开发具有长期推理和记忆机制的模型，能够记住和利用之前的推理结果，从而更高效地解决复杂的多步推理问题。这可能需要结合神经符号计算和记忆网络的最新进展。

7. 跨领域推理能力

当前状态：虽然 LingBench++ 主要关注语言学推理，但类似的推理能力在其他领域（如数学、科学等）也有重要应用。
进一步探索：将 LingBench++ 的方法和框架扩展到其他领域，开发跨领域的推理基准测试，以评估和改进模型在不同领域的推理能力。

8. 模型的可解释性和透明度

当前状态：虽然论文提出了详细的推理步骤评估方法，但模型的内部决策过程仍然难以完全理解。
进一步探索：开发更强大的模型解释工具，能够可视化和解释模型的推理过程。这可能需要结合可解释性人工智能（XAI）技术和自然语言处理的最新进展。

通过这些进一步的探索，可以更全面地评估和改进大型语言模型在复杂语言任务上的推理能力，从而推动自然语言处理技术的发展。

Q: 总结一下论文的主要内容

研究背景

国际语言学奥林匹克竞赛（IOL）提出了需要从微观数据中归纳语言规则的独特挑战性问题，这些任务不仅测试表面模式识别能力，还要求多步抽象、结构化推理和文化推理。
尽管大型语言模型（如 GPT-4 和 Gemini）在许多推理相关任务上表现出色，但它们解决 IOL 风格问题的能力，尤其是涉及多模态符号、罕见脚本或类型学多样性的问题，尚未得到充分探索。

研究方法

LingBench++ 基准测试框架：该框架包含 96 个 IOL 问题（225 个子问题），涵盖超过 90 种低资源和跨文化语言。每个问题都附有详细的推理步骤和官方解决方案。
类型学注释：每个问题都标注了多个语言学维度，包括主题（如形态学、音系学等）、问题类型（如 Rosetta、匹配等）和主题（如亲属关系、数字等）。此外，还记录了每种语言的语言家族、Glottocode 和使用人数。
多智能体架构：开发了一个多智能体架构，整合了语法知识检索、工具增强推理和假设检验。该架构包括求解智能体、聚合智能体和语法智能体。
评估协议和指标：提出了一个详细的评估协议，包括最终解决方案的评分和推理步骤的质量评估。最终解决方案的评分基于金标准规则清单，而推理步骤的评估则涉及多个维度，如逻辑有效性、信息结构完整性等。

实验设计

基准模型性能评估：评估了两种基线模型（OpenAI-o4-mini 和 Gemini-2.5-pro）在 LingBench++ 上的性能。
多智能体架构性能评估：评估了多智能体架构（Mixture-of-Agents, MoA）的不同配置，包括 2 轮和 3 轮推理。
语法知识检索的性能评估：评估了引入语法知识检索的多智能体架构在有参考语法书籍的问题上的性能。
推理步骤评估：对一个具体的 IOL 问题进行了详细的推理步骤评估，展示了如何通过多维度的评分标准来评估模型的推理过程。
跨语言翻译性能评估：使用 FLORES-200 数据集评估了 Gemini-2.5-flash 模型在不同语言对之间的翻译性能。

关键结论

多智能体架构的优势：多轮推理显著提高了模型的性能，表明多智能体架构能够更好地处理复杂的语言学问题。
语法知识检索的效果：引入语法知识检索可以进一步提升模型的性能，尤其是在有参考语法书籍的情况下。
推理步骤评估的重要性：通过详细的推理步骤评估，可以更全面地了解模型的推理过程，为改进模型提供指导。
跨语言翻译的挑战：资源匮乏的语言在翻译任务中表现较差，表明需要进一步改进模型在低资源语言上的性能。

进一步探索的方向

推理步骤的自动化评估：开发自动化的推理步骤评估工具，以降低人工标注的成本并提高评估的效率。
多模态数据的整合：开发更强大的多模态模型，能够更好地整合文本、图像、符号等多种模态的数据。
跨语言和跨文化推理的泛化能力：研究如何提高模型在低资源语言和跨文化推理任务上的泛化能力。
多智能体架构的优化：优化多智能体架构，引入更多的智能体角色和更高效的交互机制。
语法知识检索的改进：开发更智能的语法知识检索系统，自动从互联网上收集和整理语法知识。
长期推理和记忆机制：开发具有长期推理和记忆机制的模型，以更高效地解决复杂的多步推理问题。
跨领域推理能力：将 LingBench++ 的方法和框架扩展到其他领域，开发跨领域的推理基准测试。
模型的可解释性和透明度：开发更强大的模型解释工具，能够可视化和解释模型的推理过程。

通过这些研究方法和实验，论文展示了 LingBench++ 在评估和改进大型语言模型的语言学推理能力方面的潜力，并提出了未来研究的方向。

Authors: Da-Chen Lian, Ri-Sheng Huang, Pin-Er Chen, Chunki Lim, You-Kuan Lin, Guan-Yu Tseng, Zi-Cheng Yang, Shu-Kai Hsieh

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.16809v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16809v1

Published: 2025-07-22T17:57:44Z

5. Rethinking LLM-Based RTL Code Optimization Via Timing Logic Metamorphosis

Register Transfer Level(RTL) code optimization is crucial for achieving high performance and low power consumption in digital circuit design. However, traditional optimization methods often rely on manual tuning and heuristics, which can be time-consuming and error-prone. Recent studies proposed to leverage Large Language Models(LLMs) to assist in RTL code optimization. LLMs can generate optimized code snippets based on natural language descriptions, potentially speeding up the optimization process. However, existing approaches have not thoroughly evaluated the effectiveness of LLM-Based code optimization methods for RTL code with complex timing logic. To address this gap, we conducted a comprehensive empirical investigation to assess the capability of LLM-Based RTL code optimization methods in handling RTL code with complex timing logic. In this study, we first propose a new benchmark for RTL optimization evaluation. It comprises four subsets, each corresponding to a specific area of RTL code optimization. Then we introduce a method based on metamorphosis to systematically evaluate the effectiveness of LLM-Based RTL code optimization methods.Our key insight is that the optimization effectiveness should remain consistent for semantically equivalent but more complex code. After intensive experiments, we revealed several key findings. (1) LLM-Based RTL optimization methods can effectively optimize logic operations and outperform existing compiler-based methods. (2) LLM-Based RTL optimization methods do not perform better than existing compiler-based methods on RTL code with complex timing logic, particularly in timing control flow optimization and clock domain optimization. This is primarily attributed to the challenges LLMs face in understanding timing logic in RTL code. Based on these findings, we provide insights for further research in leveraging LLMs for RTL code optimization.

中文摘要

寄存器传输级（RTL）代码优化对于实现数字电路设计中的高性能和低功耗至关重要。然而，传统的优化方法通常依赖于手动调优和启发式方法，这可能既耗时又容易出错。近期的研究提出利用大型语言模型（LLMs）来协助RTL代码优化。LLMs可以根据自然语言描述生成优化的代码片段，这可能加快优化过程。然而，现有的方法尚未全面评估基于LLM的代码优化方法在处理具有复杂时序逻辑的RTL代码方面的有效性。为了解决这一缺口，我们进行了全面的实证研究，以评估基于LLM的RTL代码优化方法处理复杂时序逻辑的能力。在这项研究中，我们首先提出了一个新的RTL优化评估基准。它包含四个子集，每个子集对应于RTL代码优化的特定领域。然后，我们引入了一种基于变换的方法来系统评估基于LLM的RTL代码优化方法的有效性。我们的主要见解是，对于语义等价但更复杂的代码，优化效果应该保持一致。经过大量实验，我们揭示了几个关键发现。（1）基于LLM的RTL优化方法可以有效优化逻辑操作，并且优于现有的基于编译器的方法。（2）对于具有复杂时序逻辑的RTL代码，基于LLM的RTL优化方法的表现不如现有的基于编译器的方法，尤其是在时序控制流优化和时钟域优化方面。这主要归因于LLMs在理解RTL代码中的时序逻辑方面面临的挑战。基于这些发现，我们为进一步研究如何利用LLMs进行RTL代码优化提供了见解。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是评估基于大型语言模型（LLM）的寄存器传输级（RTL）代码优化方法在处理具有复杂时序逻辑的RTL代码时的有效性。具体来说，论文关注以下几个方面：

传统优化方法的局限性：传统的RTL代码优化方法依赖于手动调整和启发式规则，这种方法耗时且容易出错。现有的编译器方法在优化复杂设计时存在局限性，且无法有效利用综合反馈来改进代码。
LLM在RTL代码优化中的潜力与挑战：虽然LLM能够基于自然语言描述生成优化后的代码片段，从而可能加速优化过程，但现有研究并未充分评估LLM在处理具有复杂时序逻辑的RTL代码时的有效性。时序逻辑对数字电路的性能、功耗和可靠性有直接影响，因此评估LLM在这一领域的表现至关重要。
缺乏系统评估方法：目前缺乏一个全面的评估方法来系统地评估LLM在RTL代码优化中的能力，尤其是在处理复杂时序逻辑时。这导致了对LLM在RTL代码优化领域的优势和局限性缺乏深入了解。

为了解决这些问题，论文提出了一个新的基准测试集和一种基于变异（metamorphosis）的评估方法，以系统地评估LLM在处理复杂RTL代码时的优化能力。

Q: 有哪些相关研究？

A: 论文中提到了多个与LLM-Based RTL代码优化和相关领域相关的研究，以下是主要的相关研究：

LLM-Based RTL代码优化

RTLRewriter：Yao等人提出的RTLRewriter方法利用LLM通过抽象语法树（AST）和领域特定知识来重写RTL代码，以优化逻辑操作、数据路径和时序控制流[^5^]。
Verigen：Thakur等人提出的Verigen是一个用于Verilog代码生成的LLM，它展示了LLM在生成硬件描述语言代码方面的潜力[^35^]。
Rtlcoder：Liu等人提出的Rtlcoder是一种开源的LLM辅助RTL代码生成技术，它展示了LLM在RTL代码生成中的应用[^36^]。
Verilogeval：Liu等人提出的Verilogeval用于评估LLM在Verilog代码生成中的表现[^22^]。
Rtlfixer：Tsai等人提出的Rtlfixer利用LLM自动修复RTL语法错误[^24^]。

代码优化

深度强化学习：Liang等人使用深度强化学习来发现减少运行时间和代码大小的编译器优化通道序列[^55^]。
**ProGraML

Authors: Zhihao Xu, Bixin Li, Lulu Wang

Categories: cs.SE, cs.AI, 68N19, 68T05, B.6.3; D.3.4; I.2.2; I.2.6

PDF URL: https://arxiv.org/pdf/2507.16808v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16808v1

Published: 2025-07-22T17:57:02Z

6. Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

When language models (LMs) are trained via reinforcement learning (RL) to generate natural language “reasoning chains”, their performance improves on a variety of difficult question answering tasks. Today, almost all successful applications of RL for reasoning use binary reward functions that evaluate the correctness of LM outputs. Because such reward functions do not penalize guessing or low-confidence outputs, they often have the unintended side-effect of degrading calibration and increasing the rate at which LMs generate incorrect responses (or “hallucinate”) in other problem domains. This paper describes RLCR (Reinforcement Learning with Calibration Rewards), an approach to training reasoning models that jointly improves accuracy and calibrated confidence estimation. During RLCR, LMs generate both predictions and numerical confidence estimates after reasoning. They are trained to optimize a reward function that augments a binary correctness score with a Brier score — a scoring rule for confidence estimates that incentivizes calibrated prediction. We first prove that this reward function (or any analogous reward function that uses a bounded, proper scoring rule) yields models whose predictions are both accurate and well-calibrated. We next show that across diverse datasets, RLCR substantially improves calibration with no loss in accuracy, on both in-domain and out-of-domain evaluations — outperforming both ordinary RL training and classifiers trained to assign post-hoc confidence scores. While ordinary RL hurts calibration, RLCR improves it. Finally, we demonstrate that verbalized confidence can be leveraged at test time to improve accuracy and calibration via confidence-weighted scaling methods. Our results show that explicitly optimizing for calibration can produce more generally reliable reasoning models.

中文摘要

当语言模型（LMs）通过强化学习（RL）训练生成自然语言“推理链”时，它们在各种困难的问答任务上的表现有所提高。如今，几乎所有成功应用于推理的强化学习都使用二元奖励函数来评估语言模型输出的正确性。由于这样的奖励函数不会惩罚猜测或低置信度输出，因此它们常常会产生意想不到的副作用，降低校准性能，并增加语言模型在其他问题领域生成不正确响应（或“幻觉”的）比率。本文描述了RLCR（具有校准奖励的强化学习），这是一种联合提高准确性和校准置信度估计的推理模型训练方法。在RLCR期间，语言模型在推理后生成预测和数值置信度估计。它们被训练以优化一种奖励函数，该函数通过Brier分数（用于置信度估计的评分规则，激励校准预测）来增强二元正确性评分。我们首先证明这种奖励函数（或任何使用有界、适当评分规则的相似奖励函数）产生的模型，其预测既准确又良好校准。接下来，我们展示了在多样的数据集上，RLCR显著提高校准，而没有任何准确性的损失，无论是在域内还是域外评估方面 — 超过了普通的强化学习训练和训练用于分配事后置信度评分的分类器。虽然普通的强化学习会损害校准，RLCR则提高了校准。最后，我们展示了在测试时可以利用语言化的置信度，通过置信度加权缩放方法提高准确性和校准。我们的结果表明，明确优化校准可以产生更可靠的推理模型。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决语言模型（LMs）在通过强化学习（RL）进行训练以生成自然语言“推理链”时，出现的校准（calibration）问题。具体来说，论文关注的两个核心问题如下：

推理模型能否同时优化正确性和校准？
- 当前大多数成功的强化学习在推理上的应用都使用二元奖励函数来评估LM输出的正确性。然而，这种奖励函数存在关键限制：它不惩罚猜测或低置信度输出，这往往导致模型在其他问题领域中校准性能下降，增加了模型生成错误响应（或“幻觉”）的频率。这在医疗保健或法律等高风险领域是不可接受的，因为模型不仅需要准确，还需要在适当的时候传达不确定性。
推理链的内容本身能否改善校准？
- 论文通过统计决策理论中的适当评分规则理论来探索这些问题，并提出了一种新的训练推理模型的方法，即RLCR（Reinforcement Learning with Calibration Rewards），旨在同时提高准确性和校准的置信度估计。

Q: 有哪些相关研究？

A: 论文中提到了以下几类相关研究：

后验置信度表达（Post-hoc verbalizations）：
- 这类方法提示模型在回答问题后陈述其置信度。例如，Lin等人（2022）对GPT-3进行微调，使其能够根据问题和答案预测置信度，以GPT-3在该问题上的经验准确率作为目标标签。Xiong等人（2024）发现，尽管随着模型能力的提高，LMs的校准有所改善，但它们在表达置信度时仍然表现出过度自信。Tian等人（2023）发现，与条件概率相比，RLHF模型的口头置信度得分在校准方面表现更好。Mei等人（2025）发现，即使在进行推理的模型中，也存在过度自信的问题，而且随着推理的深入，过度自信可能会加剧。Kirichenko等人（2025）通过AbstentionBench展示了LLMs在不可回答问题上的表现不佳，推理微调往往会降低适当的回避性能。Yoon等人（2025）和Mei等人（2025）发现，推理模型可以通过内省和慢思考的CoT行为来提高校准。
基于采样的代理方法（Sampling-based surrogates）：
- 这类方法使用响应一致性（例如，多数投票或最佳-of-N）作为置信度的代理，但成本较高，且需要明确的真值。例如，Aichberger等人（2025）通过生成语义多样化的、合理的响应，并测量它们的一致性来估计不确定性。Kuhn等人（2023）提出了语义熵，这是一种考虑语言不变性的采样方法，可以更好地估计自然语言生成中的不确定性。
内部信号探测（Internal signal probing）：
- 这类方法从模型特征（如标记概率）中提取置信度，提供细粒度的分数，但缺乏普遍性。例如，Kadavath等人（2022）提示语言模型对给定答案输出“真”或“假”，并将预测“真”的概率P（true）作为模型置信度的代理。Mielke等人（2022）训练一个LM生成以外部探测器提供的置信度估计为条件的响应。Fadeeva等人（2024）提出了基于内部模型信号的Claim Conditioned Probability，这是一种逐标记的不确定性方法，用于事实核查声明并检测幻觉。Azaria和Mitchell（2023）训练一个分类器在隐藏层激活上，以基于LLM的内部状态检测陈述的真实性。Orgad等人（2025）表明，内部表示编码丰富的、逐标记的真实性信号，可以检测并分类超出输出所反映的错误。
基于RL的校准方法（RL-based calibration）：
- 这类方法使用RL训练模型输出校准的口头置信度。例如，Stengel-Eskin等人（2024）引入了一个说话者-倾听者框架，其中说话者的奖励由倾听者对其响应的推断置信度决定。Leng等人（2025）在奖励模型训练中引入了明确的置信度分数，获得了与口头置信度更好地对齐的奖励模型。与本文工作最密切相关的是Xu等人（2024）和Stangel等人（2025），他们分别采用Brier分数和对数损失的截断版本作为奖励函数，训练LMs。这些方法虽然有效，但仅针对校准进行优化，可能会无意中损害任务准确性，尤其是在较大的模型中，模型可能会通过输出故意错误的答案并赋予零置信度来实现完美的校准分数。此外，这两种方法都是在非推理任务上开发和评估的。相比之下，本文提出的校准奖励函数可以同时激励正确性和校准，并且在推理和非推理基准测试上都展示了其有效性。

Q: 论文如何解决这个问题？

A: 论文通过提出一种名为RLCR（Reinforcement Learning with Calibration Rewards）的方法来解决这个问题，具体步骤如下：

训练语言模型生成预测和置信度估计：
- 在RLCR过程中，语言模型（LMs）在推理后生成预测和数值置信度估计。模型被训练以优化一个奖励函数，该函数将二元正确性分数与Brier分数（一种激励校准预测的置信度估计评分规则）结合起来。
证明奖励函数的有效性：
- 论文首先证明了这种奖励函数（或任何使用有界、适当评分规则的类似奖励函数）能够产生预测既准确又校准良好的模型。具体来说，当模型输出最有可能正确的答案以及校准良好的成功概率估计时，奖励函数达到最大值。
在多样化的数据集上进行实验：
- 论文接着在多样化的数据集上展示了RLCR的效果。实验结果表明，RLCR在域内和域外评估中都显著提高了校准性能，且没有损失准确性，优于普通的RL训练和训练用于分配事后置信度分数的分类器。普通RL训练会损害校准，而RLCR则提高了校准性能。
利用口头置信度改进准确性和校准：
- 最后，论文展示了如何在测试时利用口头置信度来改进准确性和校准。通过置信度加权的缩放方法，可以进一步提高模型的性能。这可能是因为RLCR提高了模型预测在样本间的连贯性，减少了对于相同答案的推理链的置信度分数的方差，并且减少了模型为矛盾答案分配高置信度的频率。

通过这些步骤，论文证明了明确优化校准可以产生更可靠、更通用的推理模型。

Q: 论文做了哪些实验？

A: 论文主要进行了以下几类实验：

在HotpotQA数据集上的实验

实验设置：
- 使用修改版的HotpotQA干扰数据集，包含多跳问题和10个段落（2个相关，8个干扰）。为了测试不确定性推理，HotpotQA-Modified移除了0、1或两个相关段落，创建了不同的信息完整性。数据集在这些条件下均匀分布，每个例子有8个段落。训练集包含20,000个例子，使用精确字符串匹配来计算正确性。
实验结果：
- 在分布内性能：训练曲线显示RLCR的正确性和校准奖励都能平稳增加，表明模型能够同时提高准确性和校准。RL训练的模型在多跳准确性上优于现成的模型。RLCR在准确性上与RLVR相当，表明校准项没有损害性能。然而，基础模型和RLVR都过度自信且校准不良。相比之下，RLCR方法和分类器的校准要好得多，RLCR略微领先。
- 泛化性能：在六个数据集（TriviaQA、SimpleQA、MATH500、GSM8K、CommonsenseQA和GPQA）上评估泛化性能。结果表明，基础模型的准确性与经过RL训练的模型相当，表明在HotpotQA上的RL训练并没有增强域外推理能力。而且，RLVR实际上损害了域外任务的校准。相比之下，RLCR在所有基线上都取得了显著的校准改进，同时保持了（或略微提高了）任务准确性。

在数学数据集上的实验

实验设置：
- 使用Big-Math数据集，这是一个包含超过250,000个数学问题的大型、策划的RL训练数据集，包括来自Math和GSM8K等基准测试的问题。为了确保适当的难度范围，保留了LLaMA-8B解决率在0-70%之间的题目。最终训练集包含15,000个问题，使用math-verify进行正确性计算。
- 还训练了一个变体，在RL之前有一个轻量级的SFT热身阶段，以提高不确定性分析的质量。
实验结果：
- 在数学基准测试（平均来自GSM8K、Math和Big-Math）上，所有RL方法的准确性都显著优于基础模型。SFT+RLCR在校准方面表现最佳，略微超过了分类器，而基础模型和RLVR仍然校准不良。在域外任务（TriviaQA、SimpleQA、CommonsenseQA、GPQA、HotPotQA）中，RLCR和RLVR的准确性略高于基础模型，但SFT+RLCR模型的准确性显著下降，可能是由于SFT热身引起的灾难性遗忘。尽管如此，SFT+RLCR在校准方面表现最强。RLCR在O.O.D设置中提供了更强的权衡，在保持准确性的同时匹配或超越了所有基线在校准方面的表现。

测试时缩放实验

实验设置：
- 评估RLCR的口头置信度是否可以纳入测试时缩放算法，以在准确性和校准方面取得改进。
实验结果：
- 准确性：随着计算量的增加，所有方法的准确性都有所提高。置信度加权多数投票优于普通的多数投票和最大置信度，表明将置信度与投票相结合可以带来互补的好处。尽管最大置信度在两种投票变体之下，但在聚合跨响应（投票所需）不可行的设置中，例如程序合成或其他开放性生成任务中，它更为灵活，因此仍然有价值。总体而言，这些缩放算法的准确性增益与校准密切相关——校准的改进将转化为准确性的提高。
- 校准：为了提高固定答案y的置信度分数，对不确定性CoT进行采样，每个CoT产生一个口头置信度qi。然后对这些置信度进行集成，得到聚合的置信度估计。随着集成大小K的增加，Brier分数降低，表明对不确定性CoT进行集成可以有效提高校准。对于给定的解决方案和答案，集成口头置信度是轻量级的，只需要额外的采样，与分类器或探测器不同，后者需要训练多个头/模型。

推理对校准的影响实验

实验设置：
- 训练两个分类器：基线分类器（在RLVR输出上训练，这些输出不包含不确定性分析）和分析分类器（在RLCR的输出上训练，去除了置信度分数，以防止直接利用）。
实验结果：
- 在HotpotQA-Modified上，对于不同模型大小的Qwen-base模型（0.5B、1.5B和7B），分析分类器在较小尺寸时优于基线分类器，表明在容量有限时，不确定性CoT对于更好的校准至关重要。对于足够表达的分类器（如7B模型），可以从解决方案中直接推断出与置信度相关的特征。相比之下，较小的分类器可以更好地利用RLCR训练模型的推理链。作者认为，关于分类器容量和CoT内容之间更广泛的问题是未来工作的一个重要主题。

口头置信度的一致性实验

实验设置：
- 对于给定的答案y，采样多个不确定性推理链，每个链产生一个口头置信度分数qi。
实验结果：
- 推理内解决方案一致性：大多数样本的标准差较低，表明模型的口头置信度估计通常具有一致性。
- 推理间解决方案一致性：对于答案互斥的任务，模型应该将置信度分配给不同的答案，使得总置信度之和为1。在in-distribution的HotpotQA数据集上，RLCR的置信度总和紧密聚集在1周围，表明校准良好的信念分布。对于域外数据集，RLCR和RLVR都表现出过度自信，总和超过1，尽管RLCR显著更接近理想值。这反映了RLCR改进的校准，但也突出了在域外设置中进一步改进的必要性。

Q: 有什么可以进一步探索的点？

A: 论文中提到了以下可以进一步探索的点：

校准性能的进一步提升：
- 即使在RLCR之后，域外校准误差在绝对意义上仍然很高，模型可能仍然会为多个矛盾的答案分配高置信度。因此，需要进一步研究如何提高模型的校准性能，特别是在域外任务中。
推理链内容与校准的关系：
- 论文提到，对于足够表达的分类器，可以从解决方案中直接推断出与置信度相关的特征。而对于较小的分类器，可以更好地利用RLCR训练模型的推理链。因此，关于分类器容量和推理链内容之间更广泛的关系是一个值得进一步研究的重要主题。
测试时缩放方法的改进：
- 论文展示了如何在测试时利用口头置信度来改进准确性和校准，但还有可能进一步探索和改进测试时缩放方法，以更好地利用模型的置信度估计，从而进一步提高模型的性能。
模型预测的连贯性：
- 论文提到RLCR提高了模型预测在样本间的连贯性，减少了对于相同答案的推理链的置信度分数的方差，并且减少了模型为矛盾答案分配高置信度的频率。可以进一步研究如何进一步提高模型预测的连贯性，以及这种连贯性如何影响模型的准确性和校准。
不同领域和任务的适用性：
- 论文主要在事实问答和数学推理任务上进行了实验，可以进一步探索RLCR方法在其他领域和任务中的适用性和效果，例如自然语言生成、机器翻译、情感分析等。
与其他方法的结合：
- 论文提出的方法与其他相关研究中的方法（如后验置信度表达、基于采样的代理方法、内部信号探测等）可以进行结合，以探索更有效的模型训练和校准策略。

Q: 总结一下论文的主要内容

Authors: Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas

Categories: cs.LG, cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2507.16806v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16806v1

Published: 2025-07-22T17:56:01Z

7. Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning

Large Language Models (LLMs) exhibit considerable promise in financial applications; however, prevailing models frequently demonstrate limitations when confronted with scenarios that necessitate sophisticated reasoning capabilities, stringent trustworthiness criteria, and efficient adaptation to domain-specific requirements. We introduce the Agentar-Fin-R1 series of financial large language models (8B and 32B parameters), specifically engineered based on the Qwen3 foundation model to enhance reasoning capabilities, reliability, and domain specialization for financial applications. Our optimization approach integrates a high-quality, systematic financial task label system with a comprehensive multi-layered trustworthiness assurance framework. This framework encompasses high-quality trustworthy knowledge engineering, multi-agent trustworthy data synthesis, and rigorous data validation governance. Through label-guided automated difficulty-aware optimization, tow-stage training pipeline, and dynamic attribution systems, we achieve substantial improvements in training efficiency. Our models undergo comprehensive evaluation on mainstream financial benchmarks including Fineva, FinEval, and FinanceIQ, as well as general reasoning datasets such as MATH-500 and GPQA-diamond. To thoroughly assess real-world deployment capabilities, we innovatively propose the Finova evaluation benchmark, which focuses on agent-level financial reasoning and compliance verification. Experimental results demonstrate that Agentar-Fin-R1 not only achieves state-of-the-art performance on financial tasks but also exhibits exceptional general reasoning capabilities, validating its effectiveness as a trustworthy solution for high-stakes financial applications. The Finova bench is available at https://github.com/antgroup/Finova.

中文摘要

大型语言模型（LLMs）在金融应用中展现了相当大的潜力；然而，当面临需要复杂推理能力、严格的可靠性标准和高效适应领域特定要求的场景时，现有模型经常表现出局限性。我们推出了Agentar-Fin-R1系列金融大型语言模型（8B和32B参数），该系列模型专门基于Qwen3基础模型进行设计，以增强推理能力、可靠性和金融应用的领域专业性。我们的优化方法结合了高质量的系统金融任务标签体系和全面的多层次可信度保障框架。该框架包括高质量可信知识工程、多智能体可信数据合成及严格的数据验证治理。通过标签指导的自动困难感知优化、两阶段训练流程和动态归因系统，我们实现了训练效率的显著提升。我们的模型在主流金融基准上进行了全面评估，包括Fineva、FinEval和FinanceIQ，以及一般推理数据集如MATH-500和GPQA-diamond。为了全面评估现实世界部署能力，我们创新性地提出了Finova评估基准，专注于代理级金融推理和合规性验证。实验结果表明，Agentar-Fin-R1不仅在金融任务上实现了最先进的性能，而且展现了卓越的通用推理能力，验证了其作为高风险金融应用可信解决方案的有效性。Finova基准可在https://github.com/antgroup/Finova获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在金融领域中，大型语言模型（LLMs）在推理能力、可信度和特定任务适应性方面存在的不足。具体来说，论文指出现有模型在以下方面存在局限性：

推理能力不足：现有的金融领域大型语言模型在处理复杂金融场景时，缺乏深度分析、风险评估和战略规划所需的高级推理能力。
可信度问题：这些模型容易产生幻觉（hallucinations），即生成与事实不符的内容，这在金融环境中是不可接受的，因为金融决策需要高度的可信度和合规性。
特定任务适应性差：现有的模型无法有效地适应金融领域中不断变化的特定任务需求，如新的金融工具、监管更新等。

为了解决这些问题，论文提出了Agentar-Fin-R1系列金融大型语言模型，这些模型基于Qwen3基础模型进行了专门的优化，以增强推理能力、可靠性和金融领域的专业性。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

推理优化模型：
- OpenAI的o1系列[17]：在数学、编程和逻辑推理方面取得了显著突破。
- QwQ[19]：在推理能力方面进行了优化。
- DeepSeek-R1[10]：通过强化学习激励推理能力。
- Qwen3[27]：在多个领域展示了推理能力。
金融领域特定模型：
- Baichuan[29]：集成了金融领域的特定知识，但缺乏复杂的推理能力。
- XuanYuan[6]：提供了金融领域的知识，但推理能力不足。
- PIXIU[24]：专注于金融领域的知识整合。
- XuanYuan-FinX1-Preview[7]：尝试整合高级推理机制，但推理能力仍有限。
- Fino1[18]：在金融推理方面进行了尝试。
- Fin-R1[15]：专注于金融推理，但存在局限性。
- Dianjin-R1[31]：在金融推理方面进行了改进。
金融数据集和基准：
- Fineva[1]：涵盖了金融认知、金融知识、金融逻辑等多个维度的金融基准。
- FinEval[11]：专注于评估金融问答模型。
- FinanceIQ[5]：用于评估模型基于实际金融知识回答问题的能力。
其他相关研究：
- Liu et al. [15]、Wang et al. [23]、Dong et al. [4]、Fatouros et al. [8]、Li et al. [13]、Tong et al. [22]、Xie et al. [25]、Zhang et al. [29]：这些研究在金融AI系统的设计和评估方面提供了共识和基础。

这些研究为Agentar-Fin-R1模型的开发提供了背景和参考，帮助作者识别现有模型的不足，并提出改进方法。

Q: 论文如何解决这个问题？

A: 论文通过以下三个核心创新来解决金融领域中大型语言模型（LLMs）在推理能力、可信度和特定任务适应性方面的不足：

1. 专业分类指导框架（Professional Taxonomy-Guided Framework）

细粒度金融任务分类：构建了一个详细的金融任务分类体系，将金融领域分解为精确定义的类别，作为整个开发流程的指导框架。这个分类体系不仅指导数据处理和训练流程，还支持系统的任务导向优化，确保全面覆盖金融推理场景，并为模型训练提供专业支持。
场景维度和任务属性维度：任务分类体系从两个基本维度对任务进行分类：
- 场景维度：涵盖银行、证券、保险、信托和共同基金等多样化的金融场景。
- 任务属性维度：包括命名实体识别（NER）、意图分类、槽填充、实体消歧和咨询式问答等任务属性。

2. 多维度可信度保障（Multi-Dimensional Trustworthiness Assurance）

源可信度：通过严格的知识工程处理认证的金融数据，确保数据来源的可信度。
合成可信度：通过可验证的多智能体协作框架保证数据质量。
治理可信度：通过全面的数据处理，包括去重、去毒和基于偏好的过滤，确保数据的可信度。

3. 高效训练优化（Efficient Training Optimization）

数据效率：通过加权训练框架，深度利用数据潜力，通过标签引导的合成和智能选择提高数据利用率。
训练效率：采用两阶段训练策略，进一步提升模型能力。
归因效率：通过全面的归因系统，快速识别瓶颈并进行针对性改进，为模型的持续进化提供科学指导。

4. Finova评估基准（Finova Evaluation Benchmark）

Agent能力：评估智能金融代理在意图检测、槽识别、工具规划和表达生成等方面的能力。
复杂推理：结合金融数学、代码理解和领域特定推理的多步骤分析任务。
安全与合规：评估安全风险缓解和监管合规性。

通过这些创新，Agentar-Fin-R1模型在金融基准测试中取得了最先进的性能，同时在一般推理任务中也表现出色，验证了其作为高风险金融应用的可信解决方案的有效性。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估Agentar-Fin-R1模型的性能：

1. 数据集介绍

Finova：一个综合性的金融基准测试，专门设计用于评估金融LLMs的实际部署能力。它包括三个关键领域：Agent能力、复杂推理和安全与合规。
其他金融基准测试：
- Fineva：涵盖金融认知、金融知识、金融逻辑等多个维度的金融基准。
- FinEval：专注于评估金融问答模型。
- FinanceIQ：用于评估模型基于实际金融知识回答问题的能力。
一般推理任务：
- MATH：评估模型解决多步骤数学问题的能力。
- GPQA：一个通用问题回答基准，测试模型对多样化、非金融任务的理解和推理能力。

2. 训练细节

模型参数：Agentar-Fin-R1系列包括8B和32B参数的模型。
训练硬件：8B模型使用16个NVIDIA A100 GPU，32B模型使用64个A100 GPU。
训练方法：包括初始的监督微调（SFT）和随后的GRPO（Generalized Reward-based Policy Optimization）及SFT细化。
数据集：除了通过数据合成框架生成的数据外，还包括内部积累的金融推理数据、通用训练数据、Llama-Nemotron和openthoughts的数据集。

3. 基线模型

通用模型（无推理能力）：如GPT-4o、Qwen2.5-14B-Instruct、Qwen2.5-72B-Instruct和DeepSeek-V3。
通用模型（有推理能力）：如GPT-o1、Qwen3-8B、Qwen3-32B、Qwen-QwQ-32B和DeepSeek-R1。
金融领域模型（无推理能力）：如Xuanyuan3-70B-Chat。
金融领域模型（有推理能力）：如Qwen-Fin-R1-7B、Qwen-Dianjin-R1-7B、Qwen-Dianjin-R1-32B和Xuanyuan-FinX1-Preview。

4. 主要结果

性能比较：Agentar-Fin-R1-32B在所有金融基准测试中取得了最先进的性能，平均得分为83.11，显著超过了所有基线模型。具体来说：
- Fineva：92.38
- FinEval：87.70
- FinanceIQ：86.79
- Finova：69.82
一般推理任务：
- MATH：93.80
- GPQA：68.18
Agentar-Fin-R1-8B：尽管参数较少，但仍然表现出色，平均得分为79.57。

5. 消融研究

标签系统和加权训练框架的消融研究：
- 比较了四种不同的训练策略：随机采样、标签系统采样、标签系统加权重采样和完整数据集的普通SFT训练。
- 结果表明，标签系统和加权训练框架在有限的数据预算下能够实现与完整数据集相当甚至更好的性能。
两阶段训练策略的消融研究：
- 比较了单阶段SFT训练和两阶段训练（SFT+GRPO+SFT）。
- 两阶段训练在金融基准测试中显著优于单阶段训练，证明了两阶段训练策略的有效性。

这些实验结果验证了Agentar-Fin-R1模型在金融领域的优越性能，同时证明了其在一般推理任务中的竞争力。

Q: 有什么可以进一步探索的点？

A: 论文中提出的Agentar-Fin-R1模型在金融领域取得了显著的性能提升，但仍有一些可以进一步探索的方向：

1. 实时适应机制

动态环境适应：金融市场的动态性要求模型能够实时适应新的数据和信息。可以探索如何让模型在实时环境中持续学习和更新，以保持其性能和相关性。
增量学习：研究如何在不重新训练整个模型的情况下，通过增量学习来适应新的金融工具、监管更新和市场变化。

2. 跨领域泛化能力

跨领域应用：虽然Agentar-Fin-R1在金融领域表现出色，但其在其他领域的应用潜力尚未充分探索。可以研究如何将类似的优化方法应用于其他高风险领域，如医疗、法律等。
领域迁移：探索如何将金融领域的知识和推理能力迁移到其他领域，以提高模型的泛化能力。

3. 模型解释性和透明度

可解释性：金融决策需要高度的透明度和可解释性。可以进一步研究如何提高模型的解释性，使其能够提供清晰的推理过程和决策依据。
审计和验证：开发更强大的审计和验证工具，以确保模型的决策过程符合监管要求和伦理标准。

4. 模型压缩和优化

模型压缩：尽管Agentar-Fin-R1在性能上表现出色，但其模型大小可能限制了其在资源受限环境中的应用。可以探索模型压缩技术，如量化、剪枝等，以提高模型的效率和可扩展性。
计算效率：进一步优化训练和推理过程，以减少计算资源的消耗，提高模型的响应速度和实时性。

5. 多模态数据融合

多模态输入：金融决策不仅依赖于文本数据，还可能涉及图像、图表、时间序列等多种数据类型。可以研究如何将多模态数据融合到模型中，以提供更全面的决策支持。
跨模态推理：探索如何在不同模态之间进行有效的推理和信息传递，以提高模型的综合分析能力。

6. 用户交互和反馈机制

用户反馈：研究如何将用户反馈纳入模型的训练和优化过程中，以提高模型的实用性和用户满意度。
交互式学习：开发交互式学习机制，使模型能够通过与用户的实时交互来不断改进其性能。

7. 安全性和隐私保护

数据安全：进一步加强模型在处理敏感数据时的安全性，防止数据泄露和滥用。
隐私保护：研究如何在不侵犯用户隐私的前提下，有效地利用用户数据进行模型训练和优化。

8. 长期性能评估

长期稳定性：评估模型在长期运行中的性能稳定性，特别是在面对市场波动和突发事件时的表现。
持续改进：建立长期的性能评估机制，定期更新和优化模型，以确保其持续适应金融市场的变化。

这些方向不仅可以进一步提升Agentar-Fin-R1模型的性能和应用范围，还可以为金融领域的人工智能研究提供新的思路和方法。

Q: 总结一下论文的主要内容

A: 论文《Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning》由蚂蚁集团的研究团队撰写，介绍了一种专门针对金融领域设计的大型语言模型（LLMs）——Agentar-Fin-R1系列。这些模型通过增强推理能力、可靠性和金融领域的专业性，旨在解决现有模型在金融应用中的不足。以下是论文的主要内容总结：

研究背景

现有模型的局限性：现有的大型语言模型在金融领域应用时存在不足，如缺乏领域特定的金融知识整合、容易产生幻觉（生成不符合事实的内容），以及在复杂金融场景中推理能力不足。
金融领域的要求：金融领域对模型的推理能力、可信度和特定任务适应性有严格要求，需要模型能够进行多步骤分析、风险评估和战略规划。

研究方法

专业分类指导框架：构建了一个细粒度的金融任务分类体系，将金融领域分解为精确定义的类别，作为整个开发流程的指导框架。这个分类体系从场景维度和任务属性维度对任务进行分类，确保全面覆盖金融推理场景。
多维度可信度保障：通过源可信度、合成可信度和治理可信度三个层面确保数据的可信度。源可信度通过严格的知识工程处理认证的金融数据；合成可信度通过可验证的多智能体协作框架保证数据质量；治理可信度通过全面的数据处理，包括去重、去毒和基于偏好的过滤。
高效训练优化：通过数据效率、训练效率和归因效率三个维度实现高效的模型训练。数据效率通过加权训练框架深度利用数据潜力；训练效率通过两阶段训练策略提升模型能力；归因效率通过全面的归因系统快速识别瓶颈并进行针对性改进。
Finova评估基准：提出了一个新的综合评估基准Finova，用于评估金融LLMs的实际部署能力。Finova包括Agent能力、复杂推理和安全与合规三个关键领域。

实验

数据集：使用了包括Finova在内的多个金融基准测试和一般推理任务的数据集，如Fineva、FinEval、FinanceIQ、MATH和GPQA。
模型参数：Agentar-Fin-R1系列包括8B和32B参数的模型。
训练硬件：8B模型使用16个NVIDIA A100 GPU，32B模型使用64个A100 GPU。
训练方法：包括初始的监督微调（SFT）和随后的GRPO（Generalized Reward-based Policy Optimization）及SFT细化。
基线模型：与多种通用模型和金融领域模型进行了比较，包括GPT-4o、Qwen3、DeepSeek-R1等。

关键结论

性能提升：Agentar-Fin-R1-32B在所有金融基准测试中取得了最先进的性能，平均得分为83.11，显著超过了所有基线模型。在一般推理任务中也表现出色，如MATH任务中得分为93.80，GPQA任务中得分为68.18。
数据效率：通过标签系统和加权训练框架，即使在有限的数据预算下，模型也能实现与完整数据集相当甚至更好的性能。
两阶段训练策略：两阶段训练策略在金融基准测试中显著优于单阶段训练，证明了其有效性。

未来研究方向

实时适应机制：研究如何让模型在实时环境中持续学习和更新，以适应金融市场的动态变化。
跨领域泛化能力：探索如何将类似的优化方法应用于其他高风险领域，如医疗、法律等。
模型解释性和透明度：提高模型的解释性，使其能够提供清晰的推理过程和决策依据。
模型压缩和优化：通过模型压缩技术提高模型的效率和可扩展性。
多模态数据融合：研究如何将多模态数据融合到模型中，以提供更全面的决策支持。

总的来说，论文提出了一种针对金融领域优化的大型语言模型，通过专业的分类指导框架、多维度的可信度保障和高效的训练优化方法，显著提升了模型在金融任务中的性能和可信度。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yanjun Zheng, Xiyang Du, Longfei Liao, Xiaoke Zhao, Zhaowen Zhou, Bo Zhang, Jiawei Liu, Xiang Qi, Zhe Li, Zhiqiang Zhang, Wei Wang, Peng Zhang

Categories: cs.CL, cs.LG

PDF URL: https://arxiv.org/pdf/2507.16802v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16802v2

Published: 2025-07-22T17:52:16Z

Understanding how 5’ untranslated regions (5’UTRs) regulate mRNA translation is critical for controlling protein expression and designing effective therapeutic mRNAs. While recent deep learning models have shown promise in predicting translational efficiency from 5’UTR sequences, most are constrained by fixed input lengths and limited interpretability. We introduce UTR-STCNet, a Transformer-based architecture for flexible and biologically grounded modeling of variable-length 5’UTRs. UTR-STCNet integrates a Saliency-Aware Token Clustering (SATC) module that iteratively aggregates nucleotide tokens into multi-scale, semantically meaningful units based on saliency scores. A Saliency-Guided Transformer (SGT) block then captures both local and distal regulatory dependencies using a lightweight attention mechanism. This combined architecture achieves efficient and interpretable modeling without input truncation or increased computational cost. Evaluated across three benchmark datasets, UTR-STCNet consistently outperforms state-of-the-art baselines in predicting mean ribosome load (MRL), a key proxy for translational efficiency. Moreover, the model recovers known functional elements such as upstream AUGs and Kozak motifs, highlighting its potential for mechanistic insight into translation regulation.

中文摘要

理解5’非翻译区（5’UTRs）如何调节mRNA翻译对控制蛋白表达和设计有效的治疗性mRNA至关重要。尽管最近的深度学习模型在从5’UTR序列预测翻译效率方面显示出前景，但大多数受到固定输入长度和有限解释性的限制。我们推出了UTR-STCNet，这是一种基于变换器的架构，用于灵活和生物学上合理的建模可变长度的5’UTRs。UTR-STCNet集成了一个关注显著性标记聚类（SATC）模块，该模块根据显著性分数迭代聚合核苷酸标记成多尺度、具有语义意义的单位。然后，显著性引导变换器（SGT）块利用轻量级注意力机制捕获局部和远程调控依赖关系。这种组合架构实现了高效且可解释的建模，无需输入截断或增加计算成本。在三个基准数据集上的评估显示，UTR-STCNet在预测平均核糖体负荷（MRL）方面始终优于先进基线，MRL是翻译效率的一个关键代理。此外，该模型恢复了已知功能元素，如上游AUG和Kozak基序，突显了其在翻译调节机制洞察方面的潜力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何从5’非翻译区（5’UTR）序列预测mRNA翻译效率的问题。具体来说，它旨在克服现有深度学习模型在处理5’UTR序列时面临的两个关键限制：

固定输入长度的限制：大多数现有模型只能处理固定长度的输入，无法直接应用于长度多样的天然5’UTR序列。这导致在实际应用中需要对序列进行截断，可能会丢失重要的调控元素。
模型可解释性的不足：尽管一些模型引入了注意力机制或结构先验，但通常无法将功能结果归因于特定的序列基序（如上游AUG（uAUG）或Kozak元件），限制了它们在机制推断和变异优先级排序中的应用。

此外，现有模型在多任务设置中的可扩展性以及在资源受限环境中的效率也有待提高，这限制了它们在复杂生物系统和实际部署场景中的应用。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

自监督RNA序列表示学习

早期方法：依赖手工制作的k-mer特征或浅层编码器，缺乏建模长程依赖和复杂结构信号的能力。
RNA特定语言模型：
- RNA-BERT：在大规模转录组数据集上训练，以产生上下文化的RNA嵌入。
- RNA-FM：同样在大规模转录组数据集上训练，显著提高了剪接信号、二级结构上下文和5’UTR基序的建模能力。
- mRNA2vec：提出了一种联合编码策略，通过整合上下文和结构线索，对5’UTR和编码区进行编码，实现对mRNA分子的整体建模。
通用上下文学习框架：如data2vec，被适应到RNA领域，提供了一个统一的模态不可知的表示空间。

监督深度学习用于5’UTR基础翻译建模

Optimus：利用全局池化卷积网络（CNN）在突变数据上训练，从固定长度序列预测平均核糖体负载（MRL），捕捉序列变异的功能影响。
FramePool：扩展了Optimus的方法，采用长度不可知的CNN架构，实现逐帧核糖体占用预测，提供对起始动态的细粒度见解。
MTrans：应用多任务框架，共享CNN编码器和任务特定的GRU，以改善跨物种和实验条件的泛化能力。
UTR-LM：在大规模5’UTR序列集合上预训练基于Transformer的模型，学习可转移的上下文化嵌入，用于下游翻译相关任务。

这些相关研究为5’UTR序列的翻译调控建模提供了基础，但仍然存在挑战，特别是在捕捉可解释的、基序感知的依赖关系以及在不牺牲生物学相关性的情况下

Authors: Yuxi Lin, Yaxue Fang, Zehong Zhang, Zhouwu Liu, Siyun Zhong, Fulong Yu

Categories: q-bio.QM, cs.AI

PDF URL: https://arxiv.org/pdf/2507.16801v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16801v1

Published: 2025-07-22T17:51:13Z

9. Gemini 2.5 Pro Capable of Winning Gold at IMO 2025

The International Mathematical Olympiad (IMO) poses uniquely challenging problems requiring deep insight, creativity, and formal reasoning. While Large Language Models (LLMs) perform well on mathematical benchmarks like AIME, they struggle with Olympiad-level tasks. We use Google’s Gemini 2.5 Pro on the newly released IMO 2025 problems, avoiding data contamination. Using a self-verification pipeline with careful prompt design, 5 (out of 6) problems are solved correctly (up to a caveat discussed below). This result underscores the importance of developing optimal strategies to harness the full potential of powerful LLMs for complex reasoning tasks.

中文摘要

国际数学奥林匹克（IMO）提出了独特的挑战性问题，需要深刻的洞察力、创造力和严谨的推理能力。尽管大型语言模型（LLMs）在像AIME这样的数学基准测试中表现良好，但在奥林匹克水平的任务上却困难重重。我们使用谷歌的Gemini 2.5 Pro，处理新发布的IMO 2025问题，避免数据污染。通过小心的提示设计，我们的自验证流程使得6道题中有5道题被正确解决（具体的警告将在下文讨论）。这一结果强调了制定最佳策略以充分利用强大的LLMs在复杂推理任务中的潜力的重要性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何利用大型语言模型（LLMs）解决国际数学奥林匹克竞赛（IMO）级别的数学问题。具体而言，论文的目标是探索和展示如何通过优化模型的使用方式，使 Google 的 Gemini 2.5 Pro 模型能够在 IMO 2025 的问题上取得优异表现。论文的核心目标是解决以下问题：

IMO 问题的复杂性：IMO 的问题需要深刻的洞察力、创造力和形式化推理能力，这超出了传统数学练习的范畴。这些题目要求参赛者能够综合运用多种数学概念，并以创新的方式解决问题。这种对高级推理能力的要求使得 IMO 成为评估人工智能（特别是 LLMs）在复杂逻辑推理方面能力的重要基准。
LLMs 在高级数学任务上的局限性：尽管 LLMs 在一些数学基准测试（如 AIME）上表现出色，但在解决 IMO 级别的问题时却面临挑战。这些模型在处理需要多步推理、抽象和创新的问题时，往往会出现逻辑错误或缺乏创造性见解。论文旨在通过特定的方法设计和提示工程，克服这些局限性，使 Gemini 2.5 Pro 能够成功解决 IMO 2025 的问题。
数据污染问题：在评估 LLMs 时，一个常见的问题是测试数据可能已经包含在模型的预训练语料库中，从而导致性能评估结果不准确。为了避免这种情况，论文使用了刚刚发布的 IMO 2025 问题进行评估，确保这些问题在模型预训练时未被接触过，从而提供了一个纯净的测试环境，真实地反映模型的推理能力。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

研究内容

10. Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent

中文摘要

大型语言模型（LLMs）的快速发展使得角色扮演语言代理在各种应用中展现出了显著的潜力。然而，仅依靠提示和上下文输入往往不足以实现对特定角色的深度沉浸，尤其是对知名的虚构或公众人物。另一方面，基于微调的方法由于数据收集和训练所需计算资源的挑战而面临限制，从而限制了它们更广泛的适用性。为了解决这些问题，我们提出了测试阶段匹配（TTM）框架，这是一种无需训练的角色扮演框架，通过测试时的扩展和上下文工程实现。TTM使用LLM代理自动将角色的特征解耦为个性、记忆和语言风格。我们的框架包括一个结构化的三阶段生成管道，利用这些特征进行受控的角色扮演。它实现了高保真度的角色扮演表现，同时也能够在多样的语言风格之间实现无缝组合，甚至个人性格和记忆的变化。我们通过人类评估来评估我们的框架，结果表明我们的方法在生成富有表现力和风格一致的角色对话方面取得了卓越的表现。

LLM Analysis

Q: 这篇论文试图解决什么问题？

角色沉浸不足：仅依靠提示（prompts）和上下文输入通常不足以实现对特定角色（尤其是知名虚构角色或公众人物）的深度沉浸。角色的个性、记忆和语言风格等特征需要更细致的建模和控制，才能使角色扮演更加真实和一致。
参数训练方法的局限性：基于微调（fine-tuning）的方法由于数据收集困难和训练所需的大量计算资源，限制了其广泛应用。此外，这些方法通常将角色的个性、记忆和语言风格等特征集成在一起，缺乏对这些特征的解耦和独立控制，从而降低了角色扮演的灵活性和可定制性。

Q: 有哪些相关研究？

A: 论文中提到了多个与角色扮演语言代理（RPLA）和文本风格转换（text-style transfer）相关的研究。以下是主要的相关研究：

角色扮演语言代理（RPLA）相关研究

数据集构建：研究者们探索了多种构建高质量RPLA数据集的方法，包括手动创建（Zhou et al. 2024）、自动提取技术（Li et al. 2023a; Wang et al. 2025）以及基于LLM的合成数据生成（Zhou et al. 2024; Wang et al. 2024a; Lu et al. 2024; Li et al. 2024）。
参数化训练：许多研究通过参数化训练策略来提升RPLA的性能和保真度，这些策略通常以结构化的角色档案作为基础数据来指导对话生成（Zhou et al. 2024; Wang et al. 2024a; Lu et al. 2024; Yang et al. 2024; Wang et al. 2025）。此外，一些框架整合了历史对话和体验记忆以保持对话的连续性（Li et al. 2023b; Wang et al. 2024a; Li et al. 2024; Wang et al. 2025），还有研究引入了叙事元素如情节和世界观构建，以使互动置于连贯的虚构或现实场景中（Shao et al. 2023; Yang et al. 2024; Wang et al. 2025）。
非参数化提示：另一条研究路线是通过非参数化提示技术实现RPLA，这些技术旨在无需额外训练即可实现角色一致的行为，主要包括提示工程、上下文学习和检索增强生成（Tu et al. 2023; Li et al. 2023a; Wang et al. 2024a; Huang et al. 2024）。
评估：与RPLA构建和训练的进步相平行，一些研究（Tu et al. 2024; Wang et al. 2024b; Lu et al. 2024; Dai et al. 2025）专注于开发自动评估框架，以评估特定角色中RPLA的性能和保真度。然而，专家人工评估仍然是评估角色扮演表现最权威和有说服力的衡量标准。

文本风格转换相关研究

文本风格转换的挑战：文本风格转换的挑战在于缺乏平行语料库，使得直接应用监督学习方法变得困难（Dai et al. 2019）。此外，风格转换的质量本质上难以量化和客观评估。
风格与内容的解耦：以往的研究主要集中在文本生成中解耦风格和内容（Lee et al. 2021; Zhu et al. 2023），但在转换过程中往往难以保留原始语义内容。
端到端模型：更近期的方法探索了用于文本风格转换的端到端模型（Dai et al. 2019; Lyu et al. 2023; Roy et al. 2023; Tao et al. 2024）。例如，Style Transformer（Dai et al. 2019）不对源句的潜在表示施加先验假设，而是使用额外的判别器网络提供显式的风格监督。Roy et al. (2023)通过风格移除和少样本上下文学习实现风格转换。CAT-LLM（Tao et al. 2024）引入了一个可插入的文本风格定义模块，从输入文本中提取风格特征，通过LLM实现零样本风格转换。

这些相关研究为本文提出的Test-Time-Matching（TTM）框架提供了背景和基础，TTM旨在通过测试时缩放和上下文工程来实现高保真度的角色扮演性能。

Q: 论文如何解决这个问题？

1. 自动提取和分析角色相关特征

TTM框架首先从文本输入中自动提取和分析角色的个性、记忆和语言风格。具体步骤如下：

个性分析（Personality Analysis）：通过分析与目标角色相关的文本片段，使用LLM生成角色的个性特征描述，并将这些描述综合成一个全面的个性档案。为了保持描述的多样性和具体性，使用精心设计的提示来约束LLM的输出。
记忆机制（Memory Mechanism）：将对话的即时历史视为短期记忆，捕捉会话内的上下文。对于长期记忆，从文本片段中总结角色的背景信息，并构建一个基于图的向量数据库，用于编码和检索角色的细粒度个人特质、经历和关系信息。

2. 三阶段生成流程

TTM框架通过一个结构化的三阶段生成流程来生成高保真度的角色扮演对话：

第一阶段：生成无风格响应（Styleless Response Generation）：基于角色的个性和背景，生成一个无风格的响应。这个响应仅包含角色的核心行为和倾向特征，独立于语言风格。
第二阶段：记忆检查响应（Memory-checked Response Generation）：使用检索增强生成（RAG）技术，根据第一阶段生成的无风格响应，从外部数据库中检索相关知识，以纠正事实错误或添加上下文相关的细节。通过查询重写技术，提高检索的准确性和效率。
第三阶段：语言风格注入（Linguistic Style Injection）：将角色的语言风格整合到第二阶段生成的记忆检查响应中。通过检索角色历史对话中的语句，并结合逐步匹配（progressive matching）技术，将目标角色的语言风格应用于响应，使其与角色的语言习惯保持一致。

3. 测试时缩放和上下文工程

TTM框架通过测试时缩放和上下文工程来增强角色扮演的性能，而无需对模型进行微调。具体方法如下：

测试时缩放（Test-Time Scaling）：在测试阶段，通过上下文工程和检索增强生成技术，动态调整模型的输出，使其更符合目标角色的特征。
上下文工程（Context Engineering）：通过精心设计的提示和上下文输入，引导LLM生成更符合角色特征的响应。例如，在生成无风格响应时，将角色的个性和背景信息作为系统提示提供给LLM。

4. 评估和优化

TTM框架通过人类评估和自动评估方法来验证其有效性。具体评估指标包括：

角色一致性（Consistency of Persona, C.P.）：评估代理的对话风格和行为特征是否与所扮演的角色一致。
知识准确性（Accuracy of Knowledge, A.K.）：评估代理是否展示了准确且与角色背景相关的知识，包括正确表达相关信息以及避免与角色已知属性或设置不一致的陈述。
对话质量（Quality of Conversation, Q.C.）：评估对话的整体质量，包括流畅性、参与度以及评估者是否愿意继续与代理进行有意义的深入对话。

通过这些方法，TTM框架能够显著提升LLM在角色扮演任务中的表现，生成更具表现力和风格一致性的角色对话。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估Test-Time-Matching（TTM）框架在角色扮演任务中的性能：

实验设置

角色选择：从经典中文和英文小说中提取角色，包括《红楼梦》中的林黛玉、《天龙八部》中的段誉和虚竹，以及《哈利·波特》中的邓布利多和赫敏，还有《傲慢与偏见》中的伊丽莎白。
对话轮数：为每个角色进行4-6轮对话。
样本数量：每个角色和方法生成一个对话样本。
评估维度：从三个维度评估对话质量：
- 角色一致性（Consistency of Persona, C.P.）：评估对话风格和行为特征是否与角色一致。
- 知识准确性（Accuracy of Knowledge, A.K.）：评估对话中角色相关知识的准确性和上下文适应性。
- 对话质量（Quality of Conversation, Q.C.）：评估对话的整体质量，包括流畅性、参与度和是否愿意继续对话。

评估方法

人类评估：包括普通参与者和语言学专家的评估。共有12名普通参与者和5名语言学专家参与评估，每位评估者需要花费超过50分钟完成评估。
LLM-as-Judge：使用GPT-4.1作为评估模型，通过比较两个对话样本并给出评分来评估对话质量。

对比方法

RPLA方法：
- ChatHaruhi：基于Qwen-3-32B的角色扮演方法。
- CoSER：基于LLaMA-3.1-70B的角色扮演方法。
通用LLM：
- GPT-4o：基于OpenAI的GPT-4o模型。
- Gemini-2.5-pro：基于Google的Gemini-2.5-pro模型。
- Qwen-3-235B-A22B：基于Qwen-3的模型。
- Qwen-3-32B：基于Qwen-3的模型。

实验结果

人类评估结果：TTM在角色一致性（C.P.）、知识准确性（A.K.）和对话质量（Q.C.）三个维度上均表现出色，尤其是在角色一致性和知识准确性方面，显著优于其他方法。具体评分如下表所示：

方法

基础模型

LLM-as-Judge

普通参与者

语言学专家

ChatHaruhi

Qwen-3-32B

8.64/8.73/8.61

6.13/6.42/6.04

5.80/7.35/5.85

CoSER

LLaMA-3.1-70B

7.47/8.47/7.56

6.31/6.67/6.44

6.07/7.47/5.87

GPT-4o

7.79/8.48/7.89

5.79/6.15/5.79

4.97/7.07/5.27

Gemini-2.5-pro

9.10/9.53/9.15

6.99/7.38/6.99

6.10/7.47/6.40

Qwen-3-235B-A22B

8.63/8.89/8.68

6.38/6.56/6.36

5.90/7.37/6.37

Qwen-3-32B

8.03/8.47/8.21

6.50/6.57/6.43

5.43/7.37/6.00

TTM (Ours)

Qwen-3-32B

9.21/9.56/9.27

7.26/7.49/7.07

6.43/7.60/6.30

LLM-as-Judge结果：使用GPT-4.1作为评估模型，TTM在所有维度上均获得了较高的评分，与人类评估结果一致。具体评分如下表所示：

方法

基础模型

LLM-as-Judge

ChatHaruhi

Qwen-3-32B

8.64/8.73/8.61

CoSER

LLaMA-3.1-70B

7.47/8.47/7.56

GPT-4o

7.79/8.48/7.89

Gemini-2.5-pro

9.10/9.53/9.15

Qwen-3-235B-A22B

8.63/8.89/8.68

Qwen-3-32B

8.03/8.47/8.21

TTM (Ours)

Qwen-3-32B

9.21/9.56/9.27

结论

Q: 有什么可以进一步探索的点？

1. 计算效率优化

三阶段生成流程的优化：TTM的三阶段生成流程虽然能够生成高质量的角色对话，但会增加测试时的计算成本。可以探索更高效的生成流程，例如通过模型压缩、优化检索算法或引入并行处理来减少计算时间和资源消耗。
动态调整生成阶段：根据对话的具体需求动态调整是否需要进行记忆检查或语言风格注入，以避免不必要的计算开销。

2. 信息提取和分析的准确性

自动提取信息的准确性：虽然TTM能够自动提取角色的个性、记忆和语言风格，但提取的信息可能存在不准确或不完整的描述。可以进一步研究如何提高信息提取的准确性和完整性，例如通过引入更复杂的自然语言处理技术或使用多模态数据来辅助提取。
手动调整和验证：提供更便捷的工具和方法，让用户能够手动调整和验证自动提取的角色特征，以确保生成的角色对话更符合用户的期望。

3. 语言风格的进一步优化

风格一致性：尽管TTM在语言风格的一致性上取得了较好的效果，但在某些情况下，生成的对话可能仍然存在风格不一致的问题。可以进一步研究如何更好地保持整个对话过程中的语言风格一致性，例如通过引入更细粒度的风格特征或使用风格一致性检测机制。
风格多样性：探索如何在保持角色语言风格一致性的同时，增加对话的风格多样性，使对话更加自然和生动。

4. 角色记忆的管理

记忆数据库的优化：TTM使用了一个基于图的向量数据库来存储角色的长期记忆，但这种数据库的构建和维护成本较高。可以研究更高效的记忆数据库架构，例如通过知识图谱或分布式存储来优化记忆管理。
记忆的时效性和动态更新：角色的记忆应该是动态更新的，以反映角色在对话过程中的经历和变化。可以探索如何实现角色记忆的时效性和动态更新，使角色能够根据最新的对话内容调整其行为和反应。

5. 多模态角色扮演

引入多模态信息：目前TTM主要依赖文本信息进行角色扮演，可以探索如何引入多模态信息（如图像、音频等）来丰富角色的表达和互动体验。例如，通过分析角色的外观或语音特征来进一步优化角色的语言风格和行为。
多模态对话生成：研究如何生成包含多种模态的角色对话，使角色不仅能够通过文字表达自己，还能通过语音、表情和动作等方式与用户进行互动。

6. 跨语言和跨文化角色扮演

跨语言角色扮演：TTM目前主要针对特定语言的角色进行研究，可以探索如何实现跨语言的角色扮演，使角色能够与不同语言背景的用户进行互动。
跨文化角色扮演：研究如何在角色扮演中更好地体现跨文化差异，使角色能够适应不同文化背景下的对话场景和行为规范。

7. 伦理和社会影响

身份表示和偏见：角色扮演可能会涉及对特定身份或群体的表示，需要进一步研究如何避免偏见和刻板印象的产生，确保角色的表示更加公正和包容。
用户行为影响：角色扮演可能会对用户的行为和态度产生影响，需要进一步研究如何通过角色扮演促进积极的用户行为，同时避免潜在的负面影响。
有害内容生成：研究如何防止角色扮演生成有害或不适当的内容，确保对话的安全性和合规性。

8. 应用扩展

商业应用：探索TTM在商业场景中的应用，如虚拟客服、智能助手、教育工具等，研究如何根据不同的商业需求定制角色扮演功能。
娱乐应用：研究TTM在游戏、影视等娱乐领域中的应用，例如开发更具沉浸感的角色扮演游戏或虚拟角色互动体验。

通过进一步探索这些方向，可以进一步提升TTM框架的性能和应用范围，为角色扮演语言代理的发展提供更多的可能性。

Q: 总结一下论文的主要内容

Authors: Xiaoyu Zhan, Xinyu Fu, Hao Sun, Yuanqi Li, Jie Guo, Yanwen Guo

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.16799v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16799v2

Published: 2025-07-22T17:47:44Z

Evaluation Domain Papers

1. ChatChecker: A Framework for Dialogue System Testing and Evaluation Through Non-cooperative User Simulation

While modern dialogue systems heavily rely on large language models (LLMs), their implementation often goes beyond pure LLM interaction. Developers integrate multiple LLMs, external tools, and databases. Therefore, assessment of the underlying LLM alone does not suffice, and the dialogue systems must be tested and evaluated as a whole. However, this remains a major challenge. With most previous work focusing on turn-level analysis, less attention has been paid to integrated dialogue-level quality assurance. To address this, we present ChatChecker, a framework for automated evaluation and testing of complex dialogue systems. ChatChecker uses LLMs to simulate diverse user interactions, identify dialogue breakdowns, and evaluate quality. Compared to previous approaches, our design reduces setup effort and is generalizable, as it does not require reference dialogues and is decoupled from the implementation of the target dialogue system. We improve breakdown detection performance over a prior LLM-based approach by including an error taxonomy in the prompt. Additionally, we propose a novel non-cooperative user simulator based on challenging personas that uncovers weaknesses in target dialogue systems more effectively. Through this, ChatChecker contributes to thorough and scalable testing. This enables both researchers and practitioners to accelerate the development of robust dialogue systems.

中文摘要

虽然现代对话系统严重依赖大型语言模型（LLM），但它们的实施往往超出了纯粹的 LLM 交互。开发人员将多个 LLM、外部工具和数据库整合在一起。因此，仅评估基础 LLM 是不够的，必须将对话系统作为一个整体进行测试和评估。然而，这仍然是一个重大挑战。大多数以前的工作集中在回合级分析上，对集成对话级质量保证的关注较少。为了解决这个问题，我们提出了 ChatChecker，一种用于复杂对话系统的自动评估和测试框架。ChatChecker 使用 LLM 模拟多样的用户交互，识别对话崩溃，并评估质量。与之前的方法相比，我们的设计减少了设置工作量，并且是可推广的，因为它不需要参考对话并且与目标对话系统的实现解耦。通过在提示中加入错误分类，我们提高了崩溃检测性能，超越了先前基于 LLM 的方法。此外，我们提出了一种基于具有挑战性角色的新的非合作用户模拟器，更有效地揭示目标对话系统的弱点。通过这一点，ChatChecker 促进了全面且可扩展的测试。这使得研究人员和从业者都能够加速开发稳健的对话系统。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决现代对话系统（dialogue systems）的测试和评估问题。具体来说，它关注以下几个关键问题：

整体系统评估的挑战：现代对话系统通常不仅仅依赖于大型语言模型（LLMs），还集成了多个LLMs、外部工具和数据库。因此，仅仅评估底层的LLM是不够的，需要对整个对话系统进行测试和评估。然而，目前这仍然是一个重大挑战，因为大多数以往的研究都集中在单轮（turn-level）分析上，而对整体对话级别的质量保证关注较少。
对话系统测试的局限性：现有的对话系统测试方法存在一些局限性，例如依赖于现有的参考对话数据集、与目标对话系统的实现紧密耦合，以及主要关注合作性用户（cooperative users）的模拟。这些局限性限制了测试的广泛适用性和对系统弱点的发现能力。
对话中断（breakdown）检测的改进：在对话系统测试中，检测对话中断是至关重要的。虽然已有研究利用LLMs进行对话中断检测，但这些方法在性能上仍有提升空间，特别是在错误类型分类方面。
非合作性用户模拟的缺失：现有的用户模拟方法主要关注合作性用户行为，而缺乏对非合作性（non-cooperative）或具有挑战性的用户行为的模拟。这种非合作性用户模拟对于发现对话系统在压力下的弱点至关重要。

为了解决这些问题，论文提出了一个名为ChatChecker的框架，用于自动化评估和测试复杂的对话系统。ChatChecker通过模拟多样化的用户互动、识别对话中断，并评估对话质量，旨在减少设置工作量，并且不依赖于参考对话或目标对话系统的具体实现。

Q: 有哪些相关研究？

A: 论文中提到了多个与对话系统测试和评估相关的研究，这些研究为ChatChecker框架的提出提供了背景和基础。以下是主要的相关研究：

对话系统评估（Dialogue System Evaluation）

自动评估方法：传统的参考基础度量（如BLEU）已被证明对对话评估不够充分。最近的研究利用LLMs进行自动评分，例如G-EVAL展示了与人类判断更好的相关性。
- G-EVAL：由Liu等人（2023）提出，利用LLMs进行自然语言生成（NLG）评估，与人类判断有较好的一致性。
- 多语言对话评估：Mendonça等人（2023）表明，基于LLM的评分在多语言对话评估中达到了最先进的性能。
人类评估：尽管通过众包平台进行人类评估很常见，但其成本和时间要求促使了对自动化方法的需求。

对话中断检测（Dialogue Breakdown Detection）

中断定义与数据集：Martinovsky和Traum（2003）以及Higashinaka等人（2015）定义了对话中断，并提出了相关的数据集和挑战。
- Dialogue Breakdown Detection Challenge (DBDC)：Higashinaka等人（2016）提供了标记为非中断（NB）、可能中断（PB）或中断（B）的数据集，用于对话中断检测的研究。
错误分类：Higashinaka等人（2021）开发了一个全面的错误分类体系，区分了17种会话错误类型，覆盖了话语、回应、上下文和社会层面。
LLMs在中断检测中的应用：Ghassel等人（2024）报告称GPT-4在中断检测中取得了有竞争力的结果，确立了LLMs作为此类任务的有效工具。

用户模拟（User Simulation）

早期方法：早期的用户模拟方法（如ABUS）侧重于语义层面的模拟。
基于LLMs的用户模拟：最近的方法直接使用LLMs生成用户话语。
- AutoTOD用户模拟器：Xu等人（2024）为AutoTOD系统构建了一个用户模拟器，通过在目标对话系统上进行条件设置，基于从相应基准数据集中提取的目标和对话进行模拟。
- 其他基于LLMs的模拟器：Terragni等人（2023）和Davidson等人（2023）也提出了基于LLMs的用户模拟方法，但这些方法存在依赖现有数据集、与目标对话系统紧密耦合以及主要模拟合作性用户行为等局限性。

这些相关研究为ChatChecker框架的提出提供了理论和实践基础，ChatChecker旨在克服现有方法的局限性，提供一个更全面、自动化且可扩展的对话系统测试和评估解决方案。

Q: 论文如何解决这个问题？

A: 论文提出了一个名为 ChatChecker 的框架来解决对话系统的测试和评估问题。ChatChecker 通过以下几个关键组件和方法来实现其目标：

1. ChatChecker 框架概述

ChatChecker 采用模块化架构，包含四个主要组件，用于端到端的对话系统评估：

Persona Generator（人物角色生成器）：根据对话系统描述生成合作型标准用户和非合作型挑战用户。
User Simulation（用户模拟）：基于不同的人物角色生成多样化的对话。
Breakdown Detector（中断检测器）：检查每个系统回应，检测中断并使用扩展的错误分类体系进行分类。
Dialogue Rater（对话评分器）：从多个质量维度评估对话，提供可解释的反馈。

2. 中断检测器（Breakdown Detector）

改进的LLM方法：基于Ghassel等人（2024）的工作，ChatChecker的中断检测器在提示（prompt）中加入了Higashinaka等人（2021）的错误分类体系，从而提高了检测性能。
扩展的错误分类体系：除了原有的会话错误类型，还增加了针对任务导向对话系统的额外错误类型，如任务执行失败、信息更新失败等。
结构化输出：使用GPT-4o生成结构化输出，包括推理、决策、评分和适用的错误类型，以便更好地理解和解释中断。

3. 对话评分器（Dialogue Rater）

多维度评估：根据对话系统类型定制多个评估维度，除了总体评分外，还包括适当性、自然性、连贯性、喜爱度和信息量等维度。
校准评分：为了避免过度评分的倾向，对评分进行了校准，确保评分更接近人类评价的标准。
逐步推理：评分过程中包含逐步推理，以支持开发人员对结果的解释。

4. 用户模拟（User Simulation）

人物角色生成：开发人员可以自定义人物角色，或者使用ChatChecker的人物角色生成器来生成包含人口统计细节、个性特征、互动风格和特定对话任务的用户档案。
标准与挑战人物角色：标准人物角色侧重于典型使用场景，而挑战人物角色则强调边缘案例，以测试聊天机器人的极限，同时保持类似人类的行为。
迭代生成：使用GPT-4o迭代生成下一个用户话语，模拟真实的人类对话。

5. 非合作性用户模拟（Non-cooperative User Simulation）

挑战性人物角色：ChatChecker提出了一个基于挑战性人物角色的非合作性用户模拟器（Chall-PerSim），这些人物角色通过表现出非合作性行为（如不礼貌、不耐烦、含糊其辞等）来测试对话系统的极限。
有效性验证：通过实验验证，Chall-PerSim比合作性模拟器更有效地触发对话中断和系统错误，从而帮助发现对话系统在压力下的弱点。

6. 实验验证

中断检测性能：使用DBDC5数据集评估中断检测组件，结果表明ChatChecker在准确率、召回率和F1分数上优于Ghassel等人（2024）的方法。
错误分类性能：在DBDC5的错误分类任务上，ChatChecker展示了具有挑战性的任务性能，提出了新的评估指标（如超集匹配和部分匹配）。
对话评分性能：通过与人类评分的相关性分析，验证了对话评分器的性能，特别是在开放域闲聊（FED-Dial）数据集上表现出较强的正相关性。
用户模拟效果：通过对话长度、回合长度和词汇多样性等指标评估用户模拟的真实性，并通过中断数量和系统崩溃次数评估其在引发错误方面的有效性。

7. 总结

ChatChecker通过整合用户模拟、中断检测和对话评分，提供了一个全面的对话系统测试和评估框架。它减少了设置工作量，不依赖于参考对话或目标对话系统的具体实现，并通过非合作性用户模拟更有效地揭示系统弱点。这使得研究人员和实践者能够加速开发更健壮的对话系统。

Q: 论文做了哪些实验？

A: 论文中进行了多个实验来验证ChatChecker框架的不同组件的性能和有效性。以下是主要的实验内容和结果：

1. 中断检测（Breakdown Detection）

数据集：使用了DBDC5（第五版对话中断检测挑战）的数据集，包括英语和日语的对话数据。
评估指标：准确率（Accuracy）、精确率（Precision）、召回率（Recall）和F1分数。
实验结果：
- ChatChecker的中断检测器在英语数据集上达到了0.764的F1分数，在日语数据集上达到了0.832的F1分数，优于Ghassel等人（2024）的方法。
- 与S2T2系统（Lin和Ng，2022）相比，虽然直接比较存在困难，但ChatChecker的性能具有竞争力。

2. 错误分类（Error Type Classification）

数据集：使用了DBDC5提供的日语数据集，其中每个中断的系统回应都被标注了相应的错误类型。
评估指标：精确匹配（Exact Match, EM）、超集匹配（Superset Match, SM）、部分匹配（Partial Match, PM）和平均F1分数。
实验结果：
- ChatChecker在错误分类任务上的表现如下表所示：
  - EM: 18.8%
  - SM: 45.8%
  - PM: 53.4%
  - 平均F1: 40.5%
- 这些结果表明错误分类任务具有挑战性，但ChatChecker提供了一个基线性能。

3. 对话评分（Dialogue Rating）

数据集：使用了FED-Dial（Mehri和Eskenazi，2020）数据集和USS（Sun等人，2021）数据集的三个子集（MultiWOZ、SGD和JDDC）。
评估指标：Spearman相关系数，用于衡量ChatChecker的零样本评分与人类评分之间的相关性。
实验结果：
- 在FED-Dial数据集上，相关系数为0.683，表明ChatChecker与人类评分有很强的正相关性。
- 在USS的三个子集上，相关系数较弱，范围在0.222到0.268之间，但仍为正相关。

4. 用户模拟（User Simulation）

目标对话系统：使用了两个目标对话系统进行评估：
- AutoTOD（Xu等人，2024）：基于单个LLM的任务导向对话系统，用于MultiWOZ 2.0和SGD基准测试。
- Goal-Setting Assistant：一个内部开发的系统，用于评估在较长的状态依赖对话中的表现。
评估指标：
- 对话长度（ST/D）、用户回合长度（|UT|）、系统回合长度（|ST|）和文本词汇多样性（MTLD）。
- 对话中断数量（#B）、平均每回合中断数（B/ST）、独特错误类型数量（#Unique B）和对话系统崩溃次数（#Crash）。
实验结果：
- ChatChecker的用户模拟器生成的对话在长度和词汇多样性方面与人类用户相似，且比AutoTOD的用户模拟器（AutoTOD-Sim）更具多样性。
- 非合作性挑战人物角色模拟器（Chall-PerSim）比合作性模拟器更有效地触发对话中断和系统错误，导致目标对话系统的整体评分较低。

5. 总结

这些实验结果表明，ChatChecker框架的各个组件在不同的任务和数据集上表现良好，验证了其在对话系统测试和评估中的有效性和潜力。特别是非合作性用户模拟器在揭示对话系统弱点方面表现出色，为开发更健壮的对话系统提供了有力的支持。

Q: 有什么可以进一步探索的点？

Authors: Roman Mayr, Michel Schimpf, Thomas Bohné

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2507.16792v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16792v1

Published: 2025-07-22T17:40:34Z

中文摘要

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是现有的人工智能安全基准测试（benchmarks）在评估人工智能（AI）系统时忽视了与生物学和经济学相关的多目标、多智能体对齐问题。具体来说，论文指出许多现有的基准测试主要关注最大化无界奖励，而忽略了现实世界中的约束条件和多目标平衡的复杂性。这些问题在生物学和经济学中是至关重要的，因为它们描述了我们的需求和偏好。

论文的主要目标是引入一系列新的多目标、多智能体对齐基准测试，这些测试强调以下主题：

稳态（Homeostasis）和有界目标（Bounded Objectives）：智能体需要维持某些内部指标（如食物/水分水平）在安全范围内，避免不足和过量。
边际收益递减（Diminishing Returns）和多目标平衡：智能体需要平衡多个目标，不能仅仅最大化一个目标而忽视其他目标。
安全目标与性能目标的区分：安全目标通常是有限的，而性能目标可能是无限的，但性能目标的无限得分不应压倒安全目标。
可持续性（Sustainability）：环境中的资源可以再生，但如果消耗过快，资源将耗尽，无法再补充。
资源共享（Resource Sharing）：智能体不应贪婪，应允许其他智能体访问资源。

通过这些基准测试，论文旨在展示智能体在多目标环境中的关键挑战，如无界最大化稳态目标、过度优化一个目标而牺牲其他目标、忽视安全约束或耗尽共享资源等。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

1. AI Safety Gridworlds

Leike et al. [2017]: AI Safety Gridworlds 是一个由 DeepMind 提供的基准测试框架，用于测试 AI 系统的安全性。该框架通过简单的网格世界环境来测试 AI 系统在各种安全挑战下的表现。论文中提到，本研究的基准测试框架扩展自 AI Safety Gridworlds，增加了多目标和多智能体的支持。

2. PettingZoo

Terry et al. [2020]: PettingZoo 是一个用于多智能体强化学习的框架，提供了多智能体环境的接口。论文中提到，为了支持更健壮的多智能体模拟，本研究的框架与 PettingZoo 兼容。

3. OpenAI Gym

Brockman et al. [2016]: OpenAI Gym 是一个用于强化学习的框架，提供了各种环境和接口。论文中提到，本研究的框架也与 OpenAI Gym 兼容，以便更好地支持多智能体和多目标的测试。

4. 生物学和经济学相关研究

Betts [2017]: 论文中引用了关于生物学中稳态（Homeostasis）的研究，强调了生物体需要维持内部指标在安全范围内的重要性。
Nozick [1974]: 引用了关于“效用怪物”（Utility Monster）的概念，指出过度最大化某个目标可能导致负面后果。
Krugman and Wells [2013]: 引用了经济学中的边际收益递减（Diminishing Returns）和凸无差异曲线（Convex Indifference Curves）的概念，用于描述多目标平衡的经济学原理。
Smith et al. [2022]: 论文中引用了关于多目标决策和 Goodhart 定律的研究，强调了多目标平衡的重要性。
Vamplew et al. [2022]: 引用了关于多目标强化学习和安全目标的研究，提出了阈值字典序（Thresholded Lexicographic Ordering）的概念，用于优先考虑安全目标。
Vamplew et al. [2021]: 引用了关于多目标强化学习和低影响代理（Low-Impact Agents）的研究，提出了基于潜在函数的多目标强化学习方法。

5. 其他相关研究

Korte and Vygen [2006]: 引用了组合优化中的约束和目标的概念，类比了安全目标和性能目标的关系。
Sutton and Barto [2018]: 引用了强化学习中的约束概念，虽然它与安全性的关系不直接，但为理解约束在强化学习中的作用提供了基础。
Amodei et al. [2016]: 引用了关于 AI 安全的五个具体问题的研究，包括安全探索（Safe Exploration）和最小化副作用（Minimizing Side Effects）。
Agapiou et al. [2023]: 引用了 Melting Pot 2.0，这是一个用于多智能体强化学习的框架，提供了人口级指标。论文中提到，与 Melting Pot 相比，本研究的基准测试更关注个体智能体的合作和对齐。
Soares et al. [2015]: 引用了关于可修正性（Corrigibility）的研究，探讨了智能体对目标变化的容忍性。
Orseau and Armstrong [2016]: 引用了关于可中断性（Interruptibility）的研究，探讨了智能体对环境变化的容忍性。
Bostrom [2014]: 引用了关于超级智能（Superintelligence）的研究，探讨了智能体在不平衡的权力动态中的行为。
Yudkowsky and Herreshoff [2013]: 引用了关于自修改 AI（Self-Modifying AI）的研究，探讨了智能体生成子智能体的问题。

这些研究为论文中提出的多目标、多智能体 AI 安全基准测试提供了理论基础和方法论支持。

Q: 论文如何解决这个问题？

A: 为了解决现有AI安全基准测试中忽视生物学和经济学相关多目标、多智能体对齐问题，论文通过以下方式来解决这个问题：

1. 引入新的基准测试环境

论文设计并实现了一系列新的基准测试环境，这些环境基于网格世界（gridworld）框架，但扩展了多目标和多智能体的支持。这些环境分为三个阶段：

阶段1（基本生物学启发的目标动态）：包括单个正目标、安全探索、有界目标（如稳态）和可持续性挑战。
阶段2（多目标智能体）：结合安全和性能目标，测试智能体是否能够平衡多个目标，而不是仅仅最大化一个目标。
阶段3（合作）：测试智能体是否能够进行非贪婪的合作行为，例如共享资源。

2. 强调关键主题

论文强调了以下关键主题，这些主题在生物学和经济学中是至关重要的：

稳态（Homeostasis）和有界目标（Bounded Objectives）：智能体需要维持某些内部指标（如食物/水分水平）在安全范围内，避免不足和过量。
边际收益递减（Diminishing Returns）和多目标平衡：智能体需要平衡多个目标，不能仅仅最大化一个目标而忽视其他目标。
安全目标与性能目标的区分：安全目标通常是有限的，而性能目标可能是无限的，但性能目标的无限得分不应压倒安全目标。
可持续性（Sustainability）：环境中的资源可以再生，但如果消耗过快，资源将耗尽，无法再补充。
资源共享（Resource Sharing）：智能体不应贪婪，应允许其他智能体访问资源。

3. 实现具体的测试环境

论文实现了以下具体的测试环境，每个环境都针对上述主题中的一个或多个进行设计：

Food Unbounded：测试智能体是否能够追求一个无界的目标（如食物收集）。
Danger Tiles 和 Predators：测试智能体在存在危险时的安全探索能力。
Food Homeostasis：测试智能体是否能够维持食物水平在安全范围内，避免不足和过量。
Food Sustainability：测试智能体是否能够可持续地消耗资源，避免资源耗尽。
Food-Drink Homeostasis 和 Food-Drink Homeostasis, Gold：测试智能体是否能够平衡多个有界目标（如食物和水）和无界目标（如金子）。
Food-Drink Homeostasis, Gold-Silver：测试智能体是否能够平衡多个无界目标（如金子和银子）。
Food Sharing：测试智能体是否能够进行非贪婪的合作行为，共享资源。

4. 提供基线智能体和实验结果

为了评估这些基准测试的有效性，论文提供了以下几种基线智能体：

随机智能体（Random Agent）：不学习，代表最低预期得分。
手工规则智能体（Handwritten Rules Agent）：基于手工编写的启发式规则，代表最高预期得分。
DQN、PPO和A2C算法：使用OpenAI Stable Baselines 3实现的强化学习算法。
LLM智能体：使用OpenAI的gpt-4o-mini模型，通过上下文学习进行训练。

论文还提供了这些基线智能体在各个基准测试中的实验结果，展示了不同智能体在这些环境中的表现。

5. 提出未来研究方向

论文提出了未来的研究方向，包括：

基准测试更多LLM模型：在现有基准测试上运行更多语言模型，以获得不同模型的基线结果。
设计新环境：开发更复杂的基准测试，关注如背叛转变（treacherous turn）、合作、可中断性（interruptibility）和副作用最小化等主题。
增加环境复杂性：通过增加观察、状态空间、动作空间和目标的复杂性，测试模型的鲁棒性。
探索新主题：如可修正性（corrigibility）、容忍目标变化、最小化副作用、多目标智能体的人口动态等。

通过这些方法，论文旨在更全面地评估AI系统的安全性和对齐性，特别是在多目标和多智能体环境中。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验，以评估不同类型的智能体在提出的多目标、多智能体 AI 安全基准测试环境中的表现：

实验设置

环境：使用了 7x7 的网格世界环境，其中外圈是墙壁，实际活动区域为 5x5 的网格。
智能体类型：
- 随机智能体（Random Agent）：不学习，随机选择动作。
- 手工规则智能体（Handwritten Rules Agent）：基于手工编写的启发式规则，不学习。
- DQN、PPO 和 A2C 算法：使用 OpenAI Stable Baselines 3 实现的强化学习算法，分别使用 2 层 CNN、3 层 CNN 和 MLP 作为特征提取器。
- LLM 智能体：使用

Authors: Roland Pihlakas, Joel Pyykkö

Categories: cs.MA, cs.AI

PDF URL: https://arxiv.org/pdf/2410.00081v4.pdf

CoolPaper URL: https://papers.cool/arxiv/2410.00081v4

Published: 2024-09-30T17:24:21Z

3. Assessing Adaptive World Models in Machines with Novel Games

Human intelligence exhibits a remarkable capacity for rapid adaptation and effective problem-solving in novel and unfamiliar contexts. We argue that this profound adaptability is fundamentally linked to the efficient construction and refinement of internal representations of the environment, commonly referred to as world models, and we refer to this adaptation mechanism as world model induction. However, current understanding and evaluation of world models in artificial intelligence (AI) remains narrow, often focusing on static representations learned from training on massive corpora of data, instead of the efficiency and efficacy in learning these representations through interaction and exploration within a novel environment. In this Perspective, we provide a view of world model induction drawing on decades of research in cognitive science on how humans learn and adapt so efficiently; we then call for a new evaluation framework for assessing adaptive world models in AI. Concretely, we propose a new benchmarking paradigm based on suites of carefully designed games with genuine, deep and continually refreshing novelty in the underlying game structures — we refer to this class of games as novel games. We detail key desiderata for constructing these games and propose appropriate metrics to explicitly challenge and evaluate the agent’s ability for rapid world model induction. We hope that this new evaluation framework will inspire future evaluation efforts on world models in AI and provide a crucial step towards developing AI systems capable of human-like rapid adaptation and robust generalization — a critical component of artificial general intelligence.

中文摘要

人类智能展现出在新奇和不熟悉的环境中快速适应和有效解决问题的卓越能力。我们认为，这种深刻的适应能力与有效构建和完善环境的内部表征（通常称为世界模型）密切相关，我们称这种适应机制为世界模型归纳。然而，目前对人工智能（AI）中世界模型的理解和评估仍然狭隘，往往集中于从大量数据中训练得到的静态表征，而不是通过在新环境中的互动和探索学习这些表征的效率和有效性。在这篇观点文章中，我们基于数十年来关于人类如何如此高效地学习和适应的认知科学研究，提供了一个关于世界模型归纳的视角；随后，我们呼吁建立一个新的评估框架，以评估AI中的自适应世界模型。具体而言，我们提出一个基于精心设计的游戏系列的新基准范式，这些游戏在基础游戏结构中具有真实、深刻且不断更新的新颖性——我们将这类游戏称为新颖游戏。我们详细列出了构建这些游戏的关键要求，并提出了适当的指标，以明确挑战和评估代理的快速世界模型归纳能力。我们希望这个新的评估框架能激励未来在AI中对世界模型的评估工作，提供迈向开发能够像人类一样快速适应和强大概括能力的AI系统的关键一步——这是人工通用智能的重要组成部分。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何评估人工智能（AI）系统在新环境中的适应能力，特别是它们构建和更新内部环境表示（即世界模型）的能力。具体来说，论文指出当前对AI世界模型的理解和评估方式存在局限性，主要集中在静态的、从大规模数据集中学习到的表示上，而忽视了通过与新环境的互动和探索来高效学习这些表示的能力。作者认为，人类智能的一个关键特征是能够在新情境中快速适应并有效解决问题，这种能力与能够快速构建和精炼内部环境表示（世界模型）密切相关。因此，论文提出需要一个新的评估框架，以全面评估AI系统在新环境中快速构建和更新世界模型的能力，即**世界模型诱导（world model induction）**的能力。

Q: 有哪些相关研究？

A: 论文中引用了多个领域的相关研究，这些研究为理解人类如何学习和适应提供了理论基础，并为评估人工智能中的世界模型提供了背景。以下是一些关键的相关研究领域和具体研究：

认知科学与人类学习

Mental Models and Bayesian Learning:
- Gopnik and Wellman (2012): 提出了儿童如何通过贝叶斯学习构建和更新他们的心理模型，强调了层次贝叶斯框架在人类学习中的作用。
- Tenenbaum et al. (2011): 讨论了人类如何通过统计学习和抽象推理来构建和更新心理模型，特别是在多层级的抽象表示中。
- Ullman and Tenenbaum (2020): 探讨了贝叶斯模型在概念发展中的作用，特别是如何通过有限的数据进行有效的学习和推理。
Hierarchical Bayesian Models:
- Tenenbaum et al. (2006): 提出了基于层次贝叶斯模型的归纳学习和推理框架，展示了如何通过不同层级的抽象来构建和更新心理模型。
- Gerstenberg and Tenenbaum (2017): 研究了直观理论（intuitive theories）在人类推理中的作用，特别是在因果关系和物理世界的理解中。

人工智能与世界模型

World Models in AI:
- Ha and Schmidhuber (2018): 提出了世界模型的概念，强调了世界模型在强化学习中的作用，特别是在预测未来状态和规划中的应用。
- **Vafa et al. (20

Authors: Lance Ying, Katherine M. Collins, Prafull Sharma, Cedric Colas, Kaiya Ivy Zhao, Adrian Weller, Zenna Tavares, Phillip Isola, Samuel J. Gershman, Jacob D. Andreas, Thomas L. Griffiths, Francois Chollet, Kelsey R. Allen, Joshua B. Tenenbaum

Categories: cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.12821v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.12821v2

Published: 2025-07-17T06:28:14Z

4. RAVine: Reality-Aligned Evaluation for Agentic Search

中文摘要

自主搜索作为一种更自主和适应性的检索增强范式，正在推动智能搜索系统的演变。然而，现有的评估框架未能与自主搜索的目标很好地对齐。首先，当前基准中常用的复杂查询往往偏离现实用户搜索场景。其次，以前的方法在提取端到端评估的真实情况时往往引入噪音，导致细粒度评估的扭曲。第三，目前大多数框架仅关注最终答案的质量，而忽视了对自主搜索固有的迭代过程的评估。为了解决这些限制，我们提出了RAVine——一个与现实对齐的自主大型语言模型搜索评估框架。RAVine针对多点查询和更能反映用户意图的长格式答案，提出了一种可归因的真实情况构建策略，以提高细粒度评估的准确性。此外，RAVine在整个迭代过程中考察模型与搜索工具的互动，并考虑效率因素。我们使用RAVine对一系列模型进行了基准测试，并获得了一些见解，我们希望这些见解有助于推进自主搜索系统的发展。代码和数据集可以在 https://github.com/SwordFaith/RAVine 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

查询与用户需求的不一致：现有的基准测试中使用的复杂查询往往偏离真实的用户搜索场景。在实际中，用户通常期望的不仅仅是深度搜索，还需要广度，即收集和整合多个信息点，最终形成一个长篇、全面的答案。
噪声信息收集与端到端评估的不一致：在需要整合多点信息并生成长篇输出的任务中，需要进行细粒度的、基于声明的评估，这通常包括任务的完整性和真实性。然而，现有的方法在收集用于评估的“信息单元”（nuggets）时存在不足，导致评估结果可能不准确，增加了评估成本。
端到端评估与过程导向架构的不一致：尽管端到端评估可以直接反映整体性能，但具有搜索能力的智能体本质上是过程导向的模型，它们在任务执行过程中自主迭代、调用搜索工具并阅读网页内容。然而，现有的评估框架主要关注最终答案的质量，忽略了中间行为和过程效率，而这些因素对于模型的区分和能力诊断也非常重要。

Q: 有哪些相关研究？

A: 论文中提到了多个与检索增强型生成（Retrieval-Augmented Generation, RAG）和智能体搜索（Agentic Search）相关的研究工作。以下是一些主要的相关研究：

检索增强型生成（Retrieval-Augmented Generation）

RAG 的提出：Lewis 等人 [10] 提出了检索增强型生成（RAG），通过结合外部知识检索来增强大型语言模型（LLMs），从而减少仅依赖内部参数时出现的幻觉问题。
RAG 的应用：RAG 在多个领域得到了应用，例如在多跳问答任务中，通过检索外部知识来提高模型的准确性和可靠性 [17]。

智能体搜索（Agentic Search）

智能体搜索的提出：Li 等人 [18] 提出了智能体搜索的概念，强调模型通过自主引导搜索过程来增强生成能力。
Deep Research 系统：Google 的 Gemini Deep Research [12] 是一个产品级的智能体搜索系统，通过结构化的智能体工作流实现更全面和针对性的搜索。

评估方法

多跳问答数据集：Ho 等人 [14] 构建了一个多跳问答数据集，用于评估模型在推理步骤上的表现。
长篇问答评估：Krishna 等人 [16] 探讨了长篇问答中的挑战，强调了生成长篇、全面答案的难度。
信息检索评估：Pradeep 等人 [25] 提出了 AutoNuggetizer 框架，用于自动化事实提取和 RAG 评估。
检索增强生成的评估：Qi 等人 [27] 提出了 LONG2RAG 数据集，用于评估长上下文和长篇生成的检索增强生成。

模型和工具

大型语言模型（LLMs）：如 Qwen [28] 和 LLaMA [13] 等，这些模型在智能体搜索任务中被广泛使用。
检索工具：如 gte-modernbert-base [40] 和 BM25 [29] 等，用于构建检索索引，支持模型的搜索能力。

Q: 论文如何解决这个问题？

1. 多点查询和长篇答案

RAVine 针对多点查询和长篇答案进行评估，这些查询和答案更能反映用户的真实意图。具体来说：

测试集：使用 TREC 2024 RAG Track [24] 的查询作为测试集，这些查询来源于 Bing 搜索日志，更贴近真实的用户行为。
长篇答案：要求模型生成长篇、全面的答案，而不是简短的实体或片段。

2. 可归因的“信息单元”（Nuggets）收集策略

为了提高细粒度评估的准确性，RAVine 引入了一种可归因的“信息单元”（nuggets）收集方法。具体步骤如下：

段级提取：在段级（而不是文档级）提取 nuggets，因为段级单位更细粒度，更符合声明语句的格式。
动态聚类：使用 HDBSCAN [22] 等密度聚类算法对提取的 nuggets 进行动态聚类，合并语义相似的 nuggets，并将合并后的 nuggets 归因于原始的网页。
灵活的 nuggets 数量：根据每个查询的复杂性动态调整 nuggets 的数量，而不是使用固定的上限。

3. 块级评估

RAVine 采用块级评估方法来衡量任务的完整性和真实性，避免了现有方法中的不一致性和扭曲问题。具体方法如下：

块的定义：将报告按引用边界分割成块，每个块包含一个或多个句子，并且每个块都与一个或多个引用相关联。
联合评估：同时评估每个块对 nuggets 的支持程度，计算任务的完整性分数，并追溯匹配的 nuggets 到其来源网页，计算引用的召回率和精确率。

4. 过程导向评估

RAVine 不仅评估最终答案的质量，还评估模型在迭代过程中的行为和工具使用效率。具体评估指标包括：

工具调用性能：评估工具选择的正确性、参数的正确性以及每次调用的有效性。
效率指标：评估模型的迭代效率、工具调用的延迟和成本。

5. 实验和分析

RAVine 对一系列模型进行了基准测试，揭示了当前模型在任务完整性、真实性和搜索性能方面的局限性。具体发现包括：

任务完整性不足：许多模型在任务完成率和任务完整性分数上表现不佳，表明它们在信息收集和整合方面存在不足。
真实性不足：模型在引用生成方面表现不佳，表明它们在多轮搜索中的上下文管理能力有限。
查询探索能力不足：模型在搜索召回和搜索增益方面表现不佳，表明它们在信息探索方面存在局限性。
“思考”模式的增强：启用“思考”模式的模型在任务完成率和任务完整性上表现更好，但会增加延迟和成本。
内部知识的依赖：模型在生成答案时过度依赖内部知识，而不是检索到的外部知识，这会影响答案的可归因性和真实性。

通过这些方法，RAVine 提供了一个全面、可复现且与现实对齐的评估环境，有助于推动智能体搜索系统的发展。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验，以评估不同模型在提出的 RAVine 框架下的性能。以下是实验的详细设置和结果：

实验设置

模型选择：选择了多个具有工具使用能力的先进智能体 LLMs 进行评估，包括 Qwen2.5-7B-Instruct [28]、Qwen2.5-32B-Instruct [28]、Qwen3-8B [37]、Qwen3-32B [37]、Qwen3-30B-A3B [37] 和 LLaMA-3.1-8B-Instruct [13]。对于支持“思考”模式的模型（如 Qwen3 系列），分别评估了它们在开启和关闭思考模式下的性能。
上下文长度：将模型分为两组，分别在最大上下文长度为 32k 和 128k 的情况下进行评估。
索引类型：对每组模型分别使用两种不同的索引进行评估，一种是基于 gte-modernbert-base [40] 构建的密集索引，另一种是基于 BM25 [29] 的词法索引。
实验环境：所有实验均在配备 8×H100 GPU 的机器上进行。

评估指标

任务完成率（Task Completion Rate）：模型成功遵循指令、完成迭代过程并生成最终报告的比例。
任务完整性（Task Completeness）：模型生成的报告在多大程度上涵盖了所有相关的信息点（nuggets）。
引用召回率（Citation Recall） 和 引用精确率（Citation Precision）：评估模型生成的引用与真实引用的匹配程度。
搜索召回率（Search Recall） 和 搜索增益（Search Gain）：评估模型在搜索过程中的表现，包括检索到的相关信息的比例和每次搜索调用带来的边际增益。
延迟（Latency） 和 成本（Cost）：评估模型的运行效率和经济成本。
迭代次数（Turns）：模型完成任务所需的平均迭代次数。
URL 错误率（URL Error）：模型在调用 fetch 工具时出现无效 URL 的比例。
搜索精确率（Search Precision） 和 fetch 精确率（Fetch Precision）：评估模型在搜索和获取网页内容时的准确性。

实验结果

任务完成率和完整性：一些模型如 Qwen2.5-7B-Instruct 和 Qwen3-8B（非思考模式）的任务完成率较低，表明它们在遵循指令和执行任务时存在困难。大多数模型在任务完整性方面表现不佳，例如 Qwen3-8B（非思考模式）的平均召回率仅为 22.3%，无法满足生成全面、深入长篇回答的要求。
引用生成能力：模型在引用生成方面存在显著限制，例如 Qwen3-32B 的最大引用召回率为 13.2%，精确率为 11.9%，这表明多轮搜索增加了上下文管理的难度，导致真实性下降。
查询探索能力：模型在搜索召回和搜索增益方面表现不佳，说明它们在信息探索方面的能力有限，可能在运行过程中停留在某个信息领域，缺乏广度和深度。
思考模式的影响：开启思考模式的模型通常在任务完成率和任务完整性上表现更好，但会增加延迟和成本。例如，Qwen3-32B（思考模式）的任务完成率达到 98.8%，任务完整性得分为 45.2%，而 Qwen3-8B（非思考模式）的任务完成率为 28.6%，任务完整性得分为 12.4%。
内部知识的依赖：通过 Compin 指标发现，模型在生成答案时过度依赖内部知识，而不是检索到的外部知识。例如，一些模型超过一半的 nuggets 是通过内部知识命中的，这种行为虽然可能在某些非长尾事实中是准确的，但无法通过引用进行归因，影响了答案的可验证性和真实性。
中间性能与最终性能的关系：实验结果表明，最终任务完整性分数与搜索精确率分数之间没有显著的正相关性。通过 Compin 指标对运行进行分类分析发现，依赖检索知识的运行在任务完整性和搜索精确率之间显示出更明显的正相关性，这表明过度依赖内部知识是导致中间性能与最终性能不一致的因素之一。

结论

Q: 有什么可以进一步探索的点？

A: 论文提出了 RAVine 框架来评估智能体搜索系统，并通过一系列实验揭示了当前模型的局限性。基于这些发现，以下是一些可以进一步探索的研究方向：

1. 改进智能体搜索模型

增强查询理解能力：当前模型在理解复杂查询和执行任务时存在困难。可以探索如何通过更好的预训练或微调策略来提高模型对用户查询的理解能力。
优化搜索策略：模型在信息探索方面的能力有限，可能停留在某个信息领域。可以研究如何设计更有效的搜索策略，例如通过强化学习来优化搜索路径。
提高引用生成能力：模型在引用生成方面表现不佳，可以探索如何改进上下文管理，以提高引用的准确性和真实性。

2. 改进评估框架

动态查询生成：当前的评估框架主要依赖于静态查询集。可以研究如何生成动态查询，以更好地模拟真实用户行为。
多模态评估：除了文本信息，还可以考虑将图像、视频等多模态信息纳入评估框架，以更全面地评估模型的能力。
用户反馈集成：将用户反馈纳入评估过程，以更直接地反映模型在实际应用中的表现。

3. 探索不同的索引和检索技术

混合索引策略：结合密集索引和词法索引的优点，探索混合索引策略，以提高检索的准确性和效率。
实时索引更新：研究如何实时更新索引，以应对动态变化的网络环境。
跨语言检索：探索跨语言检索技术，以支持多语言环境下的智能体搜索。

4. 研究模型的经济性和效率

成本效益分析：进一步研究模型的经济性和效率，探索如何在保证性能的同时降低运行成本。
资源优化：研究如何优化模型的资源使用，例如通过模型压缩或分布式计算来提高效率。

5. 探索模型的可解释性和透明度

决策过程可视化：研究如何可视化模型的决策过程，以提高模型的可解释性和透明度。
用户信任建立：探索如何通过提高模型的可解释性来建立用户信任，特别是在关键应用领域如医疗、金融等。

6. 研究模型的社会影响和伦理问题

偏见和公平性：研究模型在生成内容时可能存在的偏见和不公平性，探索如何减少这些偏见。
隐私保护：研究如何在智能体搜索中保护用户隐私，特别是在处理敏感信息时。

7. 跨领域应用

特定领域应用：研究如何将智能体搜索应用于特定领域，如医疗、法律、教育等，以满足不同领域的特定需求。
多领域综合应用：探索如何在多个领域综合应用智能体搜索，以实现更广泛的应用场景。

8. 用户交互和反馈机制

交互式评估：研究如何设计交互式评估机制，让用户直接参与模型的评估过程。
反馈驱动的优化：探索如何利用用户反馈来优化模型的性能，例如通过在线学习或增量训练。

这些方向不仅可以帮助改进当前的智能体搜索系统，还可以推动相关技术在更广泛的应用场景中的发展。

Q: 总结一下论文的主要内容

Authors: Yilong Xu, Xiang Long, Zhi Zheng, Jinhua Gao

Categories: cs.CL, cs.AI, cs.IR

PDF URL: https://arxiv.org/pdf/2507.16725v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16725v1

Published: 2025-07-22T16:08:12Z

5. LibEER: A Comprehensive Benchmark and Algorithm Library for EEG-based Emotion Recognition

EEG-based emotion recognition (EER) has gained significant attention due to its potential for understanding and analyzing human emotions. While recent advancements in deep learning techniques have substantially improved EER, the field lacks a convincing benchmark and comprehensive open-source libraries. This absence complicates fair comparisons between models and creates reproducibility challenges for practitioners, which collectively hinder progress. To address these issues, we introduce LibEER, a comprehensive benchmark and algorithm library designed to facilitate fair comparisons in EER. LibEER carefully selects popular and powerful baselines, harmonizes key implementation details across methods, and provides a standardized codebase in PyTorch. By offering a consistent evaluation framework with standardized experimental settings, LibEER enables unbiased assessments of seventeen representative deep learning models for EER across the six most widely used datasets. Additionally, we conduct a thorough, reproducible comparison of model performance and efficiency, providing valuable insights to guide researchers in the selection and design of EER models. Moreover, we make observations and in-depth analysis on the experiment results and identify current challenges in this community. We hope that our work will not only lower entry barriers for newcomers to EEG-based emotion recognition but also contribute to the standardization of research in this domain, fostering steady development. The library and source code are publicly available at https://github.com/XJTU-EEG/LibEER.

中文摘要

基于EEG的情感识别（EER）因其理解和分析人类情感的潜力而受到广泛关注。虽然深度学习技术的最新进展显著改善了EER，但该领域缺乏令人信服的基准和全面的开源库。这一缺乏使得模型之间的公平比较变得复杂，并为从业者带来了可重复性挑战，从而共同阻碍了进展。为了解决这些问题，我们推出了LibEER，这是一个综合性基准和算法库，旨在促进EER中的公平比较。LibEER认真选择流行且强大的基线，统一了不同方法的关键实现细节，并提供了一个标准化的PyTorch代码库。通过提供一个具有标准化实验设置的统一评估框架，LibEER能够对六个最常用数据集上十七个代表性深度学习模型进行无偏评估。此外，我们对模型性能和效率进行了深入、可重复的比较，为研究人员在选择和设计EER模型时提供了宝贵的见解。此外，我们对实验结果进行了观察和深入分析，并识别出这一领域当前面临的挑战。我们希望我们的工作不仅能降低新入者进入基于EEG的情感识别的门槛，还能促进该领域研究的标准化，推动其稳步发展。库和源代码已在 https://github.com/XJTU-EEG/LibEER 上公开可用。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决基于脑电图（EEG）的情感识别（EER）领域中存在的几个关键问题，具体如下：

缺乏基准测试（Benchmarking）：
- 许多模型设计研究在比较新方法与现有最先进（SOTA）模型时，由于缺乏全面的基准测试，导致比较结果不可靠。
- 不同研究使用不同的预处理技术、预处理设置、实验任务、数据划分和性能评估方法，甚至存在一些引入数据泄露风险的实践，这使得实验结果难以复现，阻碍了领域的发展。
缺乏开源库（Open-source Libraries）：
- 实施细节（如训练超参数）对模型性能至关重要，但论文中无法包含所有细节。不同研究的代码通常依赖于不同的平台（如 PyTorch、TensorFlow 或 MATLAB），给研究人员带来挑战。
- 因此，需要一个基于标准化平台的开源库，提供全面的实现细节，并且性能与原始研究相当。
缺乏对 SOTA EER 研究的深入分析（In-depth Analysis）：
- 尽管已有许多综述论文总结了 EER 领域的进展，但这些综述通常只是报告发现，没有实际复现结果的经验，可能会导致未来研究方向的误导。
- 缺乏基于复现结果对 SOTA EER 研究的深入分析，难以揭示领域中真正面临的挑战。

为了解决这些问题，论文提出了 LibEER（Library for EEG-based Emotion Recognition），并在基于 LibEER 的复现结果基础上对 SOTA EER 研究进行了分析。

Q: 有哪些相关研究？

A: 论文中提到了一些与基于脑电图（EEG）的情感识别（EER）相关的研究，以下是部分相关研究：

EEG-based Emotion Recognition：
- [2] H. Liu, T. Lou, Y. Zhang, Y. Wu, Y. Xiao, C. S. Jensen, and D. Zhang, “Eeg-based multimodal emotion recognition: a machine learning perspective,” IEEE Transactions on Instrumentation and Measurement, 2024.
- [3] Z. Zhang, S.-h. Zhong, and Y. Liu, “Torcheegemo: A deep learning toolbox towards eeg-based emotion recognition,” Expert Systems with Applications, vol. 249, p. 123550, 2024.
- [5] W.-L. Zheng, J.-Y. Zhu, Y. Peng, and B.-L. Lu, “Eeg-based emotion classification using deep belief networks,” in 2014 IEEE international conference on multimedia and expo (ICME). IEEE, 2014, pp. 1–6.
- [6] H. Chen, M. Jin, Z. Li, C. Fan, J. Li, and H. He, “Ms-mda: Multisource marginal distribution adaptation for cross-subject and cross-session eeg emotion recognition,” Frontiers in Neuroscience, vol. 15, p. 778488, 2021.
- [7] Z. Wang, Y. Wang, C. Hu, Z. Yin, and Y. Song, “Transformers for eegbased emotion recognition: A hierarchical spatial information learning model,” IEEE Sensors Journal, vol. 22, no. 5, pp. 4359–4368, 2022.
- [8] V. J. Lawhern, A. J. Solon, N. R. Waytowich, S. M. Gordon, C. P. Hung, and B. J. Lance, “Eegnet: a compact convolutional neural network for eeg-based brain–computer interfaces,” Journal of neural engineering, vol. 15, no. 5, p. 056013, 2018.
- [9] Z. Gao, X. Wang, Y. Yang, Y. Li, K. Ma, and G. Chen, “A channel-fused dense convolutional network for eeg-based emotion recognition,” IEEE Transactions on Cognitive and Developmental Systems, vol. 13, no. 4, pp. 945–954, 2020.
- [10] Y. Ding, N. Robinson, S. Zhang, Q. Zeng, and C. Guan, “Tsception: Capturing temporal dynamics and spatial asymmetry from eeg for emotion recognition,” IEEE Transactions on Affective Computing, vol. 14, no. 3, pp. 2238–2250, 2022.
- [11] W. Tao, C. Li, R. Song, J. Cheng, Y. Liu, F. Wan, and X. Chen, “Eegbased emotion recognition via channel-wise attention and self attention,” IEEE Transactions on Affective Computing, vol. 14, no. 1, pp. 382–393, 2020.
- [12] T. Song, W. Zheng, P. Song, and Z. Cui, “Eeg emotion recognition using dynamical graph convolutional neural networks,” IEEE Transactions on Affective Computing, vol. 11, no. 3, pp. 532–541, 2018.
- [13] P. Zhong, D. Wang, and C. Miao, “Eeg-based emotion recognition using regularized graph neural networks,” IEEE Transactions on Affective Computing, vol. 13, no. 3, pp. 1290–1301, 2020.
- [14] Y. Li, W. Zheng, L. Wang, Y. Zong, and Z. Cui, “From regional to global brain: A novel hierarchical spatial-temporal neural network model for eeg emotion recognition,” IEEE Transactions on Affective Computing, vol. 13, no. 2, pp. 568–578, 2022.
- [15] T. Zhang, X. Wang, X. Xu, and C. P. Chen, “Gcb-net: Graph convolutional broad network and its application in emotion recognition,” IEEE Transactions on Affective Computing, vol. 13, no. 1, pp. 379–388, 2019.
- [16] R.-N. Duan, J.-Y. Zhu, and B.-L. Lu, “Differential entropy feature for eeg-based emotion classification,” in 2013 6th international IEEE/EMBS conference on neural engineering (NER). IEEE, 2013, pp. 81–84.
- [17] Y. Zhang, H. Liu, D. Zhang, X. Chen, T. Qin, and Q. Zheng, “Eeg-based emotion recognition with emotion localization via hierarchical selfattention,” IEEE Transactions on Affective Computing, vol. 14, no. 3, pp. 2458–2469, 2022。
- [18] Y. Wu, H. Liu, D. Zhang, Y. Zhang, T. Lou, and Q. Zheng, “Autoeer: automatic eeg-based emotion recognition with neural architecture search,” Journal of Neural Engineering, vol. 20, no. 4, p. 046029, 2023。
- [19] Y. Zhang, H. Liu, D. Wang, D. Zhang, T. Lou, Q. Zheng, and C. Quek, “Cross-modal credibility modelling for eeg-based multimodal emotion recognition,” Journal of Neural Engineering, vol. 21, no. 2, p. 026040, 2024。
- [36] Y. Li, W. Zheng, Y. Zong, Z. Cui, T. Zhang, and X. Zhou, “A bihemisphere domain adversarial neural network model for eeg emotion recognition,” IEEE Transactions on Affective Computing, vol. 12, no. 2, pp. 494–504, 2018。
- [38] C. Li, P. Li, Y. Zhang, N. Li, Y. Si, F. Li, Z. Cao, H. Chen, B. Chen, D. Yao et al., “Effective emotion recognition by learning discriminative graph topologies in eeg brain networks,” IEEE Transactions on Neural Networks and Learning Systems, 2023。
- [39] R. Khosrowabadi, C. Quek, K. K. Ang, and A. Wahab, “Ernn: A biologically inspired feedforward neural network to discriminate emotion from eeg signal,” IEEE transactions on neural networks and learning systems, vol. 25, no. 3, pp. 609–620, 2013。
- [40] M. Alsolamy and A. Fattouh, “Emotion estimation from eeg signals during listening to quran using psd features,” in 2016 7th International Conference on computer science and information technology (CSIT). IEEE, 2016, pp. 1–5。
- [45] Y. Li, L. Wang, W. Zheng, Y. Zong, L. Qi, Z. Cui, T. Zhang, and T. Song, “A novel bi-hemispheric discrepancy model for eeg emotion recognition,” IEEE Transactions on Cognitive and Developmental Systems, vol. 13, no. 2, pp. 354–367, 2020。
- [46] T. Song, S. Liu, W. Zheng, Y. Zong, Z. Cui, Y. Li, and X. Zhou, “Variational instance-adaptive graph for eeg emotion recognition,” IEEE Transactions on Affective Computing, vol. 14, no. 1, pp. 343–356, 2023。
EEG 数据增强：
- [42] Y. Luo and B.-L. Lu, “Eeg data augmentation for emotion recognition using a conditional wasserstein gan,” in 2018 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), 2018, pp. 2535–2538。
- [43] Z. Zhang, S. Zhong, and Y. Liu, “Beyond mimicking under-represented emotions: Deep data augmentation with emotional subspace constraints for eeg-based emotion recognition,” Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 9, pp. 10 252–10 260, Mar. 2024。
- [44] Y. Luo, L.-Z. Zhu, Z.-Y. Wan, and B.-L. Lu, “Data augmentation for enhancing eeg-based emotion recognition with deep generative models,” Journal of Neural Engineering, vol. 17, no. 5, p. 056021, oct 2020。
EEG 数据集：
- [22] S. Koelstra, C. Muhl, M. Soleymani, J.-S. Lee, A. Yazdani, T. Ebrahimi, T. Pun, A. Nijholt, and I. Patras, “Deap: A database for emotion analysis; using physiological signals,” IEEE transactions on affective computing, vol. 3, no. 1, pp. 18–31, 2011。
- [23] W.-L. Zheng and B.-L. Lu, “Investigating critical frequency bands and channels for eeg-based emotion recognition with deep neural networks,” IEEE Transactions on autonomous mental development, vol. 7, no. 3, pp. 162–175, 2015。
- [24] M. Soleymani, J. Lichtenauer, T. Pun, and M. Pantic, “A multimodal database for affect recognition and implicit tagging,” IEEE transactions on affective computing, vol. 3, no. 1, pp. 42–55, 2011。
- [25] W.-L. Zheng, W. Liu, Y. Lu, B.-L. Lu, and A. Cichocki, “Emotionmeter: A multimodal framework for recognizing human emotions,” IEEE transactions on cybernetics, vol. 49, no. 3, pp. 1110–1122, 2018。
- [47] S. Katsigiannis and N. Ramzan, “Dreamer: A database for emotion recognition through eeg and ecg signals from wireless low-cost offthe-shelf devices,” IEEE journal of biomedical and health informatics, vol. 22, no. 1, pp. 98–107, 2017。
- [48] J. A. Miranda-Correa, M. K. Abadi, N. Sebe, and I. Patras, “Amigos: A dataset for affect, personality and mood research on individuals and groups,” IEEE transactions on affective computing, vol. 12, no. 2, pp. 479–493, 2018。
- [49] T. Song, W. Zheng, C. Lu, Y. Zong, X. Zhang, and Z. Cui, “Mped: A multi-modal physiological emotion database for discrete emotion recognition,” IEEE Access, vol. 7, pp. 12 177–12 191, 2019。
EEG 情感识别的其他相关研究：
- [30] Y. Ding, N. Robinson, C. Tong, Q. Zeng, and C. Guan, “Lggnet: Learning from local-global-graph representations for brain–computer interface,” IEEE Transactions on Neural Networks and Learning Systems, 2023。
- [31] S. K. Khare and V. Bajaj, “Time–frequency representation and convolutional neural network-based emotion recognition,” IEEE transactions on neural networks and learning systems, vol. 32, no. 7, pp. 2901–2909, 2020。
- [32] M. A. Hasnul, N. A. A. Aziz, S. Alelyani, M. Mohana, and A. A. Aziz, “Electrocardiogram-based emotion recognition systems and their applications in healthcare—a review,” Sensors, vol. 21, no. 15, p. 5015, 2021。
- [33] H. Gauba, P. Kumar, P. P. Roy, P. Singh, D. P. Dogra, and B. Raman, “Prediction of advertisement preference by fusing eeg response and sentiment analysis,” Neural Networks, vol. 92, pp. 77–88, 2017。
- [34] A. Nandi, F. Xhafa, L. Subirats, and S. Fort, “Real-time emotion classification using

Q: 论文如何解决这个问题？

A: 为了解决基于脑电图（EEG）的情感识别（EER）领域中存在的问题，论文提出了 LibEER（Library for EEG-based Emotion Recognition），一个综合性的基准测试和算法库，并通过以下方式解决问题：

1. 建立基准测试（Benchmarking）

标准化数据集、评估指标和实验设置：
- 选取了四个最常用的数据集：SEED [23]、SEED-IV [25]、DEAP [22] 和 MAHNOB-HCI [24]，并评估了相应的指标。
- 包括了**被试者依赖（subject-dependent）和跨被试者（cross-subject）**设置，以及多种预处理方法。
- 采用更严格的训练/验证/测试划分（比例为 0.6:0.2:0.2），以确保更可靠的性能评估。
实验任务：
- 聚焦于被试者依赖和跨被试者任务，因为它们最常用且更具实际意义。
- 对于被试者依赖任务，每个任务使用单个被试者的数据，数据基于试验进行划分。
- 对于跨被试者任务，使用所有被试者的数据，按照被试者进行划分。
评估方法和指标：
- 采用在验证集上表现最佳的模型来评估测试集的性能，避免了仅报告测试集上最佳结果的缺陷。
- 报告准确率（Accuracy）和 F1 分数的均值和标准差，其中准确率是分类任务的关键指标，F1 分数在样本标签不平衡时提供更合理的评估。

2. 开发开源库（Open-source Library）

LibEER 的设计：
- 选取并实现了十个具有代表性的基于深度学习的 EER 方法，所有方法都在 PyTorch 的统一训练管道中实现。
- 提供了广泛的 EEG 信号预处理功能、评估协议和实验场景。
- 提供用户友好的接口，允许研究人员轻松自定义实验配置，如设置超参数、选择预处理方法和修改骨干模型。
LibEER 的框架：
- 数据加载器（Data Loader）：标准化不同数据集的数据格式，并提供多种预处理技术。通过 get_uniform_data() 函数读取数据并整合到标准化格式，preprocess() 函数根据用户设置进行预处理。
- 数据划分（Data Split）：根据实验任务和划分方法将数据集划分为训练集、测试集和验证集。merge_to_part() 函数将数据整合到标准化格式，get_split_index()

Authors: Huan Liu, Shusen Yang, Yuzhe Zhang, Mengze Wang, Fanyu Gong, Chengxi Xie, Guanjian Liu, Zejun Liu, Yong-Jin Liu, Bao-Liang Lu, Dalin Zhang

Categories: cs.HC, cs.AI

PDF URL: https://arxiv.org/pdf/2410.09767v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2410.09767v3

Published: 2024-10-13T07:51:39Z

中文摘要

在本文中，我们呈现了一项用户研究的结果，该研究评估了扩展现实（XR）代理技术的社会接受度，重点是为记者开发的一种可远程访问的基于网络的XR培训系统。该系统涉及用户与虚拟化身的互动，由一个模块化工具包驱动。这些互动旨在为记者提供量身定制的培训，特别是在敏感或危险场景下的数字远程环境中，无需像头戴式耳机这样的专业终端设备。我们的研究适应并扩展了阿尔梅雷模型，通过现有属性（如感知易用性和感知有用性）以及新增的属性（如用户代理互动中的可靠性和安全性）来表示社会接受度。XR代理通过在实际环境中的控制实验进行测试，收集了关于用户感知的数据。我们的发现基于问卷的定量和定性测量，有助于理解特定社会背景下用户对XR代理解决方案的感知和接受度，同时也识别出XR系统改进的领域。

LLM Analysis

Q: 这篇论文试图解决什么问题？

用户对与虚拟代理互动的反应如何？
代理的对话和社交能力（如响应性、表现力或真实性）在多大程度上影响用户的态度和参与意愿？
用户在不同部署环境中如何看待这些代理的安全性、隐私性和可信度？

Q: 有哪些相关研究？

A: 论文中提到了多个与研究主题相关的研究，这些研究主要集中在以下几个领域：

1. XR技术在培训中的应用

教育和专业培训：研究显示XR技术在教育和专业培训中可以增强参与度、知识获取和知识传递。例如，XR技术在高风险行业（如建筑和石油天然气）的安全培训中表现出色。
- 参考文献：[8,11,24]
特定领域的应用：
- 在医疗保健教育中，XR技术被用于支持临床推理和患者教育。
  - 参考文献：[31]
- 在紧急准备和商业培训中，XR技术被用于支持决策制定和领导力培训。
  - 参考文献：[1]
- 在新闻领域，XR技术被用于模拟危险环境和互动，帮助记者培训应对不可预测的挑战。
  - 参考文献：[15]

2. XR代理技术的社交接受度

技术接受模型（TAM）和统一理论（UTAUT）：这些模型被广泛用于评估用户对XR及其组成部分（如VR和AR）的接受度。研究扩展了TAM，加入了感知愉悦、个人和情境因素以及特定的XR特征。
- 参考文献：[5, 20, 35, 39]
XR代理技术的社交接受度研究：虽然研究较多集中在用户对XR及其组成部分的接受度，但对XR代理技术的社交接受度研究较少，尤其是新闻培训中的应用。
- 参考文献：[19]
信任和隐私：信任被认为是影响社交接受度的一个重要因素，但很少有研究在XR代理技术的背景下评估这一点。
- 参考文献：[27]

3. XR技术的用户体验

感知愉悦和易用性：研究表明，感知愉悦和易用性是影响用户接受XR技术的重要因素。
- 参考文献：[23]
存在感和适应性：存在感和感知适应性也是影响用户接受XR技术的重要因素。
- 参考文献：[22]

4. XR技术的安全性和隐私性

安全性和隐私性：研究指出，用户对XR技术的安全性和隐私性的担忧会影响其接受度。
- 参考文献：[12, 17]

这些相关研究为本文提供了理论基础和方法论指导，帮助作者设计和实施用户研究，以评估XR代理技术在记者培训中的社会接受度。

Q: 论文如何解决这个问题？

A: 为了评估用户对扩展现实（XR）代理技术的社会接受度，特别是针对记者培训的基于网络的XR培训系统，论文采用了以下方法来解决问题：

1. 研究设计

研究背景和目标：研究聚焦于一个名为Guardia的远程XR培训系统，该系统为记者提供定制化的培训，特别是在敏感和高风险的情境下。研究旨在通过定量和定性方法评估用户对这种XR代理技术的接受度。
研究模型：研究基于并扩展了Almere模型，该模型通过感知易用性、感知有用性等属性来衡量技术的社会接受度。在此基础上，研究增加了安全性、隐私性和可信度等新属性，以更全面地评估用户对XR代理技术的接受度。

2. 实验方法

实验对象：实验对象为德国国际媒体组织Deutsche Welle的员工，包括记者、制片人和培训师，共25人。这些参与者具有在高风险环境中工作的经验，并且接受过安全培训。
实验环境：实验在Deutsche Welle位于波恩和柏林的办公地点进行，参与者使用标准笔记本电脑与Guardia虚拟代理进行交互。
实验流程：
1. 介绍和同意：参与者在实验前签署知情同意书。
2. 培训任务：参与者完成由Guardia呈现的三个培训课程，涵盖在检查点的行为、从政治示威或动荡地区报道以及应急包的内容。
3. 测验和互动：参与者完成与培训内容相关的三个测验，并至少与Guardia进行一次关于安全问题的聊天互动。
4. 数据收集：实验结束后，参与者填写在线问卷并接受简短访谈，以收集他们对Guardia和培训的反馈。

3. 数据收集和分析

问卷设计：问卷基于Almere模型设计，包含51个Likert量表问题，涵盖感知易用性、感知有用性、安全性、隐私性、可信度等属性。此外，还设计了10个开放式问题，用于收集定性反馈。
数据分析：
- 定量分析：计算每个代表属性的加权平均分，考虑基本属性的影响。使用公式（1）计算调整后的平均分，以反映每个代表属性的最终评分。
- 定性分析：通过访谈收集的定性数据用于补充和解释定量结果，提供更深入的用户反馈。

4. 研究结果

定量结果：通过加权平均分的计算，研究发现大多数基本属性的平均分高于中性值3.0，表明参与者对这些属性有较高的正面评价。然而，社交存在感（Social Presence）的平均分较低（1.66），表明参与者不认为Guardia特别像人类。这一发现导致感知愉悦（Perceived Enjoyment）的调整后平均分从3.50降至2.85。
定性结果：访谈结果显示，参与者对Guardia的互动能力给予了积极评价，特别是其能够提供超出课程内容的相关回答，使体验更加智能化和个性化。然而，也有参与者指出Guardia的某些方面（如肢体语言）不够自然，需要改进。

5. 结论和未来工作

结论：研究结果表明，用户对XR代理技术的接受度较高，但存在改进空间，特别是在提高虚拟代理的人类相似性和互动自然性方面。
未来工作：作者计划进行第二轮用户研究，以改进Guardia原型，重点关注增强虚拟代理的人类相似性、优化培训内容和升级用户界面。此外，作者还计划将研究扩展到其他社会背景，如邮局，以评估XR代理技术在服务导向场景中的适用性。

通过上述方法，论文系统地评估了用户对XR代理技术的社会接受度，并为未来的研究和系统改进提供了有价值的见解。

Q: 论文做了哪些实验？

实验设计

目标：评估记者对虚拟培训代理Guardia的社会接受度。
地点：实验在德国国际媒体组织Deutsche Welle位于波恩和柏林的办公地点进行。
时间：实验于2024年9月进行。

参与者

数量：共25名参与者。
背景：参与者均为Deutsche Welle的员工，包括记者、制片人和培训师。他们具有在高风险环境中工作的经验，并且接受过安全培训。
性别分布：
- 女性：48%
- 男性：44%
- 非二元性别：4%
- 未透露：4%
年龄分布：
- 25-34岁：20%
- 35-44岁：24%
- 45-54岁：44%
- 55-64岁：12%
与虚拟代理的互动经验：
- 18名参与者曾几次与虚拟代理互动。
- 3名参与者了解虚拟代理但从未互动过。
- 3名参与者曾使用过虚拟代理。
- 1名参与者没有接触过虚拟代理。

实验流程

介绍和同意：
- 每位参与者在实验前签署知情同意书。
- 实验开始前，参与者接受关于实验流程的简短介绍。
培训任务：
- 参与者使用标准笔记本电脑与Guardia虚拟代理进行交互。
- Guardia通过语音、键盘和鼠标与参与者互动。
- 参与者完成以下任务：
  - 三个由Guardia呈现的培训课程，涵盖以下主题：
    - 在检查点的行为。
    - 从政治示威或动荡地区报道。
    - 应急包的内容。
  - 三个与这些主题相关的测验。
  - 至少一次与Guardia关于安全问题的聊天互动。
数据收集：
- 实验结束后，参与者填写在线问卷。
- 问卷包含51个Likert量表问题，涵盖感知易用性、感知有用性、安全性、隐私性、可信度等属性。
- 问卷还包含10个开放式问题，用于收集定性反馈。
- 实验过程中，记录参与者完成各项任务的时间和方式，以及是否需要协助。

数据分析

定量分析：
- 计算每个代表属性的加权平均分，考虑基本属性的影响。
- 使用公式（1）计算调整后的平均分，以反映每个代表属性的最终评分。
定性分析：
- 通过访谈收集的定性数据用于补充和解释定量结果，提供更深入的用户反馈。

实验结果

定量结果：
- 大多数基本属性的平均分高于中性值3.0，表明参与者对这些属性有较高的正面评价。
- 社交存在感（Social Presence）的平均分较低（1.66），表明参与者不认为Guardia特别像人类。
- 感知愉悦（Perceived Enjoyment）的调整后平均分从3.50降至2.85，主要受社交存在感低的影响。
定性结果：
- 参与者对Guardia的互动能力给予了积极评价，特别是其能够提供超出课程内容的相关回答，使体验更加智能化和个性化。
- 一些参与者指出Guardia的某些方面（如肢体语言）不够自然，需要改进。

通过这些实验步骤，论文系统地评估了用户对XR代理技术的社会接受度，并为未来的研究和系统改进提供了有价值的见解。

Q: 有什么可以进一步探索的点？

A: 论文中提出的用户研究为评估扩展现实（XR）代理技术的社会接受度提供了有价值的见解，但也指出了几个可以进一步探索的点。以下是一些可以进一步研究的方向：

1. 增强虚拟代理的人类相似性

研究问题：如何通过改进虚拟代理的肢体语言、对话能力和视觉表现来提高其人类相似性和社交存在感？
方法：可以进行实验研究，测试不同的人类相似性特征（如自然的肢体语言、面部表情和语音语调）对用户感知的影响。
预期结果：预期通过增强这些特征，可以提高用户的接受度和参与度。

2. 长期使用的影响

研究问题：用户对XR代理技术的接受度是否会随着时间的推移而变化？长期使用是否会揭示新的接受度问题或改进机会？
方法：进行纵向研究，跟踪用户在较长时间内（如数周或数月）使用XR代理技术的体验。
预期结果：长期使用可能会暴露出新的问题，如技术疲劳、隐私担忧的加剧或对系统功能的新需求。

3. 不同社会背景的适用性

研究问题：XR代理技术在不同社会背景（如邮局、医院、学校等）中的社会接受度如何？不同背景下的用户对XR代理技术的期望和接受度有何差异？
方法：在多个不同的社会背景下进行用户研究，收集定量和定性数据。
预期结果：不同背景下的用户可能对XR代理技术有不同的期望和接受度，这将为系统设计提供更全面的指导。

4. 隐私和安全性的深入研究

研究问题：用户对XR代理技术的隐私和安全性的担忧如何影响其接受度？如何通过技术改进来缓解这些担忧？
方法：进行深入的隐私和安全评估，包括用户数据的收集、存储和处理方式。同时，进行用户研究以了解用户对隐私和安全的具体担忧。
预期结果：通过技术改进和透明的隐私政策，可以提高用户对XR代理技术的信任和接受度。

5. 用户界面和交互设计的优化

研究问题：如何优化XR代理技术的用户界面和交互设计，以提高用户体验和接受度？
方法：进行用户界面和交互设计的实验研究，测试不同的设计元素（如布局、颜色方案、交互方式等）对用户体验的影响。
预期结果：通过优化用户界面和交互设计，可以提高用户的满意度和接受度。

6. 跨文化研究

研究问题：不同文化背景下的用户对XR代理技术的接受度如何？文化因素如何影响用户对XR代理技术的感知和使用？
方法：在不同文化背景下进行用户研究，比较不同文化之间的差异。
预期结果：文化因素可能显著影响用户对XR代理技术的接受度，这将为全球化设计提供重要的见解。

7. 技术改进的影响

研究问题：技术改进（如更高的分辨率、更自然的语音合成、更智能的对话系统）如何影响用户对XR代理技术的接受度？
方法：进行实验研究，比较不同技术配置下的用户接受度。
预期结果：技术改进可能会显著提高用户的接受度，但需要平衡技术成本和用户需求。

8. 用户培训和教育的影响

研究问题：用户对XR代理技术的培训和教育如何影响其接受度？如何设计有效的培训计划来提高用户对XR代理技术的理解和使用？
方法：设计和实施不同的培训计划，评估其对用户接受度的影响。
预期结果：有效的培训计划可以显著提高用户对XR代理技术的理解和接受度。

通过这些进一步的研究，可以更全面地了解用户对XR代理技术的接受度，并为未来的系统设计和改进提供更深入的指导。

Q: 总结一下论文的主要内容

A: 本文通过用户研究评估了扩展现实（XR）代理技术在记者培训中的社会接受度。研究聚焦于一个名为Guardia的远程XR培训系统，该系统通过虚拟代理为记者提供定制化培训，特别是在敏感和高风险的情境下。研究基于并扩展了Almere模型，通过定量问卷和定性访谈相结合的方法，评估了用户对XR代理技术的接受度。研究发现，用户对XR代理技术的接受度较高，但存在改进空间，特别是在提高虚拟代理的人类相似性和互动自然性方面。研究结果为未来的研究和系统改进提供了有价值的见解，并指出了进一步研究的方向。

背景知识

扩展现实（XR）：结合虚拟现实（VR）、增强现实（AR）和混合现实（MR）技术，提供沉浸式和交互式的用户体验。
XR代理技术：利用人工智能（AI）驱动的虚拟助手或对话代理，提供个性化体验，增强学习和决策能力。
社会接受度：指社区对特定技术的接受或至少容忍程度，影响技术的广泛应用。

研究方法

研究对象：25名Deutsche Welle的员工，包括记者、制片人和培训师，具有在高风险环境中工作的经验。
实验环境：在Deutsche Welle位于波恩和柏林的办公地点进行。
实验流程：
1. 介绍和同意：参与者签署知情同意书。
2. 培训任务：参与者使用标准笔记本电脑与Guardia虚拟代理进行交互，完成三个培训课程、三个测验和至少一次聊天互动。
3. 数据收集：实验结束后，参与者填写在线问卷并接受简短访谈。
问卷设计：基于Almere模型，包含51个Likert量表问题和10个开放式问题，涵盖感知易用性、感知有用性、安全性、隐私性、可信度等属性。

实验结果

定量结果：
- 大多数基本属性的平均分高于中性值3.0，表明参与者对这些属性有较高的正面评价。
- 社交存在感（Social Presence）的平均分较低（1.66），表明参与者不认为Guardia特别像人类。
- 感知愉悦（Perceived Enjoyment）的调整后平均分从3.50降至2.85，主要受社交存在感低的影响。
定性结果：
- 参与者对Guardia的互动能力给予了积极评价，特别是其能够提供超出课程内容的相关回答，使体验更加智能化和个性化。
- 一些参与者指出Guardia的某些方面（如肢体语言）不够自然，需要改进。

关键结论

用户对XR代理技术的接受度较高，但存在改进空间，特别是在提高虚拟代理的人类相似性和互动自然性方面。
提高虚拟代理的人类相似性和互动自然性可以显著提高用户的接受度和参与度。
未来的研究可以进一步探索不同社会背景下的用户接受度，以及隐私和安全性的具体担忧对用户接受度的影响。

未来工作

技术改进：增强虚拟代理的人类相似性，优化培训内容和用户界面。
长期研究：进行纵向研究，跟踪用户在较长时间内使用XR代理技术的体验。
跨文化研究：在不同文化背景下进行用户研究，比较不同文化之间的差异。
隐私和安全：进行深入的隐私和安全评估，提出改进措施以提高用户信任度。

Authors: Megha Quamara, Viktor Schmuck, Cristina Iani, Axel Primavesi, Alexander Plaum, Luca Vigano

Categories: cs.HC, cs.AI

PDF URL: https://arxiv.org/pdf/2507.16562v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16562v1

Published: 2025-07-22T13:14:05Z

7. confopt: A Library for Implementation and Evaluation of Gradient-based One-Shot NAS Methods

Gradient-based one-shot neural architecture search (NAS) has significantly reduced the cost of exploring architectural spaces with discrete design choices, such as selecting operations within a model. However, the field faces two major challenges. First, evaluations of gradient-based NAS methods heavily rely on the DARTS benchmark, despite the existence of other available benchmarks. This overreliance has led to saturation, with reported improvements often falling within the margin of noise. Second, implementations of gradient-based one-shot NAS methods are fragmented across disparate repositories, complicating fair and reproducible comparisons and further development. In this paper, we introduce Configurable Optimizer (confopt), an extensible library designed to streamline the development and evaluation of gradient-based one-shot NAS methods. Confopt provides a minimal API that makes it easy for users to integrate new search spaces, while also supporting the decomposition of NAS optimizers into their core components. We use this framework to create a suite of new DARTS-based benchmarks, and combine them with a novel evaluation protocol to reveal a critical flaw in how gradient-based one-shot NAS methods are currently assessed. The code can be found at https://github.com/automl/ConfigurableOptimizer.

中文摘要

基于梯度的一次性神经架构搜索 (NAS) 大大降低了探索具有离散设计选择的架构空间的成本，例如在模型中选择操作。然而，该领域面临两个主要挑战。首先，基于梯度的 NAS 方法的评估在很大程度上依赖于 DARTS 基准，尽管存在其他可用的基准。这种过度依赖导致了饱和，报告的改进通常在噪声的范围内。其次，基于梯度的一次性 NAS 方法的实现分散在不同的代码库中，复杂了公平和可重复的比较以及进一步的发展。在本文中，我们介绍了可配置优化器 (confopt)，这是一个可扩展的库，旨在简化基于梯度的一次性 NAS 方法的开发和评估。Confopt 提供了一个简化的 API，便于用户集成新的搜索空间，同时支持将 NAS 优化器分解为其核心组件。我们利用这个框架创建了一套新的基于 DARTS 的基准，并将其与一种新颖的评估协议结合，揭示了当前评估基于梯度的一次性 NAS 方法的一个关键缺陷。代码可以在 https://github.com/automl/ConfigurableOptimizer 找到。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决神经架构搜索（NAS）领域中基于梯度的一次性（one-shot）NAS方法在评估和实现方面面临的挑战，具体包括以下两个主要问题：

评估方法的局限性：
- 目前对基于梯度的NAS方法的评估过度依赖于DARTS基准测试，这导致了评估结果的饱和现象，即许多新方法的改进往往在误差范围内，难以得出明确的结论。
- 现有的评估方法没有充分考虑到超网络（supernet）与目标模型之间的差异，这可能导致评估结果不准确。
- 评估过程中没有充分隔离架构性能的内在质量，容易受到超参数选择等外部因素的干扰。
实现方法的碎片化：
- 目前基于梯度的一次性NAS方法的实现分散在不同的代码库中，这使得公平和可重复的比较以及进一步开发变得复杂。
- 缺乏一个统一的、可扩展的库来支持NAS方法的开发和评估，这限制了研究人员对不同NAS方法的系统性研究和比较。

为了解决这些问题，论文提出了一个名为Configurable Optimizer（confopt）的库，旨在简化基于梯度的一次性NAS方法的开发和评估，并通过创建一个新的DARTS基准测试套件（DARTS-Bench-Suite）来揭示当前评估方法中存在的关键问题。

Q: 有哪些相关研究？

A: 论文中提到了多个与基于梯度的一次性NAS方法相关的研究，这些研究主要集中在以下几个方面：

DARTS及改进方法

DARTS：Liu等人在2019年提出的Differentiable Architecture Search（DARTS）是基于梯度的一次性NAS方法的开创性工作。它通过将离散的架构搜索问题转化为连续的优化问题，大大加快了搜索速度。DARTS将网络架构表示为有向无环图，通过边上的操作集合的加权和来松弛搜索空间，并采用双层优化问题来联合优化架构参数和网络权重。
GDAS：Dong和Yang在2019年提出的GDAS通过使用Gumbel-Softmax硬采样子图来减少内存开销，从而缓解了DARTS在架构选择上的不稳定性。
PC-DARTS：Xu等人在2019年提出的PC-DARTS通过采样一小部分通道来减少内存消耗，提高了架构选择的稳定性。
DrNAS：Chen等人在2021年提出的DrNAS采用狄利克雷分布来采样架构参数，通过引入随机性来提高架构搜索的鲁棒性。
SmoothDARTS：Chen和

Authors: Abhash Kumar Jha, Shakiba Moradian, Arjun Krishnakumar, Martin Rapp, Frank Hutter

Categories: cs.LG, cs.AI, 68T01, I.2.6

PDF URL: https://arxiv.org/pdf/2507.16533v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.16533v1

Published: 2025-07-22T12:44:28Z

8. BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning

The applications of large language models (LLMs) in various biological domains have been explored recently, but their reasoning ability in complex biological systems, such as pathways, remains underexplored, which is crucial for predicting biological phenomena, formulating hypotheses, and designing experiments. This work explores the potential of LLMs in pathway reasoning. We introduce BioMaze, a dataset with 5.1K complex pathway problems derived from real research, covering various biological contexts including natural dynamic changes, disturbances, additional intervention conditions, and multi-scale research targets. Our evaluation of methods such as CoT and graph-augmented reasoning, shows that LLMs struggle with pathway reasoning, especially in perturbed systems. To address this, we propose PathSeeker, an LLM agent that enhances reasoning through interactive subgraph-based navigation, enabling a more effective approach to handling the complexities of biological systems in a scientifically aligned manner. The dataset and code are available at https://github.com/zhao-ht/BioMaze.

中文摘要

最近，对大型语言模型（LLMs）在各种生物领域中的应用进行了探索，但它们在复杂生物系统（如途径）的推理能力仍未得到充分研究，这对于预测生物现象、提出假设和设计实验至关重要。这项工作探讨了LLMs在途径推理中的潜力。我们引入了BioMaze，一个包含5.1千个复杂途径问题的数据集，这些问题来自真实研究，覆盖了包括自然动态变化、干扰、额外干预条件和多尺度研究目标在内的各种生物背景。我们对诸如CoT和图增强推理等方法的评估表明，LLMs在途径推理方面存在困难，特别是在受到干扰的系统中。为了解决这个问题，我们提出了PathSeeker，一种增强推理能力的LLM代理，通过基于子图的交互式导航，使处理生物系统复杂性的方式更加有效，并与科学方向一致。数据集和代码可在https://github.com/zhao-ht/BioMaze上获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决大型语言模型（LLMs）在复杂生物系统中的推理能力问题，特别是针对生物通路（pathways）的推理。尽管LLMs在多个科学领域展现出了显著的性能，但在处理复杂的生物通路推理任务时，其能力仍然未被充分探索。生物通路推理对于预测生物现象、形成假设和设计实验至关重要。因此，论文的主要目标是探索LLMs在生物通路推理中的潜力，并提出一种新的方法来增强LLMs在这一领域的推理能力。

具体来说，论文的主要贡献和目标包括：

构建BioMaze数据集：为了评估LLMs在生物通路推理中的表现，作者构建了一个包含5100个复杂生物通路问题的数据集BioMaze。这些问题源自真实的研究文献，涵盖了多种生物背景，包括自然动态变化、干扰、额外的干预条件以及多尺度的研究目标。
评估现有方法：论文对现有的推理方法，如链式思考（Chain-of-Thought, CoT）和基于图的增强推理方法进行了评估。结果表明，LLMs在处理生物通路推理任务时存在困难，尤其是在系统受到干扰或干预时。
提出PATHSEEKER方法：为了解决LLMs在生物通路推理中的挑战，作者提出了一种名为PATHSEEKER的新型LLM代理方法。PATHSEEKER通过交互式的子图导航来增强推理能力，使LLMs能够更有效地处理生物系统的复杂性，并以更符合科学的方式进行推理。
实验验证：通过在BioMaze数据集上的实验，作者验证了PATHSEEKER方法的有效性。结果表明，PATHSEEKER在大多数情况下优于现有的推理方法，尤其是在处理干预和扰动场景时，能够显著提高推理的准确性。

总的来说，这篇论文不仅提供了一个新的基准数据集来评估LLMs在生物通路推理中的表现，还提出了一种新的方法来增强LLMs的推理能力，这对于推动生物科学领域的研究具有重要意义。

Q: 有哪些相关研究？

A: 这篇论文提到了多个与生物科学问答和图增强语言模型相关的研究，以下是主要的相关研究：

生物科学问答

MEDHOP (Welbl et al., 2018): 探索了生物科学领域的多跳阅读理解任务，以选择题的形式进行问答。
PubMedQA (Jin et al., 2019): 以阅读理解的形式研究了生物科学问题回答，问题形式为True/False。
HEAD-QA (Vilares & Gómez-Rodríguez, 2019): 探讨了医疗保健领域的知识探查和推理任务，以选择题形式进行。
MedQA (Jin et al., 2021): 以阅读理解的形式研究了医学领域的问答任务，以选择题形式呈现。
MedMCQA (Pal et al., 2022): 以选择题形式研究了医学领域的知识探查和推理任务。
BioASQ-QA (Krithara et al., 2023): 提出了一个针对生物医学专家实际信息需求的真实问答基准，问题形式为True/False和开放式问题。
ChatPathway (Li et al., 2023b): 探讨了语言模型在生物通路补全任务中的能力，以开放式问题形式进行知识探查。
Azam et al. (2024): 研究了语言模型在生物通路和基因关系挖掘中的能力，以选择题形式进行知识探查。

图增强语言模型

Ye et al. (2023): 探索了通过将图数据编码为文本的方式增强LLMs。
Wang et al. (2024): 研究了将图数据编码为文本以增强LLMs的方法。
Fatemi et al. (2023): 提出了一种将图数据编码为文本以增强LLMs的方法。
Liu et al. (2023a): 研究了针对图任务对LLMs进行特定调整的方法。
Tang et al. (2024): 探索了针对图任务对LLMs进行调整的方法。
He et al. (2024): 提出了一种针对图任务对LLMs进行调整的方法。
Zhao et al. (2023): 研究了针对图任务对LLMs进行调整的方法。
He & Hooi (2024): 探索了针对图任务对LLMs进行调整的方法。
Sun et al. (2023): 提出了一种利用图结构进行复杂推理任务的方法。
Jin et al. (2024): 研究了利用图结构进行复杂推理任务的方法。
Li et al. (2023a): 提出了一种利用图结构进行复杂推理任务的方法。
Jiang et al. (2023): 探索了利用图结构进行复杂推理任务的方法。
Besta et al. (2024): 研究了利用图结构进行复杂推理任务的方法。

这些研究为生物科学问答和图增强语言模型领域提供了重要的基础和参考。

Q: 论文如何解决这个问题？

A: 论文通过以下几个主要步骤来解决大型语言模型（LLMs）在生物通路推理中的问题：

1. 构建BioMaze数据集

为了评估LLMs在生物通路推理中的表现，作者构建了一个名为BioMaze的高质量数据集。该数据集包含5100个复杂的生物通路问题，这些问题直接来源于真实的研究文献，涵盖了多种生物背景，包括自然动态变化、干扰、额外的干预条件以及多尺度的研究目标。数据集的构建过程包括以下几个步骤：

数据来源：从超过6000篇生物通路研究论文中提取详细实验观察及其上下文，并将其转化为True/False或开放式问题。
数据过滤：通过自动化方法和专家人工审查，确保问题的准确性和质量。过滤掉定义不明确、询问具体测量值、查询多个事实、过于简单或与生物通路无关的问题。
专家审查：所有问题最终由专家根据质量维度进行审查，确保整体问题质量。专家审查的通过率约为40%。

2. 分类推理类型

为了研究生物通路中的各种研究场景，BioMaze任务从三个维度进行分类：

查询类型（Inquiry Type）：分为“正常源”（Normal Source）和“扰动源”（Perturbed Source），分别涉及自然状态下生物通路中成分的影响和外部干预或处理的影响。
额外条件（Extra Condition）：分为“自然条件”（Natural Condition）和“干预条件”（Intervened Condition），分别评估通路在自然状态和已受其他因素影响下的行为。
研究目标（Investigation Target）：分为“单一成分作为目标”（Single Component as Target）、“成分间相互作用作为目标”（Components Interaction as Target）和“功能作为目标”（Function as Target），分别关注单一成分、下游过程或整体生物功能的影响。

3. 评估现有方法

论文对现有的推理方法进行了评估，包括：

链式思考（Chain-of-Thought, CoT）：基于LLMs的内在知识生成推理。
基于图的增强推理方法：如Chain-of-Knowledge (CoK)、Think-of-Graph (ToG)和G-Retriever，这些方法通过将生物通路图数据整合到推理过程中来增强LLMs的推理能力。

评估结果表明，LLMs在生物通路推理任务中表现不佳，尤其是在系统受到干扰或干预时。这表明现有的LLMs在处理复杂生物系统时存在局限性。

4. 提出PATHSEEKER方法

为了解决LLMs在生物通路推理中的挑战，作者提出了一种名为PATHSEEKER的新型LLM代理方法。PATHSEEKER通过交互式的子图导航来增强推理能力，使LLMs能够更有效地处理生物系统的复杂性。具体来说，PATHSEEKER的方法包括以下几个关键点：

全局和局部子图导航：PATHSEEKER不仅可以进行全局子图检索，还可以在已观察到的路径步骤的多跳邻居中进行局部子图检索。这种灵活的导航方式使LLMs能够根据中间推理结果调整探索路径。
图编码：检索到的子图通过特定的编码方法转换为文本观察，确保每个三元组在LLMs的观察中只出现一次，提高内容长度效率，并鼓励LLMs理解整个导航历史。
最终推理：在完成图数据浏览后，基于所有导航历史进行最终推理。

5. 实验验证

论文通过在BioMaze数据集上的实验验证了PATHSEEKER方法的有效性。实验结果表明：

LLMs在生物通路推理任务中表现不佳，尤其是在处理干预和扰动场景时。
PATHSEEKER在大多数情况下优于现有的推理方法，尤其是在处理干预和扰动场景时，能够显著提高推理的准确性。
PATHSEEKER通过交互式的子图导航，有效地利用生物通路图数据库，提高了推理的准确性和科学性。

通过这些步骤，论文不仅提供了一个新的基准数据集来评估LLMs在生物通路推理中的表现，还提出了一种新的方法来增强LLMs的推理能力，这对于推动生物科学领域的研究具有重要意义。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估大型语言模型（LLMs）在生物通路推理中的表现，并验证所提出的PATHSEEKER方法的有效性：

1. 数据集划分与实验设置

数据集划分：BioMaze数据集被划分为训练集、验证集和测试集，以确保模型在不同数据上的表现可以被准确评估。
模型选择：实验涉及了多种LLMs，包括GPT-3.5、LLaMA3.1 8B、LLaMA3.1 70B、Qwen2.5 7B、Qwen2.5 14B、Qwen2.5 72B和GPT-4，以评估不同模型在生物通路推理任务上的表现。
推理方法：实验比较了多种推理方法，包括链式思考（Chain-of-Thought, CoT）、基于图的增强推理方法（如Chain-of-Knowledge, CoK；Think-of-Graph, ToG；G-Retriever）以及提出的PATHSEEKER方法。

2. 评估指标

True/False任务：计算准确率（accuracy），即模型正确预测的比例。
开放式任务：使用LLaMA3.1 405B模型作为评估器，比较生成的答案与真实答案，判断其正确性。评估器的性能也在附录中进行了分析。

3. 主要实验结果

LLMs在生物通路推理中的表现：实验结果表明，LLMs在生物通路推理任务中表现不佳，尤其是在处理干预和扰动场景时。具体来说，True/False任务的准确率仅略高于随机猜测的基线（50%），而开放式任务的准确率也较低。
不同模型的比较：随着模型规模和容量的增加，整体性能有所提高，但不同模型在处理干预和扰动场景时仍然存在显著差距。这表明LLMs在推理生物通路中的因果关系方面存在固有限制。
PATHSEEKER方法的有效性：PATHSEEKER在大多数情况下优于现有的推理方法，尤其是在处理干预和扰动场景时。PATHSEEKER通过交互式的子图导航，有效地利用生物通路图数据库，显著提高了推理的准确性和科学性。

4. 进一步分析

推理步骤与任务难度：实验分析了推理步骤数量与任务难度之间的关系。结果表明，随着推理步骤的增加，LLMs的性能下降，而PATHSEEKER的性能则更为稳定。这表明基于图的增强推理方法可以缓解复杂中间过程带来的挑战。
错误原因分析：实验对错误案例进行了分类，包括未解决的结论（Unresolved Conclusion）、不完整的答案（Incomplete Answer）、推理中的遗漏（Omission in Reasoning）和推理中的错误（Faulty in Reasoning）。分析结果表明，PATHSEEKER显著减少了推理中的错误，但遗漏仍然是一个挑战。
PATHSEEKER的行为分析：实验分析了PATHSEEKER在任务完成过程中的行为，包括API使用次数和步骤分布。结果表明，PATHSEEKER在大多数任务中能够在六步或更少的步骤内完成任务，但在某些情况下需要超过十步，这通常是由于缺少通路数据。

5. 消融研究

PATHSEEKER的组件分析：通过消融研究，论文评估了PATHSEEKER各个组件的重要性。结果表明，最终推理组件（FinalReasoner）是最重要的，没有它，代理的答案会因为长任务历史而退化。局部搜索API对于高效的图导航也是至关重要的，而图编码方法则提高了性能，突出了为序列模型编码图数据的价值。

这些实验结果表明，PATHSEEKER方法能够有效地增强LLMs在生物通路推理中的表现，特别是在处理复杂的生物系统和干预场景时。

Q: 有什么可以进一步探索的点？

A: 论文在探索大型语言模型（LLMs）在生物通路推理中的应用时，已经取得了显著的进展，但仍然有一些可以进一步探索的方向。以下是一些可能的研究方向：

1. 改进PATHSEEKER的导航策略

自适应导航策略：目前的PATHSEEKER使用了全局和局部子图导航，但导航策略是固定的。可以研究自适应导航策略，使模型能够根据当前推理的复杂性和不确定性动态调整导航策略。
多模态导航：结合文本和图数据进行导航，例如在推理过程中利用文本描述和图结构的互补信息，以提高导航的准确性和效率。

2. 增强图数据库的覆盖和质量

图数据库的扩展：目前的图数据库基于KEGG构建，可以考虑整合更多的生物通路数据库，如Reactome、Pathway Commons等，以提供更全面的生物通路信息。
图数据库的动态更新：生物研究不断产生新的发现，图数据库需要能够动态更新以反映最新的研究成果。可以研究如何实时或定期更新图数据库，以保持其时效性和准确性。

3. 多任务学习和迁移学习

多任务学习：将生物通路推理与其他生物科学任务（如蛋白质功能预测、药物发现等）结合起来，通过多任务学习提高模型的泛化能力和推理能力。
迁移学习：研究如何将预训练的LLMs在其他领域（如化学、材料科学等）的知识迁移到生物通路推理任务中，以提高模型的推理性能。

4. 模型的可解释性和透明度

推理过程的可视化：开发工具和方法来可视化PATHSEEKER的推理过程，使研究人员能够更好地理解模型是如何进行推理的，从而提高模型的可解释性和透明度。
因果推理的验证：通过实验验证模型推理结果的因果关系，确保模型的推理不仅在逻辑上合理，而且在生物学上也是准确的。

5. 与其他生物信息学工具的集成

与实验设计工具的集成：将PATHSEEKER与实验设计工具集成，使研究人员能够根据模型的推理结果设计更有效的实验。
与生物通路模拟工具的集成：将PATHSEEKER与生物通路模拟工具（如COPASI、CellML等）集成，通过模拟验证模型的推理结果，提高模型的准确性和可靠性。

6. 处理不确定性和模糊性

不确定性建模：研究如何在模型中建模和处理生物通路中的不确定性和模糊性，例如通过引入概率图模型或贝叶斯方法。
鲁棒性测试：在存在噪声和不完整数据的情况下测试模型的鲁棒性，确保模型在实际应用中能够稳定地进行推理。

7. 跨学科合作

与生物学家的合作：与生物学家合作，将PATHSEEKER应用于实际的生物研究项目中，验证模型在解决实际问题中的有效性。
与计算机科学家的合作：与计算机科学家合作，开发新的算法和技术，以进一步提高模型的性能和效率。

8. 伦理和社会影响

伦理问题：研究PATHSEEKER在生物医学研究中的伦理问题，例如如何确保模型的推理结果不会被误用或滥用。
社会影响：评估PATHSEEKER对生物医学研究和社会的影响，例如如何通过模型的推理结果促进生物医学研究的进展，提高医疗水平。

这些方向不仅可以进一步提升PATHSEEKER的性能和应用范围，还可以推动生物科学领域的发展，为未来的生物医学研究提供更强大的工具和方法。

Q: 总结一下论文的主要内容

A: 本文的核心内容是探索大型语言模型（LLMs）在生物通路推理中的应用潜力，并提出了一种新的方法PATHSEEKER来增强LLMs的推理能力。文章首先介绍了生物通路推理的重要性，然后详细描述了BioMaze数据集的构建、推理类型分类、现有方法的评估，以及PATHSEEKER方法的设计和实验验证。以下是文章的详细内容：

背景知识

生物通路推理的重要性：生物通路是生物系统中基因、酶、底物和信号分子组成的复杂网络。理解这些通路对于解释生物现象、形成假设、设计实验和解释结果至关重要。然而，LLMs在处理复杂生物系统时的推理能力尚未得到充分探索。

研究方法

BioMaze数据集：包含5100个复杂的生物通路问题，这些问题直接来源于真实的研究文献，涵盖了多种生物背景，包括自然动态变化、干扰、额外的干预条件以及多尺度的研究目标。数据集的构建过程包括数据来源、数据过滤和专家审查。
推理类型分类：从三个维度对BioMaze任务进行分类，包括查询类型（正常源和扰动源）、额外条件（自然条件和干预条件）和研究目标（单一成分、成分间相互作用和功能）。
现有方法评估：对链式思考（CoT）和基于图的增强推理方法（如CoK、ToG和G-Retriever）进行了评估，结果表明LLMs在生物通路推理任务中表现不佳，尤其是在处理干预和扰动场景时。
PATHSEEKER方法：提出了一种新的LLM代理方法，通过交互式的子图导航来增强推理能力。PATHSEEKER可以进行全局和局部子图检索，并通过特定的图编码方法将检索到的子图转换为文本观察，以提高推理的准确性和科学性。

实验

实验设置：使用了多种LLMs，包括GPT-3.5、LLaMA3.1 8B、LLaMA3.1 70B、Qwen2.5 7B、Qwen2.5 14B、Qwen2.5 72B和GPT-4，以及多种推理方法，包括CoT、CoK、ToG、G-Retriever和PATHSEEKER。
评估指标：对于True/False任务，计算准确率；对于开放式任务，使用LLaMA3.1 405B模型作为评估器，比较生成的答案与真实答案，判断其正确性。
主要结果：LLMs在生物通路推理任务中表现不佳，尤其是在处理干预和扰动场景时。PATHSEEKER在大多数情况下优于现有的推理方法，尤其是在处理干预和扰动场景时，能够显著提高推理的准确性和科学性。
进一步分析：包括推理步骤与任务难度的关系、错误原因分析以及PATHSEEKER的行为分析。结果表明，PATHSEEKER通过交互式的子图导航，有效地利用生物通路图数据库，缓解了复杂中间过程带来的挑战。

关键结论

LLMs在生物通路推理中的局限性：LLMs在处理复杂生物系统时存在局限性，尤其是在系统受到干预或扰动时。
PATHSEEKER的有效性：PATHSEEKER通过交互式的子图导航，有效地利用生物通路图数据库，显著提高了LLMs在生物通路推理中的表现。
图增强推理的重要性：基于图的增强推理方法可以缓解复杂中间过程带来的挑战，提高LLMs的推理能力。

未来工作

改进导航策略：研究自适应导航策略和多模态导航，以提高PATHSEEKER的导航效率和准确性。
增强图数据库：扩展图数据库的覆盖范围，提高其质量和时效性。
多任务学习和迁移学习：将生物通路推理与其他生物科学任务结合起来，通过多任务学习提高模型的泛化能力。
模型的可解释性和透明度：开发工具和方法来可视化PATHSEEKER的推理过程，提高模型的可解释性和透明度。
与其他生物信息学工具的集成：将PATHSEEKER与实验设计工具和生物通路模拟工具集成，提高模型的应用价值。
处理不确定性和模糊性：研究如何在模型中建模和处理生物通路中的不确定性和模糊性，提高模型的鲁棒性。
跨学科合作：与生物学家和计算机科学家合作，将PATHSEEKER应用于实际的生物研究项目中，验证其在解决实际问题中的有效性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Haiteng Zhao, Chang Ma, Fangzhi Xu, Lingpeng Kong, Zhi-Hong Deng

Categories: cs.LG, cs.AI, q-bio.QM

PDF URL: https://arxiv.org/pdf/2502.16660v5.pdf

CoolPaper URL: https://papers.cool/arxiv/2502.16660v5

Published: 2025-02-23T17:38:10Z

9. V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard?

Road safety assessments are critical yet costly, especially in Low- and Middle-Income Countries (LMICs), where most roads remain unrated. Traditional methods require expert annotation and training data, while supervised learning-based approaches struggle to generalise across regions. In this paper, we introduce \textit{V-RoAst}, a zero-shot Visual Question Answering (VQA) framework using Vision-Language Models (VLMs) to classify road safety attributes defined by the iRAP standard. We introduce the first open-source dataset from ThaiRAP, consisting of over 2,000 curated street-level images from Thailand annotated for this task. We evaluate Gemini-1.5-flash and GPT-4o-mini on this dataset and benchmark their performance against VGGNet and ResNet baselines. While VLMs underperform on spatial awareness, they generalise well to unseen classes and offer flexible prompt-based reasoning without retraining. Our results show that VLMs can serve as automatic road assessment tools when integrated with complementary data. This work is the first to explore VLMs for zero-shot infrastructure risk assessment and opens new directions for automatic, low-cost road safety mapping. Code and dataset: https://github.com/PongNJ/V-RoAst.

中文摘要

道路安全评估至关重要，但成本高昂，特别是在低收入和中等收入国家（LMICs），在那里大多数道路仍未评级。传统方法需要专家注释和训练数据，而基于监督学习的方法在不同地区之间难以泛化。在本文中，我们介绍了 extit{V-RoAst}，这是一种零-shot视觉问答（VQA）框架，使用视觉语言模型（VLMs）来分类由iRAP标准定义的道路安全属性。我们介绍了来自ThaiRAP的第一个开源数据集，包含来自泰国的2000多幅经过精心挑选的街道级图像，并针对这一任务进行了注释。我们在该数据集上评估了Gemini-1.5-flash和GPT-4o-mini，并将它们的性能与VGGNet和ResNet基线进行基准测试。尽管VLMs在空间意识方面表现不佳，但它们在未见类别上表现良好，并且提供灵活的基于提示的推理，而无需重新训练。我们的结果表明，当与补充数据集成时，VLMs可以作为自动道路评估工具。该工作首次探索了VLMs用于零-shot基础设施风险评估，并为自动、低成本的道路安全制图开辟了新方向。代码和数据集： https://github.com/PongNJ/V-RoAst.

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一种新的方法，使用视觉语言模型（Vision Language Models, VLMs）进行道路安全评估，旨在克服传统卷积神经网络（Convolutional Neural Networks, CNNs）在处理道路安全问题时的局限性。具体来说，论文试图解决的问题包括：

道路交通事故在全球范围内造成的死亡人数和经济损失，特别是在低收入和中等收入国家（LMICs）。
传统的道路评估方法成本高昂，对于LMICs来说难以承担，导致大部分道路网络未被评估，难以识别导致道路死亡的基础设施风险因素。
CNN模型虽然在一定程度上降低了成本，但它们需要标记数据进行训练，这限制了模型在不同城市和国家的视觉变化中的泛化能力。

为了解决这些问题，论文提出了V-RoAst（Visual question answering for Road Assessment）这一新任务，并开发了一个真实世界数据集。该方法通过优化提示工程（prompt engineering）和评估先进的VLMs，如Gemini-1.5-flash和GPT-4o-mini，有效地检查道路评估属性。使用Mapillary的众包图像，提出了一种可扩展的解决方案，以估计道路安全水平，这种方法不需要训练数据，为资源有限的地方利益相关者提供了一种成本效益高且自动化的道路安全评估方法。

Q: 有哪些相关研究？

A: 根据论文内容，相关研究主要集中在以下几个领域：

道路属性检测的计算机视觉研究：研究者们探索了使用计算机视觉模型来辅助进行特定任务，例如裂缝检测、坑洼检测和路面损坏检测。这些研究通常使用图像和视频数据来训练模型，以识别和分类道路属性。
iRAP标准下的道路属性检测：一些研究利用标记好的街道对象数据集（如AusRAP数据集）来开发模型，以检测符合iRAP标准的街道属性。这些模型通常需要大量的训练数据和密集的像素级注释。
视觉语言模型（VLMs）：近年来，大型视觉语言模型在计算机视觉领域变得越来越重要。这些模型能够处理图像和文本输入，并生成文本输出，用于执行多种任务，如图像字幕、图像-文本匹配、视觉推理和视觉问题回答（VQA）。
视觉问题回答（VQA）：VQA任务涉及基于图像回答开放式问题，是计算机视觉和自然语言处理领域的新任务。研究者们开发了多个数据集来评估模型的性能，并探索了如何使用这些数据集来提升自动驾驶等领域的模型性能。
道路安全评估的自动化方法：一些研究尝试使用自动化方法直接从捕获的图像中检测道路特征，这些方法主要使用基于CNN的模型。这些模型虽然比手动标记便宜，但仍然需要标记数据进行训练。
使用替代数据源的研究：一些工作探索了使用替代数据源，如激光雷达（LiDAR）、卫星图像、无人机（UAV）和全球定位系统（GPS）轨迹来评估道路安全。
零样本学习在道路特征检测中的应用：最近，学者们探索了VLMs在零样本学习方面的潜力，例如在没有额外模型训练的情况下进行建筑年代分类、建筑检测、摩托车风险评估、土地使用分类和建筑缺陷检测。

这些相关研究为本文提出的V-RoAst方法提供了理论和技术支持，展示了使用VLMs进行道路安全评估的潜力。

Q: 论文如何解决这个问题？

A: 论文通过以下几个步骤解决道路安全评估的问题：

引入视觉语言模型（VLMs）：论文提出了使用VLMs进行道路安全评估的新方法，这些模型已经在大量图像和文本数据集上进行了预训练，因此无需额外的训练即可执行任务。
开发新任务V-RoAst：研究者们引入了一个名为V-RoAst（Visual question answering for Road Assessment）的新任务，并为此创建了一个真实世界的数据集。这个任务通过模拟一个编码器观察图像并根据iRAP标准对属性进行分类的方式来优化提示工程。
利用众包图像数据：使用Mapillary的众包图像数据，研究者们提出了一种可扩展的解决方案来估计道路安全水平。这种方法不需要训练数据，使其适合资源有限的本地利益相关者。
设计灵活的框架：V-RoAst框架被设计为易于在任何城市应用，并且不需要大量的数据科学专业知识或编码经验。该框架包括文本输入，用于系统指令和提示，以及图像提示。
进行实验和评估：研究者们使用ThaiRAP数据集来评估VLMs，并与传统的计算机视觉模型（如VGGNet和ResNet）进行比较。他们还优化了提示，并评估了使用Gemini-1.5-Flash和GPT-4o-mini来编码道路属性的潜力。
处理类别不平衡问题：为了解决数据集中的类别不平衡问题，研究者们采用了数据增强技术，为训练数据集中的选定图像添加了不同类型的噪声。
评估指标：使用了标准的图像分类评估指标（如准确率、精确率、召回率和F1分数）来衡量模型的性能。
定性评估：利用VQA任务的优势，研究者们能够通过直观地调整提示来改善模型的预测，特别是当模型输出与真实情况存在差异时。

通过这些步骤，论文展示了V-RoAst方法在道路属性分类中的有效性，并与传统模型进行了比较。此外，还探讨了如何利用众包图像数据进行全国性的道路安全评估，并讨论了VLMs在处理空间属性方面的局限性以及如何通过与传统模型的协作来提高结果的准确性。

Q: 论文做了哪些实验？

A: 论文中进行了一系列实验来评估所提出的V-RoAst方法，这些实验包括：

数据集划分：将ThaiRAP数据集分为训练集、测试集、验证集和未见集，以确保在不同阶段评估模型性能。
基线模型训练：使用VGGNet和ResNet作为基线模型，这些模型被训练用于多属性分类问题，共享单个编码器，并为每个单独任务分配不同的解码器。
V-RoAst框架评估：评估了V-RoAst框架在检查图像中52个iRAP属性方面的性能。该框架设计为易于在任何城市应用，并且不需要大量的数据科学专业知识。
指令和提示优化：为VLMs设计了详细的指令和提示，包括任务规范、本地上下文、属性细节和输出格式。这些指令和提示帮助VLMs理解和生成与道路属性相关的响应。
VLMs性能评估：使用Gemini-1.5-flash和GPT-4o-mini这两种VLMs来评估框架，并与传统的CNN模型（ResNet和VGG）进行比较。
Mapillary图像处理：使用Mapillary的众包街景图像，将全景图像转换为与ThaiRAP数据格式一致的双目视图图像，并使用V-RoAst处理这些图像以检查属性。
属性分类性能评估：使用准确率、精确率、召回率和F1分数等标准图像分类评估指标来衡量模型性能。
定性评估：通过VQA任务，研究者们能够直观地调整提示，以改善模型的预测，尤其是在模型输出与真实情况存在差异时。
星等级预测：使用V-RoAst方法和Mapillary图像，评估了模型在预测道路安全星级方面的能力，特别是对于摩托车手的高风险道路。
结果讨论：对实验结果进行了详细的讨论，包括VLMs与传统CNN模型的比较，以及VLMs在处理空间属性方面的局限性。

这些实验的目的是为了展示V-RoAst方法在道路安全评估中的潜力，并与传统方法进行比较，同时探索VLMs在这一领域的应用前景。

Q: 有什么可以进一步探索的点？

Authors: Natchapon Jongwiriyanurak, Zichao Zeng, June Moh Goo, Xinglei Wang, Ilya Ilyankou, Kerkritt Sriroongvikrai, Nicola Christie, Meihui Wang, Huanfa Chen, James Haworth

Categories: cs.CV, cs.AI, cs.ET

PDF URL: https://arxiv.org/pdf/2408.10872v4.pdf

CoolPaper URL: https://papers.cool/arxiv/2408.10872v4

Published: 2024-08-20T14:03:30Z

10. Pre-Training LLMs on a budget: A comparison of three optimizers

Optimizers play a decisive role in reducing pre-training times for LLMs and achieving better-performing models. In this study, we compare three major variants: the de-facto standard AdamW, the simpler Lion, developed through an evolutionary search, and the second-order optimizer Sophia. For better generalization, we train with two different base architectures and use a single- and a multiple-epoch approach while keeping the number of tokens constant. Using the Maximal Update Parametrization and smaller proxy models, we tune relevant hyperparameters separately for each combination of base architecture and optimizer. We found that while the results from all three optimizers were in approximately the same range, Sophia exhibited the lowest training and validation loss, Lion was fastest in terms of training GPU hours but AdamW led to the best downstream evaluation results.

中文摘要

优化器在减少大型语言模型（LLM）的预训练时间和实现更高性能模型方面发挥了决定性作用。在本研究中，我们比较了三种主要变体：事实上的标准AdamW、更简单的Lion（通过进化搜索开发）和二阶优化器Sophia。为了更好的泛化，我们使用了两种不同的基础架构，并采用单次和多次训练周期的方法，同时保持令牌数量不变。使用最大更新参数化和较小的代理模型，我们分别为每种基础架构和优化器组合调整相关超参数。我们发现，虽然三种优化器的结果大致在同一范围内，但Sophia在训练和验证损失方面表现最低，Lion在训练GPU小时方面最快，而AdamW则在下游评估结果方面最好。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文旨在比较三种主要的优化器（AdamW、Lion 和 Sophia）在预训练大型语言模型（LLMs）时的性能，特别是在有限的计算资源预算下。研究的核心问题包括：

优化器性能比较：在预训练过程中，哪种优化器在训练损失、验证损失、训练时间和下游任务性能方面表现最佳。
计算资源限制下的优化：在有限的计算资源下，如何选择合适的优化器以实现最佳的模型性能。
超参数调整：如何通过超参数调整来优化每个优化器的性能，并验证超参数在不同模型规模下的可转移性。
模型架构的影响：在不同的模型架构（如 GPT-2 和 LLaMA）下，优化器的性能是否有所不同。
数据使用方式的影响：在单次遍历数据（unique data）和多次遍历数据（multi-epoch）的情况下，优化器的性能如何变化。

通过这些研究问题，论文试图为在有限计算资源下预训练小型语言模型提供实证支持和实用建议。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

AdamW 相关研究：
- Loshchilov & Hutter (2017) 提出了 AdamW，这是对 Adam 优化器的改进，通过动量调整学习率。
- Kingma et al. (2015) 提出了 Adam 优化器，是目前深度学习中广泛使用的优化器之一。
- Wen & Zhou (2024) 讨论了优化器在训练深度学习模型中的演变和作用。
- Ruder (2017) 提供了梯度下降优化算法的综述。
Lion 相关研究：
- Chen et al. (2023) 提出了 Lion 优化器，这是一种通过进化搜索开发的简单优化器，不是由人类工程师设计的。
- Kaddour et al. (2023) 比较了 AdamW、Lion 和 Sophia 优化器在 BERT 和 T5 模型上的性能。
- Zhao et al. (2025) 研究了 SGD、Adafactor、Adam、Lion 和 Sophia 优化器在不同大小的自回归模型上的性能。
Sophia 相关研究：
- Liu et al. (2024) 提出了 Sophia 优化器，这是一种使用二阶准则的优化器，同时保持计算效率。
- Ishikawa & Karakida (2024) 讨论了二阶优化器在无限宽度神经网络中的参数化。
超参数调整和模型训练：
- Yang et al. (2021) 提出了 Maximal Update Parametrization (µP)，用于在不同模型规模下保持超参数的最优性。
- Lingle (2025) 对 µP 的学习率转移进行了实证研究。
- Dey et al. (2023) 提供了关于模型初始化方差的实验结果，这些结果在本研究中被用作参考。
模型架构和数据集：
- Radford et al. (2019) 和 Brown et al. (2020) 描述了 GPT-2 和 GPT-3 模型架构。
- Touvron et al. (2023) 提出了 LLaMA 模型架构。
- Soboleva et al. (2023) 提供了 SlimPajama 数据集，这是一个清理和去重后的 RedPajama 数据集版本。
下游任务评估：
- Clark et al. (2018) 提出了 ARC（AI2 Reasoning Challenge）数据集。
- Zellers et al. (2019) 提出了 Hellaswag 数据集。
- Hendrycks et al. (2021) 提出了 MMLU（Massive Multitask Language Understanding）数据集。
- Gao et al. (2024) 提供了一个用于少样本语言模型评估的框架。

这些研究为本文提供了理论和实验基础，帮助作者在有限的计算资源下比较不同优化器的性能，并为实际应用提供指导。

Q: 论文如何解决这个问题？

A: 论文通过以下方法来解决比较三种优化器（AdamW、Lion 和 Sophia）在预训练大型语言模型（LLMs）时的性能问题：

1. 选择模型架构

两种架构：选择 GPT-2 和 LLaMA 两种主流的自回归解码器架构，以确保结果的普适性。
- GPT-2：使用两层线性层的 MLP，LayerNorm，GELU 激活函数。
- LLaMA：使用三层线性层的 MLP，RMSNorm，SwiGLU 激活函数。
模型大小：目标模型大小约为 30 亿参数，代理模型大小约为 5000 万参数。

2. 数据集和分词

数据集：使用公开的 SlimPajama 数据集，从中选择 600 亿个 token 进行训练。
分词：所有模型使用 GPT-2 分词器，以确保一致性。

3. 硬件和软件设置

硬件：使用 2 个集群节点，每个节点配备 8 个 NVIDIA A100 80GB GPU，总共 16 个 GPU。
软件：基于 PyTorch 2.3.2 和 CUDA 12.3，使用 BF16 混合精度训练和 Fully Sharded Data Parallel (FSDP) 进行并行化。

4. 超参数调整

Maximal Update Parametrization (µP)：使用 µP 在小代理模型上调整超参数，然后将这些超参数直接转移到大目标模型上，确保在不同模型规模下保持最优性。
超参数选择：主要调整学习率和输出层激活的乘数。对于 Sophia，还调整了控制二阶信息影响的参数 ρ。
网格搜索：在 5000 万参数的代理模型上进行网格搜索，从 365 种配置中选择最小化最终训练损失的配置。

5. 验证 µP 的有效性

实验设计：在不同模型宽度（128 到 2048）上验证 µP 的有效性，训练每个配置 800M 个 token。
结果：验证了 µP 在 Lion 和 Sophia 优化器上的有效性，发现最优学习率在不同模型宽度下保持一致。

6. 模型训练

训练方式：分别在单次遍历数据（600 亿 unique tokens）和多次遍历数据（5 个 epoch，总共 600 亿 tokens）的情况下训练模型。
训练细节：使用 4M tokens 的批量大小，线性预热和衰减的学习率调度。

7. 评估

训练指标：跟踪最终训练和验证损失（负对数似然），计算训练损失曲线下的面积（AULC），记录总训练时间。
下游任务：使用 lm-evaluation-harness 框架在标准任务上评估模型性能，包括 ARC-Easy、ARC-Challenge、Hellaswag 和 MMLU。

8. 结果分析

训练动态：分析不同优化器在单次和多次遍历数据下的训练动态。
下游性能：比较不同优化器在下游任务上的性能。
架构影响：分析不同架构（GPT 和 LLaMA）对优化器性能的影响。

通过上述方法，论文系统地比较了三种优化器在预训练小型语言模型时的性能，提供了在有限计算资源下选择优化器的实证支持。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

1. 超参数调整实验

实验目的：通过小代理模型（5000万参数）调整超参数，然后将这些超参数转移到大目标模型（27亿参数）上，以确保在不同模型规模下保持最优性。
实验方法：
- 使用 Maximal Update Parametrization (µP) 进行超参数调整。
- 在 1B token 的数据子集上进行网格搜索，从 365 种配置中选择最小化最终训练损失的配置。
- 主要调整的学习率和输出层激活的乘数。对于 Sophia，还调整了控制二阶信息影响的参数 ρ。
实验结果：
- 验证了 µP 在 Lion 和 Sophia 优化器上的有效性，发现最优学习率在不同模型宽度下保持一致。
- 最优超参数配置如下表所示：

Hyperparameter

AdamW GPT

AdamW LLaMA

Lion GPT

Lion LLaMA

Sophia GPT

Sophia LLaMA

Learning Rate

0.0128

0.025

0.00076

0.0012

0.001

0.002

Output Multiplier

1.5

1.0

1.5

Embedding Multiplier

50.6

Init σ

0.073

β1

0.9

0.96

β2

0.95

0.99

10^-8

10^-15

Weight Decay

0.1

1.0

0.2

0.3

1.0

2. 模型训练实验

实验目的：比较三种优化器（AdamW、Lion 和 Sophia）在不同模型架构（GPT 和 LLaMA）和数据使用方式（单次遍历和多次遍历）下的训练动态和性能。
实验方法：
- 模型架构：使用 GPT-2 和 LLaMA 两种架构，目标模型大小约为 30 亿参数。
- 数据使用方式：
  - 单次遍历数据：600 亿 unique tokens。
  - 多次遍历数据：5 个 epoch，每个 epoch 120 亿 tokens，总共 600 亿 tokens。
- 训练设置：
  - 批量大小：4M tokens。
  - 学习率调度：线性预热（750M tokens），线性衰减至峰值的 10%。
  - 使用 Fully Sharded Data Parallel (FSDP) 进行并行化。
实验结果：
- 训练动态：
  - 单次遍历数据：Lion 收敛最快，但最终训练和验证损失最高。AdamW 和 Sophia 的 AULC 值相似，但 AdamW 的最终训练和验证损失最低。
  - 多次遍历数据：Lion 的 AULC 最低，但性能因架构而异，LLaMA 架构表现更好。Sophia 在 GPT 架构下受益最多，最终损失最低，但计算开销略高于 AdamW。
- 下游性能：AdamW 在所有下游任务中表现最佳，Lion 和 Sophia 的表现稍逊一筹。GPT 架构通常比 LLaMA 架构表现更好，但 Lion 在 LLaMA 架构下表现略好。

3. 验证 µP 的有效性实验

实验目的：验证 µP 在 Lion 和 Sophia 优化器上的有效性。
实验方法：
- 在不同模型宽度（128 到 2048）上训练模型，使用 800M tokens 的数据。
- 通过最小化最终 5% 训练步骤的平均训练损失来确定最优学习率。
实验结果：
- 验证了 µP 在 Lion 和 Sophia 优化器上的有效性，最优学习率在不同模型宽度下保持一致。
- Lion 和 Sophia 的最优学习率与 AdamW 的学习率调整规则一致，但 Lion 对学习率的敏感性更高。

4. 下游任务评估实验

实验目的：评估不同优化器在标准下游任务上的性能。
实验方法：
- 使用 lm-evaluation-harness 框架在以下任务上评估模型性能：
  - ARC-Easy
  - ARC-Challenge
  - Hellaswag
  - MMLU（使用 cloze 格式）
- 评估指标：零样本准确率。
实验结果：
- AdamW 在所有下游任务中表现最佳，Lion 和 Sophia 的表现稍逊一筹。
- GPT 架构通常比 LLaMA 架构表现更好，但 Lion 在 LLaMA 架构下表现略好。

这些实验系统地比较了三种优化器在预训练小型语言模型时的性能，提供了在有限计算资源下选择优化器的实证支持。

Q: 有什么可以进一步探索的点？

Authors: Joel Schlotthauer, Christian Kroos, Chris Hinze, Viktor Hangya, Luzian Hahn, Fabian Küch

Categories: cs.LG, cs.AI

PDF URL: https://arxiv.org/pdf/2507.08472v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.08472v2

Published: 2025-07-11T10:29:04Z

ArXiv Domain 2025-07-24

LLM Domain Papers

1. LingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural Inference with LLMs

2. Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent

3. Speech as a Multimodal Digital Phenotype for Multi-Task LLM-based Mental Health Prediction

4. Universal Model Routing for Efficient LLM Inference

5. PICACO: Pluralistic In-Context Value Alignment of LLMs via Total Correlation Optimization

6. P-CoT: A Pedagogically-motivated Participatory Chain-of-Thought Prompting for Phonological Reasoning in LLMs

7. Towards Automated Regulatory Compliance Verification in Financial Auditing with Large Language Models

8. A Method for the Architecture of a Medical Vertical Large Language Model Based on Deepseek R1

9. Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training

10. Supernova: Achieving More with Less in Transformer Architectures

Agent Domain Papers

1. Uncertainty-Aware Knowledge Transformers for Peer-to-Peer Energy Trading with Multi-Agent Reinforcement Learning

2. From homeostasis to resource sharing: Biologically and economically aligned multi-objective multi-agent AI safety benchmarks

3. AI-enhanced conversational agents for personalized asthma support Factors for engagement, value and efficacy

4. RAVine: Reality-Aligned Evaluation for Agentic Search

5. InternAgent: When Agent Becomes the Scientist — Building Closed-Loop System from Hypothesis to Verification

6. Novel Multi-Agent Action Masked Deep Reinforcement Learning for General Industrial Assembly Lines Balancing Problems

7. Evaluating Social Acceptance of eXtended Reality (XR) Agent Technology: A User Study (Extended Version)

8. Agentic RAG with Knowledge Graphs for Complex Multi-Hop Reasoning in Real-World Applications

9. Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities

10. Routine: A Structural Planning Framework for LLM Agent System in Enterprise

AI Domain Papers

1. ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

2. Semi-off-Policy Reinforcement Learning for Vision-Language Slow-thinking Reasoning

3. MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

4. LingBench++: A Linguistically-Informed Benchmark and Reasoning Framework for Multi-Step and Cross-Cultural Inference with LLMs

5. Rethinking LLM-Based RTL Code Optimization Via Timing Logic Metamorphosis

6. Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

7. Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning

8. Decoding Translation-Related Functional Sequences in 5’UTRs Using Interpretable Deep Learning Models

9. Gemini 2.5 Pro Capable of Winning Gold at IMO 2025

10. Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent

Evaluation Domain Papers

1. ChatChecker: A Framework for Dialogue System Testing and Evaluation Through Non-cooperative User Simulation

2. From homeostasis to resource sharing: Biologically and economically aligned multi-objective multi-agent AI safety benchmarks

3. Assessing Adaptive World Models in Machines with Novel Games

4. RAVine: Reality-Aligned Evaluation for Agentic Search

5. LibEER: A Comprehensive Benchmark and Algorithm Library for EEG-based Emotion Recognition

6. Evaluating Social Acceptance of eXtended Reality (XR) Agent Technology: A User Study (Extended Version)

7. confopt: A Library for Implementation and Evaluation of Gradient-based One-Shot NAS Methods

8. BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning

9. V-RoAst: Visual Road Assessment. Can VLM be a Road Safety Assessor Using the iRAP Standard?

10. Pre-Training LLMs on a budget: A comparison of three optimizers