ArXiv Domain 2025-07-23

数据来源：ArXiv Domain

LLM Domain Papers

1. The Impact of Language Mixing on Bilingual LLM Reasoning

Proficient multilingual speakers often intentionally switch languages in the middle of a conversation. Similarly, recent reasoning-focused bilingual large language models (LLMs) with strong capabilities in both languages exhibit language mixing—alternating languages within their chain of thought. Discouraging this behavior in DeepSeek-R1 was found to degrade accuracy, suggesting that language mixing may benefit reasoning. In this work, we study language switching in Chinese-English bilingual reasoning models. We identify reinforcement learning with verifiable rewards (RLVR) as the critical training stage that leads to language mixing. We demonstrate that language mixing can enhance reasoning: enforcing monolingual decoding reduces accuracy by 5.6 percentage points on math reasoning tasks. Additionally, a lightweight probe can be trained to predict whether a potential language switch would benefit or harm reasoning, and when used to guide decoding, increases accuracy by up to 6.25 percentage points. Our findings suggest that language mixing is not merely a byproduct of multilingual training, but is a strategic reasoning behavior.

中文摘要

熟练的多语言使用者通常会在谈话中故意切换语言。同样，最近的关注推理的双语大型语言模型（LLMs）在两种语言中都具有强大能力，表现出语言混合——在思维链中交替使用语言。在DeepSeek-R1中，阻止这种行为被发现会降低准确性，这表明语言混合可能有利于推理。在这项工作中，我们研究了中文-英文双语推理模型中的语言切换。我们确定带可验证奖励的强化学习（RLVR）是导致语言混合的关键训练阶段。我们证明语言混合可以增强推理：强制单语解码会在数学推理任务中减少5.6个百分点的准确性。此外，可以训练一个轻量级探测器来预测潜在的语言切换是否会有益于或损害推理，并且在用于指导解码时，准确性可以提高多达6.25个百分点。我们的发现表明，语言混合不仅仅是多语言训练的副产品，而是一种战略性推理行为。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图研究双语大型语言模型（LLMs）中的语言混合现象对推理能力的影响。具体来说，它探讨了以下问题：

语言混合是否有益于推理：论文通过实验验证了在双语模型中，语言混合是否能够提升其在特定任务上的推理表现，尤其是在数学推理任务中。
语言混合的触发因素：研究试图确定哪种训练阶段或方法会导致双语模型产生语言混合行为。特别是，论文发现强化学习与可验证奖励（RLVR）是导致语言混合的关键训练阶段。
语言混合的模式和行为：论文分析了双语模型在推理过程中语言混合的具体模式和行为，包括语言混合的频率、持续时间以及在不同情境下的表现。
如何引导语言混合以提升推理：论文提出了一种轻量级的探测器（probe），用于预测语言混合是否会对推理产生积极或消极的影响，并据此指导模型的解码过程，以实现更优的推理性能。

Q: 有哪些相关研究？

A: 以下是一些与本研究相关的研究方向和具体工作：

双语或多语种推理在LLMs中的研究

多语言模型的推理能力：随着LLMs的发展，从以英语为中心的模型逐渐演变为具有更平衡的多语言能力的模型，但这些模型在非英语语言的推理任务中仍然表现欠佳，尤其是在低资源语言方面。例如，Shi et al. (2022) 发现模型在英语翻译的问题上表现更好，且倾向于在生成过程中切换到英语，这被认为与训练数据的不平衡有关。
多语言模型的推理机制：一些研究通过机制可解释性分析来探讨多语言LLMs是否真正能够用非英语语言进行推理，发现某些模型可以在特定任务中用潜在的非英语语言进行思考，并且在这些系统内部存在不同的语言特定的神经回路。

LLMs中的语言混合现象

语言混合的起源：语言混合可能源于模型在训练过程中接触到的人类生成的混合语言文本。研究表明，在预训练语料库中的语言混合可以改善LLMs的跨语言对齐。
语言混合的影响：以往的研究通常将LLMs输出中的语言混合视为语言混淆的负面现象，尤其是在处理低资源语言时，模型倾向于切换到英语。然而，最近的一些模型开始更频繁地在英语和中文这两种高资源且结构不同的语言之间进行混合，这种行为在通过强化学习训练的模型中尤为明显，优化基于结果的奖励似乎会覆盖对单语输出的偏好。
语言混合与推理能力的关系：在DeepSeek-R1模型中，强制执行语言一致性会导致性能下降，表明语言混合可能与推理能力之间存在权衡。然而，也有研究声称语言混合会损害推理能力，但这些结论通常是基于单一逻辑谜题数据集得出的，缺乏普遍性证据。

人类双语者中的语言混合

语言混合的动机：在人类双语者中，语言混合（即代码转换）是一种常见的现象，其动机包括表达的精确性、填补词汇空白以及减少认知负荷等。这些动机与LLMs中语言混合的潜在优势相似，即利用不同语言的优势来提高推理效率和准确性。
语言混合的理论：例如，Poplack的“等价约束理论”（Equivalence Constraint Theory）等语言混合的理论框架，为理解双语者如何在不同语言之间切换提供了理论基础。这些理论可以为研究LLMs中的语言混合现象提供启示，帮助我们更好地理解模型在推理过程中语言混合的策略和机制。

语言混合在其他领域的研究

跨模态的语言混合：除了传统的语言混合，语言混合的概念还可以扩展到其他领域，如文本与数学、文本与代码、正式与非正式推理之间的混合。这些跨模态的语言混合现象在LLMs中也可能存在，并且可能对模型的推理能力产生影响。
语言混合的控制与优化：一些研究探索了如何通过训练或调整模型来控制语言混合的频率和方式，以实现更好的性能。例如，通过使用轻量级的探测器来预测语言混合的效用，并据此指导模型的解码过程，从而实现更优的推理策略。

Q: 论文如何解决这个问题？

A: 论文通过以下方法来研究双语大型语言模型（LLMs）中的语言混合现象对推理能力的影响，并试图解决相关问题：

1. 语言混合的检测与统计分析

检测方法：论文首先定义了语言混合（code-switching）的检测方法，通过规则基础的程序来识别中文和英文之间的切换点。具体来说，它会移除数学表达式等语言无关的内容，然后根据Unicode范围区分中文字符和英文字符，并检测相邻文本段之间的语言变化。
统计分析：对不同模型在双语数据集上的语言混合行为进行了详细的统计分析，包括语言切换的次数、每次切换之间生成的token数量以及非提示语言的token比例等指标。通过这些统计分析，论文揭示了不同模型在语言混合方面的差异，并追踪了语言混合行为在模型训练过程中的演变。

2. 语言混合的训练阶段分析

追踪模型发展：论文追踪了从基础预训练模型到经过不同训练阶段（如监督微调SFT、基于人类反馈的强化学习RLHF以及基于可验证奖励的强化学习RLVR）的模型，分析了在这些不同阶段语言混合行为的变化。
关键训练阶段的识别：通过比较不同训练阶段的模型，论文确定了RLVR是导致语言混合的关键训练阶段。RLVR通过优化基于结果的奖励，探索了更大的搜索空间，从而自然地鼓励了语言混合行为。

3. 语言混合对推理性能的影响

约束解码实验：为了评估语言混合对推理性能的影响，论文设计了约束解码实验。在解码阶段，通过强制模型仅使用一种语言（即约束为单语输出），并与无约束的双语输出进行比较。结果表明，在某些任务（如数学推理任务）中，无约束的双语输出（允许语言混合）的准确率显著高于约束的单语输出。
任务特定分析：论文在不同的任务（如数学推理任务MATH500和高考填空题Gaokao Cloze）上进行了实验，发现语言混合在某些任务中能够提升推理性能，而在其他任务中可能会降低性能。这表明语言混合的效果取决于具体的任务和模型的语言能力。

4. 探测器引导的语言混合策略

探测器训练：为了进一步优化语言混合策略，论文训练了一个轻量级的探测器（probe），用于预测每个潜在的语言切换是否会对推理结果产生积极、消极或中性的影响。探测器基于模型的隐藏激活和一些元特征（如是否为自然切换、切换方向和语言熵）进行训练。
引导解码：将训练好的探测器嵌入到解码循环中，在生成过程中实时预测并指导语言切换。如果探测器预测某个自然切换是有害的，就会通过约束解码来抑制该切换；如果预测某个高语言熵位置是有益的，就会强制进行切换。通过这种方式，探测器引导的语言混合策略在多个数据集上实现了推理性能的显著提升。

5. 实验验证与结果分析

实验设置：论文在多个数学推理数据集上进行了广泛的实验，包括MATH500、Gaokao Cloze和AIME2024等，以验证语言混合对推理性能的影响以及探测器引导解码的有效性。
结果分析：实验结果表明，无约束的双语输出在某些任务上优于单语输出，并且探测器引导的解码策略能够进一步提升推理性能。此外，论文还分析了探测器在不同数据集上的泛化能力，证明了其能够学习到通用的语言混合模式，从而在不同的任务中实现性能提升。

通过上述方法，论文系统地研究了双语LLMs中的语言混合现象，揭示了语言混合对推理能力的积极影响，并提出了一种有效的策略来引导语言混合，以进一步提升模型的推理性能。

Q: 论文做了哪些实验？

A: 论文中进行了以下几组实验来研究双语大型语言模型（LLMs）中的语言混合现象对推理能力的影响：

1. 语言混合行为的统计分析

实验目的：分析不同模型在双语数据集上的语言混合行为，包括语言切换的频率、每次切换之间的token数量以及非提示语言的token比例。
实验方法：
- 使用规则基础的程序检测中文和英文之间的切换点。
- 在MATH500数据集上评估不同模型（包括QwQ和DeepSeek-R1系列）的语言混合行为。
实验结果：
- RLVR训练阶段的模型表现出最多的语言混合行为。
- QwQ32B-preview模型在中文提示下有77.4%的问题表现出语言混合，平均每个问题有7.22次切换。
- 语言混合行为随着问题复杂度和响应长度的增加而增加。

2. 训练阶段对语言混合的影响

实验目的：确定哪种训练阶段会导致语言混合行为的出现。
实验方法：
- 比较了基础预训练模型、经过SFT和RLHF训练的模型以及RLVR训练的模型。
- 使用MATH500数据集进行评估。
实验结果：
- 基础预训练模型和RLVR模型表现出较多的语言混合行为，而SFT和RLHF训练的模型语言混合行为较少。
- RLVR模型的语言混合行为随着训练步骤的增加而增加，并且混合行为的响应通常优于单语响应。

3. 语言混合对推理性能的影响

实验目的：评估语言混合是否能够提升模型的推理性能。
实验方法：
- 对比无约束的双语输出和约束的单语输出在MATH500和Gaokao Cloze数据集上的表现。
- 使用约束解码方法强制模型生成单语输出。
实验结果：
- 在MATH500数据集上，无约束的双语输出准确率比约束的单语输出高5.6个百分点（p=0.0017）。
- 在Gaokao Cloze数据集上，约束的单语输出表现优于无约束的双语输出，但这是由于模型在中文上的单语推理能力更强。

4. 探测器引导的语言混合策略

实验目的：训练一个轻量级探测器来预测语言切换是否有益，并据此指导解码过程，以提升推理性能。
实验方法：
- 训练一个三层MLP探测器，基于模型的隐藏激活和元特征（如是否为自然切换、切换方向和语言熵）。
- 在MATH500和Gaokao Cloze数据集上评估探测器引导解码的效果。
实验结果：
- 探测器在MATH500数据集上实现了1.62个百分点的准确率提升，在Gaokao Cloze数据集上实现了2.92个百分点的准确率提升。
- 探测器引导的解码策略在不同数据集之间具有良好的泛化能力。

5. 跨数据集的泛化能力

实验目的：评估探测器在不同数据集上的泛化能力。
实验方法：
- 在MATH500数据集上训练探测器，并在Gaokao Cloze和AIME2024数据集上进行测试。
- 反之亦然，即在Gaokao Cloze数据集上训练探测器，并在MATH500和AIME2024数据集上进行测试。
实验结果：
- 在MATH500 → Gaokao Cloze的跨数据集测试中，探测器实现了2.12个百分点的准确率提升。
- 在Gaokao Cloze → MATH500的跨数据集测试中，探测器实现了3.00个百分点的准确率提升。
- 在Gaokao Cloze → AIME2024的跨数据集测试中，探测器实现了3.33个百分点的准确率提升。

通过这些实验，论文系统地研究了双语LLMs中的语言混合现象，并验证了语言混合对推理性能的积极影响。此外，论文还提出了一种有效的策略来引导语言混合，以进一步提升模型的推理性能。

Q: 有什么可以进一步探索的点？

A: 论文在研究双语大型语言模型（LLMs）中的语言混合现象及其对推理能力的影响方面做出了重要贡献，但仍有许多可以进一步探索的方向。以下是一些潜在的研究点：

1. 多语言混合的泛化能力

研究其他语言对：目前的研究主要集中在中文和英文的混合。可以扩展到其他语言对，如法语和西班牙语、德语和俄语等，以验证语言混合现象是否在其他语言对中也具有类似的推理优势。
跨语言混合的模式：研究不同语言对之间的语言混合模式，了解是否存在通用的语言混合策略，或者每种语言对都有其独特的混合模式。

2. 语言混合的机制和理论基础

与人类语言混合的对比：进一步研究LLMs中的语言混合行为与人类双语者中的语言混合行为之间的相似性和差异性。例如，是否可以将人类语言混合的理论（如等价约束理论）应用于LLMs。
神经机制研究：通过神经科学的方法，研究LLMs在语言混合时的内部神经机制，了解不同语言在模型中的表示和交互方式。

3. 语言混合的控制和优化

细粒度的语言混合控制：目前的约束解码方法是硬性的，可以探索更细粒度的语言混合控制方法，例如通过连续的控制信号来调节语言混合的频率和程度。
动态语言混合策略：研究动态调整语言混合策略的方法，使模型能够根据当前任务的难度和上下文动态地选择最优的语言混合策略。

4. 语言混合在其他任务中的应用

非数学任务：目前的研究主要集中在数学推理任务上。可以扩展到其他类型的推理任务，如逻辑谜题、科学问题等，以验证语言混合在不同任务中的普遍性。
多模态任务：研究语言混合在多模态任务中的作用，例如在文本和图像、文本和代码等任务中，语言混合是否能够提升模型的推理能力。

5. 语言混合的长期影响

长期训练的影响：研究在长期训练过程中，语言混合行为如何演变，以及是否可以通过长期训练进一步优化语言混合策略。
模型适应性：研究模型在不同语言环境下的适应性，了解语言混合是否能够帮助模型更好地适应新的语言任务或数据分布。

6. 语言混合的社会和文化影响

文化适应性：研究语言混合在不同文化背景下的接受度和效果，了解是否存在文化差异对语言混合的影响。
社会互动中的语言混合：研究语言混合在社会互动中的作用，例如在多语言社区中，语言混合是否能够促进更有效的沟通和合作。

7. 语言混合的伦理和公平性问题

语言偏见：研究语言混合是否会导致语言偏见，例如模型是否更倾向于使用某种语言，从而对其他语言的用户或任务产生不公平的影响。
多语言公平性：研究如何确保语言混合策略在不同语言之间是公平的，避免对某些语言的过度依赖或忽视。

8. 语言混合的实时优化

实时反馈机制：研究如何在实时交互中优化语言混合策略，例如通过用户反馈或实时性能监测来动态调整语言混合行为。
自适应学习：研究模型如何通过自适应学习不断优化语言混合策略，以适应不断变化的任务需求和用户偏好。

这些研究方向不仅可以进一步深化我们对双语LLMs中语言混合现象的理解，还可以为开发更高效、更公平、更具适应性的多语言模型提供新的思路和方法。

Q: 总结一下论文的主要内容

A: ### 论文标题 The Impact of Language Mixing on Bilingual LLM Reasoning

作者

Yihao Li, Jiayi Xin, Miranda Muqing Miao, Qi Long, Lyle Ungar

机构

University of Pennsylvania

摘要

本文研究了双语大型语言模型（LLMs）中的语言混合现象对推理能力的影响。研究发现，语言混合能够显著提升模型在某些任务上的推理性能。具体来说，通过强化学习与可验证奖励（RLVR）训练的模型表现出更多的语言混合行为，并且这种行为与更高的推理准确率相关。此外，研究还提出了一种轻量级的探测器（probe），用于预测语言混合是否会对推理结果产生积极影响，并据此指导模型的解码过程，进一步提升了推理性能。

研究背景

语言混合现象：多语言使用者在对话中经常会在不同语言之间切换，这种现象在语言学中被称为代码转换（code-switching）。这种行为在双语LLMs中也普遍存在，尤其是在最近的强化学习训练的模型中。
语言混合的动机：语言混合可以帮助多语言使用者更精确地表达思想，填补词汇空白，并减少认知负荷。类似地，LLMs可能通过语言混合来提升推理效率和准确性。

研究方法

语言混合的检测与统计分析：
- 定义了语言混合的检测方法，通过规则基础的程序识别中文和英文之间的切换点。
- 在MATH500数据集上评估了不同模型的语言混合行为，包括语言切换的次数、每次切换之间的token数量以及非提示语言的token比例。
训练阶段对语言混合的影响：
- 比较了基础预训练模型、经过SFT和RLHF训练的模型以及RLVR训练的模型。
- 发现RLVR训练阶段是导致语言混合的关键因素，优化基于结果的奖励自然地鼓励了语言混合行为。
语言混合对推理性能的影响：
- 通过约束解码实验，对比了无约束的双语输出和约束的单语输出在MATH500和Gaokao Cloze数据集上的表现。
- 发现无约束的双语输出在某些任务上优于单语输出，并且语言混合行为随着问题复杂度和响应长度的增加而增加。
探测器引导的语言混合策略：
- 训练了一个轻量级的探测器，基于模型的隐藏激活和元特征（如是否为自然切换、切换方向和语言熵）预测语言混合的影响。
- 将探测器嵌入到解码循环中，实时指导语言切换，进一步提升了推理性能。

实验结果

语言混合行为的统计分析：
- QwQ32B-preview模型在中文提示下有77.4%的问题表现出语言混合，平均每个问题有7.22次切换。
- 语言混合行为随着问题复杂度和响应长度的增加而增加。
训练阶段的影响：
- RLVR训练阶段的模型表现出最多的语言混合行为，而SFT和RLHF训练的模型语言混合行为较少。
- RLVR模型的语言混合行为随着训练步骤的增加而增加，并且混合行为的响应通常优于单语响应。
语言混合对推理性能的影响：
- 在MATH500数据集上，无约束的双语输出准确率比约束的单语输出高5.6个百分点（p=0.0017）。
- 在Gaokao Cloze数据集上，约束的单语输出表现优于无约束的双语输出，但这是由于模型在中文上的单语推理能力更强。
探测器引导的语言混合策略：
- 探测器在MATH500数据集上实现了1.62个百分点的准确率提升，在Gaokao Cloze数据集上实现了2.92个百分点的准确率提升。
- 探测器引导的解码策略在不同数据集之间具有良好的泛化能力。

结论

语言混合的积极影响：语言混合能够显著提升双语LLMs在某些任务上的推理性能，特别是在数学推理任务中。
RLVR训练阶段的关键作用：RLVR训练阶段是导致语言混合的关键因素，优化基于结果的奖励自然地鼓励了语言混合行为。
探测器引导的语言混合策略：通过训练轻量级探测器来预测语言混合的影响，并据此指导解码过程，可以进一步提升推理性能。

未来研究方向

多语言混合的泛化能力：研究其他语言对的语言混合现象及其对推理性能的影响。
语言混合的机制和理论基础：深入研究语言混合的神经机制和理论基础，了解其与人类语言混合行为的相似性和差异性。
语言混合的控制和优化：探索更细粒度的语言混合控制方法，动态调整语言混合策略以适应不同的任务需求。
语言混合在其他任务中的应用：研究语言混合在非数学任务和多模态任务中的作用，验证其在不同任务中的普遍性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yihao Li, Jiayi Xin, Miranda Muqing Miao, Qi Long, Lyle Ungar

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.15849v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15849v1

Published: 2025-07-21T17:56:09Z

2. A Survey of Context Engineering for Large Language Models

The performance of Large Language Models (LLMs) is fundamentally determined by the contextual information provided during inference. This survey introduces Context Engineering, a formal discipline that transcends simple prompt design to encompass the systematic optimization of information payloads for LLMs. We present a comprehensive taxonomy decomposing Context Engineering into its foundational components and the sophisticated implementations that integrate them into intelligent systems. We first examine the foundational components: context retrieval and generation, context processing and context management. We then explore how these components are architecturally integrated to create sophisticated system implementations: retrieval-augmented generation (RAG), memory systems and tool-integrated reasoning, and multi-agent systems. Through this systematic analysis of over 1400 research papers, our survey not only establishes a technical roadmap for the field but also reveals a critical research gap: a fundamental asymmetry exists between model capabilities. While current models, augmented by advanced context engineering, demonstrate remarkable proficiency in understanding complex contexts, they exhibit pronounced limitations in generating equally sophisticated, long-form outputs. Addressing this gap is a defining priority for future research. Ultimately, this survey provides a unified framework for both researchers and engineers advancing context-aware AI.

中文摘要

大型语言模型（LLMs）的性能从根本上受到推断期间提供的上下文信息的影响。这项调查介绍了上下文工程，一门超越简单提示设计的正式学科，涵盖了为LLMs系统优化信息负载的过程。我们提供了一种全面的分类法，将上下文工程分解为其基础组件以及将其集成到智能系统中的复杂实施方法。我们首先考察基础组件：上下文检索和生成、上下文处理和上下文管理。然后探讨这些组件如何在架构上集成，以创建复杂的系统实施：增强检索生成（RAG）、记忆系统和工具集成推理，以及多智能体系统。通过对1400多篇研究论文的系统分析，我们的调查不仅为该领域建立了技术路线图，还揭示了一个重要的研究空白：模型能力之间存在根本性不对称。尽管当前模型在先进的上下文工程支持下，在理解复杂上下文方面表现出非凡的能力，但在生成同样复杂的长形式输出方面则表现出明显的局限性。解决这一差距是未来研究的一个优先重点。最终，这项调查为推动上下文感知人工智能的研究人员和工程师提供了一个统一的框架。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文《A Survey of Context Engineering for Large Language Models》试图解决的主要问题是：如何通过系统化的“上下文工程”（Context Engineering）方法，优化大型语言模型（LLMs）在推理过程中的上下文信息，从而提升模型的性能和效能。

具体来说，论文指出，大型语言模型的性能和效能主要取决于它们在推理过程中接收到的上下文信息。尽管这些模型在自然语言理解、生成和推理方面取得了前所未有的能力，但它们的表现和效果从根本上受到所提供上下文的制约。因此，论文提出了上下文工程这一正式学科，超越了简单的提示设计（prompt engineering），涵盖了系统优化语言模型信息负载的全过程。

论文的主要贡献包括：

提出上下文工程的概念：将上下文工程定义为一个系统化的学科，它不仅包括提示设计，还涉及上下文检索、处理和管理等更复杂的操作。
构建全面的分类体系：将上下文工程分解为基础组件（Foundational Components）和复杂的系统实现（System Implementations）。基础组件包括上下文检索与生成、上下文处理和上下文管理；系统实现则包括检索增强型生成（Retrieval-Augmented Generation, RAG）、记忆系统（Memory Systems）、工具集成推理（Tool-Integrated Reasoning）和多智能体系统（Multi-Agent Systems）。
分析当前局限性：探讨了当前大型语言模型在上下文处理方面存在的问题，如模型的自我注意力机制在处理长序列时的计算和内存开销问题，以及模型在理解和生成复杂上下文时的可靠性问题。
提出性能提升方法：通过检索增强型生成和超级位置提示等技术，显著提高了模型在文本导航等任务中的准确性，并在特定领域内实现了显著的性能提升。
资源优化：通过上下文工程方法，可以在不增加模型参数的情况下，通过智能的内容过滤和直接的知识传输来优化模型的上下文使用，从而在保持响应质量的同时减少计算资源的消耗。
未来潜力探讨：讨论了上下文工程在特定领域（如代码智能、科学研究等）的应用潜力，以及在低资源场景下通过上下文工程实现有效利用模型的能力。
揭示研究空白：论文通过系统分析超过1400篇研究论文，不仅建立了该领域的技术路线图，还揭示了一个关键的研究空白：尽管当前的模型在理解复杂上下文方面表现出色，但在生成同样复杂、长篇幅的输出方面存在显著限制。论文指出，解决这一差距是未来研究的首要任务。

总的来说，论文试图通过系统化的上下文工程方法，解决大型语言模型在处理和利用上下文信息时面临的挑战，从而推动语言模型技术的发展和应用。

Q: 有哪些相关研究？

A: 论文中提到了多个与上下文工程相关的研究领域，这些领域涵盖了从基础组件到系统实现的各个方面。以下是一些主要的相关研究领域和具体的研究工作：

基础组件相关研究

1. 上下文检索与生成（Context Retrieval and Generation）

Prompt Engineering and Context Generation：研究如何通过精心设计的提示来引导大型语言模型的行为，包括零样本（zero-shot）和少样本（few-shot）学习方法。例如，Chain-of-Thought（CoT）提示方法通过分解复杂问题为中间推理步骤来提高模型的推理能力。
External Knowledge Retrieval：研究如何从外部知识库中检索信息以增强模型的知识。例如，Retrieval-Augmented Generation（RAG）系统结合了模型内部的知识和从外部检索到的信息，以提供更准确的生成结果。
Dynamic Context Assembly：研究如何动态地组装检索到的信息组件，以形成最适合特定任务的上下文。这涉及到上下文的格式化、选择和优化。

2. 上下文处理（Context Processing）

Long Context Processing：研究如何处理超长序列的上下文信息，以克服传统Transformer模型在处理长序列时的计算瓶颈。例如，State Space Models（SSMs）如Mamba通过固定大小的隐藏状态来维持线性计算复杂度。
Contextual Self-Refinement and Adaptation：研究如何通过自我反馈和迭代改进来优化模型的输出。例如，Self-Refine框架允许模型通过自我评估和修正来提高输出质量。
Multimodal Context：研究如何整合多模态数据（如文本、图像、音频等）到上下文表示中。例如，Multimodal Large Language Models（MLLMs）通过将视觉输入转换为离散的文本标记来扩展传统语言模型的能力。
Relational and Structured Context：研究如何处理和整合结构化数据（如知识图谱、表格等）到上下文表示中。例如，Graph Neural Networks（GNNs）被用来捕捉实体之间的复杂关系，并将其整合到语言模型的上下文表示中。

3. 上下文管理（Context Management）

Fundamental Constraints：研究大型语言模型在上下文管理方面的基本限制，如上下文窗口大小的限制和模型的无状态特性。
Memory Hierarchies and Storage Architectures：研究如何设计和实现高效的内存层次结构和存储架构，以支持长期和短期的上下文管理。例如，MemoryBank系统通过实现类似于操作系统的虚拟内存管理来扩展模型的上下文窗口。
Context Compression：研究如何通过压缩技术减少上下文的存储和计算需求，同时保持信息的完整性。例如，InContext Autoencoder（ICAE）通过将长上下文压缩到紧凑的内存槽中，显著提高了模型处理扩展上下文的能力。

系统实现相关研究

1. 检索增强型生成（Retrieval-Augmented Generation, RAG）

Modular RAG Architectures：研究如何通过模块化设计来提高RAG系统的灵活性和可扩展性。例如，FlashRAG提供了RAG系统的模块化工具包，允许独立调整和组合各个组件。
Agentic RAG Systems：研究如何将自主智能体的概念引入RAG系统，使模型能够动态地进行检索和决策。例如，Agentic RAG系统将检索视为动态操作，智能体作为信息调查者，分析内容并交叉引用信息。
Graph-Enhanced RAG：研究如何通过图结构来增强RAG系统的知识表示和检索能力。例如，GraphRAG系统利用图结构来提高多跳问题回答的性能。

2. 记忆系统（Memory Systems）

Memory Architectures：研究如何设计和实现支持长期记忆的架构。例如，MemoryBank系统通过实现类似于操作系统的虚拟内存管理来扩展模型的上下文窗口。
Memory-Enhanced Agents：研究如何将记忆系统集成到智能体中，以支持长期的交互和学习。例如，MemLLM系统通过增强的读写记忆模块来提高模型的记忆能力。

3. 工具集成推理（Tool-Integrated Reasoning）

Function Calling Mechanisms：研究如何使大型语言模型能够调用外部工具和API。例如，Toolformer通过自我监督学习，使模型能够学习使用外部工具。
Tool-Integrated Reasoning：研究如何将工具调用与模型的推理过程相结合，以提高模型的推理能力。例如，ReAct框架通过在推理过程中插入行动步骤，使模型能够与外部环境进行交互。
Agent-Environment Interaction：研究如何设计智能体与环境之间的交互机制，以支持复杂的任务解决。例如，Search-augmented Reasoning系统通过训练模型在多步推理任务中动态决定何时进行搜索和生成什么查询。

4. 多智能体系统（Multi-Agent Systems）

Communication Protocols：研究多智能体系统中的通信协议，以支持智能体之间的有效协作。例如，KQML和FIPA ACL是早期的多智能体通信语言，为智能体之间的标准化通信提供了基础。
Orchestration Mechanisms：研究如何设计和实现协调机制，以管理多智能体系统中的任务分配和交互流程。例如，3S Orchestrator框架通过动态地将输入分配给多个智能体，并利用置信度指标和响应质量评估来优化任务执行。
Coordination Strategies：研究如何设计和实现协调策略，以支持多智能体系统中的复杂任务解决。例如，SagaLLM框架通过提供事务支持和独立的验证程序，解决了多智能体系统中的事务完整性问题。

评估方法相关研究

Evaluation Frameworks and Methodologies：研究如何设计和实现评估框架，以系统地评估上下文工程系统的性能。例如，Component-Level Assessment和System-Level Integration Assessment分别关注单个组件和整个系统的性能评估。
Benchmark Datasets and Evaluation Paradigms：研究如何开发和利用基准数据集，以评估上下文工程系统的性能。例如，GAIA和GTA是针对通用AI助手和工具代理的基准数据集，用于评估模型在多工具调用和复杂任务解决方面的能力。
Evaluation Challenges and Emerging Paradigms：研究评估过程中面临的挑战和新兴的评估范式。例如，Self-Refinement Evaluation和Multi-aspect Feedback Evaluation分别关注模型的自我改进能力和多维度反馈评估。

这些研究领域和具体的研究工作共同构成了上下文工程的广泛研究背景，为理解和优化大型语言模型的上下文处理能力提供了坚实的基础。

Q: 论文如何解决这个问题？

A: 论文通过提出一个全面的上下文工程（Context Engineering）框架来解决大型语言模型（LLMs）在上下文处理方面的挑战。这个框架将上下文工程分解为基础组件（Foundational Components）和系统实现（System Implementations），并详细探讨了每个部分的关键技术和方法。以下是论文解决上下文处理问题的主要方法和步骤：

1. 定义上下文工程

论文首先定义了上下文工程的概念，将其视为一个系统化的学科，超越了简单的提示设计（prompt engineering）。上下文工程的目标是通过优化上下文信息的生成、处理和管理，提升大型语言模型的性能和效能。

2. 基础组件（Foundational Components）

基础组件是上下文工程的核心，涵盖了上下文检索与生成、上下文处理和上下文管理。这些组件为系统实现提供了构建块。

2.1 上下文检索与生成（Context Retrieval and Generation）

Prompt Engineering and Context Generation：通过精心设计的提示来引导模型的行为，包括零样本（zero-shot）和少样本（few-shot）学习方法。例如，Chain-of-Thought（CoT）提示方法通过分解复杂问题为中间推理步骤来提高模型的推理能力。
External Knowledge Retrieval：从外部知识库中检索信息以增强模型的知识。例如，Retrieval-Augmented Generation（RAG）系统结合了模型内部的知识和从外部检索到的信息，以提供更准确的生成结果。
Dynamic Context Assembly：动态地组装检索到的信息组件，以形成最适合特定任务的上下文。这涉及到上下文的格式化、选择和优化。

2.2 上下文处理（Context Processing）

Long Context Processing：处理超长序列的上下文信息，以克服传统Transformer模型在处理长序列时的计算瓶颈。例如，State Space Models（SSMs）如Mamba通过固定大小的隐藏状态来维持线性计算复杂度。
Contextual Self-Refinement and Adaptation：通过自我反馈和迭代改进来优化模型的输出。例如，Self-Refine框架允许模型通过自我评估和修正来提高输出质量。
Multimodal Context：整合多模态数据（如文本、图像、音频等）到上下文表示中。例如，Multimodal Large Language Models（MLLMs）通过将视觉输入转换为离散的文本标记来扩展传统语言模型的能力。
Relational and Structured Context：处理和整合结构化数据（如知识图谱、表格等）到上下文表示中。例如，Graph Neural Networks（GNNs）被用来捕捉实体之间的复杂关系，并将其整合到语言模型的上下文表示中。

2.3 上下文管理（Context Management）

Fundamental Constraints：研究大型语言模型在上下文管理方面的基本限制，如上下文窗口大小的限制和模型的无状态特性。
Memory Hierarchies and Storage Architectures：设计和实现高效的内存层次结构和存储架构，以支持长期和短期的上下文管理。例如，MemoryBank系统通过实现类似于操作系统的虚拟内存管理来扩展模型的上下文窗口。
Context Compression：通过压缩技术减少上下文的存储和计算需求，同时保持信息的完整性。例如，InContext Autoencoder（ICAE）通过将长上下文压缩到紧凑的内存槽中，显著提高了模型处理扩展上下文的能力。

3. 系统实现（System Implementations）

系统实现部分探讨了如何将基础组件集成到实际的智能系统中，以解决实际应用中的复杂问题。

3.1 检索增强型生成（Retrieval-Augmented Generation, RAG）

Modular RAG Architectures：通过模块化设计提高RAG系统的灵活性和可扩展性。例如，FlashRAG提供了RAG系统的模块化工具包，允许独立调整和组合各个组件。
Agentic RAG Systems：将自主智能体的概念引入RAG系统，使模型能够动态地进行检索和决策。例如，Agentic RAG系统将检索视为动态操作，智能体作为信息调查者，分析内容并交叉引用信息。
Graph-Enhanced RAG：通过图结构增强RAG系统的知识表示和检索能力。例如，GraphRAG系统利用图结构提高多跳问题回答的性能。

3.2 记忆系统（Memory Systems）

Memory Architectures：设计支持长期记忆的架构。例如，MemoryBank系统通过实现类似于操作系统的虚拟内存管理来扩展模型的上下文窗口。
Memory-Enhanced Agents：将记忆系统集成到智能体中，支持长期的交互和学习。例如，MemLLM系统通过增强的读写记忆模块提高模型的记忆能力。

3.3 工具集成推理（Tool-Integrated Reasoning）

Function Calling Mechanisms：使大型语言模型能够调用外部工具和API。例如，Toolformer通过自我监督学习，使模型能够学习使用外部工具。
Tool-Integrated Reasoning：将工具调用与模型的推理过程相结合，提高模型的推理能力。例如，ReAct框架通过在推理过程中插入行动步骤，使模型能够与外部环境进行交互。
Agent-Environment Interaction：设计智能体与环境之间的交互机制，支持复杂任务的解决。例如，Search-augmented Reasoning系统通过训练模型在多步推理任务中动态决定何时进行搜索和生成什么查询。

3.4 多智能体系统（Multi-Agent Systems）

Communication Protocols：设计多智能体系统中的通信协议，支持智能体之间的有效协作。例如，KQML和FIPA ACL是早期的多智能体通信语言，为智能体之间的标准化通信提供了基础。
Orchestration Mechanisms：设计协调机制，管理多智能体系统中的任务分配和交互流程。例如，3S Orchestrator框架通过动态地将输入分配给多个智能体，并利用置信度指标和响应质量评估来优化任务执行。
Coordination Strategies：设计协调策略，支持多智能体系统中的复杂任务解决。例如，SagaLLM框架通过提供事务支持和独立的验证程序，解决了多智能体系统中的事务完整性问题。

4. 评估方法（Evaluation）

论文还提出了系统的评估框架，以评估上下文工程系统的性能。这包括组件级评估（Component-Level Assessment）和系统级集成评估（System-Level Integration Assessment）。

4.1 组件级评估

Prompt Engineering：评估提示设计的有效性，包括语义相似性、响应质量和鲁棒性。
Long Context Processing：评估模型在处理长序列时的信息保留、位置偏差和推理连贯性。
Self-Refinement Mechanisms：评估模型通过自我反馈和迭代改进的能力，如Self-Refine和Reflexion框架。
Structured Data Integration：评估模型在处理结构化数据（如知识图谱、表格等）时的准确性。

4.2 系统级集成评估

Retrieval-Augmented Generation：评估检索质量和生成效果，包括精确度、召回率、相关性和事实准确性。
Memory Systems：评估记忆系统的持久性和检索有效性，如LongMemEval基准测试。
Tool-Integrated Reasoning：评估工具选择的准确性、参数提取的精确性、执行成功率和错误恢复能力。
Multi-Agent Systems：评估通信的有效性、协调效率和集体结果质量。

5. 未来方向和开放性挑战（Future Directions and Open Challenges）

论文最后探讨了上下文工程的未来研究方向和开放性挑战，包括理论基础、计算效率、多模态整合、技术创新、应用驱动研究、部署和影响评估等方面。

通过这些方法和步骤，论文不仅提供了一个全面的上下文工程框架，还为研究人员和工程师提供了一个技术路线图，以系统地优化大型语言模型的上下文处理能力。

Q: 论文做了哪些实验？

A: 论文《A Survey of Context Engineering for Large Language Models》是一篇综述性研究，主要目的是对上下文工程（Context Engineering）领域进行全面的系统分析和分类。因此，它并没有进行具体的实验，而是通过文献综述的方式，对现有的研究工作进行了总结和分析。论文的主要贡献在于提出了一个统一的框架，将上下文工程分解为基础组件和系统实现，并探讨了这些组件和实现的具体技术、方法和挑战。

尽管论文本身没有进行实验，但它对大量的相关研究进行了系统性的分析，这些研究中可能包含了各种实验和评估。例如，论文中提到的一些具体技术或方法可能在它们的原始研究中进行了实验验证。这些实验可能包括：

上下文检索与生成：例如，Retrieval-Augmented Generation（RAG）系统在不同数据集上的性能评估，包括检索准确性和生成质量的测试。
上下文处理：例如，长序列处理技术（如Mamba模型）在处理超长文本序列时的效率和效果评估。
上下文管理：例如，MemoryBank系统在扩展上下文窗口和提高记忆能力方面的实验。
系统实现：例如，Agentic RAG系统在动态检索和决策方面的性能测试，以及多智能体系统在协作任务解决中的表现评估。

论文通过引用这些研究，提供了对上下文工程技术的全面概述，但具体的实验设计、实施和结果分析则来自于这些被引用的原始研究。

Q: 有什么可以进一步探索的点？

A: 论文《A Survey of Context Engineering for Large Language Models》提出了许多未来研究方向和开放性挑战，为研究人员提供了丰富的进一步探索点。以下是一些可以进一步探索的关键领域：

基础研究挑战

理论基础和统一框架：
- 建立统一的理论框架：目前，上下文工程缺乏统一的理论基础，这限制了系统性的进展和最优系统设计。未来的研究可以探索信息论、优化理论和机器学习理论，为上下文工程提供坚实的理论支持。
- 信息论分析：研究上下文工程系统中的最优上下文分配策略、信息冗余量化和基本压缩限制。这将有助于开发上下文效率的数学界限、优化上下文选择的算法，并预测不同上下文配置下的系统行为。
模型能力的不对称性：
- 生成能力的提升：尽管大型语言模型在理解复杂上下文方面表现出色，但在生成同样复杂、长篇幅的输出方面存在显著限制。未来的研究可以探索新的架构和训练方法，以提高模型在长篇幅生成任务中的表现。
- 长篇幅生成的机制：研究如何设计规划机制，以在数千个标记的长篇幅生成中保持连贯性，同时维护事实准确性和逻辑一致性。
多模态整合和表示：
- 多模态融合：当前的多模态系统通常采用模态特定的编码器，缺乏跨模态交互。未来的研究可以探索更复杂的跨模态融合技术，以捕捉多模态数据之间的丰富依赖关系。
- 图结构的整合：研究如何将图结构（如知识图谱）与语言模型更好地整合，以处理复杂的结构化信息。这包括开发更有效的图编码方法和图-文本对齐策略。

技术创新机会

下一代架构：
- 超越Transformer架构：探索新的架构，如状态空间模型（SSMs）和长序列处理模型（如Mamba），以提高长序列处理的效率和效果。
- 记忆增强架构：开发更复杂的记忆增强架构，以支持长期记忆的组织和检索。
高级推理和规划：
- 因果推理和反事实思维：研究如何使语言模型具备因果推理和反事实思维能力，以处理更复杂的推理任务。
- 多步规划和执行：开发能够分解复杂任务、制定执行策略并根据中间结果调整计划的系统。
复杂上下文组织和图问题解决：
- 图推理技术：研究如何使语言模型更好地处理图结构数据，包括多跳推理和图遍历。
- 混合方法：探索结合图结构和文本表示的混合方法，以解决复杂的图问题。
智能上下文组装和优化：
- 自动化上下文工程：开发能够自动优化上下文的系统，通过上下文优化算法和自适应选择策略，提高上下文的效率和质量。
- 多维反馈机制：研究如何利用多维反馈机制，如正确性、相关性、清晰度和鲁棒性，来优化上下文。

应用驱动研究方向

领域专业化和适应性：
- 特定领域的优化：研究如何为特定领域（如医疗保健、法律分析、科学研究等）定制上下文工程系统，以满足特定的推理模式、安全要求和合规性标准。
- 领域适应技术：开发领域适应技术，以在不重新训练整个模型的情况下，快速适应新领域。
大规模多智能体协调：
- 分布式协调机制：研究如何在大规模多智能体系统中实现高效的分布式协调，以支持数百或数千个智能体的协作。
- 通信协议和层次结构：开发高效的通信协议和层次结构，以维持系统的一致性，同时支持局部自主性。
人机协作和集成：
- 自然交互：研究如何使智能体能够与人类进行自然、流畅的交互，包括理解人类意图和适应人类行为模式。
- 安全性和可靠性：确保智能体在与人类交互时的安全性和可靠性，特别是在关键任务和敏感环境中。

部署和影响评估

可扩展性和生产部署：
- 系统可扩展性：研究如何设计可扩展的系统架构，以支持大规模部署和实时交互。
- 资源优化：开发高效的资源管理策略，以优化计算和存储资源的使用。
安全性和鲁棒性：
- 对抗性攻击的防御：研究如何使智能体能够抵御对抗性攻击，确保系统的安全性和鲁棒性。
- 错误恢复和容错：开发错误恢复和容错机制，以提高系统在面对错误和异常情况时的稳定性。
伦理和责任发展：
- 伦理考量：研究如何确保智能体的行为符合伦理和道德标准，特别是在涉及人类福祉和公平性的情况下。
- 透明度和可解释性：开发透明和可解释的系统，使人类能够理解和信任智能体的决策过程。

这些领域提供了丰富的研究机会，可以推动上下文工程领域的发展，并为大型语言模型的实际应用提供更强大的支持。

Q: 总结一下论文的主要内容

Authors: Lingrui Mei, Jiayu Yao, Yuyao Ge, Yiwei Wang, Baolong Bi, Yujun Cai, Jiazhi Liu, Mingyu Li, Zhong-Zhi Li, Duzhen Zhang, Chenlin Zhou, Jiayi Mao, Tianze Xia, Jiafeng Guo, Shenghua Liu

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.13334v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.13334v2

Published: 2025-07-17T17:50:36Z

3. Small LLMs Do Not Learn a Generalizable Theory of Mind via Reinforcement Learning

Recent advancements in large language models (LLMs) have demonstrated emergent capabilities in complex reasoning, largely spurred by rule-based Reinforcement Learning (RL) techniques applied during the post-training. This has raised the question of whether similar methods can instill more nuanced, human-like social intelligence, such as a Theory of Mind (ToM), in LLMs. This paper investigates whether small-scale LLMs can acquire a robust and generalizable ToM capability through RL with verifiable rewards (RLVR). We conduct a systematic evaluation by training models on various combinations of prominent ToM datasets (HiToM, ExploreToM, FANToM) and testing for generalization on held-out datasets (e.g., OpenToM). Our findings indicate that small LLMs struggle to develop a generic ToM capability. While performance on in-distribution tasks improves, this capability fails to transfer to unseen ToM tasks with different characteristics. Furthermore, we demonstrate that prolonged RL training leads to models ``hacking’’ the statistical patterns of the training datasets, resulting in significant performance gains on in-domain data but no change, or degradation of performance on out-of-distribution tasks. This suggests the learned behavior is a form of narrow overfitting rather than the acquisition of a true, abstract ToM capability.

中文摘要

最近大型语言模型（LLMs）的进展展示了在复杂推理中涌现的能力，这在很大程度上是由于在后期训练中应用的基于规则的强化学习（RL）技术。这引发了一个问题，即类似的方法是否可以在LLMs中灌输更细致的人类社会智能，例如心智理论（ToM）。本文探讨了小规模LLMs是否能够通过可验证奖励的强化学习（RLVR）获得强大且通用的心智理论能力。我们通过对多种经典心智理论数据集（HiToM，ExploreToM，FANToM）组合进行模型训练，并在留出数据集（例如，OpenToM）上进行泛化测试，进行系统性评估。我们的发现表明，小型LLMs在开发通用心智理论能力方面存在困难。虽然在同一分布任务上的表现有所改善，但这种能力未能转移到具有不同特征的未见心智理论任务上。此外，我们还展示了长期强化学习训练导致模型“破解”训练数据集的统计模式，从而在同域数据上获得显著性能提升，但在超出分布的任务上则没有变化或性能下降。这表明所学的行为是一种狭义过拟合，而不是获得真正的抽象心智理论能力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是：是否可以通过强化学习（Reinforcement Learning，RL）的方法，特别是具有可验证奖励（Verifiable Rewards，VR）的强化学习（RLVR），使小型语言模型（LLMs）获得一种可泛化的心智理论（Theory of Mind，ToM）能力。心智理论是指能够将信念、欲望、意图等心理状态归因于自己和他人的一种能力，这是人类社会智能的核心组成部分。论文通过系统地评估小型语言模型在不同的心智理论数据集上的训练和泛化能力，来探究这一问题。

Q: 有哪些相关研究？

A: 以下是与本文相关的研究工作：

机器心智理论（Machine Theory of Mind）

ToM能力的评估：早期的ToM评估主要集中在特定的基准测试上，如ToMi（Le et al., 2019）和BigToM（Gandhi et al., 2023），这些基准测试的性能指标接近或超过了人类的准确性。然而，这些模型的ToM能力的鲁棒性受到质疑，因为有研究表明，模型在ToM基准测试中的强表现可能是通过使用捷径或启发式方法来回答问题，而不是真正理解心理状态（Ullman, 2023; Shapira et al., 2023）。
ToM能力的增强：为了增强LLMs的ToM能力，研究者们提出了多种方法，如SymbolicToM（Sclar et al., 2023）通过生成符号图表示来增强模型对角色信念状态的理解；SimToM（Wilf et al., 2024）通过明确的视角转换来增强模型的ToM能力；Decompose-ToM（Sarangi et al., 2025）通过将复杂的ToM问题分解为一系列更简单的子任务来提高模型的ToM性能。

强化学习在LLMs中的应用

强化学习的发展：强化学习（RL）已经成为LLMs训练中的一个重要工具，它允许模型直接针对期望的结果进行优化，如帮助性、无害性或正确性（Ouyang et al., 2022）。一个关键的创新是使用可验证奖励（Verifiable Rewards，VR）的强化学习（RLVR）（Lambert et al., 2025; DeepSeek-AI et al., 2025），这种方法通过程序化的、基于规则的或其他可验证的结果来提供奖励，避免了人类反馈的模糊性和成本。
强化学习的成功案例：DeepSeek-R1（DeepSeek-AI et al., 2025）展示了纯RL训练阶段可以显著提高模型在数学和编码等复杂推理任务上的性能。Logic-RL（Xie et al., 2025）通过在合成逻辑谜题上训练模型，展示了掌握这些狭窄的、可验证的任务可以提高模型在更广泛的数学推理基准测试上的性能，表明模型学会了并转移了底层的逻辑原则。

心智理论数据集

HiToM（Wu et al., 2023）：HiToM评估更高阶的ToM推理，扩展到四阶信念跟踪。它通过合成故事来评估模型的ToM能力，这些故事受到Sally-Anne范式（Baron-Cohen, 1995）的启发，其中角色在房间之间移动物体。
FANToM（Kim et al., 2023）：FANToM在自然对话环境中评估ToM推理。对话中角色的加入和离开是动态的，这使得信念跟踪依赖于部分可观察性和轮流发言。
ExploreToM（Sclar et al., 2024）：ExploreToM通过对抗性生成的虚假信念场景来挑战模型。它包括结构化（基于模板）和叙事（LLM融合）故事，专注于细致的信念建模。
OpenToM（Xu et al., 2024）：OpenToM是一个综合性的基准测试，用于评估LLMs的ToM推理能力。它包括多种核心任务类型，如粗粒度位置、细粒度位置、多跳满度、多跳可访问性（每种都有第一和第二阶形式）以及态度任务。

这些相关研究为本文提供了背景和基础，本文在此基础上进一步探讨了RLVR在小型LLMs中培养可泛化ToM能力的可能性。

Q: 论文如何解决这个问题？

A: 论文通过以下步骤来解决是否可以通过强化学习（Reinforcement Learning，RL）的方法，特别是具有可验证奖励（Verifiable Rewards，VR）的强化学习（RLVR），使小型语言模型（LLMs）获得一种可泛化的心智理论（Theory of Mind，ToM）能力的问题：

1. 实验设计

模型选择：选择了一个7亿参数规模的语言模型（Qwen2.5-7B-Instruct），该模型具有较强的指令遵循能力，并且在计算上可行，适合进行系统性泛化研究。
数据集选择：使用三个主要的ToM数据集（FANToM、HiToM、ExploreToM）进行训练，这些数据集涵盖了不同的输入格式、叙事风格和ToM挑战。同时，选择了一个完整的基准测试（OpenToM）和两个其他数据集（FANToM、HiToM）中的选定任务作为仅用于评估的数据集，以测试模型在新格式和任务上的泛化能力。
训练配置：构建了7种不同的训练配置，通过组合不同子集的数据集，考察训练数据的组成如何影响学习和泛化。

2. 训练方法

强化学习算法：采用REINFORCE++算法（Hu et al., 2025）进行训练。该算法是标准REINFORCE算法的一个变体，省略了近端策略优化（PPO）中的批评者模型，简化了训练流程并减少了计算开销。REINFORCE++通过在每个训练批次中对奖励进行归一化来减少策略梯度估计的方差。
奖励函数设计：奖励函数由两部分组成：格式奖励和正确性奖励。格式奖励确保模型的输出符合特定的格式要求，正确性奖励则基于模型的答案是否与真实答案匹配。这种设计既鼓励了结构化的推理，又确保了答案的准确性。

3. 实验执行

模型训练：对每种训练配置的模型进行训练，选择在验证集上表现最佳的检查点进行评估。训练了7个模型，每个模型对应一种训练配置。
性能评估：在所有12个ToM任务上评估每个训练模型的性能，包括训练分布内的任务和保留的任务，以探测模型是否具备抽象和可转移的ToM能力。

4. 结果分析

在分布内任务上的表现：RL训练显著提高了模型在分布内任务上的性能，例如在FANToM和HiToM数据集上，模型的性能分别提高了65%和35%。
在分布外任务上的表现：尽管在分布内任务上表现优异，但模型在分布外任务上的表现未能显著超过基线模型。例如，在OpenToM基准测试上，所有训练模型的分数都集中在56.9%到61.8%之间，与未训练模型的59.2%的准确率相当。
不同ToM阶数的表现：对HiToM数据集的不同阶数推理任务进行训练，发现模型在训练阶数上的表现有所提高，但在未训练的阶数上表现不佳，甚至出现负迁移现象。例如，仅在第四阶任务上训练的模型在第一阶任务上的表现下降了近31个百分点。
任务变体的表现：即使输入数据相同，模型也无法泛化到任务变体。例如，在FANToM数据集上训练的模型在列表回答任务上并未超过基线模型。

5. 结论

泛化能力的缺失：尽管RLVR在特定ToM基准测试上取得了显著的性能提升，但这些提升未能泛化到新的ToM基准测试和任务变体。这表明模型学习到的是一种狭窄的、特定于数据集的模式，而不是真正的、抽象的ToM能力。
训练动态的分析：通过分析训练过程中的学习曲线，发现模型在分布内任务上的准确率稳步上升，而在分布外任务上的准确率则保持不变，进一步证实了模型的过拟合现象。
对数据集模式的“黑客”行为：在HiToM数据集的高阶推理任务上，模型表现出了与预期相反的难度曲线，这表明模型可能通过利用数据集的结构模式来提高性能，而不是真正掌握了复杂的递归推理能力。

综上所述，论文通过系统的实验设计、训练方法和结果分析，得出结论：对于小型LLMs，当前的ToM基准测试和RLVR方法未能培养出真正的、可泛化的ToM能力，而是导致了模型对训练数据的统计模式的过拟合。

Q: 论文做了哪些实验？

A: 论文设计并执行了一系列实验，旨在评估强化学习（Reinforcement Learning，RL）是否能够使小型语言模型（LLMs）获得可泛化的心智理论（Theory of Mind，ToM）能力。以下是论文中进行的主要实验及其详细步骤：

1. 实验设计

模型选择：选择了一个7亿参数规模的语言模型（Qwen2.5-7B-Instruct），该模型具有较强的指令遵循能力，并且在计算上可行，适合进行系统性泛化研究。
数据集选择：
- 训练数据集：使用三个主要的ToM数据集（FANToM、HiToM、ExploreToM）进行训练，这些数据集涵盖了不同的输入格式、叙事风格和ToM挑战。
- 评估数据集：选择了一个完整的基准测试（OpenToM）和两个其他数据集（FANToM、HiToM）中的选定任务作为仅用于评估的数据集，以测试模型在新格式和任务上的泛化能力。
训练配置：构建了7种不同的训练配置，通过组合不同子集的数据集，考察训练数据的组成如何影响学习和泛化。

2. 训练方法

强化学习算法：采用REINFORCE++算法（Hu et al., 2025）进行训练。该算法是标准REINFORCE算法的一个变体，省略了近端策略优化（PPO）中的批评者模型，简化了训练流程并减少了计算开销。REINFORCE++通过在每个训练批次中对奖励进行归一化来减少策略梯度估计的方差。
奖励函数设计：奖励函数由两部分组成：
- 格式奖励：确保模型的输出符合特定的格式要求，定义为： [ S_{\text{format}} = \begin{cases} 0.1, & \text{if the output adheres to the required format} \ 0, & \text{otherwise} \end{cases} ]
- 正确性奖励：基于模型的答案是否与真实答案匹配，定义为： [ S_{\text{correct}} = \begin{cases} 1, & \text{if the answer is correct} \ 0, & \text{otherwise} \end{cases} ]
- 总奖励：模型响应的总奖励是格式奖励和正确性奖励的和。

3. 实验执行

模型训练：对每种训练配置的模型进行训练，选择在验证集上表现最佳的检查点进行评估。训练了7个模型，每个模型对应一种训练配置。
性能评估：在所有12个ToM任务上评估每个训练模型的性能，包括训练分布内的任务和保留的任务，以探测模型是否具备抽象和可转移的ToM能力。
额外实验：为了进一步分析模型在不同ToM阶数上的表现，对HiToM数据集的不同阶数推理任务进行训练，分别训练了仅包含单一阶数（1、2、3、4）和组合阶数（1&2，1&2&3&4）的模型。

4. 结果分析

在分布内任务上的表现：
- RL训练显著提高了模型在分布内任务上的性能。例如，在FANToM、HiToM和ExploreToM数据集上，模型的性能分别提高了65%、35%和22%。
- 模型在训练阶数上的表现有所提高，但在未训练的阶数上表现不佳，甚至出现负迁移现象。例如，仅在第四阶任务上训练的模型在第一阶任务上的表现下降了近31个百分点。
在分布外任务上的表现：
- 尽管在分布内任务上表现优异，但模型在分布外任务上的表现未能显著超过基线模型。例如，在OpenToM基准测试上，所有训练模型的分数都集中在56.9%到61.8%之间，与未训练模型的59.2%的准确率相当。
- 在FANToM列表回答任务上，训练模型的表现也未能显著超过基线模型。
任务变体的表现：
- 即使输入数据相同，模型也无法泛化到任务变体。例如，在FANToM数据集上训练的模型在列表回答任务上并未超过基线模型。
训练动态的分析：
- 通过分析训练过程中的学习曲线，发现模型在分布内任务上的准确率稳步上升，而在分布外任务上的准确率则保持不变，进一步证实了模型的过拟合现象。

5. 结论

泛化能力的缺失：尽管RLVR在特定ToM基准测试上取得了显著的性能提升，但这些提升未能泛化到新的ToM基准测试和任务变体。这表明模型学习到的是一种狭窄的、特定于数据集的模式，而不是真正的、抽象的ToM能力。
训练动态的分析：通过分析训练过程中的学习曲线，发现模型在分布内任务上的准确率稳步上升，而在分布外任务上的准确率则保持不变，进一步证实了模型的过拟合现象。
对数据集模式的“黑客”行为：在HiToM数据集的高阶推理任务上，模型表现出了与预期相反的难度曲线，这表明模型可能通过利用数据集的结构模式来提高性能，而不是真正掌握了复杂的递归推理能力。

这些实验结果为论文的结论提供了有力的支持，即当前的ToM基准测试和RLVR方法未能培养出真正的、可泛化的ToM能力，而是导致了模型对训练数据的统计模式的过拟合。

Q: 有什么可以进一步探索的点？

A: 尽管论文已经对强化学习（RL）在小型语言模型（LLMs）中培养可泛化的心智理论（Theory of Mind，ToM）能力进行了深入研究，但仍有一些可以进一步探索的方向。以下是一些潜在的研究点：

1. 更复杂的奖励函数设计

多维度奖励：当前的奖励函数主要关注格式和正确性，可以进一步引入更多维度的奖励，例如奖励模型的推理过程的合理性、逻辑连贯性等。
动态奖励：设计动态奖励函数，根据模型的表现动态调整奖励，以鼓励模型探索更广泛的解空间。

2. 更丰富的训练数据和任务

多样化数据集：引入更多样化的ToM数据集，涵盖更广泛的社会场景和心理状态，以提高模型的泛化能力。
跨领域任务：将ToM任务与其他领域（如情感分析、对话系统）结合，测试模型在不同任务中的表现，评估其跨领域的泛化能力。

3. 模型架构的改进

多模态输入：探索多模态输入（如文本、图像、语音）对ToM能力的影响，研究模型是否能够更好地理解和推理心理状态。
模块化架构：设计模块化的模型架构，将ToM推理与其他认知功能分离，以提高模型的可解释性和泛化能力。

4. 长期训练和持续学习

长期训练：研究长期训练对模型性能的影响，探索是否存在更优的训练策略，以避免过拟合并提高泛化能力。
持续学习：引入持续学习机制，使模型能够不断适应新的数据和任务，评估其在动态环境中的表现。

5. 对抗性训练和鲁棒性测试

对抗性训练：通过对抗性训练，生成更具挑战性的ToM任务，测试模型在面对复杂和对抗性场景时的表现。
鲁棒性测试：设计更严格的鲁棒性测试，评估模型在不同噪声水平、数据分布变化和任务变体下的表现。

6. 多智能体交互

多智能体环境：在多智能体环境中训练模型，研究模型在与其他智能体交互时的ToM能力，评估其在复杂社会互动中的表现。
合作与竞争：设计合作和竞争任务，测试模型在不同社会关系中的ToM能力，探索其在团队合作和竞争场景中的表现。

7. 人类反馈和交互式学习

人类反馈：引入人类反馈机制，通过人类的评估和指导来优化模型的ToM能力，研究人类反馈对模型性能的影响。
交互式学习：设计交互式学习任务，使模型在与人类用户的互动中学习ToM能力，评估其在真实社交环境中的表现。

8. 理论和哲学探讨

ToM的哲学基础：深入探讨ToM的哲学基础，研究模型是否能够真正理解心理状态，还是仅仅模拟了人类的行为模式。
伦理和社会影响：研究ToM能力在实际应用中的伦理和社会影响，探讨如何确保模型的行为符合人类的价值观和社会规范。

9. 跨语言和跨文化研究

跨语言ToM：研究模型在不同语言环境中的ToM能力，评估其在跨语言任务中的表现，探索语言对ToM能力的影响。
跨文化ToM：引入跨文化数据集，研究模型在不同文化背景下的ToM能力，评估其在跨文化任务中的表现，探索文化对ToM能力的影响。

10. 可解释性和透明度

模型解释：开发更先进的模型解释技术，深入理解模型在ToM任务中的推理过程，评估其决策的合理性和逻辑性。
透明度评估：设计透明度评估指标，评估模型在ToM任务中的透明度和可解释性，探索如何提高模型的透明度。

这些进一步的研究方向不仅可以深化对ToM能力的理解，还可以为开发更智能、更可靠的人工智能系统提供新的思路和方法。

Q: 总结一下论文的主要内容

Authors: Sneheel Sarangi, Hanan Salam

Categories: cs.LG, cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2507.15788v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15788v1

Published: 2025-07-21T16:47:59Z

4. DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs

Large Language Models (LLMs) have recently been extended to the video domain, enabling sophisticated video-language understanding. However, existing Video LLMs often exhibit limitations in fine-grained temporal reasoning, restricting their ability to precisely attribute responses to specific video moments, especially under constrained supervision. We introduce DaMO, a data-efficient Video LLM explicitly designed for accurate temporal reasoning and multimodal understanding. At its core, the proposed Temporal-aware Fuseformer employs a hierarchical dual-stream architecture that progressively captures temporal dynamics within each modality and effectively fuses complementary visual and audio information. To further enhance computational efficiency, DaMO integrates a global residual that reduces spatial redundancy while preserving essential semantic details. We train DaMO via a structured four-stage progressive training paradigm, incrementally equipping the model with multimodal alignment, semantic grounding, and temporal reasoning capabilities. This work also contributes multiple datasets augmented from existing ones with LLM-generated temporally grounded QA pairs for tasks requiring temporal supervision. Comprehensive experiments on temporal grounding and video QA benchmarks demonstrate that DaMO consistently surpasses prior methods, particularly in tasks demanding precise temporal alignment and reasoning. Our work establishes a promising direction for data-efficient video-language modeling.

中文摘要

大型语言模型（LLMs）最近扩展到视频领域，实现了复杂的视频语言理解。然而，现有的视频LLMs往往在细粒度的时间推理方面存在局限性，限制了它们将响应准确归因于特定视频时刻的能力，特别是在受到限制的监督下。我们介绍了DaMO，这是一个数据高效的视频LLM，专门设计用于准确的时间推理和多模态理解。在其核心，提出的时间感知Fuseformer采用层次化的双流架构，逐步捕捉每种模态中的时间动态，并有效融合互补的视觉和音频信息。为了进一步提高计算效率，DaMO集成了全局残差，减少空间冗余，同时保留重要的语义细节。我们通过结构化的四阶段逐步训练范式训练DaMO，逐步为模型提供多模态对齐、语义基础和时间推理能力。此项工作还提供了多个数据集，这些数据集从现有数据集中增强了LLM生成的时间基础QA对，适用于需要时间监督的任务。在时间基础和视频QA基准上进行的全面实验表明，DaMO在准确的时间对齐和推理任务中，持续超越以往的方法。我们的工作为数据高效的视频语言建模确立了一个有希望的方向。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决视频语言模型（Video LLMs）在细粒度时间推理（fine-grained temporal reasoning）和多模态理解方面的局限性。具体来说，它关注以下几个问题：

时间推理能力有限：现有的视频语言模型在将回答精确地归因于视频中的特定时刻方面存在困难，尤其是在监督信号有限的情况下。这限制了它们在需要精确时间对齐的任务中的表现。
多模态整合不足：大多数现有方法主要依赖于视觉模态，而没有充分利用视频中的其他互补模态（如音频和文本字幕）。即使一些方法尝试整合音频或字幕信息，它们通常也是独立地处理每个模态，并依赖于语言模型自身的推理能力来隐式地推断跨模态关系，这阻碍了多模态信息之间的时间对齐。
数据和计算需求高：训练强大的视频语言模型通常需要大规模的数据集，这带来了巨大的计算和存储成本，提高了入门门槛，阻碍了快速实验。
空间维度约简导致信息丢失：传统的空间维度约简方法往往会丢弃重要的全局上下文信息，这会对时间特征提取和融合的质量产生负面影响。

为了解决这些问题，论文提出了DaMO，这是一个数据高效的视频语言模型，专门用于准确的时间推理和多模态理解。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

视频语言模型（Video-Language Models）

CLIP [42]：首次有效对齐了视觉和文本模态。
Clip4Clip [33]、UMT [25]、InternVideo2 [52]：这些预训练框架成功地利用了时间信息，将CLIP的思路扩展到视频领域。
VindLU [5]：对视频语言理解的关键方面进行了系统分析，包括时间建模和数据集设计。
BLIP-2 [22]：引入了Q-Former，作为预训练视觉编码器和冻结语言模型之间的高效桥梁。
LLaVA [30]：展示了轻量级指令调整可以有效地使语言模型适应视觉任务，而无需广泛的重新训练。
Video-LLaMA [56]、VideoChatGPT [37]、VideoChat2 [24]：这些以视频为中心的模型将对齐策略扩展到视频理解，通常依赖于简单的帧级池化和广泛的指令调整数据集。
PLLaVA [54]：引入了视频帧的时间池化，在将特征输入语言模型之前平滑特征分布，提高了计算效率和表示稳定性，但会丢失对需要精确时间推理的任务至关重要的细粒度时间细节。

视频语言模型的时间推理（Temporal Reasoning with Video LLMs）

VTimeLLM [14]：引入了边界感知架构，专门用于细粒度时间定位，并提出了结构化的训练流程和时间注释数据集，以支持时间定位任务。
Momentor [40] 和 ChatVTG [41]：提出了针对精确时刻检索和时间问题回答的专门训练目标，强调了明确将模型输出与时间片段对齐的重要性。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键创新来解决视频语言模型在细粒度时间推理和多模态理解方面的局限性：

1. Temporal-aware Fuseformer (T-Fuseformer)

T-Fuseformer 是 DaMO 的核心组件，它是一个分层的双流 Transformer 架构，用于逐步捕获每个模态内的时序动态，并有效地融合互补的视觉和音频信息。具体来说：

分层双流架构：通过多层的自注意力和交叉注意力机制，逐步细化每个模态的时间表示，并在多个时间尺度上动态整合视觉和音频信息。
时间感知注意力：在每个模态内独立细化时间表示，然后通过交叉注意力机制将视觉和音频特征进行融合，从而实现跨模态的时间对齐。

2. 全局残差（Global Residual）

为了在不牺牲表示质量的情况下提高计算效率，DaMO 引入了全局残差策略。具体来说：

空间路径：通过全局残差将特征分为局部和全局空间组件，保留重要的全局空间语义信息，同时通过自适应平均池化减少计算复杂度。
时间路径：在视觉特征的时间维度上应用 2D 分组卷积，进一步减少时间冗余信息，同时通过时间嵌入（Temporal Embeddings）显式地引入时间线索。

3. 四阶段渐进训练范式（Four-Stage Progressive Training Paradigm）

DaMO 采用了一个结构化的四阶段训练策略，逐步增强模型的多模态对齐和时间推理能力：

视频-文本对齐（Video-Text Alignment）：通过 Q-Former 将多模态特征与文本描述对齐，建立基本的跨模态对齐。
表示桥接（Representation Bridging）：将融合后的特征投影到与语言模型兼容的语义空间。
时间感知学习（Temporal Perception Learning）：显式地教授事件定位和时间关系。
对话调整（Dialogue Tuning）：在多轮对话上微调模型，增强对话中的时间推理能力。

4. 数据集增强（Dataset Augmentation）

为了支持时间推理训练，作者通过 GPT 基于提示（prompting）从现有数据集中生成了多个时间问答（QA）数据集。这些数据集通过显式的时间对齐问题和答案对，为时间推理提供了丰富的监督信号。

5. 实验验证（Experimental Validation）

通过在多个时间定位和视频问答基准测试上的广泛实验，验证了 DaMO 在需要精确时间对齐和推理的任务中的优越性能。实验结果表明，DaMO 在数据和计算资源有限的情况下，能够显著超越现有方法。

通过这些创新，DaMO 在数据效率、多模态整合和时间推理能力方面取得了显著进展，为视频语言建模提供了一个有前景的方向。

Q: 论文做了哪些实验？

A: 论文中进行了以下几类实验来验证 DaMO 的性能和有效性：

1. 零样本视频检索基准测试（Zero-Shot Video Retrieval Benchmarks）

数据集：MSR-VTT [53] 和 MSVD [3]。
评估指标：Recall@1, Recall@5, Recall@10。
目的：评估 DaMO 提取判别性多模态表示的能力，专注于 DaMO 在第一阶段训练后的多模态时间对齐能力，不进行任何检索特定的微调。
结果：如表 1 所示，尽管 DaMO 的训练数据量远小于其他模型（如 InternVideo2-6B 使用了 404M 数据），但 DaMO 在 MSR-VTT 上排名第二，仅低于 InternVideo2-6B，在 MSVD 上在 Recall@1 和 Recall@5 上超过了 InternVideo2-6B，显示出其强大的泛化能力和数据效率。

2. 视频-LLM 时间定位基准测试（Video-LLM Temporal Grounding Benchmarks）

数据集：Charades-STA [12] 和 ActivityNet-Captions [18]。
评估指标：R@0.3, R@0.5, R@0.7, mIoU。
目的：评估 DaMO 在细粒度时间定位方面的能力。为了确保可靠的评估，作者在预训练的 DaMO 基础上进行了额外的指令跟随微调步骤，通过冻结所有 DaMO 参数并训练一个轻量级的 LoRA 适配器来生成结构化的时间分割预测。
结果：如表 2 所示，DaMO 在这两个基准测试中均取得了最先进的结果，显著优于现有的视频 LLM 方法，验证了 DaMO 在时间定位方面的优越性能。

3. 视频对话基准测试（Video Dialogue Benchmarks）

数据集：VCGbench [37]。
评估指标：信息正确性（Correctness of Information）、细节导向（Detail Orientation）、上下文理解（Contextual Understanding）、时间理解（Temporal Understanding）和一致性（Consistency）。
目的：评估 DaMO 在进行时间定位对话方面的能力。VCGbench 包含来自密集注释的 ActivityNet-200 数据集的视频，并通过 GPT-3.5 基于自动评估分数从 1 到 5 来评估这些维度。
结果：如表 3 所示，DaMO 在时间理解（Temporal Understanding）指标上取得了最高分，明显高于其他模型，表明 DaMO 在准确地定位和推理时间定位内容方面的能力。在其他指标上的表现较为适中，这可能是因为指令调整阶段主要集中在时间定位问答上，从而限制了更广泛的对话曝光。

4. 消融研究（Ablation Study）

LoRA 配置：通过改变 LoRA 的秩（rank）来评估其对模型性能的影响。结果表明，秩为 32 时性能最佳，尤其是在时间理解方面。进一步增加 LoRA 的秩会导致性能下降，这表明过度的适配能力可能会导致过拟合或破坏之前学到的时间对齐，特别是在数据有限的情况下。
训练策略：通过比较不同训练阶段的组合来评估渐进式训练策略的有效性。结果表明，完整的四阶段训练策略在所有指标上均取得了最佳性能，尤其是在时间理解和一致性方面。这证实了将训练明确划分为四个阶段对于有效增强 DaMO 的时间推理和对话能力至关重要。

这些实验结果共同验证了 DaMO 在多模态时间推理和对话任务中的有效性和数据效率。

Q: 有什么可以进一步探索的点？

A: 尽管 DaMO 在多模态时间推理和对话任务中取得了显著的成果，但仍有一些可以进一步探索的方向：

1. 多模态融合的进一步优化

模态间关系建模：虽然 DaMO 已经通过 T-Fuseformer 有效地融合了视觉和音频信息，但进一步探索更复杂的模态间关系建模方法可能会带来更好的性能。例如，可以研究如何更好地利用模态间的互补性和协同作用，以及如何处理模态间的冲突和不一致性。
多模态特征的动态权重调整：在不同的视频内容和任务中，视觉和音频信息的重要性可能不同。研究如何动态调整不同模态的权重，以适应不同的场景和任务需求，可能会进一步提升模型的适应性和鲁棒性。

2. 时间推理的细粒度化

多尺度时间建模：DaMO 在时间推理方面已经取得了显著进展，但进一步探索多尺度时间建模可能会带来更细粒度的时间推理能力。例如，可以研究如何同时处理短时间跨度和长时间跨度的事件，以及如何更好地处理时间上的层次结构。
时间关系的显式建模：除了定位特定事件的时间，还可以进一步探索如何显式地建模事件之间的时间关系，如先后顺序、同时发生等。这将有助于更复杂的时间推理任务，如因果关系推理。

3. 数据效率和计算效率的提升

无监督和自监督学习：虽然 DaMO 通过结构化的四阶段训练范式实现了数据效率，但进一步探索无监督和自监督学习方法可能会进一步减少对大规模标注数据的依赖。例如，可以研究如何利用大量的未标注视频数据来预训练模型，然后再进行少量标注数据的微调。
模型压缩和加速：尽管 DaMO 已经通过全局残差等方法提高了计算效率，但进一步探索模型压缩和加速技术可能会使其更适合实际应用。例如，可以研究如何通过量化、剪枝等方法减少模型的计算和存储需求，同时保持性能。

4. 语义理解和推理能力的增强

知识图谱的整合：虽然 DaMO 在时间推理方面表现出色，但进一步增强其语义理解和推理能力可能会使其在更广泛的视频语言任务中表现更好。例如，可以研究如何将知识图谱整合到模型中，以提供更丰富的语义背景和常识知识，从而支持更复杂的推理任务。
多任务学习：通过多任务学习同时训练模型完成多种任务，可能会增强模型的泛化能力和语义理解能力。例如，可以同时训练模型进行视频问答、视频描述生成、视频分类等多种任务，以提高模型的综合性能。

5. 跨模态交互的增强

交互式学习：目前 DaMO 主要关注单向的多模态融合，即从视觉和音频信息中提取特征并融合到语言模型中。未来可以探索交互式学习，即让语言模型也反过来影响视觉和音频特征的提取和融合，实现更紧密的跨模态交互。
跨模态生成任务：除了当前的任务，还可以探索 DaMO 在跨模态生成任务中的应用，如根据文本生成视频、根据视频生成音频等。这将有助于进一步验证模型的多模态生成能力。

6. 模型的可解释性和透明度

时间推理的可解释性：虽然 DaMO 能够准确地进行时间推理，但进一步提高模型的可解释性将有助于更好地理解其决策过程。例如，可以研究如何可视化模型在时间推理过程中的注意力机制和特征融合过程，以提供更直观的解释。
多模态融合的透明度：提高多模态融合过程的透明度，使研究人员和实践者能够更好地理解模型是如何整合不同模态信息的，将有助于进一步优化模型的设计和训练。

这些方向不仅可以进一步提升 DaMO 的性能和适用性，还可以推动视频语言模型领域的发展。

Q: 总结一下论文的主要内容

Authors: Bo-Cheng Chiu, Jen-Jee Chen, Yu-Chee Tseng, Feng-Chi Chen

Categories: cs.CV, cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2506.11558v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2506.11558v3

Published: 2025-06-13T08:13:05Z

5. Supernova: Achieving More with Less in Transformer Architectures

We present Supernova, a 650M-parameter decoder-only transformer that demonstrates how careful architectural design and tokenization innovation can achieve the performance of larger models while maintaining computational efficiency. Our architecture combines Rotary Positional Embeddings (RoPE), Grouped Query Attention (GQA) with a 3:1 compression ratio, RMSNorm for computational efficiency, and SwiGLU activation functions. A critical innovation is our custom 128,000-vocabulary byte-level BPE tokenizer, which achieves state-of-the-art compression performance. Through detailed analysis, we show that Supernova achieves 90% of the performance of 1B-parameter models while using 35% fewer parameters and requiring only 100B training tokens—an order of magnitude less than competing models. Our findings challenge the prevailing scaling paradigm, demonstrating that architectural efficiency and tokenization quality can compensate for reduced parameter counts.

中文摘要

我们介绍了Supernova，一个650M参数的解码器-only transformer，它展示了如何通过精心的架构设计和标记化创新在保持计算效率的同时达到更大模型的性能。我们的架构结合了旋转位置嵌入（RoPE）、以3:1压缩比的分组查询注意力（GQA）、为了计算效率的RMSNorm，以及SwiGLU激活函数。一个关键的创新是我们定制的128,000词汇字节级BPE标记器，它实现了最先进的压缩性能。通过详细的分析，我们展示了Supernova在使用比1B参数模型少35%的参数和仅需100B训练标记的情况下，达到了1B参数模型90%的性能——这是竞争模型的一个数量级的减少。我们的发现挑战了现有的规模范式，证明了架构效率和标记化质量可以弥补参数数量的减少。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决当前自然语言处理领域中大型Transformer模型所带来的计算和经济挑战。具体来说，它旨在证明通过精心的架构设计和分词创新，可以在保持计算效率的同时实现与更大模型相当的性能，从而挑战现有的模型规模与性能之间单调增长的假设。主要目标包括：

提高参数效率：通过优化Transformer架构的各个组件，如位置编码、注意力机制、归一化方法和激活函数，减少模型参数数量，同时保持或提升模型性能。
优化分词策略：开发一种高效的分词器，以实现更好的文本压缩性能，从而在有限的上下文窗口内提取更多的语义信息。
提升数据效率：通过高质量的数据筛选和训练方法，减少模型训练所需的训练数据量，从而降低训练成本并提高数据利用效率。
实现可持续的AI部署：探索在保持模型核心能力的同时，降低模型训练和部署的经济成本，使AI服务在经济上更具可持续性。

Q: 有哪些相关研究？

A: 论文提到了以下相关研究领域：

高效Transformer架构

位置编码优化：RoPE（Rotary Position Embeddings）通过旋转矩阵对查询和键向量进行编码，自然地结合了相对位置信息，相比传统的正弦位置编码和学习型绝对位置编码，RoPE在理论和实践中都表现出更好的性能，能够更快地收敛并降低最终损失，且可以外推到训练时未见过的更长序列长度。
注意力机制改进：MQA（Multi-Query Attention）通过在所有查询头之间共享键和值投影来减少内存需求，但会牺牲一些模型质量。GQA（Grouped Query Attention）则在保持大部分多头注意力表达能力的同时，通过分组查询头共享键值对来减少内存需求，论文中直接基于GQA展示了其在十亿参数量级模型中的有效性。
归一化技术革新：Layer Normalization虽然稳定了Transformer的训练，但引入了计算开销，需要进行均值计算和减法操作。RMSNorm通过仅基于输入的均方根进行归一化，消除了LayerNorm中的重新中心化步骤，简化了计算过程，提高了计算效率。
激活函数发展：GLU（Gated Linear Unit）家族中的SwiGLU（Swish-Gated Linear Unit）引入了门控机制，提高了参数效率和梯度动态性能。大规模实证研究表明，SwiGLU变体在Transformer架构中的性能优于ReLU和GELU。

分词和表示学习

分词方法演变：从BPE（Byte Pair Encoding）到GPT-2的字节级BPE，分词方法不断演进。然而，大多数现代分词器为了多语言覆盖而牺牲了特定语言的压缩效率。研究表明，形态感知分词可以提高下游任务的性能，而词汇表大小和组成也显著影响模型效率。论文通过优化特定语言的分词器，同时实现了更好的压缩和模型性能。
分词器性能对比：论文中对比了多种分词器在WikiText-103数据集上的性能，展示了其自定义分词器在压缩比和速度上的优势。

紧凑高效的语言模型

Phi系列：通过高质量的合成数据，使小型模型在推理任务上与大型模型竞争，强调数据质量而非数量，通过精心策划的训练语料库取得了令人印象深刻的结果。
StableLM：通过精心的工程和训练过程，产生了3B参数范围内的高效模型。
Gemma系列：通过架构修改和训练创新探索效率提升，证明了结合多种效率技术可以显著改善参数性能权衡。

模型规模、训练数据和性能的缩放定律

缩放定律研究：建立了模型大小、数据集大小和计算预算之间的基本关系，但这些缩放定律主要关注大型模型领域，没有充分探索小型模型的效率前沿。论文提供了实证证据，挑战了这些缩放定律的一些假设，特别是在最大化架构效率时数据量与模型性能之间的关系。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决上述问题：

架构设计

架构选择：采用解码器仅有的Transformer架构，包含16个Transformer块，每个块有12个注意力头，嵌入维度为1536，处理序列长度可达2048个token。这种配置在保持计算可处理性的同时，为复杂表示学习提供了足够的深度。
关键组件：
- 旋转位置嵌入（RoPE）：通过旋转特征向量来编码位置信息，无需额外参数，且可以外推到训练时未见过的更长序列长度。RoPE与注意力机制无缝结合，兼容高效的注意力实现（如Flash Attention），从而在推理时实现内存和计算效率的提升。
- 分组查询注意力（GQA）：通过分组查询头共享键值对，将KV缓存大小减少了3倍，从而显著降低了推理时的内存带宽需求。GQA在保持大部分多头注意力表达能力的同时，减少了内存需求，这对于内存受限的部署场景尤为重要。
- RMSNorm：通过仅基于输入的均方根进行归一化，消除了LayerNorm中的重新中心化步骤，简化了计算过程，提高了计算效率。在Transformer的每一层中使用RMSNorm，可以实现大约15%的计算加速，同时保持与LayerNorm相当的梯度稳定性。
- SwiGLU激活函数：结合了平滑激活函数和门控机制的优点，提高了参数效率和梯度流动。SwiGLU通过两个分支架构实现，其中一个分支应用SiLU激活函数，另一个分支作为学习门控，两者的输出通过逐元素相乘后进行最终的线性投影。这种设计允许网络学习哪些信息应该通过每一层流动，提供了比固定激活函数更复杂的控制信息传播的方式。
协同作用：这些组件协同工作，相互放大各自的优势，从而在有限的参数预算内最大化每个参数的效率，同时保持模型的表示能力。

分词器设计

自定义分词器：开发了一种自定义的128,000词汇量的字节级BPE分词器，专门针对英语文本表示进行了优化，在WikiText-103上实现了每token 4.78个字符的压缩性能，同时保持了完美的字节级重建保真度。这种分词器在特定语言的优化中，通过优先考虑英语文本的形态结构和常见模式，实现了更高的压缩效率，从而在有限的上下文窗口内提取更多的语义信息。
分词器优化：
- 英语特定优化：通过频率分析英语文本模式，在合并选择过程中优先考虑最有价值的子词单元，实现了对英语形态结构的感知，从而提高了压缩效率，并帮助模型学习更连贯的表示。
- 特殊标记设计：分词器包含了一系列特殊标记，用于处理各种控制和格式化任务，这些标记为模型提供了结构信息，有助于理解不同内容类型，并在指令微调等下游任务中提高模型性能。
- 压缩分析：在WikiText-103数据集上，自定义分词器实现了最高的压缩比（4.78个字符每token），显著优于其他分词器。此外，在特定领域（如源代码和混合内容）中，自定义分词器的压缩效率也表现出色，尤其是在源代码上，与GPT-4o相比，压缩比提高了15.8%。
- 实现优化：采用基于Trie的编码方法，通过构建包含所有合并操作的Trie数据结构，实现了快速查找，从而提高了编码效率。此外，还提供了并行分词功能，通过多线程处理提高了大规模文本处理的速度。

训练方法

数据集构建：构建了Nemotron-CC数据集，这是一个从99个Common Crawl快照中提取的英语预训练语料库，包含6.3万亿个token。为了预训练Supernova，从该数据集中采样了一个1000亿token的子集，该子集由七个部分组成，平衡了大规模真实文本覆盖和针对特定能力的合成内容注入。
数据质量控制：每个部分都经过了严格的五步过滤流程，包括去重、质量评分、安全性过滤、长度过滤和语言检测，以确保数据的一致性、安全性和语言质量。
训练配置：
- 超参数选择：采用了AdamW优化器，初始学习率为6×10^-4，权重衰减为0.1，β1=0.9，β2=0.99，ε=10^-8。学习率调度包括2000步的热身期，之后通过余弦调度在600,000步内衰减到最小值6×10^-5。全局批量大小为480，分布在8个GPU上，每个设备60个样本。梯度累积步数为1，采用bfloat16混合精度训练，以实现显著的内存节省和计算加速，同时保持与全float32精度相当的数值稳定性。
- 优化技术：采用了多种互补的优化技术，包括Flash Attention实现、梯度检查点、混合精度训练和自定义融合CUDA内核，以最大化训练效率。这些技术在内存、计算和数据加载方面都取得了显著的优化效果，使得训练过程更加高效。
- 训练效率：在8个NVIDIA A100 40GB GPU的集群上进行训练，模型FLOPs利用率达到了54%，GPU内存利用率平均为39GB，有效批量大小为每步983,040个token，训练吞吐量约为每秒300,000个token。整个训练过程需要14天进行100,000步，总训练成本低于10,000美元，与训练成本超过100,000美元的大型模型相比，实现了数量级的降低。
训练动态：训练损失遵循可预测的缩放定律模式，从初始值11.2稳步下降到最终值2.14，没有出现过拟合或不稳定的迹象。梯度范数分析显示了稳定优化动态的特征，平均梯度范数在整个训练过程中保持在0.5到0.7之间，表明学习信号强度一致，没有出现梯度爆炸或梯度消失的问题，且各层之间的梯度范数保持平衡，表明模型架构成功地在深度上分布了学习能力。

Q: 论文做了哪些实验？

A: 论文进行了以下实验：

性能评估实验

零样本基准测试：在多个标准基准测试中对Supernova进行了零样本评估，以测试其在没有针对特定任务进行微调的情况下的泛化能力。这些基准测试涵盖了语言理解、推理和知识的不同方面，包括HellaSwag、WinoGrande、ARC-Easy、ARC-Challenge、PIQA、SuperGLUE、MMLU、MMLU-PRO、SIQA和BBH。实验结果表明，Supernova在这些基准测试中的表现与具有更多参数的模型相当，例如在平均分数上达到了43.10，与Llama 3.2 1B的47.73相比，达到了90.3%的性能，但参数数量减少了53%。
效率分析实验：
- 推理性能测试：在NVIDIA A100 GPU上测量了Supernova的推理效率指标，包括吞吐量、内存使用量、延迟、功耗和每百万token的成本。与Llama 3.2 1B相比，Supernova在吞吐量上提高了59.6%，内存使用量减少了35.7%，延迟降低了37.5%，功耗降低了39.5%，每百万token的成本降低了36.8%。
- 内存分解分析：比较了标准多头注意力（MHA）和GQA实现之间的内存使用情况。结果表明，GQA优化使得KV缓存每层节省了66.7%的内存，总内存节省了41.9%。
- 数据效率分析：通过比较不同模型的训练数据需求，发现Supernova在训练数据效率方面表现出色。Supernova仅使用1000亿训练token就达到了约90%的1B模型性能，而其他竞争模型的token/参数比从约1636到约9000不等，这表明Supernova在数据效率方面具有显著优势。
定性分析实验：
- 注意力模式分析：分析了Supernova的16层注意力模式，发现其具有结构化和可解释的行为。前几层主要关注位置信息，中间层关注语义相关性，最后几层则对整个序列进行信息聚合以做出最终决策。这种分层专业化表明，尽管模型规模较小，但其架构选择仍能使模型发展出连贯的内部表示。
- token利用分析：分析了Supernova的词汇表使用情况，发现约45,000个token在推理中经常使用，前10,000个token占用了89%的使用频率，而长尾部分则涵盖了专业技术和罕见术语，为特定领域的内容提供了覆盖。此外，78%的token代表完整的词素，表明分词具有语言学意义。

训练实验

训练成本和效率实验：通过在8个NVIDIA A100 40GB GPU的集群上进行训练，测量了Supernova的训练成本和效率。实验结果表明，与Llama 3.2 1B相比，Supernova的训练时间减少了99.74%，训练成本降低了99%，二氧化碳排放量减少了99.78%。这些结果表明，Supernova在训练效率和成本方面具有显著优势。
训练动态实验：通过分析训练过程中的损失进展和梯度范数，评估了Supernova的训练动态。实验结果显示，训练损失遵循可预测的缩放定律模式，从初始值11.2稳步下降到最终值2.14，没有出现过拟合或不稳定的迹象。梯度范数分析显示了稳定优化动态的特征，平均梯度范数在整个训练过程中保持在0.5到0.7之间，表明学习信号强度一致，没有出现梯度爆炸或梯度消失的问题，且各层之间的梯度范数保持平衡，表明模型架构成功地在深度上分布了学习能力。

Q: 有什么可以进一步探索的点？

Authors: Andrei-Valentin Tanase, Elena Pelican

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.15773v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15773v2

Published: 2025-07-21T16:27:48Z

6. DialogueForge: LLM Simulation of Human-Chatbot Dialogue

Collecting human-chatbot dialogues typically demands substantial manual effort and is time-consuming, which limits and poses challenges for research on conversational AI. In this work, we propose DialogueForge - a framework for generating AI-simulated conversations in human-chatbot style. To initialize each generated conversation, DialogueForge uses seed prompts extracted from real human-chatbot interactions. We test a variety of LLMs to simulate the human chatbot user, ranging from state-of-the-art proprietary models to small-scale open-source LLMs, and generate multi-turn dialogues tailored to specific tasks. In addition, we explore fine-tuning techniques to enhance the ability of smaller models to produce indistinguishable human-like dialogues. We evaluate the quality of the simulated conversations and compare different models using the UniEval and GTEval evaluation protocols. Our experiments show that large proprietary models (e.g., GPT-4o) generally outperform others in generating more realistic dialogues, while smaller open-source models (e.g., Llama, Mistral) offer promising performance with greater customization. We demonstrate that the performance of smaller models can be significantly improved by employing supervised fine-tuning techniques. Nevertheless, maintaining coherent and natural long-form human-like dialogues remains a common challenge across all models.

中文摘要

收集人机对话通常需要大量的手动工作，耗时且具有挑战性，这限制了对会话人工智能的研究。在这项工作中，我们提出了DialogueForge - 一个用于生成类人机对话的AI模拟框架。为了初始化每个生成的对话，DialogueForge使用从真实人机互动中提取的种子提示。我们测试了多种大型语言模型（LLMs），以模拟人机聊天用户，这些模型从最先进的专有模型到小规模的开源LLMs不等，并生成针对特定任务的多轮对话。此外，我们探索了微调技术，以增强较小模型生成难以区分的类人对话的能力。我们评估了模拟对话的质量，并使用UniEval和GTEval评估协议比较不同模型。我们的实验表明，大型专有模型（例如，GPT-4o）在生成更逼真的对话方面通常优于其他模型，而较小的开源模型（例如，Llama，Mistral）则提供了更好的性能和更大的定制性。我们证明，通过采用监督微调技术，可以显著提高较小模型的性能。然而，维持连贯和自然的类人长格式对话依然是所有模型面临的共同挑战。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在对话式人工智能（conversational AI）研究中，收集人类与聊天机器人对话数据所面临的挑战。具体来说，收集和标注真实的人类-聊天机器人对话数据通常需要大量的人力和时间，且难以大规模扩展，这限制了对话式AI的研究进展。为了解决这一问题，论文提出了一个名为 DialogueForge 的框架，用于生成模拟人类与聊天机器人对话的AI合成对话数据。

Q: 有哪些相关研究？

A: 以下是与该研究相关的几个主要方向及其具体工作：

基于LLM的对话生成研究

One-Go In-Context Prompting：通过给预训练的LLM一个提示（如主题描述、知识图谱衍生的摘要或少量示例），让其一次性生成整个多轮对话。例如，PLACES利用少量示例提示，结合人类编写的背景信息和样本轮次，向GPT-3生成完整对话；SODA使用GPT-3.5将知识图谱三元组扩展为短篇叙事种子，进而生成多轮聊天。
Fine-Tuning：先在小规模对话完成语料库上对LLM进行微调，然后用于生成对话。例如，AUGESC在ESConv数据集上微调GPT-J，再根据描述和第一轮对话生成对话。
Turn-by-Turn Multi-Agent Simulation：两个或多个LLM代理依次对话，通常用于模拟不同角色或混合技能。例如，PERSONACHATGEN运行两个GPT-3实例，每个实例根据不同的角色配置文件生成对话；BOTSTALK让多个GPT-3模型交替进行对话，每轮从不同的技能特定数据集中选择内容。
Task-Oriented In-Context LLM Simulators：基于提示的LLM方法在无需微调的情况下为任务完成设置生成对话。例如，ICL-US利用少量示例加上用户目标和历史记录，通过上下文学习生成用户代理轮次；Dialogic类似地向GPT-3提示从本体论中提取的目标和上下文示例，然后应用批评步骤以强制执行信念状态对齐。

人类-聊天机器人对话数据集

PersonaChat：包含由人群编写的日常闲聊对话，涉及配对的角色。
OpenAssistant：提供人类为各种提示撰写的人工助手回应。
Anthropic HH：收集了高质量的人类-机器人交互，涵盖多样化的主题。
Chatbot Arena：提供人类撰写的助手回应，涵盖多种主题。
LMSYS-Chat-1M：收集了高质量的人类-机器人交互，涵盖多样化的主题。
MT Bench：为对话式机器翻译基准测试提供细粒度的人类判断。

LLM评估研究

MMLU基准测试：测试多任务语言理解能力，涵盖57个不同主题。
验证器方法：针对数学多步推理问题，提出了一种验证器方法，以提高模型在GSM8K数据集上的表现。
GPTScore：一个可定制的基于模型的评估框架，利用大型预训练语言模型进行多维度文本评估，无需标注数据。
BotChat评估协议：使用三种评估协议来评估LLM进行多轮对话的能力。

Q: 论文如何解决这个问题？

A: 论文通过提出 DialogueForge 框架来解决收集人类与聊天机器人对话数据的挑战，具体方法如下：

1. 对话生成框架设计

种子提示提取（Seed Prompt Extraction）：
- 从真实的人类-聊天机器人互动中提取初始对话片段作为种子提示。种子提示包括人类的初始查询和聊天机器人的响应。
- 解析原始对话以识别对话的中心主题，并将其嵌入到生成提示中，以确保后续生成的对话保持连贯性，不偏离原始对话的主题。
- 例如，如果种子对话是关于“如何优化网页以提高搜索引擎排名”的问题，生成的对话将围绕这个主题展开。

2. 对话生成（Dialogue Generation）

交替生成：
- 使用两个LLM，分别扮演“询问者”（模拟人类）和“响应者”（模拟聊天机器人）的角色。
- 询问者和响应者模型是独立的代理，可以基于不同的LLM架构，这使得研究者能够灵活地研究不同代理之间的互动。
- 在每一轮对话中，两个模型都会接收到完整的对话历史，从而生成上下文相关的回应。
- 对话生成会持续进行，直到达到预设的最大轮数（如6轮或12轮），或者询问者认为对话自然结束。

3. 对话评估（Judgement & Evaluation）

UniEval：
- 由LLM作为评判，评估生成的对话是否类似于真实的人类-聊天机器人互动。
- 评判会判断对话是否涉及AI参与者，并指出第一个被认为是AI生成的轮次及其原因。
- 例如，评判可能会指出某个轮次的人类话语过于详细和结构化，不符合自然人类对话的特点。
GTEval：
- 评判会同时比较生成的对话和真实的人类-聊天机器人对话，判断哪一个是AI生成的，并提供理由。
- 这种评估方法能够更准确地衡量生成对话与真实对话的相似度。

4. 模型微调（Fine-Tuning）

提升小模型性能：
- 对小规模的LLM进行监督微调，使用Low-Rank Adaptation（LoRA）技术。
- 微调数据集从种子提示提取的数据集中精心挑选，确保对话风格和主题的多样性。
- 例如，如果在OASST1数据集上评估模型，则使用Chatbot Arena数据集进行微调，反之亦然。
- 微调后的模型能够更好地模拟人类的对话风格，同时保持轻量级部署的优势。

5. 实验与评估

模型选择：
- 论文测试了多种LLM，包括大型专有模型（如GPT-4o）和小型开源模型（如Llama、Mistral）。
- 通过UniEval和GTEval评估协议，比较不同模型在生成真实对话方面的能力。
结果分析：
- 实验结果显示，大型专有模型通常在生成更真实的对话方面表现更好，但小型开源模型通过微调也能取得令人满意的性能。
- 例如，经过微调的Llama-3.1-8B在某些情况下甚至超过了GPT-4o的性能。
- 论文还分析了对话长度对模型性能的影响，发现随着对话轮数的增加，模型保持人类风格对话的能力会下降。

通过上述方法，DialogueForge 框架能够高效地生成多样化的、任务导向的多轮对话，显著降低了手动收集人类-聊天机器人对话数据的成本和时间。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

1. UniEval 和 GTEval 评估实验

实验目的：评估不同LLM在生成人类风格对话方面的表现，并比较经过微调的模型与未微调模型的性能差异。
实验设置：
- 使用了多种LLM，包括大型专有模型（如GPT-4o）和小型开源模型（如Llama、Mistral）。
- 使用两个真实的人类-聊天机器人对话数据集：OpenAssistant Conversations（OASST1）和Chatbot Arena Conversations。
- 对话长度设置为6轮和12轮，以分析模型在不同长度对话中的表现。
评估指标：
- UniEval：评估生成对话是否类似于真实的人类-聊天机器人互动，判断对话是否涉及AI参与者，并指出第一个被认为是AI生成的轮次及其原因。
- GTEval：比较生成对话和真实对话，判断哪一个是AI生成的，并提供理由。
实验结果：
- UniEval结果：
  - 大型模型（如GPT-4o和GPT-4o mini）在生成更真实的对话方面表现更好，其UniEval通过率超过90%。
  - 小型模型（如Mistral-7B和Llama-3.2-3B）表现较差，但经过微调后，性能显著提升。
  - 随着对话轮数的增加，所有模型的UniEval通过率都有所下降。
- GTEval结果：
  - GTEval的不可区分率低于UniEval通过率，表明在有真实对话作为参考的情况下，评判模型更容易识别AI生成的对话。
  - 经过微调的Llama-3.1-8B模型在某些情况下表现优于GPT-4o，显示出小型模型通过微调可以达到较高的性能。

2. 微调效果实验

实验目的：验证微调对小型LLM性能的提升效果。
实验设置：
- 对Llama-3.2-3B、Llama-3.1-8B和Mistral-7B三种小型模型进行微调。
- 使用Low-Rank Adaptation（LoRA）技术进行微调。
- 微调数据集从种子提示提取的数据集中精心挑选，确保对话风格和主题的多样性。
实验结果：
- 所有经过微调的小型模型在UniEval和GTEval评估中都显示出显著的性能提升。
- 例如，Llama-3.2-3B在OASST1数据集上的UniEval通过率从35.11%提升到55.93%，在Chatbot Arena数据集上的通过率从30.34%提升到55.88%。

3. 对话长度对性能的影响实验

实验目的：分析对话长度对模型性能的影响。
实验设置：
- 对比6轮和12轮对话的UniEval通过率和GTEval不可区分率。
实验结果：
- 所有模型在12轮对话中的UniEval通过率都低于6轮对话，表明随着对话轮数的增加，保持人类风格对话的难度增加。
- GTEval不可区分率在对话长度增加时变化较小，这可能是因为GTEval本身已经能够有效识别AI生成的对话。

4. LLM评判模型的偏见实验

实验目的：验证不同LLM评判模型是否会对评估结果产生偏见。
实验设置：
- 使用GPT-4o作为默认评判模型，同时使用Claude 3.7和Gemini 2.0 Flash作为替代评判模型。
实验结果：
- 不同评判模型的评估结果总体上是一致的，表明GPT-4o作为评判模型是可靠的，没有系统性地偏向自己的输出。

Q: 有什么可以进一步探索的点？

A: 论文中提出了 DialogueForge 框架，用于生成人类风格的多轮对话，尽管已经取得了显著的成果，但仍有一些可以进一步探索的点：

1. 更复杂的对话场景

角色扮演（Persona Conditioning）：
- 目前的框架主要关注任务导向的对话生成，但在真实的人类互动中，角色扮演是一个重要的方面。例如，对话参与者可能有不同的背景、性格和目标。未来可以探索如何将角色信息融入对话生成过程中，使对话更加真实和多样化。
- 研究方向：开发能够处理角色信息的模型架构，以及设计相应的角色描述和条件提示，以引导对话生成。
情感和上下文的连贯性：
- 当前的评估主要集中在对话的真实性上，但情感和上下文的连贯性也是自然对话的重要特征。未来可以探索如何在对话生成中更好地处理情感和上下文的连贯性，使对话更加自然和流畅。
- 研究方向：开发情感分析和上下文建模技术，以及设计相应的评估指标来衡量情感和上下文的连贯性。

2. 任务导向对话的完成率

目标完成率的评估：
- 目前的评估方法主要依赖于AI-as-a-judge的方法，但这种方法可能无法完全反映对话的实际任务完成情况。未来可以探索如何直接评估对话是否成功完成了预定任务，例如通过测量目标完成率和功能连贯性。
- 研究方向：开发能够自动评估任务完成率的工具，以及设计相应的实验来验证这些工具的有效性。
多步骤任务的对话生成：
- 在复杂的任务导向对话中，对话可能需要多个步骤来完成任务。未来可以探索如何生成能够处理多步骤任务的对话，以及如何评估这些对话的质量。
- 研究方向：开发能够处理多步骤任务的对话生成模型，以及设计相应的评估指标来衡量对话在多步骤任务中的表现。

3. 评估方法的改进

人类评估的结合：
- 尽管AI-as-a-judge的方法在一定程度上能够评估对话的真实性，但人类评估仍然是不可或缺的。未来可以探索如何将人类评估与自动评估相结合，以获得更全面和可靠的评估结果。
- 研究方向：设计轻量级的人类评估实验，以及开发能够结合人类评估和自动评估的混合评估框架。
多样性和创新性的评估：
- 当前的评估主要集中在对话的真实性上，但多样性和创新性也是高质量对话的重要特征。未来可以探索如何评估对话的多样性和创新性，以避免生成过于单一和重复的对话。
- 研究方向：开发能够衡量对话多样性和创新性的评估指标，以及设计相应的实验来验证这些指标的有效性。

4. 模型性能的进一步提升

长期依赖的建模：
- 在长对话中，模型往往难以保持长期依赖关系，导致对话的连贯性下降。未来可以探索如何改进模型架构，以更好地处理长期依赖关系，从而提高长对话的质量。
- 研究方向：开发能够处理长期依赖关系的模型架构，例如使用Transformer-XL或长短期记忆网络（LSTM）的变体。
模型的可扩展性和效率：
- 尽管小型模型通过微调可以取得较好的性能，但它们在处理复杂任务时仍可能受到限制。未来可以探索如何提高模型的可扩展性和效率，以在保持性能的同时降低计算成本。
- 研究方向：开发高效的模型微调技术，以及设计能够平衡性能和效率的模型架构。

5. 对话数据的多样性和质量

数据集的扩展和改进：
- 当前使用的对话数据集可能存在多样性和质量上的限制。未来可以探索如何扩展和改进对话数据集，以提高模型的泛化能力和性能。
- 研究方向：开发新的数据收集方法，以及设计能够提高数据质量的数据清洗和预处理技术。
跨领域对话的生成：
- 在真实世界中，对话往往涉及多个领域和主题。未来可以探索如何生成跨领域的对话，以更好地模拟真实的人类互动。
- 研究方向：开发能够处理跨领域对话的模型架构，以及设计相应的实验来验证这些模型的有效性。

6. 对话的毒性检测和控制

毒性检测和过滤：
- 在对话生成中，避免生成有毒或不当内容是一个重要的问题。未来可以探索如何在对话生成过程中检测和过滤毒性内容，以提高对话的质量和安全性。
- 研究方向：开发毒性检测模型，以及设计相应的过滤机制来避免生成有毒内容。
道德和伦理问题的考虑：
- 对话生成技术可能会引发一些道德和伦理问题，例如误导用户或传播虚假信息。未来可以探索如何在对话生成中考虑道德和伦理问题，以确保技术的负责任使用。
- 研究方向：开发能够检测和避免道德和伦理问题的技术，以及制定相应的政策和指南来规范对话生成技术的使用。

通过进一步探索这些方向，可以推动对话生成技术的发展，使其更加真实、自然和有效，从而更好地服务于实际应用。

Authors: Ruizhe Zhu, Hao Zhu, Yaxuan Li, Syang Zhou, Shijing Cai, Malgorzata Lazuka, Elliott Ash

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2507.15752v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15752v1

Published: 2025-07-21T16:08:19Z

7. Understanding Large Language Models’ Ability on Interdisciplinary Research

Recent advancements in Large Language Models (LLMs) have revealed their impressive ability to perform multi-step, logic-driven reasoning across complex domains, positioning them as powerful tools and collaborators in scientific discovery while challenging the long-held view that inspiration-driven ideation is uniquely human. However, the lack of a dedicated benchmark that evaluates LLMs’ ability to develop ideas in Interdisciplinary Research (IDR) settings poses a critical barrier to fully understanding their strengths and limitations. To address this gap, we introduce IDRBench — a pioneering benchmark featuring an expert annotated dataset and a suite of tasks tailored to evaluate LLMs’ capabilities in proposing valuable research ideas from different scientific domains for interdisciplinary research. This benchmark aims to provide a systematic framework for assessing LLM performance in complex, cross-domain scientific research. Our dataset consists of scientific publications sourced from the ArXiv platform covering six distinct disciplines, and is annotated by domain experts with diverse academic backgrounds. To ensure high-quality annotations, we emphasize clearly defined dimensions that characterize authentic interdisciplinary research. The design of evaluation tasks in IDRBench follows a progressive, real-world perspective, reflecting the natural stages of interdisciplinary research development, including 1) IDR Paper Identification, 2) IDR Idea Integration, and 3) IDR Idea Recommendation. Using IDRBench, we construct baselines across 10 LLMs and observe that despite fostering some level of IDR awareness, LLMs still struggle to produce quality IDR ideas. These findings could not only spark new research directions, but also help to develop next-generation LLMs that excel in interdisciplinary research.

中文摘要

最近，大型语言模型（LLMs）的进展揭示了它们在复杂领域中进行多步骤、逻辑驱动的推理的出色能力，赋予它们在科学发现中作为强大工具和合作伙伴的地位，同时挑战了长期以来认为灵感驱动的创意活动是人类独有的观点。然而，缺乏一个专门评估LLMs在跨学科研究（IDR）环境中发展创意能力的基准，成为了全面了解它们的优势和局限性的关键障碍。为了解决这一差距，我们推出了IDRBench——一个具有开创性的基准，包含专家注释的数据集和一系列任务，旨在评估LLMs在不同科学领域提出有价值的研究创意的能力。该基准旨在提供一个系统框架，以评估LLM在复杂跨学科科学研究中的表现。我们的数据集由来自ArXiv平台的科学出版物组成，涵盖六个不同学科，并由不同学术背景的领域专家进行注释。为了确保高质量的注释，我们强调明确定义的维度，以表征真实的跨学科研究。IDRBench中评估任务的设计遵循渐进的现实视角，反映了跨学科研究发展的自然阶段，包括1）IDR论文识别，2）IDR创意整合，以及3）IDR创意推荐。通过使用IDRBench，我们在10个LLMs上建立了基准，并观察到尽管在一定程度上培养了一些IDR意识，但LLMs仍然在产生高质量的IDR创意方面存在困难。这些发现不仅可能激发新的研究方向，还有助于开发在跨学科研究方面表现出色的下一代LLMs。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败: Waiting failed: 30000ms exceeded

Authors: Yuanhao Shen, Daniel Xavier de Sousa, Ricardo Marçal, Ali Asad, Hongyu Guo, Xiaodan Zhu

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.15736v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15736v1

Published: 2025-07-21T15:43:05Z

8. BEnchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning

Current benchmarks evaluating large language models (LLMs) in ophthalmology are limited in scope and disproportionately prioritise accuracy. We introduce BELO (BEnchmarking LLMs for Ophthalmology), a standardized and comprehensive evaluation benchmark developed through multiple rounds of expert checking by 13 ophthalmologists. BELO assesses ophthalmology-related clinical accuracy and reasoning quality. Using keyword matching and a fine-tuned PubMedBERT model, we curated ophthalmology-specific multiple-choice-questions (MCQs) from diverse medical datasets (BCSC, MedMCQA, MedQA, BioASQ, and PubMedQA). The dataset underwent multiple rounds of expert checking. Duplicate and substandard questions were systematically removed. Ten ophthalmologists refined the explanations of each MCQ’s correct answer. This was further adjudicated by three senior ophthalmologists. To illustrate BELO’s utility, we evaluated six LLMs (OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B, and Gemini 1.5 Pro) using accuracy, macro-F1, and five text-generation metrics (ROUGE-L, BERTScore, BARTScore, METEOR, and AlignScore). In a further evaluation involving human experts, two ophthalmologists qualitatively reviewed 50 randomly selected outputs for accuracy, comprehensiveness, and completeness. BELO consists of 900 high-quality, expert-reviewed questions aggregated from five sources: BCSC (260), BioASQ (10), MedMCQA (572), MedQA (40), and PubMedQA (18). A public leaderboard has been established to promote transparent evaluation and reporting. Importantly, the BELO dataset will remain a hold-out, evaluation-only benchmark to ensure fair and reproducible comparisons of future models.

中文摘要

当前评估眼科学大型语言模型（LLM）的基准在范围上有限，并且对准确性优先级不成比例。我们引入了BELO（眼科学大型语言模型基准评估），这是一个经过13位眼科专家多轮检查开发的标准化和综合评估基准。BELO评估眼科学相关的临床准确性和推理质量。通过关键词匹配和微调的PubMedBERT模型，我们从多种医学数据集中（BCSC、MedMCQA、MedQA、BioASQ和PubMedQA）筛选出了眼科特定的多项选择题（MCQ）。该数据集经历了多轮专家审核。重复和不合格的问题被系统性地删除。十位眼科专家对每个MCQ的正确答案的解释进行了细化。三位高级眼科医生进一步进行了裁定。为了说明BELO的实用性，我们评估了六个LLM（OpenAI o1、o3-mini、GPT-4o、DeepSeek-R1、Llama-3-8B和Gemini 1.5 Pro），使用准确性、宏观F1和五个文本生成指标（ROUGE-L、BERTScore、BARTScore、METEOR和AlignScore）。在进一步的评估中，两位眼科医生对50个随机选择的输出进行了定性审查，以评估其准确性、全面性和完整性。BELO由900个高质量、专家审核的问题组成，这些问题来自五个来源：BCSC（260）、BioASQ（10）、MedMCQA（572）、MedQA（40）和PubMedQA（18）。已建立公共排行榜以促进透明的评估和报告。重要的是，BELO数据集将保持为一个保留的、仅用于评估的基准，以确保对未来模型的公正和可重复的比较。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在眼科领域评估大型语言模型（LLMs）时存在的问题。具体来说，它旨在解决以下问题：

现有基准测试的局限性：
- 当前用于评估眼科领域LLMs的基准测试范围有限，且过度强调准确性，忽视了临床推理能力的评估。
- 现有的基准测试缺乏针对眼科领域的专门设计，无法全面评估LLMs在眼科临床知识和推理质量方面的表现。
缺乏标准化和全面的评估框架：
- 目前没有一个标准化的、经过多轮专家检查的基准测试，能够系统地评估LLMs在眼科领域的知识和推理能力。
- 现有的评估方法缺乏透明性和可比性，不同研究之间使用的验证数据集不一致，导致无法有效比较不同LLMs的性能。
临床推理能力的评估不足：
- 现有的基准测试通常只关注模型的最终答案是否正确，而缺乏对模型推理过程的评估。这限制了对LLMs在临床实践中的实际应用能力的全面评估。

为了解决这些问题，论文提出了BELO（BEnchmarking LLMs for Ophthalmology），这是一个标准化、全面的评估基准，旨在通过多轮专家检查和临床推理能力的评估，系统地评估LLMs在眼科领域的表现。

Q: 有哪些相关研究？

A: 在眼科领域评估大型语言模型（LLMs）的相关研究中，以下是一些重要的工作：

Eyecare-Bench：
- 研究内容：Eyecare-Bench 是一个专注于眼科领域的基准测试，旨在评估 LLMs 在眼科问题回答中的表现。它包含了一个大规模的多语言数据集，用于评估和减少 LLMs 在低收入和中等收入国家（LMICs）中的偏见。
- 贡献：该研究主要关注模型的准确性，但没有深入评估模型的临床推理能力。
- 引用：Restrepo D, Wu C, Tang Z, et al. Multi-OphthaLingua: A Multilingual Benchmark for Assessing and Debiasing LLM Ophthalmological QA in LMICs [Internet]. 2024 [cited 2025 May 21];Available from: http://arxiv.org/abs/2412.14304
OphthBench：
- 研究内容：OphthBench 是一个综合性的基准测试，用于评估 LLMs 在中文眼科领域的表现。它包含多种类型的问题，如选择题、开放式问题和简答题。
- 贡献：该研究提供了一个多语言的评估框架，但同样没有深入评估模型的临床推理能力。
- 引用：Zhou C, Wang J, Qin J, Wang Y, Sun L, Dai W. OphthBench: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Ophthalmology [Internet]. 2025 [cited 2025 May 29];Available from: http://arxiv.org/abs/2502.01243
EyeQA-Plus：
- 研究内容：EyeQA-Plus 是一个包含 15,000 个合成开放式问题的数据集，用于评估 LLMs 在眼科领域的表现。
- 贡献：该数据集提供了大量的合成问题，但缺乏真实世界临床案例的多样性。
- 引用：未提供具体引用，但该数据集在相关领域被广泛提及。
Ophthalmology single choice questions：
- 研究内容：这是一个包含 100 个单选题的数据集，用于评估 LLMs 在眼科领域的表现。
- 贡献：该数据集提供了高质量的单选题，但规模较小，缺乏临床推理的评估。
- 引用：未提供具体引用，但该数据集在相关领域被广泛提及。
OphthalVQA：
- 研究内容：OphthalVQA 是一个包含 600 个视觉问答问题的数据集，用于评估 LLMs 在眼科领域的表现。
- 贡献：该数据集提供了视觉问答问题，但缺乏对模型推理能力的评估。
- 引用：未提供具体引用，但该数据集在相关领域被广泛提及。
MedMCQA：
- 研究内容：MedMCQA 是一个包含 6,990 个医学多选题的数据集，其中部分问题涉及眼科领域。该数据集提供了高质量的医学考试问题。
- 贡献：该数据集提供了大规模的医学考试问题，但缺乏对模型推理能力的评估。
- 引用：Pal A, Umapathi LK, Sankarasubbu M. Medmcqa: A large-scale multi-subject multi-choice dataset for medical domain question answering. In: Conference on health, inference, and learning. PMLR; 2022. p. 248–60.
PubMedQA：
- 研究内容：PubMedQA 是一个包含 1,000 个生物医学研究问题的数据集，其中部分问题涉及眼科领域。该数据集提供了高质量的生物医学研究问题。
- 贡献：该数据集提供了高质量的生物医学研究问题，但缺乏对模型推理能力的评估。
- 引用：Jin Q, Dhingra B, Liu Z, Cohen W, Lu X. PubMedQA: A Dataset for Biomedical Research Question Answering. In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. p. 2567–77.

这些研究为评估 LLMs 在眼科领域的表现提供了基础，但都存在一定的局限性。BELO 的提出旨在克服这些局限性，通过多轮专家检查和临床推理能力的评估，提供一个更全面、标准化的评估框架。

Q: 论文如何解决这个问题？

A: 论文通过以下步骤解决了评估大型语言模型（LLMs）在眼科领域表现的问题：

1. 数据集的收集和筛选

数据集来源：从多个医学问答（QA）数据集中收集眼科相关问题，包括BCSC、BioASQ、MedMCQA、MedQA和PubMedQA。
数据集筛选：使用关键词匹配和微调的PubMedBERT模型提取眼科相关问题，并去除重复和质量不佳的问题。

2. 多轮专家检查

初步筛选：由一名眼科医生、两名验光师和六名研究人员对所有问题进行初步检查，去除非眼科问题和重复问题。
质量分级：对问题进行质量分级，评估其答案的准确性和推理质量。
推理修正：由10名眼科医生对质量较低的问题进行推理修正，确保每个问题都有高质量的推理解释。
最终审核：由三名高级眼科医生对修正后的问题进行最终审核，确保数据集的准确性和临床相关性。

3. 基准测试和评估

模型选择：选择了六种LLMs（OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B, 和 Gemini 1.5 Pro）进行评估。
评估指标：使用准确性、宏F1分数和五种文本生成指标（ROUGE-L、BERTScore、BARTScore、METEOR和AlignScore）进行定量评估。
专家评估：由两名眼科医生对50个随机选择的模型输出进行定性评估，评估准确性、完整性和可读性。

4. 公开排行榜和持续更新

公开排行榜：建立了一个公开的排行榜网站，展示不同模型在BELO基准测试中的表现，促进透明的模型比较和报告。
持续更新：未来将扩展BELO基准测试，包括视觉问答和临床场景管理任务，以更全面地评估LLMs在眼科领域的表现。

5. 具体实施步骤

数据集的收集和筛选

数据集来源：
- BCSC：260个问题，来自美国眼科学会出版的《基础与临床科学课程》。
- BioASQ：10个问题，来自生物医学研究问题数据集。
- MedMCQA：572个问题，来自印度AIIMS和NEET PG入学考试。
- MedQA：40个问题，来自美国医学执照考试（USMLE）风格的多选题。
- PubMedQA：18个问题，来自生物医学研究问题数据集。
数据集筛选：
- 使用关键词匹配和微调的PubMedBERT模型提取眼科相关问题。
- 通过多轮专家检查去除重复和质量不佳的问题。

多轮专家检查

初步筛选：
- 由一名眼科医生、两名验光师和六名研究人员对所有问题进行初步检查，去除非眼科问题和重复问题。
质量分级：
- 对问题进行质量分级，评估其答案的准确性和推理质量。
- 分级标准：
  - 0：无推理。
  - 1：推理质量差。
  - 2：仅解释正确答案。
  - 3：解释正确答案和错误答案。
推理修正：
- 由10名眼科医生对质量较低的问题进行推理修正，确保每个问题都有高质量的推理解释。
最终审核：
- 由三名高级眼科医生对修正后的问题进行最终审核，确保数据集的准确性和临床相关性。

基准测试和评估

模型选择：
- 选择了六种LLMs（OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B, 和 Gemini 1.5 Pro）进行评估。
评估指标：
- 准确性：评估模型选择正确答案的能力。
- 宏F1分数：评估模型的召回率和精确率。
- 文本生成指标：
  - ROUGE-L：评估模型输出与参考答案之间的最长公共子序列。
  - BERTScore：评估模型输出与参考答案之间的语义相似性。
  - BARTScore：评估模型输出与参考答案之间的语义相似性和流畅性。
  - METEOR：评估模型输出与参考答案之间的语义相似性。
  - AlignScore：评估模型输出与参考答案之间的事实一致性。
专家评估：
- 由两名眼科医生对50个随机选择的模型输出进行定性评估，评估准确性、完整性和可读性。

公开排行榜和持续更新

公开排行榜：
- 建立了一个公开的排行榜网站，展示不同模型在BELO基准测试中的表现，促进透明的模型比较和报告。
持续更新：
- 未来将扩展BELO基准测试，包括视觉问答和临床场景管理任务，以更全面地评估LLMs在眼科领域的表现。

通过这些步骤，BELO基准测试提供了一个标准化、全面的评估框架，能够系统地评估LLMs在眼科领域的知识和推理能力。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估大型语言模型（LLMs）在眼科领域的表现：

1. 数据集的构建和验证

数据集来源：
- 从多个医学问答（QA）数据集中收集眼科相关问题，包括BCSC、BioASQ、MedMCQA、MedQA和PubMedQA。
数据集筛选：
- 使用关键词匹配和微调的PubMedBERT模型提取眼科相关问题，并去除重复和质量不佳的问题。
多轮专家检查：
- 由一名眼科医生、两名验光师和六名研究人员对所有问题进行初步检查，去除非眼科问题和重复问题。
- 对问题进行质量分级，评估其答案的准确性和推理质量。
- 由10名眼科医生对质量较低的问题进行推理修正，确保每个问题都有高质量的推理解释。
- 由三名高级眼科医生对修正后的问题进行最终审核，确保数据集的准确性和临床相关性。

2. 模型选择和评估

模型选择：
- 选择了六种LLMs进行评估，包括OpenAI o1、o3-mini、GPT-4o、DeepSeek-R1、Llama-3-8B和Gemini 1.5 Pro。
评估指标：
- 定量评估：
  - 准确性：评估模型选择正确答案的能力。
  - 宏F1分数：评估模型的召回率和精确率。
  - 文本生成指标：
    - ROUGE-L：评估模型输出与参考答案之间的最长公共子序列。
    - BERTScore：评估模型输出与参考答案之间的语义相似性。
    - BARTScore：评估模型输出与参考答案之间的语义相似性和流畅性。
    - METEOR：评估模型输出与参考答案之间的语义相似性。
    - AlignScore：评估模型输出与参考答案之间的事实一致性。
- 定性评估：
  - 由两名眼科医生对50个随机选择的模型输出进行定性评估，评估准确性、完整性和可读性。

3. 实验结果

定量评估结果：
- 准确性：OpenAI o1模型表现最佳，准确率为0.882（95% CI: 0.861–0.903）。
- 宏F1分数：OpenAI o1模型表现最佳，宏F1分数为0.890（95% CI: 0.869–0.910）。
- 文本生成指标：
  - ROUGE-L：GPT-4o和o3-mini表现最佳，分别为0.204和0.203。
  - METEOR：OpenAI o1表现最佳，为0.247。
  - BERTScore：o3-mini和GPT-4o表现最佳，分别为0.718和0.713。
  - BARTScore：OpenAI o1、DeepSeek-R1和o3-mini表现最佳，分别为-3.289、-3.313和-3.360。
  - AlignScore：GPT-4o、o3-mini和o1表现最佳，分别为0.255、0.252和0.236。
定性评估结果：
- 准确性：GPT-4o表现最佳，评分为4.91。
- 完整性：Gemini 1.5 Pro表现最佳，评分为4.79。
- 可读性：GPT-4o表现最佳，评分为4.92。

4. 实验设计和方法

数据集构建：
- 关键词匹配：使用眼科相关关键词提取潜在的眼科问题。
- PubMedBERT模型：使用微调的PubMedBERT模型进一步提取眼科问题。
- 多轮专家检查：确保每个问题的准确性和临床相关性。
模型评估：
- 零样本测试：模型在没有额外训练的情况下直接测试。
- 标准化提示：使用标准化的提示格式，确保模型输出的一致性。
- 定量评估：使用多种指标评估模型的准确性和推理能力。
- 定性评估：由专家对模型输出的准确性和可读性进行评估。

通过这些实验，论文展示了BELO基准测试的实用性和有效性，为评估LLMs在眼科领域的表现提供了一个全面的框架。

Q: 有什么可以进一步探索的点？

A: 论文中提出了一些未来可以进一步探索的方向，以下是一些具体的点：

1. 增加真实世界临床案例

当前局限：BELO基准测试目前缺乏来自真实世界临床案例的问题。
未来方向：未来的工作可以增加更多真实世界临床案例，包括多步推理和管理计划的问题，以更好地反映临床实践中的复杂性。

2. 视觉问答任务

当前局限：BELO基准测试目前主要集中在文本问答任务上。
未来方向：未来可以扩展到视觉问答任务，结合图像和文本信息，评估模型在多模态推理方面的能力。这可以利用现有的大型多模态眼科数据集（如LMOD）来构建视觉问答任务。

3. 多语言支持

当前局限：BELO基准测试目前主要使用英文数据集。
未来方向：未来可以扩展到多语言环境，评估LLMs在不同语言背景下的表现，以支持全球范围内的临床应用。

4. 模型的持续改进

当前局限：尽管BELO基准测试已经评估了多种LLMs，但仍有改进空间。
未来方向：未来可以探索新的LLMs，特别是那些专门针对医学领域训练的模型，以进一步提高模型的准确性和推理能力。

5. 临床场景管理任务

当前局限：BELO基准测试目前主要集中在单个问题的问答上。
未来方向：未来可以扩展到更复杂的临床场景管理任务，评估模型在处理多步临床决策和治疗计划方面的能力。

6. 模型的偏见和公平性

当前局限：BELO基准测试目前没有专门评估模型的偏见和公平性。
未来方向：未来可以增加对模型偏见和公平性的评估，确保模型在不同人群和临床场景中的表现是公平和无偏的。

7. 模型的可解释性

当前局限：BELO基准测试目前主要评估模型的输出，但对模型的内部决策过程评估较少。
未来方向：未来可以探索模型的可解释性，开发工具和技术来解释模型的决策过程，提高模型的透明度和可信度。

8. 与其他医学领域的协同研究

当前局限：BELO基准测试目前专注于眼科领域。
未来方向：未来可以与其他医学领域（如放射学、病理学等）进行协同研究，开发跨领域的综合评估框架，以评估LLMs在多学科医疗中的应用潜力。

9. 动态更新和扩展

当前局限：BELO基准测试目前是一个静态的数据集。
未来方向：未来可以开发动态更新机制，定期添加新的问题和案例，以保持基准测试的时效性和相关性。

10. 用户反馈和迭代改进

当前局限：BELO基准测试目前主要基于专家检查和模型评估。
未来方向：未来可以增加用户反馈机制，通过实际用户（如医生、护士等）的反馈来不断改进基准测试和模型性能。

这些方向不仅可以进一步完善BELO基准测试，还可以推动LLMs在眼科领域的实际应用，提高医疗效率和质量。

Authors: Sahana Srinivasan, Xuguang Ai, Thaddaeus Wai Soon Lo, Aidan Gilson, Minjie Zou, Ke Zou, Hyunjae Kim, Mingjia Yang, Krithi Pushpanathan, Samantha Yew, Wan Ting Loke, Jocelyn Goh, Yibing Chen, Yiming Kong, Emily Yuelei Fu, Michelle Ongyong Hui, Kristen Nwanyanwu, Amisha Dave, Kelvin Zhenghao Li, Chen-Hsin Sun, Mark Chia, Gabriel Dawei Yang, Wendy Meihua Wong, David Ziyou Chen, Dianbo Liu, Maxwell Singer, Fares Antaki, Lucian V Del Priore, Jost Jonas, Ron Adelman, Qingyu Chen, Yih-Chung Tham

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2507.15717v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15717v1

Published: 2025-07-21T15:27:32Z

9. From Queries to Criteria: Understanding How Astronomers Evaluate LLMs

There is growing interest in leveraging LLMs to aid in astronomy and other scientific research, but benchmarks for LLM evaluation in general have not kept pace with the increasingly diverse ways that real people evaluate and use these models. In this study, we seek to improve evaluation procedures by building an understanding of how users evaluate LLMs. We focus on a particular use case: an LLM-powered retrieval-augmented generation bot for engaging with astronomical literature, which we deployed via Slack. Our inductive coding of 368 queries to the bot over four weeks and our follow-up interviews with 11 astronomers reveal how humans evaluated this system, including the types of questions asked and the criteria for judging responses. We synthesize our findings into concrete recommendations for building better benchmarks, which we then employ in constructing a sample benchmark for evaluating LLMs for astronomy. Overall, our work offers ways to improve LLM evaluation and ultimately usability, particularly for use in scientific research.

中文摘要

对利用大型语言模型（LLMs）辅助天文学和其他科学研究的兴趣日益增长，但对于LLM评估的基准通常未能跟上人们评价和使用这些模型的日益多样化方式。在本研究中，我们旨在通过建立用户如何评估LLM的理解来改进评估程序。我们专注于一个特定的用例：一个基于LLM的检索增强生成机器人，用于与天文文献进行互动，我们通过Slack部署了这个机器人。我们对在四周内提交给机器人的368个查询进行归纳编码，并与11位天文学家进行了后续访谈，揭示了人类如何评估该系统，包括提问的类型和判断回应的标准。我们将研究结果综合成具体的建议，以建立更好的基准，并随后利用这些建议构建一个用于评估天文学领域的LLM的样本基准。总体而言，我们的工作提供了改进LLM评估和最终可用性的方法，特别是用于科学研究。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何改进大型语言模型（LLMs）在天文学领域的评估方法的问题。具体来说，它关注于以下两个核心问题：

用户如何评估LLMs：现有的LLMs评估基准（benchmarks）未能跟上人们在科学探究中多样化使用和评估这些模型的方式。论文通过研究天文学家如何使用和评估一个LLM驱动的检索增强型生成机器人（bot），来探索用户评估LLMs的实际方式。这包括用户提出的查询类型以及他们用来判断系统响应的标准。
如何构建更好的评估基准：基于对用户评估方式的理解，论文提出了如何构建更能反映用户评估策略和标准的评估基准的建议，并构建了一个样本基准，用于评估LLMs在天文学领域的表现。

通过解决这些问题，论文旨在提高LLMs评估与真实用户交互之间的一致性，最终提升LLMs在科学研究中的可用性和可靠性。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

LLMs在科学研究中的发展和评估

LLMs在科学领域的应用：如AstroLLaMa（Nguyen et al., 2023; Perkowski et al., 2024）和Pathfinder（Iyer et al., 2024），这些工具旨在通过AI帮助全球研究人员和爱好者搜索天文文献、整合信息并激发新想法。
科学领域LLMs评估的挑战：现有评估LLMs的科学数据集大多以封闭形式问题（如选择题）为主，无法反映人们使用LLMs的多样化方式（Sun et al., 2024; Singhal et al., 2023; Guo et al., 2023; Hendrycks et al., 2021）。此外，尽管模型在基准测试中表现良好，但这种高表现并不能直接转化为可用性和可靠性，因为基准测试往往无法代表现实的用户交互（Bowman & Dahl, 2021; Raji et al., 2021; Liang et al., 2023; Liao & Xiao, 2023）。

用户研究与LLMs评估

用户研究在LLMs评估中的应用：一些研究通过用户研究来评估LLMs，尤其是在创意写作任务中，如剧本（Mirowski et al., 2023）或小说和虚构作品（Yang et al., 2022; Calderwood et al., 2020）。在研究任务方面，W

Authors: Alina Hyk, Kiera McCormick, Mian Zhong, Ioana Ciucă, Sanjib Sharma, John F Wu, J. E. G. Peek, Kartheik G. Iyer, Ziang Xiao, Anjalie Field

Categories: cs.CL, astro-ph.IM

PDF URL: https://arxiv.org/pdf/2507.15715v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15715v1

Published: 2025-07-21T15:26:58Z

10. Chinchunmei at SemEval-2025 Task 11: Boosting the Large Language Model’s Capability of Emotion Perception using Contrastive Learning

The SemEval-2025 Task 11, Bridging the Gap in Text-Based Emotion Detection, introduces an emotion recognition challenge spanning over 28 languages. This competition encourages researchers to explore more advanced approaches to address the challenges posed by the diversity of emotional expressions and background variations. It features two tracks: multi-label classification (Track A) and emotion intensity prediction (Track B), covering six emotion categories: anger, fear, joy, sadness, surprise, and disgust. In our work, we systematically explore the benefits of two contrastive learning approaches: sample-based (Contrastive Reasoning Calibration) and generation-based (DPO, SimPO) contrastive learning. The sample-based contrastive approach trains the model by comparing two samples to generate more reliable predictions. The generation-based contrastive approach trains the model to differentiate between correct and incorrect generations, refining its prediction. All models are fine-tuned from LLaMa3-Instruct-8B. Our system achieves 9th place in Track A and 6th place in Track B for English, while ranking among the top-tier performing systems for other languages.

中文摘要

SemEval-2025 任务 11，填补基于文本的情感检测的差距，介绍了一项涵盖 28 种语言的情感识别挑战。该竞赛鼓励研究人员探索更先进的方法，以应对情感表达的多样性和背景变异带来的挑战。它设有两个赛道：多标签分类（赛道 A）和情感强度预测（赛道 B），涵盖六个情感类别：愤怒、恐惧、快乐、悲伤、惊讶和厌恶。在我们的工作中，我们系统地探索了两种对比学习方法的好处：基于样本的对比学习（对比推理校准）和基于生成的对比学习（DPO, SimPO）。基于样本的对比方法通过比较两个样本来训练模型，以生成更可靠的预测。基于生成的对比方法则训练模型区分正确和不正确的生成，提升其预测能力。所有模型均基于 LLaMa3-Instruct-8B 进行了微调。我们的系统在赛道 A 中获得第 9 名，在赛道 B 中获得第 6 名，而在其他语言中排名也位于顶尖系统之列。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决基于文本的情感检测（Text-Based Emotion Detection, TBED）中的挑战，特别是在多语言环境下的情感识别问题。具体而言，它关注以下几个关键问题：

情感表达的复杂性：情感表达往往具有细微差别且复杂，不同情感之间的区分可能很微妙，且情感常常通过隐喻或情境线索而非明确的词汇来传达。
文化和语言差异：不同文化和语言背景对情感感知的影响，使得情感识别不能仅依赖预定义的词典。
多语言情感识别的挑战：在多语言环境中，情感表达的多样性和背景变化增加了情感识别的难度。

论文通过参与 SemEval-2025 Task 11 挑战赛，探索了不同的方法来提高大型语言模型（LLM）在情感感知方面的能力，特别是在多标签分类（Track A）和情感强度预测（Track B）两个任务上。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

基于文本的情感检测（TBED）的分类方法：
- Ekman 和 Friesen (1969) 提出了基于离散标签的情感分类方法，将情感分为六种基本类型：愤怒、恐惧、悲伤、喜悦、惊讶和厌恶。
- Plutchik (1982) 也提出了类似的情感分类理论。
基于文本的情感检测（TBED）的评分方法：
- Russell 和 Mehrabian (1977) 提出了情感作为相互关联的实体，并具有不同强度水平的观点。
情感检测的应用领域：
- Kuamri 和 Babu (2017)、Salam 和 Gupta (2018)、Cassab 和 Kurdy (2020) 研究了情感检测在社交媒体分析中的应用。
- Kusal et al. (2021) 和 Krommyda et al. (2021) 探讨了情感检测在心理健康治疗中的应用。
- Liu et al. (2022)、Ide 和 Kawahara (2022)、Hu et al. (2021) 研究了情感检测在对话系统中的应用。
情感检测面临的挑战：
- Al Maruf et al. (2024) 对情感检测的挑战和机遇进行了综述，指出情感表达的细微差别和复杂性，以及文化和语言差异对情感感知的影响。
对比学习方法：
- Li et al. (2024) 提出了对比推理校准（Contrastive Reasoning Calibration, CRC）技术，通过样本比较增强模型对样本之间细微差别的理解。
- Rafailov et al. (2023) 提出了直接偏好优化（Direct Preference Optimization, DPO）方法，通过增加正确输出的对数概率，同时减少错误输出的对数概率来优化语言模型。
- Meng et al. (2025) 提出了简单偏好优化（Simple Preference Optimization, SimPO）方法，通过直接增强目标模型对偏好输出的概率来优化模型。

这些研究为本文提出的基于对比学习的方法提供了理论基础和背景支持。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决基于文本的情感检测（TBED）中的挑战，特别是在多语言环境下的情感识别问题：

1. 统一模型架构

论文采用了一个统一的生成式大型语言模型（LLM），通过不同的提示模板（prompt templates）来动态切换多标签分类（Track A）和情感强度预测（Track B）两个任务。这种方法减少了工作量，并允许模型在不同任务之间共享知识。

2. 对比学习方法

论文探索了两种对比学习方法来提高模型的情感感知能力：

样本对比学习（Sample-Based Contrastive Learning）：
- 方法：使用对比推理校准（Contrastive Reasoning Calibration, CRC）技术，通过比较两个样本的得分差异来增强模型对样本之间细微差别的理解。
- 实现：在样本准备阶段，随机选择两个样本构建对比对，并生成对比总结和两个样本的预测结果。在推理阶段，每个测试样本与一个随机选择的训练样本配对，通过多次预测和投票机制确定最终输出。
生成对比学习（Generation-Based Contrastive Learning）：
- 方法：使用直接偏好优化（Direct Preference Optimization, DPO）和简单偏好优化（Simple Preference Optimization, SimPO）技术，通过增加正确输出的概率，同时减少错误输出的概率来优化模型。
- 实现：在样本准备阶段，通过标签变异生成错误的输出，然后训练模型区分正确和错误的输出。DPO 和 SimPO 都在监督微调（SFT）之后应用。

3. 实验设计

多语言影响：
- 论文首先评估了多语言训练对英语情感检测性能的影响。实验结果表明，多语言训练并没有提高英语情感检测的性能，反而降低了性能。这表明不同语言和文化背景下的情感感知存在显著差异，可能会引入冲突。
对比学习方法的有效性：
- 论文对样本对比学习和生成对比学习方法进行了全面评估。实验结果表明，样本对比学习（CRC）在多标签分类任务（Track A）中效果有限，而生成对比学习（DPO）在情感强度预测任务（Track B）中表现出显著的正面效果。SimPO 在某些标签上取得了进展，但整体效果显著下降。

4. 关键结论

多语言训练的影响：多语言训练并没有提高英语情感检测的性能，反而降低了性能。这表明不同语言和文化背景下的情感感知存在显著差异。
对比学习方法的效果：
- 样本对比学习（CRC）：在多标签分类任务（Track A）中效果有限，可能因为样本之间的细微差别增加了预测的不确定性。
- 生成对比学习（DPO）：在情感强度预测任务（Track B）中表现出显著的正面效果，表明通过区分正确和错误输出可以有效提高模型的情感强度预测能力。
- 生成对比学习（SimPO）：虽然在某些标签上取得了进展，但整体效果显著下降，主要原因是输出格式的丢失导致频繁的内容解析错误。

通过这些方法，论文在 SemEval-2025 Task 11 挑战赛中取得了较好的成绩，特别是在英语情感检测任务中，分别在 Track A 和 Track B 中排名第九和第六。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证所提出方法的有效性：

1. 多语言训练对英语情感检测的影响

实验设置：
- 模型：基于 LLaMa3Instruct-8B 的标准预测（SP）模型。
- 数据集：使用英语数据集进行单语言训练，以及包含所有语言的数据集进行多语言训练。
- 任务：分别在 Track A（多标签分类）和 Track B（情感强度预测）上评估模型性能。
结果：
- Track A：
  - 英语单语言训练：宏 F1 分数为 0.828，微 F1 分数为 0.808。
  - 多语言训练：宏 F1 分数为 0.820，微 F1 分数为 0.802。
- Track B：
  - 英语单语言训练：宏皮尔逊相关系数为 0.845，微皮尔逊相关系数为 0.823。
  - 多语言训练：宏皮尔逊相关系数为 0.835，微皮尔逊相关系数为 0.815。
结论：多语言训练并没有提高英语情感检测的性能，反而在某些情况下略有下降。这表明不同语言和文化背景下的情感感知存在显著差异，可能会引入冲突。

2. 样本对比学习（Sample-Based Contrastive Learning）

实验设置：
- 模型：基于 LLaMa3Instruct-8B 的对比推理校准（CRC）模型。
- 数据集：使用英语数据集进行训练。
- 任务：在 Track A 和 Track B 上评估模型性能。
结果：
- Track A：
  - CRC 模型：宏 F1 分数为 0.819，微 F1 分数为 0.802。
- Track B：
  - CRC 模型：宏皮尔逊相关系数为 0.828，微皮尔逊相关系数为 0.805。
结论：样本对比学习（CRC）在 Track A 的某些标签上表现较好，但在整体性能上并没有显著提升。在 Track B 上，CRC 模型的性能略低于标准预测（SP）模型。这表明样本对比学习可能增加了预测的不确定性。

3. 生成对比学习（Generation-Based Contrastive Learning）

实验设置：
- 模型：基于 LLaMa3Instruct-8B 的直接偏好优化（DPO）和简单偏好优化（SimPO）模型。
- 数据集：使用英语数据集进行训练。
- 任务：在 Track A 和 Track B 上评估模型性能。
结果：
- Track A：
  - DPO 模型：宏 F1 分数为 0.827，微 F1 分数为 0.806。
  - SimPO 模型：宏 F1 分数为 0.748，微 F1 分数为 0.741。
- Track B：
  - DPO 模型：宏皮尔逊相关系数为 0.846，微皮尔逊相关系数为 0.824。
  - SimPO 模型：宏皮尔逊相关系数为 0.770，微皮尔逊相关系数为 0.741。
结论：
- DPO 模型：在 Track B 上表现出显著的正面效果，特别是在情感强度预测任务中，DPO 模型的性能优于其他模型。
- SimPO 模型：虽然在某些标签上取得了进展，但整体性能显著下降，主要原因是输出格式的丢失导致频繁的内容解析错误。

4. 坏案例分析

CRC 模型：
- Track A：分析了愤怒标签的误分类情况。发现大多数误分类（70%）是由于模型错误地预测了中性情感状态。这些样本在愤怒定义的边界上，与其他样本的比较容易影响其预测，导致不确定性和错误。
DPO 模型：
- Track B：分析了悲伤标签的错误情况。发现超过 90% 的错误与真实标签仅相差一个强度级别。这表明模型在识别标签强度方面仍有改进空间。
SimPO 模型：
- Track A 和 Track B：分析了输出格式丢失导致的频繁内容解析错误。这表明参考模型在偏好优化中起着关键作用，防止模型输出偏离原始分布，保持关键能力，如结构化输出生成。

5. 多语言模型在所有语言上的性能

实验设置：
- 模型：基于 LLaMa3Instruct-8B 的多语言标准预测（SP）模型。
- 数据集：包含所有语言的数据集。
- 任务：在 Track A 和 Track B 上评估模型性能。
结果：
- Track A：
  - 英语：宏 F1 分数为 0.820，微 F1 分数为 0.802。
  - 其他语言：不同语言的性能差异较大，例如葡萄牙语（巴西）的宏 F1 分数为 0.722，微 F1 分数为 0.607。
- Track B：
  - 英语：宏皮尔逊相关系数为 0.835，微皮尔逊相关系数为 0.815。
  - 其他语言：不同语言的性能差异较大，例如葡萄牙语（巴西）的宏皮尔逊相关系数为 0.758，微皮尔逊相关系数为 0.638。
结论：多语言模型在不同语言上的性能差异较大，这进一步证实了不同语言和文化背景下的情感感知存在显著差异。

通过这些实验，论文验证了不同方法在多语言情感检测任务中的有效性，并得出了关于多语言训练、样本对比学习和生成对比学习方法的结论。

Q: 有什么可以进一步探索的点？

Authors: Tian Li, Yujian Sun, Huizhi Liang

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.15714v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15714v1

Published: 2025-07-21T15:25:47Z

Agent Domain Papers

1. A Framework for Analyzing Abnormal Emergence in Service Ecosystems Through LLM-based Agent Intention Mining

With the rise of service computing, cloud computing, and IoT, service ecosystems are becoming increasingly complex. The intricate interactions among intelligent agents make abnormal emergence analysis challenging, as traditional causal methods focus on individual trajectories. Large language models offer new possibilities for Agent-Based Modeling (ABM) through Chain-of-Thought (CoT) reasoning to reveal agent intentions. However, existing approaches remain limited to microscopic and static analysis. This paper introduces a framework: Emergence Analysis based on Multi-Agent Intention (EAMI), which enables dynamic and interpretable emergence analysis. EAMI first employs a dual-perspective thought track mechanism, where an Inspector Agent and an Analysis Agent extract agent intentions under bounded and perfect rationality. Then, k-means clustering identifies phase transition points in group intentions, followed by a Intention Temporal Emergence diagram for dynamic analysis. The experiments validate EAMI in complex online-to-offline (O2O) service system and the Stanford AI Town experiment, with ablation studies confirming its effectiveness, generalizability, and efficiency. This framework provides a novel paradigm for abnormal emergence and causal analysis in service ecosystems. The code is available at https://anonymous.4open.science/r/EAMI-B085.

中文摘要

随着服务计算、云计算和物联网的兴起，服务生态系统变得越来越复杂。智能代理之间复杂的互动使异常涌现分析变得具有挑战性，因为传统因果方法关注的是个体轨迹。大型语言模型通过链式思维推理为基于代理的建模（ABM）提供了新的可能性，以揭示代理意图。然而，现有方法仍然局限于微观和静态分析。本文介绍了一个框架：基于多代理意图的涌现分析（EAMI），它能够实现动态和可解释的涌现分析。EAMI首先采用双视角思维轨迹机制，其中一个检查代理和一个分析代理在有限理性和完美理性下提取代理意图。然后，k均值聚类识别群体意图中的相变点，随后使用意图时间涌现图进行动态分析。实验验证了EAMI在复杂的在线到离线（O2O）服务系统和斯坦福AI城实验中的效果，消融研究证实了其有效性、可推广性和效率。该框架为服务生态系统中的异常涌现和因果分析提供了一种新范式。代码可在 https://anonymous.4open.science/r/EAMI-B085 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决服务生态系统中异常涌现现象的分析问题。随着服务计算、云计算和物联网的兴起，服务生态系统变得日益复杂，智能代理之间的复杂互动使得异常涌现分析变得具有挑战性。传统因果分析方法主要关注个体轨迹，而无法有效分析服务生态系统中微观行为与宏观结果之间的因果关系。因此，论文提出了一个新的框架，旨在通过基于大型语言模型（LLM）的代理意图挖掘，实现动态且可解释的异常涌现分析。

具体来说，论文试图解决以下问题：

有限的观察分析：传统因果分析方法仅通过观察代理的外部行为（如行动频率和互动对象）进行推断，无法分析决策背后的认知原因，例如目标冲突和逻辑缺陷。
有限的微观个体分析：现有的基于LLM的代理虽然能够提供个体行为背后的意图分析，但仅关注单个代理的思考，忽略了群体中意图的转变和传播。
有限的静态分析：现有研究方法基于服务系统的最终结果进行因果推理，这是一个静态过程，而复杂系统的异常涌现是在时间演化的垂直因果关系中发生的，因此需要进行动态分析。

为了解决这些问题，论文提出了一个名为EAMI（Emergence Analysis based on Multi-Agent Intention）的框架，通过跟踪和分析多个代理的意图，将微观代理意图与宏观服务涌现联系起来，从而提供一种新的范式来分析服务生态系统中的异常涌现和因果关系。

Q: 有哪些相关研究？

A: 论文中提到了多个与服务生态系统中的涌现现象和基于LLM的代理意图分析相关的研究。以下是这些研究的分类和简要介绍：

服务生态系统中的涌现现象

华为鸿蒙服务生态系统：华为的HarmonyOS服务生态系统通过协调用户、服务和环境之间的交互，实现了跨设备的智能协同。这种生态系统通常具有异构代理、复杂的相互依赖关系和动态演化的架构。
资源集成与涌现属性：Peters等人[16]认为异质性的资源集成可能导致服务生态系统中新的涌现属性。
多代理协作网络中的涌现原因：Qian等人[17]通过拓扑学方法研究了多代理协作网络中涌现现象的原因。
因果涌现的强化学习方法：Yang等人[12]使用强化学习来确定因果涌现的发生，但该研究未能摆脱仅基于行为观察的局限性。
智能客服系统中的涌现现象：在智能客服系统中，个体响应可能引发非线性的信息级联，导致操作延迟，这需要对微观层面的行为和宏观层面的结果之间的因果关系进行分析。

基于LLM的代理意图分析

ReAct框架：Yao等人[18]提出了ReAct框架，通过协同推理和行动，增强了语言模型的推理能力。
链式思考（CoT）：Wei等人[11]提出了链式思考（CoT）方法，通过提示工程使大型语言模型能够进行推理。
树状思考（ToT）：Yao等人[19]提出了树状思考（ToT）方法，通过构建思考树来优化问题解决。
图状思考（GoT）：Besta等人[22]提出了图状思考（GoT）方法，通过构建思考图来解决复杂问题。
强化学习提升LLM推理能力：DeepSeek-AI[20]通过强化学习提升了LLM的推理能力，能够以最小的复杂性实现强大的CoT推理。
多代理环境中的LLM应用：斯坦福大学提出的“假设心智”模型结合了LLM和多代理强化学习[21]，通过生成、评估和精炼关于其他代理策略的假设，提高了代理的性能。

研究动机

现有方法的局限性：现有分析服务生态系统中涌现现象的方法主要局限于行为观察，忽略了意图分析。在构建基于LLM的代理意图方面，现有方法主要关注单个代理层面，而没有深入到系统层面，利用代理意图来分析和解释服务系统的涌现行为。
EAMI框架的提出：为了解决上述问题，论文提出了EAMI框架，从多个代理的个体意图出发，进行深入分析，以获得代理的意图，并进一步从系统层面分析动态演化过程。

这些相关研究为EAMI框架的提出提供了理论基础和方法支持，同时也指出了现有方法的不足，从而突显了EAMI框架在分析服务生态系统中异常涌现现象方面的创新性和必要性。

Q: 论文如何解决这个问题？

A: 为了解决服务生态系统中异常涌现现象的分析问题，论文提出了一个名为EAMI（Emergence Analysis based on Multi-Agent Intention）的框架。该框架通过跟踪和分析多个代理的意图，将微观代理意图与宏观服务涌现联系起来，从而提供一种新的范式来分析服务生态系统中的异常涌现和因果关系。以下是EAMI框架的具体实现步骤：

1. 个体意图跟踪（Individual Thought Track）

目的：跟踪和记录每个代理在模拟过程中的思考过程，为后续的涌现分析提供基础。

a. Inspector Agent

功能：负责监控和提取系统中所有代理的思考过程。
双重视角思考提取：对于每个代理 ( A_i )，Inspector Agent从两个视角获取其思考过程：有限理性（本能驱动）和完全理性（目标导向）。通过调用LLM接口，Inspector Agent生成并行思考流： [ c(i)s = \text{LLM}{\phi_s}(q; M_i, T_i) ] [ c(i)r = \text{LLM}{\phi_r}(q; M_i, T_i) ] 其中，( c(i)_s ) 表示有限理性的思考，( c(i)_r ) 表示完全理性的思考，( M_i ) 是代理 ( A_i ) 的记忆，包括过去的经历和环境互动信息，( T_i ) 是当前的思考状态，即上下文信息。

2. 涌现意图提取（Emergent Intention Extract）

目的：识别和提取代理在演化过程中产生的关键新兴意图。

a. Analysis Agent

功能：分析代理的思考过程，并从其中提取关键新兴意图。
新兴意图检测：Analysis Agent将代理的当前意图与存储的记忆 ( M(i) ) 进行比较，使用函数 ( g(\cdot) ) 检测意图的新兴性。该函数通过调用LLM接口实现，返回值为布尔值，表示是否存在新兴模式。如果当前意图显示出足够的新兴性，则将其整合到群体意图库 ( R ) 中： [ R = \begin{cases} R \cup c(i), & \text{if } g(c(i)_s, c(i)_r, M(i)) \ R, & \text{otherwise} \end{cases} ]

3. 群体意图聚类（Group Intention Clustering）

目的：对提取的意图进行聚类，以减少冗余并捕捉共同点。

意图向量化：使用all-MiniLM-L6-v2模型将意图转换为向量表示。
相似度计算：通过余弦相似度计算意图向量之间的语义相似度： [ \text{similarity}(c_i, c_j) = \cos(\theta) = \frac{c_i \cdot c_j}{|c_i| |c_j|} ]
聚类：使用k-means算法对意图向量进行聚类，将相似的意图归为一组： [ \text{cluster} = \text{k-means}(\text{similarity}{\text{all}}, n{\text{all}}) ]

4. 系统涌现分析（System Emergence Analysis）

目的：基于意图聚类结果，分析系统在时间演化过程中的意图涌现，并生成意图时间涌现图。

意图时间涌现图生成算法：
1. 初始化基线聚类 ( C_0 ) 为空集。
2. 初始化哈希表 ( H ) 以存储代理之间的影响力关系。
3. 遍历每个时间点 ( t_i ) 的聚类 ( C_i )，计算新兴意图 ( \text{EmergentIntentions} = C_i \setminus C_{i-1} )。
4. 对于每个新兴意图 ( t )，确定其起源代理 ( a_t )。
5. 记录意图时间涌现点 ( (t, a_t, b, t_i) )，其中 ( b ) 是受意图 ( t ) 影响的代理。
6. 更新哈希表 ( H[b] )。

实验验证

论文通过以下实验验证了EAMI框架的有效性、通用性和高效性：

O2O服务系统实验：构建了一个基于LLM的多代理O2O服务平台，模拟了外卖骑手的“内卷”现象。通过EAMI框架分析了骑手的行为轨迹、意图聚类和意图时间涌现图，验证了框架在解释复杂服务现象方面的有效性。
斯坦福AI小镇实验：在斯坦福AI小镇场景中，分析了代理的意图涌现，解释了系统中的选举事件，进一步验证了EAMI框架的通用性。
消融实验：通过移除Inspector Agent和Analysis Agent，验证了这两个模块在捕捉和分析意图变化中的关键作用。

通过这些步骤，EAMI框架不仅能够深入分析个体代理的意图，还能从系统层面解释异常涌现现象，为服务生态系统的分析提供了一种新的动态和可解释的方法。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证EAMI框架的有效性、通用性和高效性：

1. O2O服务系统实验

目的：验证EAMI框架在解释服务模拟中的涌现现象方面的有效性。

a. 实验系统构建

背景：随着移动网络的发展，O2O平台（如美团）通过线上线下服务的整合推动了多个行业的数字化转型。然而，随着这些平台的快速增长，外卖骑手面临着严重的“内卷”现象，即为了获得更多订单和收入，骑手不得不在高压下工作，导致身心健康负担加重和收入差距扩大。
实验设置：构建了一个基于LLM的多代理O2O服务平台，模拟了外卖骑手的“内卷”现象。实验系统包括五种类型的代理：商家、骑手、用户、政府和平台。重点关注骑手代理，设置了100个骑手代理，每个代理的目标是最小化工作时间、最大化订单完成量和降低劳动成本。模拟运行了3600步，代表一个月的周期，物理环境被建模为网格地图。

b. 数据集比较

数据来源：将Zomato平台的真实数据（包括多个城市的外卖订单数据）与多代理系统进行比较，以确保实验的真实性。
比较结果：实验数据显示，骑手的有效工作时间与真实数据一致，且骑手的工作位置和订单量之间的关系也与真实数据相似，验证了模拟的有效性和可靠性。

c. 涌现分析

内卷指数分析：使用每单劳动成本作为“内卷”指数，发现随着时间的推移，每单劳动成本显著增加，表明“内卷”现象越来越严重。
行为轨迹分析：通过热图观察骑手的行为轨迹，发现骑手的活动范围逐渐缩小，选择行为趋于一致。
意图聚类分析：通过EAMI框架，将骑手的意图聚类为五种类型，包括“去订单多的地方竞争订单”、“同行之间的模仿和竞争”、“避开交通拥堵”、“判断订单的成本效益”和“接受算法分配”。
意图时间涌现分析：通过可视化意图演化过程，发现骑手最初通过模仿同行行为来增加收入，但随着时间的推移，他们意识到只有去订单密集的地区竞争订单才能最大化收入。此外，一些骑手发现交通状况不佳，因此选择改变配送路线以优化配送效率。

2. 消融实验

目的：验证EAMI框架中Inspector Agent和Analysis Agent的有效性。

移除Inspector Agent：结果表明，移除Inspector Agent后，无法捕捉到如“嫉妒”和“同行之间的模仿和竞争”等意图，这些意图仅通过有限理性的视角才能识别。
移除Analysis Agent：结果表明，移除Analysis Agent后，在第10天到第25天期间，缺乏意图变化的记录，导致无法分析涌现现象的实时动态。

3. 斯坦福AI小镇实验

目的：验证EAMI框架在不同场景下的通用性。

实验场景：斯坦福AI小镇中，一个代理表达了竞选的意图，这一事件迅速成为小镇的热门话题，其他代理对选举表现出支持或不确定的态度。
涌现分析：通过EAMI框架分析了选举话题的涌现过程，发现代理最初普遍持犹豫态度，但随着候选人的竞选演讲，代理的态度逐渐变为好奇，最终70%的代理形成了支持的意图。这些意图在代理之间传播，最终导致了系统的涌现结果。

4. 实验结果总结

有效性：EAMI框架能够深入分析骑手的行为模式，并验证了框架在分析复杂服务现象方面的有效性。
通用性：通过斯坦福AI小镇实验，验证了EAMI框架在不同场景下的通用性。
高效性：消融实验结果表明，Inspector Agent和Analysis Agent在捕捉和分析意图变化方面具有高效性。

通过这些实验，论文有效地验证了EAMI框架在分析服务生态系统中异常涌现现象方面的有效性、通用性和高效性。

Q: 有什么可以进一步探索的点？

Authors: Yifan Shen, Zihan Zhao, Xiao Xue, Yuwei Guo, Qun Ma, Deyu Zhou, Ming Zhang

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2507.15770v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15770v1

Published: 2025-07-21T16:26:49Z

2. GasAgent: A Multi-Agent Framework for Automated Gas Optimization in Smart Contracts

Smart contracts are trustworthy, immutable, and automatically executed programs on the blockchain. Their execution requires the Gas mechanism to ensure efficiency and fairness. However, due to non-optimal coding practices, many contracts contain Gas waste patterns that need to be optimized. Existing solutions mostly rely on manual discovery, which is inefficient, costly to maintain, and difficult to scale. Recent research uses large language models (LLMs) to explore new Gas waste patterns. However, it struggles to remain compatible with existing patterns, often produces redundant patterns, and requires manual validation/rewriting. To address this gap, we present GasAgent, the first multi-agent system for smart contract Gas optimization that combines compatibility with existing patterns and automated discovery/validation of new patterns, enabling end-to-end optimization. GasAgent consists of four specialized agents, Seeker, Innovator, Executor, and Manager, that collaborate in a closed loop to identify, validate, and apply Gas-saving improvements. Experiments on 100 verified real-world contracts demonstrate that GasAgent successfully optimizes 82 contracts, achieving an average deployment Gas savings of 9.97%. In addition, our evaluation confirms its compatibility with existing tools and validates the effectiveness of each module through ablation studies. To assess broader usability, we further evaluate 500 contracts generated by five representative LLMs across 10 categories and find that GasAgent optimizes 79.8% of them, with deployment Gas savings ranging from 4.79% to 13.93%, showing its usability as the optimization layer for LLM-assisted smart contract development.

中文摘要

智能合约是可信赖的、不可变的、在区块链上自动执行的程序。它们的执行需要Gas机制以确保效率和公平性。然而，由于编码实践不佳，许多合约存在Gas浪费模式，需要进行优化。现有的解决方案大多依赖于手动发现，这效率低下、维护成本高且难以扩展。最近的研究利用大语言模型（LLMs）探索新的Gas浪费模式。然而，这些研究往往难以与现有模式保持兼容，常常产生冗余模式，并需要手动验证/重写。为了解决这一问题，我们提出了GasAgent，这是首个用于智能合约Gas优化的多智能体系统，结合了与现有模式的兼容性以及新模式的自动发现/验证，能够实现端到端的优化。GasAgent由四个专门的代理组成，分别是探索者、创新者、执行者和管理者，它们在一个闭环中合作，以识别、验证和应用节省Gas的改进。在对100个验证过的真实世界合约进行的实验中，GasAgent成功优化了82个合约，实现了平均部署Gas节省9.97%。此外，我们的评估确认了它与现有工具的兼容性，并通过消融研究验证了每个模块的有效性。为了评估更广泛的可用性，我们进一步评估了由五个代表性LLM在10个类别中生成的500个合约，发现GasAgent优化了79.8%的合约，部署Gas节省范围在4.79%到13.93%之间，显示了其作为LLM辅助智能合约开发的优化层的可用性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决智能合约在部署和执行过程中由于非最优编码实践导致的Gas浪费问题。具体来说，它旨在开发一个自动化、高效的Gas优化框架，以减少智能合约的Gas消耗，同时确保合约的功能正确性和安全性。论文提出了一个名为GasAgent的多智能体系统，该系统结合了现有Gas浪费模式的兼容性以及新模式的自动发现和验证，以实现端到端的优化。

Q: 有哪些相关研究？

A: 论文中提到了多个与智能合约Gas优化相关的研究，这些研究可以分为以下几个类别：

编译器级别的优化

Solidity 编译器优化：Solidity 编译器（solc）提供了默认的优化策略，如 peephole 优化和 Yul 级别的优化，包括死代码消除和表达式折叠。从版本 0.8.0 开始，Solidity 引入了自动溢出检查和 unchecked 块，以减少 Gas 消耗。
- 相关论文：
  - [58] The Optimize. Solidity-the optimizer, 2023.
  - [59] Faizan Nehal. How solidity 0.8 protect against integer underflow/overflow and how they can still happen in solidity 0.8., 2023.

基于代码异味（Code Smell）的重写

GASPER：通过静态分析检测和重写低效代码，如死代码和冗余循环。
- 相关论文：
  - [61] Ting Chen, Xiaoqi Li, Xiapu Luo, and Xiaosong Zhang. Under-optimized smart contracts devour your money. In 2017 IEEE 24th international conference on software analysis, evolution and reengineering (SANER), pages 442–446. IEEE, 2017.
GasReducer 和 GasChecker：扩展了 GASPER 的模式覆盖和执行可扩展性。
- 相关论文：
  - [62] Ting Chen, Zihao Li, Hao Zhou, Jiachi Chen, Xiapu Luo, Xiaoqi Li, and Xiaosong Zhang. Towards saving money in using smart contracts. In Proceedings of the 40th international conference on software engineering: new ideas and emerging results, pages 81–84, 2018.
GasSaver：实现了针对 Solidity 特定低效模式的规则检查器，如缺失的 calldata 注释、不恰当的可见性和不必要的数组读取。
- 相关论文：
  - [5] Kawaldeep Kaur, Shubham Tomar, and Meenakshi Tripathi. Gas fee reduction by detecting loop fusible patterns in ethereum smart contract. In 2022 IEEE International Conference on Advanced Networks and Telecommunications Systems (ANTS), pages 458–463. IEEE, 2022.

基于大语言模型（LLM）的优化

Unearthing Gas-Wasting Code Smells：使用 LLM 探索新的 Gas 浪费模式，但存在幻觉和冗余建议的问题，难以确保识别模式的新颖性和正确性。
- 相关论文：
  - [6] Jinan Jiang, Zihao Li, Haoran Qin, Muhui Jiang, Xiapu Luo, Xiaoming Wu, Haoyu Wang, Yutian Tang, Chenxiong Qian, and Ting Chen. Unearthing gas-wasting code smells in smart contracts with large language models. IEEE Transactions on Software Engineering, 2024.

超优化（Super-Optimization）

GASOL：将 Gas 优化形式化为一个形式化搜索问题，使用符号推理或 SMT 求解器合成更高效的代码。
- 相关论文：
  - [7] Elvira Albert, Jesús Correas, Pablo Gordillo, Guillermo Román-Díez, and Albert Rubio. Gasol: Gas analysis and optimization for ethereum smart contracts. In International Conference on Tools and Algorithms for the Construction and Analysis of Systems, pages 118–125. Springer, 2020.
Loop-Based Optimization：针对循环的优化方法。
- 相关论文：
  - [63] Keerthi Nelaturu, Sidi Mohamed Beillahi, Fan Long, and Andreas Veneris. Smart contracts refinement for gas optimization. In 2021 3rd conference on blockchain research & applications for innovative networks and services (BRAINS), pages 229–236. IEEE, 2021.

这些研究为智能合约的Gas优化提供了不同的方法和工具，但都存在一定的局限性。GasAgent 旨在结合这些方法的优点，克服它们的不足，实现更全面、自动化的Gas优化。

Q: 论文如何解决这个问题？

A: 论文通过提出 GasAgent，一个多智能体框架，来解决智能合约的 Gas 优化问题。GasAgent 通过结合现有 Gas 浪费模式的兼容性和新优化模式的自动发现与验证，实现了端到端的自动化优化。具体来说，GasAgent 由四个专门的智能体组成：Seeker、Innovator、Executor 和 Manager，它们在闭环中协作以识别、验证和应用 Gas 节省改进。以下是每个智能体的具体作用和工作流程：

1. Seeker（寻找者）

作用：识别已知的 Gas 浪费模式，通过匹配目标智能合约与模式库中的模式来生成详细的报告，提供相关代码位置的证据并建议改进。
工作流程：
- 构建一个基于先前研究的模式库，每个模式都包含元数据和具体的代码示例。
- 使用代码相似性和自然语言检索两种方法来识别相关的 Gas 浪费模式。
- 将检索到的模式合并，生成一个结构化的现有模式报告（Existing Pattern Report）。

2. Innovator（创新者）

作用：发现新的或改进的 Gas 节省模式，这些模式尚未包含在现有的模式库中。
工作流程：
- 基于 Seeker 的输出，利用 LLM 提出新的优化模式或改进现有模式。
- 检查新提出的模式是否在黑名单中，以确保它们是新的且有效的。
- 将验证后的模式编译成新模式报告（New Pattern Report），并将其发送给 Executor 进行验证。

3. Executor（执行者）

作用：应用代码重构，并通过安全审计、功能一致性检查和 Gas 成本比较来验证每个更改是否安全有效。
工作流程：
- 根据 Seeker 和 Innovator 的报告对原始智能合约进行代码重构。
- 使用 Slither 进行安全审计，检测重写过程中可能引入的潜在漏洞。
- 自动生成差异测试套件，进行一致性检查，确保优化后的合约与原始合约在功能上等价。
- 比较重构后的合约与原始合约的 Gas 成本，确认优化效果。

4. Manager（管理者）

作用：处理外部交互，决定何时终止优化循环，并生成供人类审查的报告。
工作流程：
- 收集 Seeker、Innovator 和 Executor 的输出结果。
- 根据优化效果决定是否继续优化循环或终止。
- 编制结构化报告，总结关键操作和决策，确保优化过程的透明性和可解释性。

闭环工作流程

GasAgent 的工作流程是一个闭环，从 Seeker 开始，依次经过 Innovator、Executor 和 Manager，最终决定是否终止循环或开始新的优化循环。这种闭环设计确保了优化过程的系统性和完整性，能够持续发现和验证新的优化模式，同时保持与现有模式的兼容性。

实验验证

为了验证 GasAgent 的有效性，论文进行了以下实验：

真实世界合约实验：在 100 个经过验证的真实世界合约上进行实验，结果显示 GasAgent 成功优化了 82 个合约，平均部署 Gas 节省了 9.97%。
与现有工具的兼容性测试：GasAgent 能够召回 92.5% 的现有工具定义的 557 个真实模式实例，同时通过高效的检索策略减少了 28.2% 的检测调用。
消融研究：通过比较不同变体（直接 LLM 优化、没有 Innovator、没有 Seeker）的结果，验证了 Seeker 和 Innovator 模块的必要性。完整的 GasAgent 系统表现优于所有变体，优化了 82 个合约（节省 9.97%），而直接 LLM 优化只能优化 71 个合约（节省 5.93%）。
LLM 生成合约的实验：在 500 个由 5 种代表性 LLM 生成的合约上进行实验，GasAgent 成功优化了 79.8% 的合约，部署 Gas 节省范围从 4.79% 到 13.93%，证明了其作为 LLM 辅助智能合约开发的优化层的实用性。

通过这些设计和实验验证，GasAgent 有效地解决了智能合约 Gas 优化问题，提供了一个自动化、高效且可靠的优化解决方案。

Q: 论文做了哪些实验？

A: 论文进行了以下实验以验证 GasAgent 的有效性、兼容性、设计合理性和更广泛的适用性：

1. 真实世界合约实验（RQ1 - Effectiveness）

目的：验证 GasAgent 在减少真实世界智能合约的 Gas 费用方面的有效性。
数据集：随机抽取了 100 个在 Etherscan 上经过验证的 Solidity 智能合约，这些合约使用 solc 版本 0.8.20 编译，并在 2025 年 6 月之后部署。
结果：
- GasAgent 平均减少了 9.97% 的部署 Gas 费用。
- 82% 的合约实现了实际的 Gas 节省，7% 的合约由于已经高效而没有变化，11% 的合约如果应用更改会增加 Gas 费用，因此 GasAgent 回退到原始合约。
- 52% 的合约在单次循环中完成优化，48% 的合约需要至少一轮新的模式发现。
- 在 100 个真实世界合约的评估中，Innovator 自动提出了 68 个新的 Gas 浪费模式，其中 38 个是完全新的模式，30 个是现有模式的细化。

2. 现有模式库的集成测试（RQ2 - Pattern Incorporation）

目的：验证 GasAgent 是否能够全面集成和重用先前工作中提出的现有 Gas 浪费模式。
方法：从六项代表性研究中提取了 24 种不同的 Gas 浪费模式，并将它们实现为独立的 Python 检测工具。这些工具被集成到 GasAgent 的 Gas 浪费模式库中，并在 100 个真实世界合约上运行以构建真实情况。
结果：
- Seeker 成功检索到 515 个真实情况中的 557 个实例，召回率达到 92.5%。
- 在保持高覆盖率的同时，Seeker 将工具调用次数从 2400 次减少到 1722 次，减少了 28.2%。

3. 消融研究（RQ3 - Design Rationality）

目的：验证 GasAgent 中各个智能体模块的必要性，特别是 Seeker 和 Innovator。
方法：进行了三种变体的比较实验：
1. Direct LLM：直接提示相同的 GPT-4o 模型对合约进行重写，不进行任何显式的模式检索或多智能体协调。
2. Without Innovator：运行没有 Innovator 的 GasAgent，覆盖已知模式但禁用新模式发现。
3. Without Seeker：运行没有 Seeker 的 GasAgent，发现新模式但忽略策划的模式库。
结果：
- Direct LLM 优化了 71 个合约，平均节省了 5.93% 的 Gas。
- Without Innovator 优化了 72 个合约，平均节省了 5.52% 的 Gas。
- Without Seeker 优化了 70 个合约，平均节省了 5.74% 的 Gas。
- 完整的 GasAgent 系统优化了 82 个合约，平均节省了 9.97% 的 Gas。
- 这些结果证实了 Seeker 和 Innovator 在整体 Gas 成本降低中的重要性。

4. LLM 生成合约的实验（RQ4 - Broader Usability）

目的：评估 GasAgent 作为 LLM 辅助智能合约开发中的自动化优化层的有效性。
数据集：使用五个代表性 LLM（GPT-4o、Llama-4、Gemini-2.5、DeepSeek-R1、Qwen3）生成了 500 个智能合约，涵盖了 10 个最流行的 DeFi 类别。
结果：
- GasAgent 成功优化了 79.8% 的 LLM 生成合约，平均节省范围从 4.79% 到 13.93%。
- 不同 LLM 生成的合约在优化比率和成功优化的合约数量上存在显著差异。例如，Llama-4 在基础合约上平均节省了 13.93% 的 Gas，而 DeepSeek-R1 只节省了 5.77%。
- 随着任务复杂性的增加，所有测试模型的平均节省和成功优化的合约比例都一致下降。

这些实验全面验证了 GasAgent 在不同场景下的有效性和适用性，证明了其作为自动化智能合约 Gas 优化工具的潜力。

Q: 有什么可以进一步探索的点？

Authors: Jingyi Zheng, Zifan Peng, Yule Liu, Junfeng Wang, Yifan Liao, Wenhan Dong, Xinlei He

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2507.15761v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15761v1

Published: 2025-07-21T16:17:25Z

3. Winning Big with Small Models: Knowledge Distillation vs. Self-Training for Reducing Hallucination in Product QA Agents

The deployment of Large Language Models (LLMs) in customer support is constrained by hallucination (generating false information) and the high cost of proprietary models. To address these challenges, we propose a retrieval-augmented question-answering (QA) pipeline and explore how to balance human input and automation. Using a dataset of questions about a Samsung Smart TV user manual, we demonstrate that synthetic data generated by LLMs outperforms crowdsourced data in reducing hallucination in finetuned models. We also compare self-training (fine-tuning models on their own outputs) and knowledge distillation (fine-tuning on stronger models’ outputs, e.g., GPT-4o), and find that self-training achieves comparable hallucination reduction. We conjecture that this surprising finding can be attributed to increased exposure bias issues in the knowledge distillation case and support this conjecture with post hoc analysis. We also improve robustness to unanswerable questions and retrieval failures with contextualized “I don’t know” responses. These findings show that scalable, cost-efficient QA systems can be built using synthetic data and self-training with open-source models, reducing reliance on proprietary tools or costly human annotations.

中文摘要

在客户支持中部署大型语言模型（LLMs）受到幻觉（生成虚假信息）和专有模型高成本的限制。为了应对这些挑战，我们提出了一种检索增强问答（QA）管道，并探索如何平衡人工输入和自动化。使用关于三星智能电视用户手册的问题数据集，我们展示了LLMs生成的合成数据在减少微调模型中的幻觉方面优于众包数据。我们还比较了自我训练（在自身输出上进行微调）和知识蒸馏（在更强模型的输出上进行微调，例如GPT-4o），发现自我训练实现了可比的幻觉减少。我们猜想这一令人惊讶的发现可归因于知识蒸馏案例中的曝光偏见问题增加，并用事后分析支持这一猜想。我们还通过上下文化的“我不知道”回应来增强对无法回答问题和检索失败的鲁棒性。这些发现表明，可以使用合成数据和开源模型的自我训练构建可扩展、成本高效的问答系统，从而减少对专有工具或高成本人工注释的依赖。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在客户支持领域部署大型语言模型（LLMs）时面临的两个主要问题：

幻觉问题（Hallucination）：LLMs 生成虚假或无根据的信息，这在客户支持场景中可能导致误导用户并削弱信任。
成本和专有模型的限制：使用专有模型的成本高昂，且在运行时使用这些模型可能存在数据隐私风险。

为了解决这些问题，论文提出了一个基于检索增强的问答（QA）流程，并探讨了如何平衡人工输入和自动化处理，以实现成本效益高且可扩展的 QA 系统。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

幻觉问题的研究：
- Gekhman et al. (2024)：探讨了在新知识上微调 LLMs 是否会鼓励幻觉。
- Lin et al. (2024)：提出使用自生成数据进行训练以减少幻觉，但存在训练-测试不匹配的问题。
- Zhang et al. (2024) 和 Lin et al. (2024)：展示了自训练可以减少幻觉，但没有进行人类评估。
- Farquhar et al. (2024)：在推理时使用语义熵检测幻觉，但这种方法计算成本较高。
知识蒸馏和自训练的研究：
- Lewis and White (2023)：使用知识蒸馏减少幻觉，但仅在合成数据上进行了评估。
- Zhang et al. (2024) 和 Lin et al. (2024)：展示了自训练可以减少幻觉，但没有进行人类评估。
数据多样性和清洗的研究：
- Dhuliawala et al. (2024) 和 Wang et al. (2024)：展示了 LLMs 可以通过迭代评估和文本细化来减少幻觉。
- Gehrmann et al. (2021)：提出了 GEM 基准，用于评估自然语言生成的质量和多样性。
- Min et al. (2023)：提出了 FactScore，用于评估生成文本的事实准确性。

这些研究为本文提供了背景和方法上的参考，特别是在如何通过数据处理和模型训练来减少幻觉方面。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决在客户支持领域部署大型语言模型（LLMs）时的幻觉问题和成本问题：

1. 提出一个基于检索增强的问答（QA）流程

检索增强的QA流程：用户提出问题，系统从产品手册中检索相关信息，并生成基于这些信息的事实性回答。这种流程确保了回答的准确性和可靠性。

2. 探索数据处理和创建的自动化方法

数据处理和创建：使用 LLMs 生成答案，并通过手动和自动方法进行数据清洗。研究比较了手动清洗和使用 GPT-4o 及 Llama-3 进行自动清洗的效果，发现自动清洗在某些情况下可以替代手动清洗，减少人工成本。

3. 比较自训练和知识蒸馏的效果

自训练（Self-Training）：使用模型自身生成的数据进行微调。
知识蒸馏（Knowledge Distillation）：使用更强模型（如 GPT-4o）生成的数据进行微调。
实验结果：发现自训练和知识蒸馏在减少幻觉方面表现相当，但自训练成本更低。这表明自训练可以作为一种资源高效的替代方法。

4. 使用合成数据进行训练

合成数据生成：使用 LLMs 生成合成的 QA 对，这些数据在信息覆盖和对齐方面与真实数据相似。
实验结果：合成数据训练的模型在减少幻觉方面优于使用众包数据训练的模型。这表明合成数据可以减少人工标注的需求，同时提高模型的性能。

5. 提高对不可回答问题和检索失败的鲁棒性

上下文化的“我不知道”响应：通过在训练中加入负样本，使模型能够生成上下文化的“我不知道”响应，从而减少幻觉。
实验结果：这种方法显著提高了模型对不可回答问题和检索失败的处理能力。

6. 评估和分析

评估方法：使用 FactScore 和人类评估来衡量模型的性能。FactScore 评估生成回答与参考文档的一致性，而人类评估则提供更细致的响应质量分析。
实验结果：通过这些评估方法，论文验证了自训练和合成数据在减少幻觉方面的有效性，并提出了可能的解释，如暴露偏差（exposure bias）对训练的影响。

通过这些方法，论文展示了如何在客户支持系统中构建成本效益高、可扩展且减少幻觉的 QA 系统。

Q: 论文做了哪些实验？

A: 论文进行了以下实验来验证其方法的有效性：

1. 数据集和实验设置

主要数据集：使用了 Nandy et al. (2021) 提供的关于三星智能电视用户手册的众包问题数据集，包含 684 个问题及其对应的检索段落。
挑战数据集：从社区论坛中收集的 3,000 个问题中随机选取 200 个问题作为开发集和测试集，这些问题是噪声较多且部分不可回答的。

2. 训练数据的生成和清洗

合成数据生成：使用 Llama-3 和 GPT-4o 生成新的 QA 对，确保这些数据在信息覆盖上与众包数据集相似。
数据清洗：对 Llama-3 生成的答案进行手动和自动清洗。手动清洗由第一作者完成，自动清洗分别使用 GPT-4o 和 Llama-3-70B 进行。

3. 基线和实验模型

基线模型：使用预训练的 Llama-3 和 GPT-4o 作为基线。
微调模型：在不同数据集上微调 Llama-3，包括手动清洗的数据、自动清洗的数据、合成数据（Llama-3 和 GPT-4o 生成的）以及增强合成数据（SynthLlama+）。

4. 评估指标

FactScore：评估模型回答与参考文档的一致性。
人类评估：由三位语言学博士生对模型生成的回答进行标注，分为多个错误类别（如幻觉、部分回答、不回答等）。

5. 实验结果

自动清洗与手动清洗的比较：自动清洗的数据在 FactScore 和人类评估中表现略好于手动清洗的数据，但差距不大。自动清洗生成的回答更长，可能包含更多不必要的信息。
合成数据与众包数据的比较：合成数据训练的模型在减少幻觉方面优于众包数据训练的模型。合成数据的一致性和低困惑度使其对模型训练更有帮助。
自训练与知识蒸馏的比较：自训练和知识蒸馏在减少幻觉方面表现相当，但自训练成本更低。进一步的分析表明，模型在训练时使用与其预训练分布更接近的数据（即低困惑度数据）时表现更好。
增强合成数据（SynthLlama+）的效果：通过添加负样本（上下文化的“我不知道”响应），SynthLlama+ 在 FactScore 和人类评估中表现更好，显著提高了回答的质量。

6. 暴露偏差的分析

困惑度分析：通过计算合成数据的困惑度差异，构建了“最佳混合”和“最差混合”数据集，发现使用高困惑度数据训练的模型更容易产生幻觉。

这些实验结果支持了论文的主要结论：自训练和合成数据可以有效地减少幻觉，同时降低对专有模型和人工标注的依赖。

Q: 有什么可以进一步探索的点？

A: 论文提出了许多有价值的发现，但也有一些可以进一步探索的方向：

1. 扩大数据集和评估规模

数据集扩展：当前的评估数据集相对较小，尤其是人类评估部分。扩大评估数据集的规模可以提供更可靠的统计结果，更好地检测不同训练策略之间的细微差异。
多领域测试：在更多领域（如医疗、法律等）进行实验，验证这些方法在高风险领域的适用性和有效性。

2. 改进幻觉评估指标

更精细的幻觉评估：开发更精细的幻觉评估指标，特别是能够捕捉模型生成的误导性但看似合理的回答的指标。
结合多种评估方法：结合自动评估和人类评估，开发更全面的评估框架，以更好地衡量模型的回答质量和事实准确性。

3. 优化合成数据生成和选择

合成数据的多样性：探索如何在保持合成数据与检索段落一致的同时，增加合成数据的多样性，以提高模型的泛化能力。
基于困惑度的数据选择：进一步研究如何利用困惑度差异来选择训练数据，以减少幻觉并提高模型性能。

4. 迭代自训练方法

迭代自训练：研究迭代自训练方法，即模型在多个训练周期中不断细化自己的合成数据，以进一步提高模型的对齐性和事实性。
动态数据更新：探索动态更新训练数据的方法，使模型能够适应不断变化的知识和信息。

5. 模型架构和训练技术

模型架构改进：研究不同的模型架构（如基于Transformer的模型）在减少幻觉方面的表现，以及如何通过架构改进来提高性能。
训练技术优化：探索其他训练技术（如强化学习、直接偏好优化等）在减少幻觉方面的潜力。

6. 多语言和跨文化适应

多语言支持：研究这些方法在多语言环境中的适用性，特别是在非英语数据集上的表现。
跨文化适应：探索如何使模型更好地适应不同文化背景下的用户需求，减少文化偏见和误解。

7. 实时反馈和用户交互

实时反馈机制：开发实时反馈机制，使用户能够直接纠正模型的错误回答，从而进一步提高模型的准确性和可靠性。
用户交互研究：研究用户与模型之间的交互模式，优化模型的响应方式以提高用户体验。

8. 伦理和社会影响

伦理考量：进一步研究这些方法在实际应用中的伦理和社会影响，确保模型的使用不会带来负面影响。
透明度和可解释性：提高模型的透明度和可解释性，使用户能够理解模型的决策过程，增强用户对模型的信任。

这些方向不仅可以进一步验证和优化论文提出的方法，还可以为构建更可靠、高效和用户友好的问答系统提供新的思路和解决方案。

Q: 总结一下论文的主要内容

A: 本文探讨了在客户支持领域部署大型语言模型（LLMs）时面临的幻觉问题（生成虚假信息）和成本问题，并提出了一种基于检索增强的问答（QA）流程来解决这些问题。研究的核心目标是开发一种成本效益高、可扩展且减少幻觉的QA系统。以下是论文的主要内容：

背景知识

大型语言模型（LLMs）在客户支持等应用中的部署受到幻觉问题和高成本的限制。
幻觉问题可能导致误导用户并削弱信任，而专有模型的使用成本高昂且存在数据隐私风险。

研究方法

检索增强的QA流程：用户提出问题，系统从产品手册中检索相关信息，并生成基于这些信息的事实性回答。
数据处理和创建的自动化：使用LLMs生成答案，并通过手动和自动方法进行数据清洗。
自训练与知识蒸馏的比较：自训练（使用模型自身生成的数据进行微调）和知识蒸馏（使用更强模型生成的数据进行微调）在减少幻觉方面的效果比较。
合成数据的使用：使用LLMs生成合成的QA对，这些数据在信息覆盖和对齐方面与真实数据相似。
提高对不可回答问题和检索失败的鲁棒性：通过在训练中加入负样本，使模型能够生成上下文化的“我不知道”响应。

实验

数据集：使用了关于三星智能电视用户手册的众包问题数据集，包含684个问题及其对应的检索段落，并创建了挑战数据集。
训练数据：使用Llama-3和GPT-4o生成答案，并进行手动和自动清洗。
基线和实验模型：比较了预训练的Llama-3和GPT-4o，以及在不同数据集上微调的Llama-3模型。
评估指标：使用FactScore评估模型回答与参考文档的一致性，以及人类评估来衡量回答质量。

关键结论

自动清洗与手动清洗：自动清洗的数据在FactScore和人类评估中表现略好于手动清洗的数据，但差距不大。自动清洗生成的回答更长，可能包含更多不必要的信息。
合成数据优于众包数据：合成数据训练的模型在减少幻觉方面优于众包数据训练的模型。合成数据的一致性和低困惑度使其对模型训练更有帮助。
自训练与知识蒸馏相当：自训练和知识蒸馏在减少幻觉方面表现相当，但自训练成本更低。进一步的分析表明，模型在训练时使用与其预训练分布更接近的数据（即低困惑度数据）时表现更好。
增强合成数据的效果：通过添加负样本（上下文化的“我不知道”响应），SynthLlama+在FactScore和人类评估中表现更好，显著提高了回答的质量。

讨论与未来工作

扩大数据集和评估规模：扩大评估数据集的规模可以提供更可靠的统计结果。
改进幻觉评估指标：开发更精细的幻觉评估指标，特别是能够捕捉模型生成的误导性但看似合理的回答的指标。
优化合成数据生成和选择：探索如何在保持合成数据与检索段落一致的同时，增加合成数据的多样性。
迭代自训练方法：研究迭代自训练方法，即模型在多个训练周期中不断细化自己的合成数据，以进一步提高模型的对齐性和事实性。

限制

数据集规模：评估数据集相对较小，尤其是人类评估部分，限制了统计结果的可靠性。
幻觉评估的挑战：FactScore等自动评估指标并非完美的事实性代理，人类评估也受限于标注者的一致性和规模。

伦理和社会影响

数据使用和隐私：研究中使用的数据不包含个人身份信息，且合成数据生成过程确保不包含敏感信息。
使用专有模型：尽管研究中使用了GPT等专有模型，但这些模型的使用是有限的，并且研究结果不依赖于这些模型的独特能力。
潜在风险和缓解：研究中虽然关注减少幻觉，但模型在最佳设置下仍可能产生幻觉，需要在实际部署中注意。
透明度和可重复性：尽管使用了专有模型，研究结果不依赖于这些模型的独特能力，且将提供所有合成数据集和清理数据以确保可重复性。

总的来说，论文展示了如何通过自训练和合成数据在客户支持系统中构建成本效益高、可扩展且减少幻觉的QA系统，为未来的研究和实际应用提供了有价值的见解。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Ashley Lewis, Michael White, Jing Liu, Toshiaki Koike-Akino, Kieran Parsons, Ye Wang

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2502.19545v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2502.19545v2

Published: 2025-02-26T20:34:58Z

4. Agentic AI for autonomous anomaly management in complex systems

This paper explores the potential of agentic AI in autonomously detecting and responding to anomalies within complex systems, emphasizing its ability to transform traditional, human-dependent anomaly management methods.

中文摘要

本文探讨了具有自主检测和响应复杂系统中异常能力的代理人工智能的潜力，强调了它改变传统人类依赖的异常管理方法的能力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文探讨了Agentic AI（代理型人工智能）在复杂系统中自主检测和响应异常的潜力，旨在解决传统依赖人类的异常管理方法在复杂系统中的局限性。具体而言，论文试图解决以下问题：

传统AI方法在异常管理中的性能（RQ1）：评估传统AI方法在异常管理中的表现，特别是它们在检测和解释异常方面的能力。
当前复杂系统异常管理的局限性（RQ2）：识别当前复杂系统异常管理方法中存在的限制，如对人类决策的依赖、缺乏适应性以及在实时决策和干预方面的不足。
Agentic AI与传统AI代理的区别（RQ3）：探讨Agentic AI在自主性、适应性和长期目标管理方面与传统AI代理的不同之处，以及这些能力如何使其在复杂系统中更有效地管理异常。
Agentic AI在复杂系统中的实时异常检测、解释和干预（RQ4）：研究Agentic AI如何支持复杂系统中异常的实时检测、解释和干预，以及它如何利用其自主性和适应性来提高系统的整体性能和可靠性。

Q: 有哪些相关研究？

A: 论文中引用了大量相关研究，涵盖了人工智能、机器学习、异常管理、复杂系统等多个领域。以下是一些关键的研究方向和相关文献：

1. 异常管理的定义和分类

异常的定义和分类：
- Prasad et al. (2009) 和 Pang et al. (2021) 对异常的定义和分类进行了详细讨论，将异常定义为与正常行为显著偏离的数据模式。
- Ruff et al. (2021) 从概率理论的角度定义异常，并强调了异常检测的无监督性质。
- Samariya & Thakkar (2023) 对异常的分类进行了综述，将异常分为点异常、上下文异常和集体异常。

2. 异常管理的方法

传统异常检测方法：
- Lee & Chen (2025) 和 Moreo et al. (2025) 讨论了基于统计的方法，如参数模型和非参数模型。
- Xu et al. (n.d.) 和 Yao (2025) 研究了时间序列分析方法，如ARMA和ARIMA模型。
- Alamr & Artoli (2023) 和 Xie et al. (2024) 探讨了信号处理技术，如傅里叶变换和小波变换。
- Huang et al. (2021) 研究了信息论方法，如熵和Kolmogorov复杂度。
基于AI的异常检测方法：
- Kamalov et al. (2021) 和 Z. Lin et al. (2022) 讨论了监督学习、无监督学习和半监督学习在异常检测中的应用。
- Mattera et al. (2025) 和 Mienye et al. (2024) 探讨了深度学习方法，如卷积神经网络（CNN）和循环神经网络（RNN）。
- Bashar & Nayak (2025) 研究了混合模型，如自编码器-CNN和LSTM-GAN框架。

3. 异常解释

可解释异常检测（XAD）：
- Z. Li et al. (2023a) 和 Choi et al. (2022) 讨论了XAD的重要性，强调了提供清晰、可理解的异常解释的必要性。
- Y. Zhang, Li, et al. (2024) 和 Tang et al. (2024) 探讨了XAD技术的分类和具体方法。
- Ali & Kostakos (2023) 研究了结合机器学习和LLMs的异常解释方法。

4. Agentic AI的发展

AI的发展阶段：
- Wu et al. (2025) 讨论了AI的早期阶段，包括监督学习、无监督学习和半监督学习。
- Boston Consulting Group (2025) 和 Kapoor et al. (2024) 探讨了AI代理的发展和应用。
- Casella & Wang (2025) 和 Acharya et al. (2024) 研究了大型语言模型（LLMs）的发展和应用。
Agentic AI的概念和应用：
- Shavit et al. (n.d.) 和 Liu & Yao (2021) 讨论了Agentic AI的概念和特性。
- Ge et al. (2023) 和 Hu et al. (2023) 探讨了Agentic AI与LLMs的结合及其在复杂系统中的应用。
- Agashe et al. (2024) 研究了Agentic AI在计算机接口交互中的应用。

5. Agentic AI在复杂系统中的应用

复杂系统中的异常管理：
- Zhuang, Yuchen et al. (2023) 研究了Agentic AI在海运资产管理和维护中的应用。
- Castellanos (2021) 和 Weigand (2025) 探讨了Darktrace的Enterprise Immune System在网络安全中的应用。
- Timms & Langbridge (n.d.-a) 和 Timms & Langbridge (n.d.-b) 研究了Agentic AI在海运异常管理中的具体案例。

这些研究为论文提供了坚实的理论基础，帮助深入探讨Agentic AI在复杂系统中自主管理异常的潜力和挑战。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决传统异常管理方法在复杂系统中的局限性问题：

1. 文献综述与分析

叙事性文献综述：采用叙事性文献综述方法，分析了89篇直接涉及Agentic AI的文章，以及52篇关于异常管理、新颖性检测和解释的研究文献。这种跨学科的综合分析为将Agentic AI应用于复杂系统提供了概念基础。
研究问题引导：通过四个研究问题（RQ1-RQ4）引导研究，系统地探讨了传统AI方法在异常管理中的表现、当前复杂系统异常管理的局限性、Agentic AI与传统AI代理的区别，以及Agentic AI如何支持复杂系统中的实时异常检测、解释和干预。

2. Agentic AI的特性与能力

自主性与适应性：强调Agentic AI的自主性和适应性，其能够通过持续分析和学习大量多源数据集，自主识别、解释和响应复杂系统中的异常行为。与传统AI代理不同，Agentic AI能够跨学科整合见解，检测微妙模式，并使用隐性和显性知识适应策略。
目标驱动与长期规划：Agentic AI不仅能够处理短期任务，还能进行长期规划和目标管理。这种能力使其能够在复杂系统中更好地应对动态变化的环境和任务优先级。
多模态输入与工具使用：Agentic AI能够处理多模态输入，并通过集成多种工具（如搜索引擎、代码执行器、数据检索器等）来增强其决策能力。这种工具使用能力使其能够更有效地处理复杂任务。

3. 具体案例分析

海运资产管理和维护：通过分析Agentic AI在海运资产管理和维护中的应用案例，展示了其在复杂系统中自主管理异常的潜力。该案例中，Agentic AI系统通过集成领域特定的知识图谱和推理能力，能够准确诊断异常并支持主动维护决策。
网络安全中的应用：探讨了Darktrace的Enterprise Immune System在网络安全中的应用，展示了Agentic AI如何通过自学习和自适应行为检测和响应网络威胁，减少了对人类专家的依赖，提高了系统的整体效率和安全性。

4. 技术实现与优化

深度学习与LLMs的结合：Agentic AI通过将深度学习技术（特别是大型语言模型LLMs）与AI代理相结合，增强了其语义理解和上下文推理能力。这种结合使得Agentic AI能够在复杂系统中更准确地检测和解释异常。
实时决策与干预：Agentic AI能够实时处理数据，快速做出决策并执行干预措施。这种能力在复杂系统中尤为重要，因为这些系统通常需要及时响应以避免潜在的风险和损失。

5. 未来研究方向

数字孪生技术与实时仿真环境：建议未来研究进一步探索Agentic AI与数字孪生技术、实时仿真环境的结合，以确保在高风险领域中的透明性、信任和安全性。
人类在环架构：强调了人类在环架构的重要性，即在需要领域特定知识或伦理监督的情况下，保留人类专家的参与，以确保系统的可靠性和责任性。

通过上述方法，论文不仅展示了Agentic AI在复杂系统中自主管理异常的潜力，还提出了未来研究的方向，以进一步优化和推广其应用。

Q: 论文做了哪些实验？

A: 论文中没有提到具体的实验部分。它主要采用叙事性文献综述的方法，分析了大量相关文献，探讨了Agentic AI在复杂系统中自主管理异常的潜力和应用。论文通过案例分析和理论讨论来支持其观点，而不是通过实验验证。

Q: 有什么可以进一步探索的点？

A: 论文提出了许多有前景的研究方向，以下是一些可以进一步探索的点：

1. Agentic AI与数字孪生技术的集成

研究方向：探索如何将Agentic AI与数字孪生技术相结合，以实现更精确的实时仿真和预测。数字孪生技术可以为Agentic AI提供更丰富的上下文信息和实时数据，从而提高其在复杂系统中的决策能力。
潜在影响：这种集成可以显著提高复杂系统的可靠性和效率，特别是在制造业、能源管理和智能城市等领域。

2. 实时仿真环境中的Agentic AI

研究方向：开发和测试Agentic AI在实时仿真环境中的应用，以评估其在动态和不确定条件下的性能。这包括模拟各种异常场景，以验证Agentic AI的检测和响应能力。
潜在影响：通过在仿真环境中测试Agentic AI，可以更好地理解其在实际应用中的表现，并优化其算法和策略。

3. 人类在环架构的设计

研究方向：设计和实现人类在环架构，以确保在需要领域特定知识或伦理监督的情况下，人类专家可以有效地参与决策过程。这包括开发交互界面和协作机制，以促进人类和AI之间的有效沟通。
潜在影响：这种架构可以提高系统的透明度和可解释性，增强用户对AI系统的信任，特别是在医疗、金融和交通等高风险领域。

4. 多代理系统的协调与合作

研究方向：研究如何设计和优化多代理系统，以实现更高效的协调和合作。这包括开发新的算法和机制，以解决代理之间的冲突和竞争问题。
潜在影响：多代理系统的协调与合作可以显著提高复杂系统的整体性能，特别是在需要分布式决策和资源分配的场景中。

5. Agentic AI的伦理和法律问题

研究方向：深入探讨Agentic AI在实际应用中的伦理和法律问题，包括责任归属、隐私保护和数据安全等。这需要跨学科的研究，结合法律、伦理和社会科学的方法。
潜在影响：解决这些伦理和法律问题对于确保Agentic AI的负责任和可持续发展至关重要，特别是在涉及公共利益和安全的领域。

6. Agentic AI的可解释性和透明度

研究方向：开发新的方法和技术，以提高Agentic AI的可解释性和透明度。这包括开发更先进的解释生成算法和可视化工具，以帮助用户理解和信任AI系统的决策过程。
潜在影响：提高Agentic AI的可解释性和透明度可以增强用户对其决策的信任，促进其在更多领域的应用。

7. 跨领域应用的探索

研究方向：探索Agentic AI在不同领域的应用，如医疗保健、金融、交通和环境监测等。这需要针对每个领域的特定需求和挑战，开发定制化的解决方案。
潜在影响：跨领域的应用可以展示Agentic AI的多功能性和适应性，推动其在更多领域的广泛应用。

8. 计算和资源优化

研究方向：研究如何优化Agentic AI的计算和资源需求，以提高其在资源受限环境中的性能。这包括开发更高效的算法和模型压缩技术。
潜在影响：优化计算和资源需求可以使Agentic AI在更多设备和环境中运行，提高其实际应用的可行性。

这些研究方向不仅可以进一步推动Agentic AI的发展，还可以解决其在实际应用中可能遇到的挑战，从而实现更广泛和更有效的应用。

Q: 总结一下论文的主要内容

A: ### 论文标题：AGENTIC AI FOR AUTONOMOUS ANOMALY MANAGEMENT IN COMPLEX SYSTEMS

作者：Reza Vatankhah Barenji, Sina Khoshgoftar

机构：Department of Engineering, School of Science and Technology, Nottingham Trent University, Nottingham, NG118NS, UK

摘要

本文探讨了Agentic AI（代理型人工智能）在复杂系统中自主检测和响应异常的潜力，强调其在转变传统依赖人类的异常管理方法方面的能力。研究基于最近的进展，展示了Agentic AI如何通过持续分析和学习大量多源数据集，自主识别、解释和响应复杂系统中的异常行为。与传统AI代理不同，Agentic AI能够跨学科整合见解，检测微妙模式，并使用隐性和显性知识适应策略。本文强调了从当前基于人类的异常管理方法向完全自主系统转变的必要性，突出了Agentic AI在复杂环境中的适应性和目标驱动特性。

关键词

AI代理、LLM（大型语言模型）、Agentic AI、异常、复杂系统

1. 引言

复杂系统通过数字基础设施、组织利益相关者、流程和基于规则的治理之间的持续互动运作。这些系统由于环境不确定性和组件之间的复杂相互依赖性而本质上复杂。异常可能由内部和外部干扰引起，影响系统的功能、可靠性和效率。异常管理对于理解问题的本质和原因以及有效解决这些问题至关重要。尽管AI在异常诊断中发挥了重要作用，但复杂系统中的异常管理仍然依赖于人类决策。

2. 探索异常及其管理

2.1 异常定义

异常是与预期行为显著偏离的数据模式，通常定义为与正常行为不一致的数据观察。异常可以分为点异常、上下文异常和集体异常。异常的来源多种多样，包括系统设计错误、人为因素、通信问题等。

2.2 异常管理

异常管理包括诊断和干预两个阶段。诊断阶段包括异常检测和解释，而干预阶段则涉及基于诊断结果采取适当行动。尽管AI在异常检测和解释方面取得了进展，但干预阶段仍然依赖于人类专家的决策。

2.3 AI在异常检测中的作用

AI技术在异常检测中被广泛使用，包括统计方法、时间序列分析、信号处理技术和信息论方法。近年来，深度学习方法如CNN、RNN和GAN在异常检测中表现出色。这些方法能够处理大规模、高维度和非结构化数据，提高检测的准确性和效率。

2.4 AI在异常解释中的作用

可解释异常检测（XAD）通过提供清晰、可理解的异常解释，增强了用户对AI系统的信任和支持。XAD技术可以根据解释的范围、模型依赖性、方法论和具体技术进行分类。LLMs在异常解释中的应用也显示出巨大潜力。

2.5 当前异常管理方法的局限性

当前异常管理方法存在局限性，主要体现在对人类决策的依赖、缺乏适应性和实时决策能力不足。这些方法通常基于规则建模，缺乏灵活性，难以处理复杂系统中的动态变化和新情况。

3. 深入探讨Agentic AI

3.1 AI的发展历程

AI的发展经历了四个阶段：数据驱动的模型、AI代理、深度学习和Agentic AI。Agentic AI结合了AI代理和LLMs，能够自主决策、理解上下文并执行复杂任务。

3.2 Agentic AI的概念和比较

Agentic AI具有高度的自主性和适应性，能够在复杂环境中动态调整目标和策略。与传统AI代理相比，Agentic AI能够处理多模态输入、进行主动交互、适应广泛任务，并具有持续学习和改进的能力。

4. Agentic AI在复杂系统中的应用

复杂系统需要无缝集成多种工具、机器学习模型和知识系统，以实现实时适应和动态目标调整。Agentic AI通过其自主性和适应性，能够有效管理复杂系统中的异常。具体案例包括海运资产管理和维护以及网络安全中的应用。

5. 讨论

5.1 安全性、复杂性和上下文感知

Agentic AI在安全关键领域中具有重要作用，能够通过上下文感知和系统级理解提高异常检测的准确性和安全性。这种能力对于处理复杂系统中的动态变化和不确定性至关重要。

5.2 Agentic AI作为协作基础设施

Agentic AI可以作为人类和AI之间的协作伙伴，通过提供高级摘要和解释，支持更快的决策周期和更明智的干预措施。这种协作模式可以显著提高复杂系统的管理效率。

5.3 计算和伦理考虑

部署Agentic AI面临计算和伦理挑战，包括增加的计算开销、透明度、可解释性和责任问题。这些问题需要通过跨学科研究和监管框架来解决。

5.4 未来展望

Agentic AI不仅是AI代理的扩展，而是对复杂系统中智能嵌入方式的全面重新设计。其在规划、控制、协调和协作自主性方面的潜力使其成为未来智能系统的核心。

6. 结论

本文探讨了Agentic AI在复杂系统中自主管理异常的潜力，强调了其在提高检测准确性、响应速度和系统韧性方面的优势。未来研究应进一步探索Agentic AI与数字孪生技术、实时仿真环境和人类在环架构的结合，以确保在高风险领域中的透明性、信任和安全性。Agentic AI的发展有望重新定义复杂系统的监控、理解和控制方式，将人类操作员的角色从被动问题解决者转变为战略监督者。

作者贡献

Reza Vatankhah Barenji：写作—审阅与编辑，监督，项目管理，概念化，验证，方法论，调查，形式分析，数据整理。
Sina Khoshgoftar：写作—审阅与编辑，写作—初稿，验证，方法论，调查，形式分析，数据整理。

资金支持

本文未获得任何资金支持。

数据可用性

本研究未生成或分析任何数据集。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Reza Vatankhah Barenji, Sina Khoshgoftar

Categories: cs.AI, cs.ET

PDF URL: https://arxiv.org/pdf/2507.15676v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15676v1

Published: 2025-07-21T14:39:08Z

5. Data Mixing Agent: Learning to Re-weight Domains for Continual Pre-training

Continual pre-training on small-scale task-specific data is an effective method for improving large language models in new target fields, yet it risks catastrophic forgetting of their original capabilities. A common solution is to re-weight training data mixtures from source and target fields on a domain space to achieve balanced performance. Previous domain reweighting strategies rely on manual designation with certain heuristics based on human intuition or empirical results. In this work, we prove that more general heuristics can be parameterized by proposing Data Mixing Agent, the first model-based, end-to-end framework that learns to re-weight domains. The agent learns generalizable heuristics through reinforcement learning on large quantities of data mixing trajectories with corresponding feedback from an evaluation environment. Experiments in continual pre-training on math reasoning show that Data Mixing Agent outperforms strong baselines in achieving balanced performance across source and target field benchmarks. Furthermore, it generalizes well across unseen source fields, target models, and domain spaces without retraining. Direct application to the code generation field also indicates its adaptability across target domains. Further analysis showcases the agents’ well-aligned heuristics with human intuitions and their efficiency in achieving superior model performance with less source-field data.

中文摘要

在小规模特定任务数据上进行持续的预训练是提高大型语言模型在新目标领域中的有效方法，但它也可能带来对原有能力的灾难性遗忘。一种常见的解决方案是在领域空间中对源领域和目标领域的训练数据进行重新加权，以实现性能平衡。以往的领域重新加权策略依赖于手动指定的某些启发式规则，这些规则基于人类直觉或经验结果。在这项工作中，我们证明了更一般的启发式可以通过提出数据混合代理来进行参数化，数据混合代理是首个基于模型的端到端框架，旨在学习重新加权领域。该代理通过在大量数据混合轨迹上进行强化学习，学习可推广的启发式，并从评估环境中获取相应的反馈。在数学推理的持续预训练实验中，数据混合代理在实现源领域和目标领域基准的平衡性能方面超越了强基线。此外，它在未见过的源领域、目标模型和领域空间间的泛化性也表现良好，无需重新训练。对代码生成领域的直接应用也表明其在目标领域间的适应性。进一步的分析展示了代理的启发式与人类直觉的良好对齐，以及它们在使用更少源领域数据的情况下实现更优模型性能的效率。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在持续预训练（continual pre-training）过程中，如何有效地重新加权（re-weight）不同领域的数据以平衡模型在源领域（source field）和目标领域（target field）的性能，同时避免灾难性遗忘（catastrophic forgetting）的问题。

具体来说，论文关注以下几个关键问题：

灾难性遗忘问题：当大型语言模型（LLMs）在特定目标领域的数据上进行持续预训练时，可能会导致模型在源领域的性能显著下降。这是因为目标领域的数据分布与源领域存在显著差异，直接适应目标领域数据可能导致模型忘记源领域的知识。
数据混合策略：为了缓解灾难性遗忘，一个常见的解决方案是混合源领域和目标领域的数据。然而，现有的数据混合策略大多依赖于人工指定的启发式规则（heuristics），这些规则基于人类直觉或经验结果，缺乏通用性和灵活性。
自动学习数据混合策略：论文提出了一种基于模型的方法，通过强化学习（reinforcement learning）自动学习如何重新加权不同领域的数据。这种方法旨在通过大量的数据混合轨迹和相应的反馈，学习出更通用的启发式规则，从而在不同的源领域、目标领域和模型之间实现更好的泛化能力。
效率和泛化能力：论文还关注如何在保持模型性能的同时，减少对源领域数据的依赖，提高数据利用效率。此外，论文探讨了所提出方法在未见领域（unseen fields）和不同模型上的泛化能力，以验证其在多种场景下的适用性。

总结来说，论文的目标是开发一种自动化的、基于模型的方法，用于在持续预训练过程中动态调整不同领域的数据权重，以实现模型在多个领域上的平衡性能，同时减少对源领域数据的依赖，并提高方法的泛化能力。

Q: 有哪些相关研究？

A: 论文中提到了多个与持续预训练和数据重加权相关的研究工作，这些研究为本文提出的方法提供了背景和基础。以下是相关研究的分类和简要介绍：

持续预训练（Continual Pre-training）

DeepSeekMath (Shao et al., 2024): 该研究在数学推理领域对大型语言模型进行了持续预训练，通过在大规模数学相关数据上进行训练，显著提升了模型在数学问题解决任务上的表现。
Qwen2.5-Coder (Hui et al., 2024): 在代码生成领域，该研究基于Qwen2.5基础模型，通过在代码领域数据上进行持续预训练，提高了模型在代码生成任务上的性能。
其他领域的持续预训练: 持续预训练还被应用于金融 (Xie et al., 2024)、系统研究 (Lin et al., 2025) 和医学 (Tu et al., 2024) 等领域，以适应不同领域的特定需求。

数据重加权（Data Re-weighting）

Doremi (Xie et al., 2023): 提出了一种基于参考模型的方法，通过组分布鲁棒优化（group DRO）算法来确定目标模型的最佳领域权重。
RegMix (Liu et al., 2024b): 通过训练大量小型代理模型在随机领域分布上进行训练，然后根据目标基准上的表现来确定最佳的数据混合配方。
其他数据重加权方法: 其他研究关注于通过平衡多个目标领域的损失来实现平衡优化 (Xia et al., 2023; Luo et al., 2024)，例如通过按损失减少速率比例加载每个领域的训练数据来增加未来领域分布。

领域空间定义（Domain Space Definition）

Wettig et al. (2025): 强调了精心定义领域空间的重要性，提出了从话题（如科学与技术、时尚与美容）和格式（如学术写作、内容列表）两个角度定义24维领域空间，并通过实验验证了其有效性。
其他领域空间定义方法: 近期的研究还探索了领域空间定义对数据重加权性能的影响 (Rukhovich et al., 2025; Diao et al., 2025; Xi et al., 2025)，这些研究表明，合理定义领域空间对于提高模型训练性能至关重要。

灾难性遗忘（Catastrophic Forgetting）

Luo et al. (2023): 对大型语言模型在持续微调过程中的灾难性遗忘问题进行了实证研究，揭示了在不同领域数据上进行微调时模型性能的变化。
其他相关研究: 灾难性遗忘是持续预训练中一个广泛存在的问题，许多研究都在探索如何通过数据混合和领域重加权策略来缓解这一问题。

这些相关研究为本文提出的Data Mixing Agent方法提供了理论基础和实践指导，特别是在如何通过数据混合和领域重加权来平衡模型在不同领域的性能，以及如何通过强化学习自动学习这些策略方面。

Q: 论文如何解决这个问题？

A: 论文通过提出 Data Mixing Agent（数据混合代理，简称DMA），一个基于模型的端到端框架，来解决持续预训练中如何平衡源领域和目标领域性能的问题。DMA通过强化学习自动学习如何重新加权不同领域的数据，以实现模型在多个目标领域的平衡性能。以下是具体的解决方法和步骤：

1. 将领域重加权建模为马尔可夫决策过程（MDP）

论文首先将领域重加权问题形式化为一个马尔可夫决策过程（MDP），定义了状态空间、动作空间、策略函数和奖励函数。具体来说：

状态空间（State Space）：由之前领域重加权步骤的数据分布组成。
动作空间（Action Space）：表示当前领域重加权步骤的数据分布。
策略函数（Policy Function）：基于之前的状态和环境反馈来决定当前步骤的动作。
奖励函数（Reward Function）：由目标领域的评估环境决定，反映模型在目标领域的表现。

2. 建模启发式空间（Modeling the Heuristic Space）

为了建模启发式空间，论文通过以下步骤随机采样大量的数据混合轨迹，并从评估环境中收集反馈：

动作空间定义（Action Space Definition）：使用Nvidia领域分类器将源领域和目标领域的数据分别分类到26个领域，形成52维的数据分布空间。
起始状态估计（Start State Estimation）：通过随机采样数据来估计起始状态，即使在源领域数据不可用的情况下，也可以通过目标模型生成的数据来估计。
数据混合轨迹采样（Data Mixing Trajectory Sampling）：设计了一个基于归纳偏置（inductive biases）的算法来采样数据混合轨迹，确保采样轨迹覆盖了提升和降低模型性能的分布。
评估环境设计和反馈收集（Evaluation Environment Design and Feedback Collection）：通过训练小型代理模型（proxy models）并评估其在目标领域的表现，收集环境反馈。

3. 参数化启发式空间（Parameterizing the Heuristic Space）

通过强化学习对采样轨迹和环境反馈进行建模，学习通用的启发式规则：

代理模型结构（Agent Model Structure）：使用两层Transformer解码器结构，包含2.1M参数，以确保快速推理。
基于SFT的预热（SFT-based Warming Up）：通过监督微调（Supervised Fine-Tuning, SFT）减少强化学习阶段的参数搜索空间。
基于CQL的离线优化（Off-policy Optimization with Conservative Q-Learning）：使用保守Q学习（Conservative Q-Learning, CQL）算法进行离线优化，防止对未见动作的Q值过高估计。

4. 使用数据混合代理进行领域重加权（Domain Reweighting with Data Mixing Agent）

在目标模型的持续预训练过程中，数据混合代理直接预测下一步的数据重加权分布，考虑之前的轨迹状态和环境反馈。这个过程持续进行，直到目标数据被充分利用或达到预定的计算预算。

5. 实验验证（Experimental Validation）

论文通过在数学推理和代码生成任务上的实验验证了DMA的有效性。实验结果表明：

性能提升：DMA在多个基准测试中显著优于基线方法，包括在源领域和目标领域的平衡性能。
泛化能力：DMA在未见的源领域、目标模型和领域空间上表现出良好的泛化能力，无需重新训练。
数据效率：DMA能够更有效地利用源领域和目标领域的数据，以较少的源领域数据实现更好的性能。

6. 进一步分析（Further Analysis）

论文还对数据混合代理的领域重加权轨迹进行了分析，展示了其与人类直觉一致的启发式规则，并证明了其在数据利用效率方面的优势。

通过上述方法，论文成功地提出了一个自动化的、基于模型的解决方案，用于在持续预训练过程中动态调整不同领域的数据权重，以实现模型在多个领域上的平衡性能，同时减少对源领域数据的依赖，并提高方法的泛化能力。

Q: 论文做了哪些实验？

A: 论文通过一系列实验验证了 Data Mixing Agent（DMA）在持续预训练中的有效性和泛化能力。以下是实验的主要内容和结果：

1. 实验设置（Experimental Settings）

1.1 目标模型（Target Models）

论文选择了以下目标模型进行实验：

LLaMA-3B-DCLM-100B：基于DCLM数据集预训练的3B参数模型。
LLaMA-3B-FWE-100B：基于Fineweb-Edu数据集预训练的3B参数模型。
LLaMA-3B-Nemotron-100B：基于Nemotron-CC数据集预训练的3B参数模型。
Pythia-1.4B：一个开源的1.4B参数模型，用于评估在源领域数据不可用的情况下的性能。

1.2 基线方法（Baseline Methods）

论文将DMA与以下基线方法进行比较：

Base Model：直接评估目标模型在基准测试上的表现，不进行持续预训练。
Naive Training：仅在目标领域数据上进行持续预训练，不混合源领域数据。
RegMix：一种基于回归模型的数据混合方法，通过评估大量小型代理模型来确定最佳数据混合配方。
DataAgentSFT：仅通过监督微调（SFT）训练的数据混合代理，未经过强化学习优化。

1.3 训练数据（Training Data）

源领域数据：使用DCLM、Fineweb-Edu和Nemotron-CC数据集。
目标领域数据：数学推理任务使用Dolmino-mix-1124数据集的数学部分；代码生成任务使用SlimPajama-DC数据集的GitHub训练集。

1.4 评估基准（Evaluation Benchmarks）

通用能力：使用MMLU、HellaSwag、OpenBookQA、Winogrande、ARC-Challenge、PiQA、SciQ和LogiQA等基准测试。
数学推理能力：使用GSM8K、MATH、Minerva和MathQA等基准测试。
代码生成能力：使用HumanEval和MBPP基准测试。

2. 实验结果（Experimental Results）

2.1 数学推理任务（Math Reasoning Task）

表1展示了在数学推理目标领域的持续预训练结果。关键观察结果如下：

性能提升：DataAgentRL在通用基准测试和数学推理基准测试上均显著优于RegMix和Base Model。例如，在LLaMA-3B-DCLM-100B模型上，DataAgentRL在通用基准测试上平均提升了3.02%，在数学推理基准测试上平均提升了3.02%。
泛化能力：DataAgentRL在未见的源领域和目标模型上表现出良好的泛化能力。例如，在LLaMA-3B-FWE-100B和LLaMA-3B-Nemotron-100B模型上，DataAgentRL分别比RegMix提升了1.66%和1.41%。
数据效率：DataAgentRL在较少的源领域数据上实现了更好的性能。例如，在LLaMA-3B-DCLM-100B模型上，DataAgentRL在19.92B tokens时触发了早期停止，而RegMix需要22.06B tokens。

2.2 代码生成任务（Code Generation Task）

表2展示了在代码生成目标领域的持续预训练结果。关键观察结果如下：

性能提升：DataAgentRL在通用基准测试和代码生成基准测试上均优于RegMix。例如，在LLaMA-3B-DCLM-100B模型上，DataAgentRL在通用基准测试上平均提升了1.45%，在代码生成基准测试上平均提升了1.45%。
泛化能力：DataAgentRL在未见的目标领域上表现出一定的泛化能力，尽管在代码生成任务上的优势不如数学推理任务明显。
数据效率：DataAgentRL在较少的源领域数据上实现了更好的性能。例如，在LLaMA-3B-DCLM-100B模型上，DataAgentRL在19.92B tokens时触发了早期停止，而RegMix需要22.06B tokens。

3. 进一步分析（Further Analysis）

3.1 领域重加权轨迹分析（Domain Reweighting Trajectory Analysis）

论文通过可视化领域重加权轨迹，展示了DMA在训练过程中的行为。关键观察结果如下：

三阶段策略：DataAgentRL在训练过程中采用了三阶段策略：
1. 早期热身阶段：优先使用源领域数据以稳定训练。
2. 中期训练阶段：快速增加目标领域数据以提升目标领域性能。
3. 后期阶段：逐渐重新引入源领域数据，稳定在最优权重附近。
与人类直觉一致：DataAgentRL的轨迹与人类直觉一致，例如在提升MMLU性能时，增加了科学与技术、健康等领域的数据，减少了时尚与美容领域的数据。

3.2 数据效率分析（Data Efficiency Analysis）

论文通过记录目标模型在不同数据预算下的性能动态，分析了DMA的数据利用效率。关键观察结果如下：

源领域数据效率：DMA在源领域数据的利用上比RegMix更高效，更好地保留了模型在源领域的性能。
目标领域数据效率：DMA在目标领域数据的利用上比RegMix更高效，更快地提升了模型在目标领域的性能。
早期停止：DMA在较少的数据预算下实现了更好的性能，例如在LLaMA-3B-DCLM-100B模型上，DataAgentRL在19.92B tokens时触发了早期停止，而RegMix需要22.06B tokens。

4. 总结（Summary）

通过这些实验，论文证明了Data Mixing Agent在持续预训练中的有效性和泛化能力。DMA通过自动学习领域重加权策略，显著提升了模型在多个目标领域的性能，同时减少了对源领域数据的依赖，并在未见的源领域、目标模型和领域空间上表现出良好的泛化能力。

Q: 有什么可以进一步探索的点？

A: 尽管论文提出的 Data Mixing Agent（DMA）在持续预训练中展示了显著的性能提升和泛化能力，但仍有一些可以进一步探索的方向。以下是一些潜在的研究点：

1. 多目标领域的动态适应性

动态目标领域：当前的DMA主要针对单一目标领域的持续预训练。可以探索如何使DMA能够动态适应多个目标领域的变化，例如在多任务学习或跨领域学习场景中，动态调整不同领域数据的权重。
在线学习：研究如何使DMA在在线学习环境中实时调整数据混合策略，以适应不断变化的数据分布和任务需求。

2. 更复杂的数据混合策略

多维度数据混合：当前的DMA主要基于领域维度进行数据混合。可以探索更复杂的多维度数据混合策略，例如结合数据质量、数据多样性、数据新鲜度等多个维度来优化数据混合。
自适应混合策略：研究如何使DMA自适应地选择不同的混合策略，根据当前模型的状态和任务需求动态调整混合策略。

3. 模型压缩和效率优化

模型压缩：虽然DMA已经是一个轻量级的模型，但进一步压缩模型以提高推理速度和降低内存占用仍然是一个重要的研究方向。可以探索模型压缩技术，如量化、剪枝和知识蒸馏，以提高DMA的效率。
分布式训练：研究如何在分布式训练环境中高效地训练DMA，以处理大规模数据集和复杂模型。

4. 跨领域和跨语言的泛化能力

跨领域泛化：虽然DMA在未见的目标领域上表现出一定的泛化能力，但可以进一步探索如何提高其在更广泛领域的泛化能力，例如在医疗、金融、法律等领域的应用。
跨语言泛化：研究DMA在跨语言场景中的应用，例如在多语言模型的持续预训练中，如何有效地混合不同语言的数据以提升模型在多种语言上的性能。

5. 与人类反馈的结合

人类反馈：探索如何将人类反馈纳入DMA的训练过程中，以进一步优化数据混合策略。例如，通过人类专家的标注或评估来指导DMA的学习过程。
交互式学习：研究如何使DMA与人类专家进行交互式学习，通过人类的反馈实时调整数据混合策略。

6. 理论分析和解释性

理论分析：深入分析DMA的理论性质，例如其在不同数据分布和任务设置下的收敛性和稳定性。可以探索其在强化学习框架下的理论保证。
解释性：研究如何提高DMA的解释性，使其决策过程更加透明。例如，通过可视化和解释DMA的内部机制，帮助研究人员和实践者更好地理解其行为。

7. 与其他技术的结合

与元学习结合：探索DMA与元学习技术的结合，以提高其在新任务和新领域的快速适应能力。
与自适应学习率结合：研究如何将DMA与自适应学习率技术结合，以进一步优化训练过程中的数据混合策略。

8. 实际应用场景的验证

工业级应用：在实际的工业级应用中验证DMA的性能，例如在大规模推荐系统、自然语言处理服务等场景中，评估其在实际数据和任务上的表现。
长期稳定性：研究DMA在长期持续预训练中的稳定性和性能变化，特别是在面对数据分布漂移和任务变化时的表现。

通过这些进一步的探索，可以进一步提升 Data Mixing Agent 的性能和适用性，使其在更广泛的应用场景中发挥更大的作用。

Q: 总结一下论文的主要内容

Authors: Kailai Yang, Xiao Liu, Lei Ji, Hao Li, Yeyun Gong, Peng Cheng, Mao Yang

Categories: cs.LG, cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2507.15640v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15640v1

Published: 2025-07-21T14:01:54Z

6. Red-Team Multi-Agent Reinforcement Learning for Emergency Braking Scenario

Current research on decision-making in safety-critical scenarios often relies on inefficient data-driven scenario generation or specific modeling approaches, which fail to capture corner cases in real-world contexts. To address this issue, we propose a Red-Team Multi-Agent Reinforcement Learning framework, where background vehicles with interference capabilities are treated as red-team agents. Through active interference and exploration, red-team vehicles can uncover corner cases outside the data distribution. The framework uses a Constraint Graph Representation Markov Decision Process, ensuring that red-team vehicles comply with safety rules while continuously disrupting the autonomous vehicles (AVs). A policy threat zone model is constructed to quantify the threat posed by red-team vehicles to AVs, inducing more extreme actions to increase the danger level of the scenario. Experimental results show that the proposed framework significantly impacts AVs decision-making safety and generates various corner cases. This method also offers a novel direction for research in safety-critical scenarios.

中文摘要

当前关于安全关键场景中决策的研究往往依赖于低效的数据驱动情境生成或特定建模方法，这些方法无法捕捉现实世界中的边缘情况。为了解决这一问题，我们提出了一种红队多智能体强化学习框架，其中具有干扰能力的背景车辆被视作红队代理。通过主动干扰和探索，红队车辆能够发现数据分布外的边缘情况。该框架使用约束图表示的马尔可夫决策过程，确保红队车辆遵守安全规则，同时持续干扰自动驾驶汽车（AV）。构建了一个策略威胁区域模型，以量化红队车辆对自动驾驶汽车的威胁，从而引导出更极端的动作以增加场景的危险等级。实验结果表明，所提出的框架对自动驾驶汽车的决策安全有显著影响，并生成各种边缘情况。这种方法还为安全关键场景的研究提供了一个新的方向。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决自动驾驶车辆（AVs）在安全关键场景（safety-critical scenarios）中的决策问题，特别是在面对极端情况（corner cases）时的决策失败率较高的问题。具体来说，论文指出当前自动驾驶车辆在大规模部署时仍面临安全关键场景研究的滞后，导致在面对极端情况时决策失败率高，无法满足四级（L4）自动驾驶所需的安全和鲁棒性标准。论文提出了一种基于红队（Red-Team）多智能体强化学习（RMARL）的框架，通过将背景车辆（BVs）视为具有干扰能力的红队代理，主动探索和干扰以发现数据分布之外的极端情况，从而提高自动驾驶车辆在真实世界中的安全性和可靠性。

Q: 有哪些相关研究？

A: 论文中提到了与安全关键场景相关的两类主要研究方法：基于数据驱动的方法和基于场景建模的方法。以下是具体的相关研究：

基于数据驱动的方法

Feng et al. [3]：提出了自然对抗混合环境（Natural–Adversarial Hybrid Environment），利用关键指标识别高影响车辆和关键时间实例。
Ding et al. [4]：引入了条件多轨迹合成框架（Conditional Multi-Trajectory Synthesis），生成多维驾驶场景，满足从交通流动力学模型推导出的安全关键条件，为系统安全验证提供全面的测试集。
Klischat et al. [5]：提出了一个基于进化的关键场景生成器，通过参数化场景表示和适应度函数，指导搜索自动驾驶系统的行为边界和故障模式。
Ding et al. [7]：将交通场景分解为可重用的自回归构建块，并自适应地搜索以碰撞为目标的高风险场景参数。

基于场景建模的方法

Niu et al. [8]：在高速公路场景中，通过风险感知效用函数改进了自动驾驶车辆的决策安全。
Wang et al. [9]：结合传统轨迹预测方法和风险感知场景编码器，在追尾、切入和变道场景中提高了自动驾驶车辆的决策安全。
Wang et al. [10]：在紧急车辆切入场景中，使用定向有界框（Oriented Bounding Box, OBB）碰撞检测评估碰撞风险，并结合状态机模型进行决策，展示了改进的风险规避能力。
Fu et al. [11]：提出了基于深度确定性策略梯度（DDPG）算法的紧急制动策略，用于前车变道或突然制动的情况，碰撞率降低了15%。
Li et al. [12]：开发了基于漂移扩散模型的驾驶员信息积累认知模型，研究了追尾碰撞场景中的决策过程。
Xu et al. [13]：结合常数转弯率和加速度模型预测背景车辆轨迹，使用双深度Q网络（DDQN）优化决策，并应用安全规则进行实时动作校正。

这些研究在数据驱动和场景建模方面取得了进展，但都存在一定的局限性。数据驱动方法受限于真实世界驾驶数据的完整性，难以发现潜在的高风险场景；场景建模方法虽然能显著提高特定条件下的决策安全，但忽略了背景车辆的潜在危险行为，无法满足真实世界安全关键场景的要求。

Q: 论文如何解决这个问题？

A: 论文提出了一种基于红队（Red-Team）多智能体强化学习（RMARL）的框架来解决自动驾驶车辆在安全关键场景中的决策问题。以下是论文解决该问题的具体方法和步骤：

1. 红队多智能体强化学习框架（RMARL）

红队概念：红队（Red-Team）的概念源自军事领域，用于模拟对手以测试系统的防御能力。在自动驾驶中，红队车辆通过模拟对抗性行为，挑战自动驾驶车辆（AVs）的决策和响应能力，从而暴露其弱点。
框架设计：将背景车辆（BVs）视为红队代理，通过主动干扰和探索，红队车辆能够发现数据分布之外的极端情况（corner cases），从而提高自动驾驶车辆在真实世界中的安全性和可靠性。

2. 约束图表示马尔可夫决策过程（CGMDP）

问题描述：在高度结构化的交通场景中，标准的马尔可夫决策过程（MDP）无法满足两个关键要求：一是无法对代理的动作施加严格约束以避免违反交通规则或非人类行为；二是无法捕捉车辆之间的复杂依赖关系。
CGMDP模型：提出了一种基于传统MDP的约束图表示马尔可夫决策过程（CGMDP）模型。该模型将道路网络和车辆交互建模为加权图 ( G(V, E) )，每个车辆表示为一个节点 ( v_i \in V )，车辆之间的连接表示为边 ( E )。通过在每个决策步骤应用约束集 ( \mathcal{C} )，消除可能违反交通规则或导致非人类行为的动作。
模型定义：CGMDP模型定义为一个七元组 ( M_{CG} = (S, A, P, R, \gamma, \mathcal{C}, G) )，其中 ( S ) 表示全局状态空间，( A ) 表示动作空间，( P ) 是状态转移函数，( R ) 是奖励函数，( \gamma ) 是折扣因子，( \mathcal{C} ) 是约束集，( G ) 是加权图。

3. 策略威胁区域模型（PTZ）

目的：在红队干扰场景中，开发了一个策略威胁区域（PTZ）模型，用于识别高价值干扰目标，并通过捕捉场景中的潜在风险，放大对自动驾驶车辆的威胁。
状态空间表示：将红队干扰场景表示为无向图，每个车辆对应一个节点，每次交互对应一条边。全局状态空间使用三个矩阵编码：节点特征矩阵 ( N_t )、邻接矩阵 ( A_t ) 和掩码矩阵 ( M_t )。
PTZ模型公式：PTZ模型定义为： [ D_{PTZ} = \left{ (x, y, v, a_i, \theta_i) \mid \Phi_1(x, y, v) \land \Phi_2(a_i, \theta_i) \right} ] 其中，( \Phi_1 ) 表示基于相对位置和速度的时间至碰撞（TTC）度量，( \Phi_2 ) 表示基于自动驾驶车辆加速度和航向角的危险水平度量。

4. 双约束图近端策略优化算法（DC-GPPO）

算法设计：基于近端策略优化（PPO）算法，提出了一种增强的双约束图近端策略优化（DC-GPPO）算法。该算法通过在动作空间施加硬约束，并通过成本函数施加软行为约束，确保红队车辆在遵守交通规则的同时，有效地干扰自动驾驶车辆。
动作空间约束：在策略网络生成动作之前，根据车辆的当前状态对动作空间进行约束，以消除不可行的操作。
图卷积网络（GCN）：引入图卷积网络（GCN）处理图结构的环境状态，提取复杂的时空特征，提高策略学习的效率。
奖励和成本函数：设计了一个冲突驱动的危险奖励函数，用于激励红队车辆干扰自动驾驶车辆的决策。奖励函数综合了车辆之间的距离、速度、碰撞事件和乘坐舒适性。同时，定义了一个成本函数，用于惩罚红队车辆的惯性干扰行为。

5. 实验验证

实验设置：使用SUMO模拟器创建了单车辆干扰（SVI）和多车辆干扰（MVI）的红队干扰场景。自动驾驶车辆使用作者之前的工作中的决策模型，红队车辆遵循提出的算法，其他背景车辆依赖于SUMO的默认驾驶员模型。
训练结果：通过比较四种强化学习算法（GD3QN、PPO、GPPO和DC-GPPO）的奖励曲线，验证了DC-GPPO算法在干扰自动驾驶车辆决策方面表现最佳。
测试结果：在没有红队干扰的情况下，自动驾驶车辆的碰撞率仅为5%。但在红队干扰下，碰撞率上升到85%，表明自动驾驶车辆的决策安全性显著下降。此外，红队车辆的探索导致了多种极端情况的出现，这些情况自动驾驶车辆无法处理，从而导致碰撞。

6. 未来工作

扩展场景：将框架从紧急制动场景扩展到更广泛的安全关键场景，包括多车道高速公路和复杂交叉口。
高保真度模拟器：在更高保真度的模拟器中评估该方法。
连续动作空间：将离散动作空间替换为连续动作空间，以满足安全关键决策的精细控制需求。
优化策略生成：优化红队策略生成和对抗训练的效率，提高干扰行为的针对性和隐蔽性。

通过上述方法，论文提出了一种新的框架，能够有效地探索和发现自动驾驶车辆在安全关键场景中的潜在极端情况，从而为自动驾驶车辆的安全性和可靠性研究提供了新的方向。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证提出的红队多智能体强化学习（RMARL）框架的有效性：

1. 实验设置

模拟器：使用SUMO模拟器创建了红队干扰场景，包括单车辆干扰（SVI）和多车辆干扰（MVI）两种情况。
自动驾驶车辆（AVs）：使用作者之前工作中的决策模型。
红队车辆（Red-Team Vehicles）：遵循提出的算法，分别使用四种强化学习算法进行训练：Graph-D3QN（GD3QN）、PPO、GPPO和DC-GPPO。
其他背景车辆（BVs）：依赖于SUMO的默认驾驶员模型。
实验参数：实验的超参数和模拟环境参数设置如下表所示：

参数

值

训练轮数

500

批量大小

32

折扣因子

0.9

学习率

(7.5 \times 10^{-4})

贪婪率起始值

0.8

贪婪率结束值

0.05

优化器

Adam

非线性函数

ReLU

时间步长

0.1 s

最大加速度

5 m/s²

2. 训练结果

奖励曲线：比较了四种算法在SVI和MVI场景中的奖励曲线。使用归一化奖励指标来评估算法的整体性能，更高的奖励值表示红队对自动驾驶车辆构成的威胁更大，反映了更危险的场景和自动驾驶车辆决策失败的更高概率。
- 单车辆干扰（SVI）：DC-GPPO算法的奖励曲线显著高于其他方法，表明红队对自动驾驶车辆构成了最大的威胁，显著提高了场景的危险程度。
- 多车辆干扰（MVI）：同样，DC-GPPO算法在MVI场景中也表现出了最高的奖励值，进一步验证了其在干扰自动驾驶车辆决策方面的有效性。
标准差：图中阴影区域显示了5个随机种子的标准差，表明结果的稳定性和可重复性。

3. 测试结果

基线测试：首先在没有红队干扰的情况下测试自动驾驶车辆，仅受执行紧急制动的背景车辆影响，以建立基线。
红队干扰测试：然后在红队干扰下测试自动驾驶车辆，红队使用上述四种算法进行训练。测试结果如下表所示：

指标

基线（BL）

PPO

GD3QN

GPPO

DC-GPPO

SVI

碰撞率（CR）

5.00%

37.00%

50.00%

52.00%

75.00%

行驶时间（TT）

10.86 s

9.02 s

9.05 s

9.10 s

9.06 s

平均横向加速度（ALA）

0.11 m/s²

0.18 m/s²

0.17 m/s²

0.16 m/s²

0.16 m/s²

平均速度（AS）

14.18 m/s

15.61 m/s

15.53 m/s

15.92 m/s

15.66 m/s

MVI

碰撞率（CR）

-

67.00%

55.00%

70.00%

85.00%

行驶时间（TT）

-

8.84 s

8.72 s

8.41 s

7.97 s

平均横向加速度（ALA）

-

0.21 m/s²

0.28 m/s²

0.26 m/s²

0.34 m/s²

平均速度（AS）

-

14.93 m/s

14.68 m/s

14.51 m/s

13.96 m/s

4. 轨迹分析

轨迹图：图5展示了在测试过程中红队车辆和自动驾驶车辆的轨迹。红队车辆的探索导致了多种极端情况的出现，这些情况自动驾驶车辆无法处理，从而导致碰撞。
- 单车辆干扰（SVI）：图(a)-(d)展示了在SVI场景下自动驾驶车辆和红队车辆的轨迹。
- 多车辆干扰（MVI）：图(e)-(h)展示了在MVI场景下自动驾驶车辆和所有红队车辆的轨迹，标记了碰撞位置。

5. 结论

实验结果表明，提出的RMARL框架能够显著影响自动驾驶车辆的决策安全性，并在原始场景中生成多种极端情况。该方法不仅克服了传统静态场景的局限性，还主动探索了数据分布之外的极端情况，为安全关键场景的研究提供了新的方向。

Q: 有什么可以进一步探索的点？

Authors: Yinsong Chen, Kaifeng Wang, Xiaoqiang Meng, Xueyuan Li, Zirui Li, Xin Gao

Categories: cs.LG, cs.AI

PDF URL: https://arxiv.org/pdf/2507.15587v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15587v1

Published: 2025-07-21T13:08:49Z

7. CoordField: Coordination Field for Agentic UAV Task Allocation In Low-altitude Urban Scenarios

With the increasing demand for heterogeneous Unmanned Aerial Vehicle (UAV) swarms to perform complex tasks in urban environments, system design now faces major challenges, including efficient semantic understanding, flexible task planning, and the ability to dynamically adjust coordination strategies in response to evolving environmental conditions and continuously changing task requirements. To address the limitations of existing methods, this paper proposes CoordField, a coordination field agent system for coordinating heterogeneous drone swarms in complex urban scenarios. In this system, large language models (LLMs) is responsible for interpreting high-level human instructions and converting them into executable commands for the UAV swarms, such as patrol and target tracking. Subsequently, a Coordination field mechanism is proposed to guide UAV motion and task selection, enabling decentralized and adaptive allocation of emergent tasks. A total of 50 rounds of comparative testing were conducted across different models in a 2D simulation space to evaluate their performance. Experimental results demonstrate that the proposed system achieves superior performance in terms of task coverage, response time, and adaptability to dynamic changes.

中文摘要

随着对异构无人机群在城市环境中执行复杂任务需求的增加，系统设计面临着重大挑战，包括高效的语义理解、灵活的任务规划，以及能够动态调整协调策略以应对不断变化的环境条件和持续变化的任务要求。为了解决现有方法的局限性，本文提出了CoordField，一个协调异构无人机群在复杂城市场景中的协调场代理系统。在该系统中，大型语言模型（LLMs）负责解释高层次的人类指令，并将其转换为无人机群可执行的命令，如巡逻和目标跟踪。随后，提出了一种协调场机制，以指导无人机的运动和任务选择，实现新兴任务的去中心化和自适应分配。总共进行了50轮跨不同模型的比较测试，以评估它们的性能。实验结果表明，该系统在任务覆盖率、响应时间和对动态变化的适应性方面表现优越。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败: Waiting failed: 30000ms exceeded

Authors: Tengchao Zhang, Yonglin Tian, Fei Lin, Jun Huang, Patrik P. Süli, Qinghua Ni, Rui Qin, Xiao Wang, Fei-Yue Wang

Categories: cs.RO, cs.AI

PDF URL: https://arxiv.org/pdf/2505.00091v4.pdf

CoolPaper URL: https://papers.cool/arxiv/2505.00091v4

Published: 2025-04-30T18:02:45Z

8. HAMLET: Hyperadaptive Agent-based Modeling for Live Embodied Theatrics

Creating an immersive and interactive theatrical experience is a long-term goal in the field of interactive narrative. The emergence of large language model (LLM) is providing a new path to achieve this goal. However, existing LLM-based drama generation methods often result in AI agents that lack initiative and cannot interact with the physical environment. Furthermore, these methods typically require detailed user input to drive the drama. These limitations reduce the interactivity and immersion of online real-time performance. To address the above challenges, we propose HAMLET, a multi-agent framework focused on drama creation and online performance. Given a simple topic, the framework generates a narrative blueprint, guiding the subsequent improvisational performance. During the online performance, each actor is given an autonomous mind. This means that actors can make independent decisions based on their own background, goals, and emotional state. In addition to conversations with other actors, their decisions can also change the state of scene props through actions such as opening a letter or picking up a weapon. The change is then broadcast to other related actors, updating what they know and care about, which in turn influences their next action. To evaluate the quality of drama performance, we designed an evaluation method to assess three primary aspects, including character performance, narrative quality, and interaction experience. The experimental evaluation shows that HAMLET can create expressive and coherent theatrical experiences. Our code, dataset and models are available at https://github.com/HAMLET-2025/HAMLET.

中文摘要

创建一个沉浸式和互动式的戏剧体验是互动叙事领域的长期目标。大型语言模型（LLM）的出现为实现这一目标提供了一条新路径。然而，现有的基于LLM的戏剧生成方法往往导致AI代理缺乏主动性，无法与物理环境互动。此外，这些方法通常需要详细的用户输入来推动戏剧的发展。这些限制减少了在线实时表演的互动性和沉浸感。为了解决上述挑战，我们提出了HAMLET，一个专注于戏剧创作和在线表演的多智能体框架。给定一个简单的主题，该框架生成叙事蓝图，指导随后即兴表演。在在线表演中，每个演员都拥有自主意识。这意味着演员可以根据自己的背景、目标和情绪状态做出独立的决定。除了与其他演员的对话，他们的决定还可以通过打开信件或拾取武器等动作改变场景道具的状态。这一变化随后会广播给其他相关演员，更新他们所了解和关心的内容，从而影响他们的下一个行动。为了评估戏剧表演的质量，我们设计了一种评估方法，评估三个主要方面，包括角色表现、叙事质量和互动体验。实验评估显示，HAMLET能够创造出富有表现力和连贯性的戏剧体验。我们的代码、数据集和模型可在https://github.com/HAMLET-2025/HAMLET获得。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一个名为 HAMLET（Hyperadaptive Agent-based Modeling for Live Embodied Theatrics）的多智能体框架，旨在解决人工智能驱动的戏剧创作和表演中的几个关键挑战：

缺乏主动性：现有的基于大型语言模型（LLM）的戏剧生成方法通常导致 AI 智能体缺乏主动性，无法与物理环境进行交互。
需要详细用户输入：这些方法通常需要详细的用户输入来驱动剧情发展，这不仅增加了设计成本，还限制了剧情的自由度和多样性。
缺乏物理环境交互：在戏剧表演中，演员的行为应该能够影响物理环境，而环境的反馈也是表演的重要组成部分。现有的方法往往缺乏这种物理环境的交互。
缺乏全面的评估方法：目前没有有效的评估方法来衡量在线戏剧表演的质量，大多数现有的 LLM 基准只关注文本生成质量或角色扮演能力，而不是整个戏剧表演的综合效果。

为了解决这些问题，HAMLET 框架通过以下方式实现：

提供一个从简单主题生成结构化叙事蓝图的离线规划阶段。
在在线表演阶段，为每个演员提供自主思维和物理环境交互的能力。
设计了一个全面的评估方法，从角色表现、叙事质量和互动体验三个维度评估戏剧表演的质量。

Q: 有哪些相关研究？

A: 论文中提到了多个与 HAMLET 相关的研究方向，这些研究为 HAMLET 的提出提供了背景和基础。以下是这些相关研究的分类和详细信息：

LLM-Based Drama

Drama Generation：
- Hierarchical Neural Story Generation：Fan 等人（2018）提出了一种层次化的神经故事生成方法，用于规划情节并生成连贯的叙述。
- Plan-and-write: Towards better automatic storytelling：Yao 等人（2019）提出了一种计划和写作相结合的方法，以实现更好的自动故事创作。
- Co-writing screenplays and theatre scripts with language models: Evaluation by industry professionals：Mirowski 等人（2023）尝试了多 LLM 协作和层次化方法，将规划与生成分开，以创作电影剧本和戏剧剧本。
Drama Performance：
- CharacterLLM: A Trainable Agent for Role-Playing：Shao 等人（2023）提出了 CharacterLLM，这是一个可训练的角色扮演智能体。
- Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment：Lu 等人（2024）研究了如何通过自我对齐实现任意角色扮演。
- From Role-Play to Drama-Interaction: An LLM Solution：Wu 等人（2024）提出了一种基于 LLM 的角色扮演到戏剧互动的解决方案。

Evaluation for Role-Playing Conversation Agents

RoleEval：Shen 等人（2023）提出了 RoleEval，使用角色特定的多项选择题来测试模型对角色的理解。
SocialBench：Chen 等人（2024a）构建了 SocialBench，从多源对话中构建评估问题。
CharacterEval：Tu 等人（2024）提出了 CharacterEval，采用多轮对话和多维度评分来评估对话能力。
RAIDEN：Wu 等人（2025b）通过标注者互动构建了一个问答数据集，以评估特定维度的响应性。
CoSER：Wang 等人（2025）扩展了角色数量，但仍缺乏对整体戏剧表演的评估机制。

这些相关研究为 HAMLET 的提出提供了理论和技术基础，特别是在 LLM 基础的戏剧生成和表演以及角色扮演对话代理的评估方面。

Q: 论文如何解决这个问题？

A: 为了解决人工智能驱动的戏剧创作和表演中的挑战，论文提出了 HAMLET（Hyperadaptive Agent-based Modeling for Live Embodied Theatrics），一个多智能体框架，通过以下方式解决问题：

1. 多智能体框架设计

HAMLET 框架分为两个主要阶段：离线规划和在线表演。

离线规划

目标：将用户输入（简单主题或完整文学作品）转化为结构化的叙事蓝图。
输入类型：
- 任意主题：直接生成完整一幕的内容。
- 完整文学作品：先根据章节和内容结构分解为一系列幕，再为每一幕进行戏剧设计。
工作流程：由四个智能体组成，包括演员设计师、情节设计师、审查员和导演。
- 演员设计师：根据用户输入生成核心角色的演员档案，通过搜索模块查询外部知识库，生成包含静态属性（背景、性格）和动态属性（初始目标、核心关系）的结构化演员档案，提交给审查员。
- 情节设计师：在所有演员档案获批后，根据主题和演员创作初步叙事草稿，提交给审查员评估。
- 审查员：检查角色设置的合理性、动机的清晰度和演员之间的关系。
- 导演：负责最终的结构处理，将线性故事草稿重构为层次化的情节档案，包括以下步骤：
  - 定义幕和场景：将戏剧划分为几个幕，并指定每幕发生的场景。
  - 创建环境元素：为每个场景生成互动道具列表，包含具体描述和位置信息。
  - 定义点：在每幕中定义一系列叙事点，每个点包含一个明确的标志和结果，标记其完成。
  - 逆向规划：优先生成结束点，然后基于结束点补充和构建逻辑连贯的前导点，最终将情节档案与演员档案整合，生成叙事蓝图。

在线表演

目标：将叙事蓝图从静态计划转化为动态、互动、沉浸式的环境，容纳自主 AI 演员和人类玩家。
具体实施：
- 表演戏剧：基于幕进行，每幕包含场景和点。场景定义戏剧发生的物理环境，包含所有互动道具；点定义情节目标，是“要做什么”的里程碑。叙事路径由一系列节拍动态生成，节拍是演员采取有效行动的有效互动步骤。演员的决策参考当前点的公共标志和个人私人目标，由于演员的自主性，多个轨迹可以连接点i到点i+1，引入高度自由和任意性。
- 环境互动：设计了叙述者智能体来裁决演员与环境之间的所有互动，确保所有物理动作的合理性。当演员尝试执行物理动作时，叙述者根据环境状态和物理规则进行判断，若可行则确认成功，更新环境状态，并向所有参与者广播客观描述；否则，确定失败并给出合理解释。
- 感知和决策模块：所有 AI 演员使用分层架构，由 LLM 和 PAD 模块组成。LLM 负责生成具体对话和动作，PAD 负责指导它们的战略决策。PAD 基于人类认知的双系统理论设计，负责通过工具调用生成快速、慢速、沉默或潜在动作的决策，以模拟和扩展双系统机制。PAD 的核心输入基于主观和客观视角，主观视角包括演员的自我意识，如人物、主观关系、记忆和目标；客观视角包括环境描述、演员列表、对话历史和可互动对象。PAD 的决策过程将抽象的战略意图转化为具体的可执行动作，通过两阶段过程实现：首先确定高级响应策略，设置反应的时机和语气，并可生成内部独白；然后，策略和生成的思考用于指导 LLM 产生最终的具体行为，包括要交付的具体对话和结构化的动作。

2. 全面的评估方法和排行榜

评估方法：为了客观评估戏剧生成和表演的质量，建立了一个全面的评估方法，从角色表现、叙事质量和互动体验三个关键维度进行评估。
- 角色表现（CP）：评估角色与既定人物的一致性（Believability）以及情感表达的丰富性和推进叙事的能力（Agency）。
- 叙事质量（NQ）：考察故事的整体工艺，包括情节的连贯性（Coherence）、主题相关性和深度（Resonance）以及故事结构的完整性（Integrity）。
- 互动体验（IE）：关注 AI 演员与系统的参与度，包括系统反应的质量和及时性（Responsiveness）、认知和情感参与程度（Immersion）以及互动的整体技术流畅性（Fluency）。
排行榜：使用 GPT-4o 作为强基线进行胜率比较，并训练了 HAMLETJudge，一个专门用于成本效益高且可靠的戏剧表演评估的批评模型。

3. 广泛的实验

实验设置：定义了清晰的基线和测试配置，除了 HAMLET 中的 PAD 组件外，所有底层模型都共享相同的 GPT-4o 骨架，并采用贪婪采样策略。
HAMLET 排行榜：比较了各种主流 LLM，包括开源和闭源、非推理和推理模型，揭示了它们在英语和中文在线戏剧表演中的能力，为实际应用提供了参考。
可靠性验证：通过与人类评估的对比验证了 HAMLETJudge 的有效性，并通过在不同响应策略下评估模型性能来展示 PAD 的可靠性。PAD 在所有策略下均实现了最高最终得分，且无延迟。
有效性验证：通过比较三种不同的实验设置（仅使用原始提示的 GPT-4o、完整的 HAMLET 框架以及禁用 PAD 的 HAMLET 框架）来评估核心设计选择的影响。结果表明，完整的 HAMLET 框架显著优于仅使用 GPT-4o，而启用 PAD 的 HAMLET 在所有主题类别中均优于禁用 PAD 的版本，证明了 PAD 在使 AI 演员的互动和对话更自然、连贯和人性化方面的重要性。

通过上述方法，HAMLET 框架能够创建富有表现力和连贯性的戏剧体验，为自主和沉浸式互动戏剧开辟了新路径。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来验证 HAMLET 框架的有效性和优越性：

HAMLET 排行榜实验

实验目的：比较各种主流 LLM 在英语和中文在线戏剧表演中的能力，为实际应用提供参考。
实验设置：除了 HAMLET 中的 PAD 组件外，所有底层模型都共享相同的 GPT-4o 骨架，并采用贪婪采样策略。
实验结果：结果如表 1 所示，展示了不同模型在英语和中文戏剧表演中的表现。其中，Qwen3-235B-A22B-Thinking 在英语和中文的平均得分上表现最佳，分别为 73.85 和 75.92，而 Llama-3.1-8B 表现最差，平均得分分别为 34.67 和 33.83。

HAMLETJudge 的可靠性验证实验

实验目的：验证 HAMLETJudge 模型与人类评估的一致性，以评估其可靠性。
实验方法：使用 HAMLETJudge 对标注者标记的成对数据进行微调，并通过与保留的人类验证集的比较来测量其一致性，使用皮尔逊相关系数进行评估。
实验结果：如表 2 所示，HAMLETJudge 与人类评估的一致性非常高，平均得分为 0.791，显著优于其他强模型，如 GPT4.1（0.630）、Claude-4-sonnet（0.762）和 Gemini-2.5-pro（0.702）。

PAD 的可靠性验证实验

实验目的：评估不同响应策略下模型的性能，并分析其与延迟的权衡。
实验方法：在不同的响应策略（快速、慢速、沉默）下评估模型性能，并引入延迟惩罚来衡量实时戏剧中推理模型的延迟影响。
实验结果：如表 3 所示，现有的推理模型在明确推理时能够实现平衡的性能，但会受到显著的延迟惩罚。相反，非推理模型速度更快，但在复杂互动中缺乏鲁棒性。PAD 解决了这一问题，它在所有策略下均实现了最高最终得分，并且延迟为零。

HAMLET 框架设计的有效性验证实验（消融研究）

实验目的：验证 HAMLET 框架设计的有效性，特别是 PAD 模块的作用。
实验方法：随机选择 30 个主题，控制实验设置为 GPT-4o 下的贪婪策略，然后比较以下三种情况：仅使用原始提示的 GPT-4o、完整的 HAMLET 框架以及禁用 PAD 的 HAMLET 框架。
实验结果：如图 6 所示，仅使用原始提示的 GPT-4o 的性能显著低于完整的 HAMLET 框架，这突显了多智能体工作流程设计的必要性。此外，启用 PAD 的 HAMLET 在所有 10 个主题类别中均优于禁用 PAD 的版本，证明了 PAD 在使 AI 演员的互动和对话更自然、连贯和人性化方面的重要性。

案例研究

实验目的：通过实际案例进一步展示 HAMLET 框架及其组件的工作机制。
实验方法：选取了一些实际案例，如表 6 所示，展示了在不同情况下的实时互动结果。
实验结果：案例 1 展示了叙述者在处理模糊情况时的能力，能够合理地将“knife”与现有的道具“dagger”联系起来，使用户的动作得以成功执行。案例 2、3 和 4 涉及人类玩家扮演 AI 演员，展示了系统如何处理各种不规则或破坏性的输入，如不存在的道具、不合理的动作以及固执的选择。案例 5 和 6 重点关注规划者的角色，展示了 HAMLET 如何支持多轨迹故事规划，即使采用不同的调查策略，只要进程连贯且目标一致，都可以达到相同的戏剧结果。

通过这些实验，论文验证了 HAMLET 框架在创建富有表现力和连贯性的戏剧体验方面的有效性和优越性，为自主和沉浸式互动戏剧开辟了新路径。

Q: 有什么可以进一步探索的点？

A: 尽管 HAMLET 框架在创建富有表现力和连贯性的戏剧体验方面取得了显著进展，但仍有一些可以进一步探索的方向，以进一步提升其性能和应用范围：

1. 多模态交互

当前状态：当前的 HAMLET 框架主要集中在文本和对话交互上，虽然引入了物理环境的交互，但这些交互主要通过文本描述来实现。
进一步探索：可以探索多模态交互，例如结合语音、动作捕捉、表情识别等技术，使演员的表演更加生动和真实。例如，使用语音合成技术让 AI 演员发出真实的声音，或者通过动作捕捉技术让 AI 演员的肢体动作更加自然。

2. 情感和情绪建模

当前状态：虽然 PAD 模块能够生成不同响应策略，但情感和情绪的建模仍然相对简单。
进一步探索：可以进一步研究如何更精细地建模角色的情感和情绪状态，使其能够根据剧情的发展和互动的上下文动态调整情绪反应。例如，引入情感分析技术，让 AI 演员能够根据对话内容和环境变化实时调整情绪状态。

3. 实时反馈和适应性

当前状态：当前的 HAMLET 框架在实时反馈和适应性方面已经有一定的能力，但仍有改进空间。
进一步探索：可以研究如何进一步增强 AI 演员的实时反馈能力，使其能够更快速地适应观众的反应和剧情的突发变化。例如，引入强化学习技术，让 AI 演员能够根据观众的反馈动态调整表演策略。

4. 多语言支持

当前状态：当前的 HAMLET 框架在英语和中文的戏剧表演中进行了评估，但对其他语言的支持有限。
进一步探索：可以扩展框架以支持更多的语言，特别是那些在戏剧表演中常用的语言，如法语、德语、西班牙语等。这需要进一步优化模型的多语言训练和评估机制。

5. 用户自定义角色和剧情

当前状态：当前的 HAMLET 框架允许用户输入简单主题来生成戏剧内容，但用户自定义角色和剧情的能力相对有限。
进一步探索：可以进一步研究如何让用户能够更自由地定义角色和剧情，例如通过提供更灵活的用户界面和工具，让用户能够创建自己的角色档案和剧情大纲。这将使 HAMLET 框架更加个性化和互动性。

6. 跨文化戏剧创作

当前状态：当前的 HAMLET 框架主要基于西方和中国的戏剧传统，对于其他文化背景下的戏剧创作支持有限。
进一步探索：可以研究如何将不同文化背景下的戏剧元素融入 HAMLET 框架，例如引入印度戏剧、非洲戏剧等元素，使框架能够生成更具跨文化特色的戏剧内容。

7. 长期剧情连贯性

当前状态：当前的 HAMLET 框架在单幕剧情的连贯性方面表现良好，但在跨多幕的长期剧情连贯性方面仍有提升空间。
进一步探索：可以研究如何进一步增强长期剧情的连贯性，例如通过引入更复杂的剧情规划和记忆机制，让 AI 演员能够更好地记住和利用之前的情节和角色关系，从而实现更连贯的多幕剧情发展。

8. 观众参与度评估

当前状态：当前的 HAMLET 框架主要从角色表现、叙事质量和互动体验三个维度评估戏剧表演，但对观众参与度的直接评估有限。
进一步探索：可以研究如何更直接地评估观众的参与度，例如通过实时监测观众的生理反应（如心率、皮肤电导等）或通过观众反馈机制（如实时投票、表情识别等），并根据观众的参与度动态调整剧情和表演策略。

9. AI 演员的自我学习和进化

当前状态：当前的 HAMLET 框架中的 AI 演员主要依赖预训练模型和离线规划，自我学习和进化能力有限。
进一步探索：可以研究如何让 AI 演员在表演过程中自我学习和进化，例如通过引入在线学习机制，让 AI 演员能够根据观众的反馈和剧情的发展不断优化自己的表演策略。

10. 与其他艺术形式的融合

当前状态：当前的 HAMLET 框架主要集中在戏剧表演上，对于与其他艺术形式（如音乐、舞蹈、视觉艺术等）的融合支持有限。
进一步探索：可以研究如何将 HAMLET 框架与其他艺术形式融合，例如通过引入音乐生成模型、舞蹈动作生成模型等，创建更加丰富和多元化的艺术体验。

通过这些进一步的探索，HAMLET 框架将能够更好地满足不同用户的需求，提供更加丰富、生动和个性化的戏剧体验。

Authors: Sizhou Chen, Shufan Jiang, Chi Zhang, Xiao-Lei Zhang, Xuelong Li

Categories: cs.AI, cs.MA

PDF URL: https://arxiv.org/pdf/2507.15518v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15518v1

Published: 2025-07-21T11:36:39Z

9. The Constitutional Controller: Doubt-Calibrated Steering of Compliant Agents

Ensuring reliable and rule-compliant behavior of autonomous agents in uncertain environments remains a fundamental challenge in modern robotics. Our work shows how neuro-symbolic systems, which integrate probabilistic, symbolic white-box reasoning models with deep learning methods, offer a powerful solution to this challenge. This enables the simultaneous consideration of explicit rules and neural models trained on noisy data, combining the strength of structured reasoning with flexible representations. To this end, we introduce the Constitutional Controller (CoCo), a novel framework designed to enhance the safety and reliability of agents by reasoning over deep probabilistic logic programs representing constraints such as those found in shared traffic spaces. Furthermore, we propose the concept of self-doubt, implemented as a probability density conditioned on doubt features such as travel velocity, employed sensors, or health factors. In a real-world aerial mobility study, we demonstrate CoCo’s advantages for intelligent autonomous systems to learn appropriate doubts and navigate complex and uncertain environments safely and compliantly.

中文摘要

确保自主代理在不确定环境中可靠且遵守规则的行为仍然是现代机器人技术的一个基本挑战。我们的研究表明，神经符号系统将概率性、符号白箱推理模型与深度学习方法结合，为这一挑战提供了强大的解决方案。这使得可以同时考虑显性规则和在嘈杂数据上训练的神经模型，结合结构化推理的优势与灵活表示。为此，我们引入了宪法控制器（CoCo），这是一个新颖的框架，旨在通过推理深度概率逻辑程序来增强代理的安全性和可靠性，这些程序表示例如共享交通空间中的约束。此外，我们提出了自我怀疑的概念，它被实现为一个以怀疑特征（如旅行速度、所用传感器或健康因素）为条件的概率密度。在一个现实世界的空中移动性研究中，我们展示了CoCo对智能自主系统学习适当怀疑并安全合规地在复杂和不确定环境中导航的优势。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败: Waiting failed: 30000ms exceeded

Authors: Simon Kohaut, Felix Divo, Navid Hamid, Benedict Flade, Julian Eggert, Devendra Singh Dhami, Kristian Kersting

Categories: cs.RO, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.15478v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15478v1

Published: 2025-07-21T10:33:31Z

10. EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent

Egomotion videos are first-person recordings where the view changes continuously due to the agent’s movement. As they serve as the primary visual input for embodied AI agents, making egomotion video reasoning more efficient is therefore essential for real-world deployment. Recent advances in vision-language models have enabled strong multimodal reasoning capabilities, but their computational cost remains prohibitive for long, redundant video inputs. Existing token pruning methods, typically designed for third-person videos, fail to leverage the spatiotemporal continuity and motion constraints inherent in egomotion settings. To address this, we propose EgoPrune, a training-free token pruning method tailored for egomotion video reasoning. EgoPrune comprises three components: a keyframe selector adapted from EmbodiedR for temporally efficient sampling; Perspective-Aware Redundancy Filtering (PARF), which aligns visual tokens using perspective transformations and removes redundant tokens; and a Maximal Marginal Relevance (MMR)-based token selector that jointly considers visual-text relevance and intra-frame diversity. Experiments on two egomotion video benchmarks show that EgoPrune consistently outperforms prior training-free methods across various pruning ratios while significantly reducing FLOPs, memory usage, and latency. Moreover, we deploy EgoPrune on an embodied agent equipped with a Jetson Orin NX 16GB edge device, demonstrating its real-world efficiency and suitability for on-device egomotion video reasoning.

中文摘要

自我运动视频是第一人称录制，其中视角因代理的移动而不断变化。由于它们是具身人工智能代理的主要视觉输入，因此提高自我运动视频推理的效率对于现实世界的部署至关重要。最近在视觉-语言模型方面的进展使得强大的多模态推理能力成为可能，但它们的计算成本对于长且冗余的视频输入仍然过高。现有的标记剪枝方法，通常针对第三人称视频设计，未能利用自我运动场景中固有的时空连续性和运动约束。为了解决这个问题，我们提出了EgoPrune，这是一种针对自我运动视频推理的无训练标记剪枝方法。EgoPrune包括三个组件：一个从EmbodiedR改编而来的关键帧选择器，用于时间上高效的采样；透视感知冗余过滤（PARF），利用透视变换对视觉标记进行对齐并去除冗余标记；以及基于最大边际相关性（MMR）的标记选择器，联合考虑视觉-文本相关性和帧内多样性。在两个自我运动视频基准测试上的实验表明，EgoPrune在各种剪枝比率下始终优于以往的无训练方法，同时显著降低了FLOPs、内存使用和延迟。此外，我们在配备Jetson Orin NX 16GB边缘设备的具身代理上部署了EgoPrune，证明了其在现实世界中的效率和适合于设备上自我运动视频推理的能力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在具身智能代理（embodied AI agents）中，如何高效处理第一人称视角（egomotion）视频输入的问题。具体而言，它旨在提高视觉-语言模型（vision-language models, VLMs）在处理egomotion视频时的推理效率，同时保持任务性能。egomotion视频由于其连续的视角变化和冗余信息，对现有的视觉-语言模型带来了计算成本高、推理效率低的挑战。现有的token pruning方法主要针对第三人称视频设计，无法充分利用egomotion视频中的时空连续性和运动约束，因此在egomotion场景下效果不佳。

Q: 有哪些相关研究？

A: 以下是与本文相关的几个主要研究方向及其具体工作：

大型视觉-语言模型（Large Vision-Language Models, LVLMs）

GPT系列：如GPT-4（Achiam et al. 2023），虽然在文本任务上表现出色，但缺乏视觉理解能力。
CLIP：通过将图像和文本对齐到共享的语义空间，为视觉-语言预训练提供了基础（Radford et al. 2021）。
LLaVA：将视觉编码器集成到大型语言模型中，通过轻量级融合层支持视觉条件推理（Liu et al. 2023）。
Qwen-VL：类似LLaVA，通过视觉和文本的融合提升多模态推理能力（Bai et al. 2023）。
Video-LLaMA：在LLaMA的基础上添加了时间编码器，以支持视频理解（Zhang, Li, and Bing 2023）。
Video-ChatGPT：采用视频适配的编码器，并进行大规模视频指令调优（Maaz et al. 2023）。
LLaVA-OneVision：通过交错视觉token和记忆重用，统一处理图像和视频（Li et al. 2024）。
VILA：在交错图像-文本数据上进行预训练，支持有效的视频推理和边缘设备部署（Lin et al. 2024）。

无需训练的视频token修剪（Training-free Video Token Pruning）

TimeChat-Online：通过丢弃帧间冗余token来减少token数量，实现了82.8%的token减少，同时几乎不损失准确性（Yao et al. 2025）。
VLA-Cache：通过重用静态token实现高达2.1倍的速度提升（Xu et al. 2025）。
DyCoke：通过合并时间和修剪空间token实现1.7倍加速（Tao et al. 2025）。
PACT：结合早期聚类和基于重要性的修剪，实现1.5倍速度提升（Dhouib et al. 2025）。
DivPrune：将token选择建模为最大最小多样性问题，实现了52%的token减少，同时保留了结构（Alvar et al. 2025）。

第一人称视频的关键帧选择（Keyframe Selector for Egomotion Video）

EmbodiedR：提出了一种基于透视变换的几何关键帧选择方法，通过估计相邻帧之间的视觉重叠来选择关键帧（Zhao et al. 2025b）。

Q: 论文如何解决这个问题？

A: 为了解决egomotion视频推理中的高效处理问题，论文提出了EgoPrune，这是一个针对egomotion视频推理的无需训练的token修剪方法。EgoPrune通过以下三个主要组件来实现高效的token修剪：

1. 关键帧选择器（Keyframe Selector）

EgoPrune采用了EmbodiedR的关键帧选择方法，该方法基于透视变换来估计相邻帧之间的视觉重叠，并在重叠低于预定义阈值时选择新的关键帧。这种方法能够有效地减少需要处理的帧数，从而降低计算成本。

2. 透视感知冗余过滤（Perspective-Aware Redundancy Filtering, PARF）

PARF通过估计连续帧之间的单应性矩阵（homography matrix）来对齐视觉token，然后基于几何对应关系过滤掉冗余的token。具体步骤如下：

单应性矩阵估计：使用ORB特征点和描述符提取匹配点，并通过RANSAC算法计算单应性矩阵。
透视变换：将前一帧的token通过单应性矩阵变换到当前帧的坐标系下，从而实现token对齐。
冗余token过滤：比较对齐后的token对，如果它们的余弦相似度超过75%，则认为这些token是冗余的并将其丢弃。

3. 最大边际相关性（Maximal Marginal Relevance, MMR）基于的token选择器

MMR选择器在考虑与输入文本的相关性的同时，还考虑了视觉token的多样性。具体步骤如下：

相关性计算：计算每个视觉token与用户提示的平均表示之间的余弦相似度，作为相关性得分。
多样性计算：计算已选择token集合中每个token与候选token之间的相似度，以评估多样性。
迭代选择：从最相关的token开始，迭代选择能够最大化相关性和多样性平衡的token。平衡因子λ控制相关性和多样性的权重。

通过上述三个组件的协同工作，EgoPrune能够在保持任务性能的同时，显著减少计算成本、内存使用和延迟。

Q: 论文做了哪些实验？

A: 论文进行了以下几类实验来验证EgoPrune方法的有效性和效率：

1. 基准测试（Benchmark Evaluation）

数据集：使用了两个egomotion视频基准测试数据集：
- VSI-Bench：包含288个室内第一人称视频和5000多个问答对，用于具身室内推理。
- UrbanVideo-Bench：包含1000个航拍视频片段和5200多个问答项，针对城市尺度的空间和方向理解。
比较方法：与两种最先进的无需训练的token修剪方法进行比较：
- DivPrune：通过解决最大最小多样性问题来选择结构上多样化的token。
- PACT：结合无注意力的重要性评分和基于密度的聚类，实现与FlashAttention兼容的修剪。
实验设置：在LLaVA-OneVision-7B模型上实现EgoPrune，使用PyTorch和三块NVIDIA A6000 GPU（50GB）。所有方法在解码时分别保留70%、50%和30%的视觉token。视频以1帧/秒的速率采样，每帧产生196个token。为了反映现实世界的约束，过滤掉超过90秒的视频。

2. 效果评估（Effectiveness Evaluation）

VSI-Bench：
- 在70%保留率下，EgoPrune的平均准确率接近全token基线（35.20 vs. 35.45）。
- 在50%和30%保留率下，EgoPrune的平均准确率甚至超过了基线（分别为35.43和35.16），显示出对修剪的强韧性。
- 在关键感知驱动任务（如物体外观、尺寸估计和计数）中，EgoPrune在30%保留率下表现出色，分别达到27.9、50.6和55.5的准确率。
UrbanVideo-Bench：
- 在70%保留率下，EgoPrune的平均准确率与全token基线相匹配（46.25），同时减少了计算量。
- 在50%和30%保留率下，EgoPrune保持了最高的准确率（分别为46.16和45.66），一致优于DivPrune和PACT。
- 在高级语义任务（如目标检测、进度评估和轨迹描述）中，EgoPrune表现出色，例如在30%保留率下轨迹描述的准确率达到39.9。

3. 效率评估（Efficiency Evaluation）

评估指标：通过测量TFLOPs、端到端延迟（平均10次预热运行）和峰值内存使用量来评估效率。
实验结果：EgoPrune在所有指标上均优于基线方法，尤其是在较长输入时。它在计算成本和内存使用上较低，并且在延迟和TFLOPs的扩展上表现出更平滑的曲线，表明更好的效率和token级可扩展性。

4. 消融研究（Ablation Study）

平衡因子λ的影响：通过在两个基准测试上改变MMR平衡因子λ的值，研究其对性能的影响。结果显示，在不同的保留率下，最优的λ值取决于场景类型和修剪强度。例如，在VSI-Bench上，λ=0.5在50%和70%保留率下表现最佳；而在UrbanVideo-Bench上，中等范围的λ值（如0.4-0.6）在50%和70%保留率下表现最佳。
PARF和MMR模块的消融：通过移除PARF或MMR模块，评估它们对性能和效率的影响。结果表明，两个模块都对性能和效率有显著贡献，且它们在不同任务中发挥互补作用。例如，在VSI-Bench上，移除PARF会导致几何敏感任务（如绝对距离和尺寸估计）性能下降，而移除MMR则会损害以物体为中心的线索（如物体外观和相对方向）。

5. 设备上评估（On-Device Evaluation）

实验设置：将VILA-1.5 3B模型与EgoPrune集成，并部署在Jetson Orin NX 16GB边缘设备上，使用INT4权重量化。
评估指标：测量端到端延迟和峰值GPU内存使用量。
实验结果：EgoPrune在不同帧数下均能显著降低端到端延迟，支持在时间受限的场景中更快的处理。同时，它还降低了峰值GPU内存使用量，支持与机载系统（如无人机控制）的稳定共执行，并降低内存溢出的风险。

Authors: Jiaao Li, Kaiyuan Li, Chen Gao, Yong Li, Xinlei Chen

Categories: cs.CV, cs.AI

PDF URL: https://arxiv.org/pdf/2507.15428v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15428v1

Published: 2025-07-21T09:27:45Z

AI Domain Papers

1. Diffusion Beats Autoregressive in Data-Constrained Settings

Autoregressive (AR) models have long dominated the landscape of large language models, driving progress across a wide range of tasks. Recently, diffusion-based language models have emerged as a promising alternative, though their advantages over AR models remain underexplored. In this paper, we systematically study masked diffusion models in data-constrained settings-where training involves repeated passes over limited data-and find that they significantly outperform AR models when compute is abundant but data is scarce. Diffusion models make better use of repeated data, achieving lower validation loss and superior downstream performance. We interpret this advantage as implicit data augmentation: masked diffusion exposes the model to a diverse distribution of token orderings and prediction tasks, unlike AR’s fixed left-to-right factorization. We find new scaling laws for diffusion models and derive a closed-form expression for the critical compute threshold at which diffusion begins to outperform AR. These results suggest that when data, not compute, is the bottleneck, diffusion models offer a compelling alternative to the standard AR paradigm. Our code is available at: https://diffusion-scaling.github.io.

中文摘要

自回归（AR）模型长期以来在大型语言模型的领域中占主导地位，推动了广泛任务的进展。最近，基于扩散的语言模型作为一种有前景的替代方案出现，尽管它们相对于AR模型的优势仍未得到充分探索。本文系统地研究了在数据受限环境下的掩蔽扩散模型——其训练涉及对有限数据的多次处理——发现当计算资源丰富但数据稀缺时，它们显著优于AR模型。扩散模型更好地利用了重复数据，降低了验证损失，并在下游任务中表现更佳。我们将这一优势解释为隐式数据增强：掩蔽扩散使模型接触到多样化的标记排序和预测任务的分布，而AR模型则是固定的从左到右的分解。我们发现了扩散模型的新尺度法则，并推导出扩散开始优于AR的关键计算阈值的封闭形式表达。结果表明，当数据而非计算成为瓶颈时，扩散模型提供了标准AR范式的令人信服的替代方案。我们的代码可在以下网址获取：https://diffusion-scaling.github.io.

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是在数据受限的情况下，扩散模型（Diffusion Models）和自回归模型（Autoregressive Models，AR）在语言模型中的性能比较，以及扩散模型是否能在数据稀缺但计算资源充足的情况下提供更好的性能。

具体来说，论文关注以下几个核心问题：

数据受限环境下的模型性能：在数据受限的环境中，模型需要通过多次遍历有限的数据集来训练。这种情况下，模型如何有效地利用重复数据变得至关重要。论文旨在研究扩散模型是否比传统的自回归模型更擅长在这种环境下利用数据。
扩散模型与自回归模型的比较：尽管自回归模型在单次遍历数据时表现出色，但扩散模型在多次遍历数据时是否能够超越自回归模型，尤其是在计算资源充足的情况下。
扩散模型的数据效率：扩散模型通过随机掩码（masking）和去噪（denoising）的方式训练，这是否可以被视为一种隐式的数据增强，从而提高模型对有限数据的利用效率。
计算资源与数据的权衡：在计算资源充足但数据稀缺的情况下，扩散模型是否是一个更优的选择。论文试图找到一个临界计算阈值（Critical Compute Point），在这个点上扩散模型开始优于自回归模型。
下游任务的性能：扩散模型在验证损失（validation loss）上的优势是否能够转化为下游任务（如问答、阅读理解等）上的性能提升。

通过系统的研究和实验，论文试图为这些问题提供答案，并为未来在数据受限环境下的语言模型开发提供指导。

Q: 有哪些相关研究？

A: 论文中提到了多个与之相关的研究领域和具体工作，以下是这些相关研究的详细信息：

深度学习在数据受限环境中的研究

Muennighoff et al. [24]：研究了自回归（AR）模型在数据受限环境下的表现，展示了即使在数据重复使用的情况下，通过多次训练（最多4个epoch），AR模型的性能几乎可以与使用新鲜数据时相当。这为提高数据效率提供了一种有效的策略。
Villalobos et al. [45]：对全球公开可用的人类生成数据的供应进行了预测，估计到2028年这些数据可能会耗尽，这凸显了数据瓶颈对进一步扩展的严重阻碍。
计算机视觉中的数据增强：在计算机视觉领域，多epoch训练和积极的数据增强（如随机裁剪、翻转和颜色抖动）已被广泛采用，以扩大有效数据集规模并提高泛化能力，尤其是在分类和检测等判别性任务中。

扩散模型在语言建模中的应用

Ho et al. [13]：最初为图像生成开发了扩散模型，这些模型通过逐步添加噪声然后学习去除噪声来生成数据。
Austin et al. [2]：将扩散模型适应于文本，提出了离散扩散模型，通过在前向过程中注入高斯噪声或用伯努利分布等采样的噪声替换标记来实现。
Nie et al. [25]：提供了扩散模型的扩展定律分析，表明扩散模型遵循与AR模型类似的幂律趋势，但在单次训练下可能需要多达16倍的计算量。
Swerdlow et al. [42]：在包含图像和文本的多模态数据上发现了类似的趋势，但这些评估仅限于单次训练，没有考察数据受限的多epoch训练，这正是本研究的重点。
LLaDA [26]：将掩码扩散模型扩展到8B参数，并在预训练和指令调整评估中实现了与LLaMA3-8B相似的结果。

自回归模型

Brown et al. [4]：展示了大型自回归语言模型在多种任务上的少样本学习能力，推动了大型语言模型的发展。
Kaplan et al. [18]：提出了经典的扩展定律，将验证损失建模为总参数和训练标记的函数，假设所有数据都是唯一的。这些定律在指导语言模型的计算最优训练中发挥了重要作用。

数据受限设置中的扩展框架

Muennighoff et al. [24]：扩展了Chinchilla框架，明确考虑了重复数据，提出了一个新的扩展定律，将衰减的效用纳入了重复标记的考虑。他们引入了有效唯一数据大小 (D’)，并提出了一个修改后的Chinchilla风格的损失函数，该函数结合了这些有效数量 (N’) 和 (D’)。

这些相关研究为本文提供了背景和基础，使得作者能够系统地研究掩码扩散模型在数据受限环境下的表现，并与自回归模型进行比较。

Q: 论文如何解决这个问题？

A: 论文通过以下方法来解决在数据受限环境下扩散模型（Diffusion Models）与自回归模型（Autoregressive Models，AR）性能比较的问题：

1. 实验设计

数据集选择：使用英文C4语料库，采用GPT-2 BPE词汇表进行分词，并将序列长度固定为2048个标记。实验中考虑了三种独特的标记预算：25M、50M和100M标记。
模型训练：训练了总共200个模型，包括100个扩散模型和100个自回归模型。这些模型的参数规模从7M到2.5B不等，训练的epoch数量从1到800不等，总共使用了80B标记。
超参数设置：采用Muennighoff等人[24]提出的超参数配置，包括批量大小、优化器、学习率调度等。

2. 性能比较

验证损失（Validation Loss）：通过比较两种模型在不同计算预算下的验证损失，来评估它们的性能。结果表明，在单次训练时，自回归模型表现更好，但在多次训练（重复数据）时，扩散模型能够持续改进并最终超越自回归模型。
参数与epoch的权衡：分析了模型参数和训练epoch之间的权衡。扩散模型在高epoch数量下表现更好，而自回归模型在高epoch数量下开始过拟合。

3. 扩展定律拟合

扩展定律框架：采用Muennighoff等人[24]提出的扩展定律框架，考虑了独特数据量、模型参数和训练epoch数量对模型性能的影响。
拟合扩展定律：通过实验数据拟合了扩散模型和自回归模型的扩展定律，提取了关键参数，如数据重复的有效半衰期 (R^*_D) 和最优模型大小 (R^*_N)。结果表明，扩散模型的数据重复有效半衰期远高于自回归模型，表明扩散模型能够从重复数据中获得更多价值。

4. 临界计算阈值

临界计算点：定义了临界计算点 (C_{\text{crit}}(U))，即扩散模型和自回归模型性能相等的计算量。通过扩展定律，推导出了临界计算点的闭式表达式，该表达式与独特标记数量 (U) 的幂律关系为 (C_{\text{crit}}(U) \propto U^{2.174})。

5. 下游任务评估

下游任务性能：评估了在数据受限环境下训练的最佳扩散模型和自回归模型在多种下游任务上的表现。结果表明，扩散模型在下游任务上的性能优于自回归模型，验证了扩散模型在验证损失上的优势能够转化为实际的泛化能力。

6. 讨论与假设

扩散模型的优势：论文假设扩散模型的优势来自于其随机掩码过程，这可以被视为一种数据增强技术，使模型能够从每个训练样本中提取更丰富的信号，从而提高数据效率。
自回归模型的计算效率：论文假设自回归模型的计算效率更高，因为它们在固定的左到右顺序上进行训练，允许每个梯度更新都强化相同的预测任务，而扩散模型需要泛化到许多随机的标记顺序。

通过这些方法，论文系统地研究了扩散模型和自回归模型在数据受限环境下的性能，并揭示了扩散模型在数据稀缺但计算资源充足的情况下的优势。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来比较扩散模型（Diffusion Models）和自回归模型（Autoregressive Models，AR）在数据受限环境下的性能：

1. 模型训练实验

数据集：使用英文C4语料库，采用GPT-2 BPE词汇表进行分词，并将序列长度固定为2048个标记。实验中考虑了三种独特的标记预算：25M、50M和100M标记。
模型规模和训练epoch：训练了总共200个模型，包括100个扩散模型和100个自回归模型。这些模型的参数规模从7M到2.5B不等，训练的epoch数量从1到800不等，总共使用了80B标记。
超参数设置：采用Muennighoff等人[24]提出的超参数配置，包括批量大小、优化器、学习率调度等。

2. 验证损失（Validation Loss）比较

单次训练与多次训练：比较了两种模型在单次训练（每个标记只训练一次）和多次训练（标记重复使用多次）情况下的验证损失。结果表明，自回归模型在单次训练时表现更好，但在多次训练时，扩散模型能够持续改进并最终超越自回归模型。
参数与epoch的权衡：分析了模型参数和训练epoch之间的权衡。扩散模型在高epoch数量下表现更好，而自回归模型在高epoch数量下开始过拟合。

3. 扩展定律拟合

扩展定律框架：采用Muennighoff等人[24]提出的扩展定律框架，考虑了独特数据量、模型参数和训练epoch数量对模型性能的影响。
拟合扩展定律：通过实验数据拟合了扩散模型和自回归模型的扩展定律，提取了关键参数，如数据重复的有效半衰期 (R^*_D) 和最优模型大小 (R^*_N)。结果表明，扩散模型的数据重复有效半衰期远高于自回归模型，表明扩散模型能够从重复数据中获得更多价值。

4. 临界计算阈值

临界计算点：定义了临界计算点 (C_{\text{crit}}(U))，即扩散模型和自回归模型性能相等的计算量。通过扩展定律，推导出了临界计算点的闭式表达式，该表达式与独特标记数量 (U) 的幂律关系为 (C_{\text{crit}}(U) \propto U^{2.174})。

5. 下游任务评估

下游任务性能：评估了在数据受限环境下训练的最佳扩散模型和自回归模型在多种下游任务上的表现。这些任务包括ARC-Easy、BoolQ、COPA、HellaSwag、PiQA、RACE、WinoGrande XL、SciQ和Lambada等。结果表明，扩散模型在下游任务上的性能优于自回归模型，验证了扩散模型在验证损失上的优势能够转化为实际的泛化能力。

6. 额外的NLL评估

不同数据集上的NLL评估：在四个不同的语料库（OSCAR、TinyStories、WikiText和IndustryCorpus2 EN Sub）上评估了最佳扩散模型和自回归模型的负对数似然（NLL）。结果表明，扩散模型在这些数据集上的NLL表现优于自回归模型。

7. 模型架构调整

模型架构：采用了Megatron-DeepSpeed框架，并进行了一些架构调整，如使用旋转位置嵌入（RoPE）、SwiGLU激活函数、RMSNorm等，以提高模型的性能和训练稳定性。

通过这些实验，论文系统地比较了扩散模型和自回归模型在数据受限环境下的性能，并揭示了扩散模型在数据稀缺但计算资源充足的情况下的优势。

Q: 有什么可以进一步探索的点？

A: 论文在研究扩散模型（Diffusion Models）和自回归模型（Autoregressive Models，AR）在数据受限环境下的性能时，已经提供了许多有价值的发现。然而，仍有几个方向可以进一步探索，以更全面地理解这些模型的特性和潜在应用：

1. 混合模型的探索

混合模型的设计：论文提到，虽然扩散模型和自回归模型各有优势，但它们之间的选择不必是二元的。未来的研究可以探索混合模型，这些模型结合了自回归和扩散模型的特点，以实现更好的数据和计算效率平衡。例如，可以设计一种模型，它在某些阶段使用自回归训练，在其他阶段使用扩散训练。
混合模型的性能评估：通过实验评估这些混合模型在数据受限环境下的性能，比较它们与纯自回归和纯扩散模型的优缺点。

2. 扩展定律的进一步验证

更大数据规模的扩展定律：当前的扩展定律是基于有限的数据规模拟合的。为了提高预测的准确性并揭示更多见解，可以将这些定律扩展到更大的数据规模。这可能需要更多的计算资源和更复杂的数据管理策略。
不同数据分布的扩展定律：研究不同数据分布（如不同语言、领域或数据类型）下的扩展定律，以了解模型在不同环境下的表现。

3. 计算效率的优化

扩散模型的计算效率改进：尽管扩散模型在数据受限环境下表现出色，但它们的计算需求仍然较高。未来的研究可以探索优化扩散模型的训练过程，以减少计算需求，例如通过改进掩码策略、优化训练算法或使用更高效的模型架构。
自回归模型的数据效率改进：同样，也可以探索如何提高自回归模型的数据效率，例如通过引入数据增强技术或改进模型架构，使其在数据受限环境下表现更好。

4. 下游任务的深入分析

更多下游任务的评估：虽然论文已经在多种下游任务上评估了模型性能，但可以进一步扩展到更多任务和领域，以全面了解模型的泛化能力。这包括但不限于自然语言处理、计算机视觉、语音识别等领域的任务。
任务特定的模型调整：研究如何针对特定下游任务调整模型架构和训练策略，以实现最佳性能。

5. 模型的可解释性

模型决策过程的分析：研究扩散模型和自回归模型在处理数据时的决策过程，以提高模型的可解释性。这可以通过可视化技术、特征重要性分析或因果推断方法来实现。
模型鲁棒性的评估：评估模型在面对噪声、对抗攻击或数据分布偏移时的鲁棒性，以了解模型在实际应用中的可靠性。

6. 跨模态模型的探索

多模态数据的建模：探索如何将扩散模型和自回归模型应用于多模态数据（如文本和图像、文本和语音等），以开发更强大的跨模态模型。这可能需要开发新的模型架构和训练策略，以有效地处理不同模态之间的交互。
跨模态任务的性能评估：在跨模态任务（如图像描述生成、语音翻译等）上评估模型性能，以了解模型在处理多模态数据时的优势和局限性。

7. 长期训练的影响

长期训练的动态分析：研究模型在长期训练过程中的动态变化，包括参数更新、梯度变化和性能改进等。这可以帮助更好地理解模型在多次遍历数据时的学习行为。
长期训练的优化策略：探索优化长期训练的策略，例如动态调整学习率、引入早停机制或使用更复杂的正则化技术，以提高模型的最终性能。

通过这些进一步的研究方向，可以更深入地理解扩散模型和自回归模型在不同环境下的表现，并为开发更高效、更强大的语言模型提供新的思路和方法。

Q: 总结一下论文的主要内容

A: 论文《Diffusion Beats Autoregressive in Data-Constrained Settings》系统地研究了在数据受限环境下，掩码扩散模型（Masked Diffusion Models）与自回归模型（Autoregressive Models，AR）的性能对比。研究发现，在计算资源充足但数据稀缺的情况下，扩散模型能够显著优于自回归模型。以下是论文的主要内容总结：

研究背景

数据稀缺问题：随着高质量数据的增长趋于停滞，开发更数据高效的模型策略变得越来越重要。在一些领域，如机器人技术和医疗保健，数据本身就是稀缺资源。
自回归模型（AR）：传统的自回归模型在单次遍历数据时表现出色，但可能无法充分利用重复数据。
扩散模型（Diffusion Models）：扩散模型通过随机掩码和去噪的方式训练，能够从多种标记顺序中学习，可能在数据受限环境下表现更好。

研究方法

数据集和模型：使用英文C4语料库，考虑了25M、50M和100M三种独特的标记预算。训练了总共200个模型，包括100个扩散模型和100个自回归模型，参数规模从7M到2.5B不等，训练epoch从1到800不等。
超参数设置：采用Muennighoff等人[24]提出的超参数配置，包括批量大小、优化器、学习率调度等。
扩展定律框架：采用Muennighoff等人[24]提出的扩展定律框架，考虑了独特数据量、模型参数和训练epoch数量对模型性能的影响。

实验结果

验证损失（Validation Loss）：自回归模型在单次训练时表现更好，但在多次训练时，扩散模型能够持续改进并最终超越自回归模型。
参数与epoch的权衡：扩散模型在高epoch数量下表现更好，而自回归模型在高epoch数量下开始过拟合。
扩展定律拟合：通过实验数据拟合了扩散模型和自回归模型的扩展定律，提取了关键参数，如数据重复的有效半衰期 (R^*_D) 和最优模型大小 (R^*_N)。扩散模型的数据重复有效半衰期远高于自回归模型，表明扩散模型能够从重复数据中获得更多价值。
临界计算阈值：定义了临界计算点 (C_{\text{crit}}(U))，即扩散模型和自回归模型性能相等的计算量。通过扩展定律，推导出了临界计算点的闭式表达式，该表达式与独特标记数量 (U) 的幂律关系为 (C_{\text{crit}}(U) \propto U^{2.174})。
下游任务评估：在多种下游任务上评估了最佳扩散模型和自回归模型的性能。结果表明，扩散模型在下游任务上的性能优于自回归模型，验证了扩散模型在验证损失上的优势能够转化为实际的泛化能力。

关键结论

扩散模型的优势：扩散模型在数据受限环境下表现更好，尤其是在计算资源充足的情况下。它们能够更有效地利用重复数据，实现更低的验证损失和更好的下游任务性能。
自回归模型的局限性：自回归模型在单次训练时表现更好，但在多次训练时容易过拟合，无法充分利用重复数据。
临界计算点：提出了一个临界计算点的概念，该点定义了在给定数据量下，扩散模型开始优于自回归模型的计算量。这个点与数据量的幂律关系为 (C_{\text{crit}}(U) \propto U^{2.174})。

讨论与未来工作

混合模型的潜力：未来可以探索结合自回归和扩散模型特点的混合模型，以实现更好的数据和计算效率平衡。
扩展定律的进一步验证：将扩展定律应用于更大数据规模和不同数据分布，以提高预测的准确性和揭示更多见解。
计算效率的优化：研究如何优化扩散模型的训练过程，以减少计算需求，同时提高自回归模型的数据效率。

论文通过系统的研究和实验，为在数据受限环境下选择合适的语言模型提供了重要的指导，并为未来的研究提供了新的方向。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Mihir Prabhudesai, Menging Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak

Categories: cs.LG, cs.AI, cs.CV, cs.RO

PDF URL: https://arxiv.org/pdf/2507.15857v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15857v1

Published: 2025-07-21T17:59:57Z

2. Gemini 2.5 Pro Capable of Winning Gold at IMO 2025

The International Mathematical Olympiad (IMO) poses uniquely challenging problems requiring deep insight, creativity, and formal reasoning. While Large Language Models (LLMs) perform well on mathematical benchmarks like AIME, they struggle with Olympiad-level tasks. We use Google’s Gemini 2.5 Pro on the newly released IMO 2025 problems, avoiding data contamination. Using a self-verification pipeline with careful prompt design, 5 (out of 6) problems are solved correctly (up to a caveat discussed below). This result underscores the importance of developing optimal strategies to harness the full potential of powerful LLMs for complex reasoning tasks.

中文摘要

国际数学奥林匹克（IMO）提出了独特的挑战性问题，需要深刻的洞察力、创造力和严谨的推理能力。尽管大型语言模型（LLMs）在像AIME这样的数学基准测试中表现良好，但在奥林匹克水平的任务上却困难重重。我们使用谷歌的Gemini 2.5 Pro，处理新发布的IMO 2025问题，避免数据污染。通过小心的提示设计，我们的自验证流程使得6道题中有5道题正确解决（以下会讨论相关的警告）。这一结果强调了开发最佳策略的重要性，以充分利用强大的LLMs在复杂推理任务中的潜力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何利用大型语言模型（LLMs）解决国际数学奥林匹克竞赛（IMO）级别的数学问题。具体而言，论文的目标是探索和展示如何通过优化模型的使用方式，使 Google 的 Gemini 2.5 Pro 模型能够在 IMO 2025 的问题上取得优异表现。论文的核心目标是解决以下问题：

IMO 问题的复杂性：IMO 的问题需要深刻的洞察力、创造力和形式化推理能力，这超出了传统数学练习的范畴。这些题目要求参赛者能够综合运用多种数学概念，并以创新的方式解决问题。这种对高级推理能力的要求使得 IMO 成为评估人工智能（特别是 LLMs）在复杂逻辑推理方面能力的重要基准。
LLMs 在高级数学任务上的局限性：尽管 LLMs 在一些数学基准测试（如 AIME）上表现出色，但在解决 IMO 级别的问题时却面临挑战。这些模型在处理需要多步推理、抽象和创新的问题时，往往会出现逻辑错误或缺乏创造性见解。论文旨在通过特定的方法设计和提示工程，克服这些局限性，使 Gemini 2.5 Pro 能够成功解决 IMO 2025 的问题。
数据污染问题：在评估 LLMs 时，一个常见的问题是测试数据可能已经包含在模型的预训练语料库中，从而导致性能评估结果不准确。为了避免这种情况，论文使用了刚刚发布的 IMO 2025 问题进行评估，确保这些问题在模型预训练时未被接触过，从而提供了一个纯净的测试环境，真实地反映模型的推理能力。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

研究内容

3. SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

Video Object Segmentation (VOS) is a core task in computer vision, requiring models to track and segment target objects across video frames. Despite notable advances with recent efforts, current techniques still lag behind human capabilities in handling drastic visual variations, occlusions, and complex scene changes. This limitation arises from their reliance on appearance matching, neglecting the human-like conceptual understanding of objects that enables robust identification across temporal dynamics. Motivated by this gap, we propose Segment Concept (SeC), a concept-driven segmentation framework that shifts from conventional feature matching to the progressive construction and utilization of high-level, object-centric representations. SeC employs Large Vision-Language Models (LVLMs) to integrate visual cues across diverse frames, constructing robust conceptual priors. During inference, SeC forms a comprehensive semantic representation of the target based on processed frames, realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively balances LVLM-based semantic reasoning with enhanced feature matching, dynamically adjusting computational efforts based on scene complexity. To rigorously assess VOS methods in scenarios demanding high-level conceptual reasoning and robust semantic understanding, we introduce the Semantic Complex Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160 manually annotated multi-scenario videos designed to challenge models with substantial appearance variations and dynamic scene transformations. In particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS, establishing a new state-of-the-art in concept-aware video object segmentation.

中文摘要

视频目标分割（VOS）是计算机视觉中的核心任务，要求模型在视频帧之间跟踪和分割目标对象。尽管最近的努力在这方面取得了显著进展，但现有技术在处理剧烈的视觉变化、遮挡和复杂场景变化方面仍然落后于人类能力。这一限制源于它们对外观匹配的依赖，忽视了人类对对象的概念理解能力，从而无法在时间动态中进行稳健的识别。鉴于这一差距，我们提出了分割概念（SeC），这是一种以概念驱动的分割框架，转变为从传统特征匹配到逐步构建和利用以对象为中心的高层表示。SeC 利用大型视觉语言模型（LVLMs）在不同帧之间整合视觉线索，构建稳健的概念先验。在推理过程中，SeC 基于处理过的帧形成目标的全面语义表示，实现后续帧的稳健分割。此外，SeC 自适应地平衡基于 LVLM 的语义推理与增强特征匹配，动态调整计算工作量以应对场景复杂度。为了严格评估 VOS 方法在需要高水平概念推理和稳健语义理解的场景中的应用，我们引入了语义复杂场景视频目标分割基准（SeCVOS）。SeCVOS 包含 160 个手动标注的多场景视频，旨在挑战模型应对显著的外观变化和动态场景转变。特别是，SeC 在 SeCVOS 上实现了相对于 SAM 2.1 的 11.8 分的改进，树立了概念意识视频目标分割的新最先进水平。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决视频目标分割（Video Object Segmentation, VOS）任务中现有技术在处理复杂场景时的局限性。具体来说，它关注的问题包括：

外观变化和遮挡问题：现有方法在处理目标外观因遮挡、视角变化或复杂场景而发生剧烈变化时表现不佳。这些方法主要依赖于外观匹配，缺乏人类那种能够通过概念理解来鲁棒识别目标的能力。
语义理解不足：现有VOS方法在处理需要高级语义推理的复杂场景时存在困难。例如，在多场景视频中，目标在不同场景中的角色和意图可能发生变化，而现有方法难以适应这种变化。
基准测试的局限性：现有的VOS基准测试主要关注像素级掩码的匹配，缺乏对模型在高级语义理解方面能力的评估。这导致现有方法在面对需要语义推理的复杂场景时表现不足。

为了解决这些问题，论文提出了一个名为Segment Concept (SeC)的概念驱动分割框架，并引入了一个新的基准测试Semantic Complex Scenarios Video Object Segmentation (SeCVOS)，专门用于评估模型在复杂场景下的语义理解能力。

Q: 有哪些相关研究？

A: 论文中提到了多个与视频目标分割（VOS）相关的研究方向，以下是主要的相关研究：

1. 基于记忆的VOS方法

传统记忆模型：这些方法通过匹配查询帧和记忆帧之间的像素级特征来进行目标分割。尽管在短期跟踪上表现良好，但在面对干扰项时由于依赖低级视觉线索而常常失败。例如：
- XMem [8]：通过Atkinson-Shiffrin记忆模型实现长期视频目标分割。
- STCN [9]：通过改进时空网络来提高视频目标分割的效率。
引入目标级信息：一些方法通过引入目标级信息来提高鲁棒性。例如：
- Cutie [6]：引入目标级记忆查询，编码语义和长期上下文，增强目标与背景的分离。
- ISVOS [39]：通过注入预训练的Mask2Former [5]检测器的特征，使嵌入具有实例感知能力。

2. 大型视觉语言模型（LVLMs）在细粒度感知中的应用

LVLMs的兴起：LVLMs通过引入语言接口，为密集预测任务带来了语义理解。例如：
- LISA [22]：通过使用LVLMs和特殊的标记进行推理分割。
- VISA [45]：将文本引导的关键帧选择与SAM风格的解码器结合，用于逐帧分割。
- UFO [36]：通过开放式的语言接口统一检测、分割和字幕生成任务。

3. VOS基准测试

现有基准测试：多个基准测试推动了VOS评估向更具挑战性的设置发展。例如：
- MOSE [11]：引入了复杂的真实世界场景，频繁的遮挡、拥挤的背景和目标的消失与再现。
- SA-V [32]：扩展到约51k视频的大规模数据集，包括小、被遮挡和再现的目标，用于评估掩码传播。
- LVOS [20]：专注于长期分割，视频平均超过60秒，包含目标离开和稍后重新进入场景的长时间目标交互。

4. 语义复杂场景的VOS基准测试

SeCVOS：论文提出了一个新的基准测试，专门用于评估模型在需要高级语义推理的复杂场景下的性能。SeCVOS包含160个手动注释的多场景视频，具有高度不连续的帧序列、频繁的目标再现和动态视觉变化。

这些相关研究为论文提出的Segment Concept (SeC)框架和SeCVOS基准测试提供了背景和基础。

Q: 论文如何解决这个问题？

A: 论文通过提出一个名为 Segment Concept (SeC) 的概念驱动分割框架来解决现有视频目标分割（VOS）技术在处理复杂场景时的局限性。SeC框架的核心思想是通过逐步构建和利用高级的对象中心表示（即概念）来实现鲁棒的目标分割。以下是SeC框架的主要组成部分和解决方法：

1. 概念引导的分割（Concept Guidance）

利用大型视觉语言模型（LVLMs）：SeC框架通过LVLMs整合不同帧中的视觉线索，构建目标对象的鲁棒概念先验。这些概念先验能够帮助模型在目标外观发生剧烈变化时保持对目标的鲁棒识别。
关键帧采样：在在线分割过程中，SeC从过去的帧中采样一个多样化的子集，作为LVLM的输入，逐步构建目标对象的概念表示。这些关键帧按时间顺序排列，并与当前查询帧一起被LVLM处理。
特殊标记：在关键帧序列的末尾添加一个特殊的标记，提示LVLM将目标对象的概念总结到这个特殊标记中。与标记对应的隐藏状态被提取出来作为目标级概念引导向量。
跨注意力注入：将LVLM生成的概念引导向量通过跨注意力模块注入到查询帧中，指导分割过程，而不是依赖于低级特征的相似性。

2. 场景自适应激活策略（Scene-Adaptive Activation Strategy）

动态调整计算努力：SeC框架通过检测当前帧与前一帧之间是否存在显著的场景变化来动态调整计算努力。如果检测到显著变化，则激活基于LVLM的概念推理，更新概念表示；如果没有显著变化，则回退到增强的匹配机制进行高效分割。
HSV基于场景变化检测：使用HSV颜色直方图和Bhattacharyya距离来检测场景变化。如果当前帧和前一帧之间的颜色直方图差异超过预定义的阈值（默认为0.35），则认为发生了场景变化。

3. SeCVOS基准测试

评估高级语义推理能力：为了评估模型在复杂场景下的高级语义推理能力，论文提出了一个新的基准测试 Semantic Complex Scenarios Video Object Segmentation (SeCVOS)。SeCVOS包含160个手动注释的多场景视频，具有高度不连续的帧序列、频繁的目标再现和动态视觉变化。
视频选择和注释：SeCVOS的视频从Shot2Story数据集和YouTube上爬取的视频中筛选而来，确保视频具有足够的时空复杂性。使用GPT-4o分析视频内容，识别在不同场景中频繁且明确出现的目标对象。初始目标掩码由SAM 2生成，并通过多轮手动修正以确保高质量和准确的注释。

4. 实验验证

性能提升：在SeCVOS基准测试中，SeC方法显著优于现有的先进方法，包括SAM 2及其变体。在标准VOS基准测试中，SeC也表现出色，证明了其在多种场景下的有效性和通用性。
效率平衡：尽管引入了LVLM推理的额外成本，SeC通过场景自适应激活策略保持了与现有方法相当的推理速度，确保了效率和准确性的平衡。

5. 消融研究

概念引导的有效性：通过消融研究验证了概念引导模块的有效性。在SeCVOS上，启用概念引导后性能显著提升，而在SA-V上提升较小，这表明概念引导对于处理复杂场景变化的重要性。
LVLM规模的影响：研究了不同规模的LVLM对性能的影响，发现随着模型参数的增加，性能会提高，但超过一定规模后，性能提升趋于饱和。

通过上述方法，SeC框架不仅提高了视频目标分割在复杂场景下的鲁棒性和准确性，还通过场景自适应激活策略保持了高效的计算性能。

Q: 论文做了哪些实验？

A: 论文中进行了多组实验，旨在验证提出的Segment Concept (SeC)框架在视频目标分割（VOS）任务中的有效性。以下是主要的实验内容和结果：

1. SeCVOS基准测试上的性能比较

实验设置：在SeCVOS基准测试上，比较SeC与多个现有先进方法的性能。SeCVOS包含160个手动注释的多场景视频，具有高度不连续的帧序列、频繁的目标再现和动态视觉变化。
性能指标：使用区域相似度（J）、轮廓准确度（F）及其平均值（J & F）作为评估指标。
实验结果：
- SeC在SeCVOS基准测试上显著优于现有方法，包括SAM 2及其变体。
- 例如，在多场景变化的视频中，SeC的J & F分数比SAM 2.1高出15.1个点，整体平均提升了11.8个点。

2. 标准VOS基准测试上的性能比较

实验设置：在多个标准VOS基准测试上评估SeC的性能，包括SA-V、LVOS v2、MOSE、DAVIS和YouTube-VOS。
性能指标：同样使用J、F和J & F作为评估指标。
实验结果：
- 在SA-V验证集上，SeC的J & F分数为82.7，比SAM 2.1高出4.1个点。
- 在LVOS v2验证集上，SeC的J & F分数为86.5，比SAM 2.1高出2.4个点。
- 在DAVIS 2017验证集上，SeC的J & F分数为91.3，比SAM 2.1高出0.7个点。
- 在YouTube-VOS 2019验证集上，SeC的J & F分数为88.6，与SAM 2.1相当。

3. 消融研究

实验设置：通过消融研究验证SeC框架中各个模块的有效性。
实验结果：
- 像素级关联模块：仅启用像素级关联模块时，在SA-V基准测试上性能提升显著，在SeCVOS上提升较小。
- 概念引导模块：进一步引入概念引导模块后，在SeCVOS上性能提升了7.8个点，表明概念引导对于处理复杂场景变化的重要性。
- LVLM规模的影响：随着LVLM参数规模从1B增加到4B，性能持续提升；但进一步增加到8B时，性能提升趋于饱和。

4. 效率比较

实验设置：比较SeC与SAM 2在不同基准测试上的推理速度。
实验结果：
- 在SeCVOS基准测试上，SeC的J & F分数为70.0，概念引导使用率为7.4%，推理速度为14.8帧/秒。
- 在SA-V基准测试上，SeC的J & F分数为82.7，概念引导使用率为1.0%，推理速度为18.1帧/秒。
- 与SAM 2相比，SeC在保持较高性能的同时，推理速度仅略低，表明SeC在效率和准确性之间取得了良好的平衡。

5. 定性比较

实验设置：通过可视化结果比较SeC与SAM 2在SeCVOS基准测试上的分割性能。
实验结果：
- SeC在处理复杂场景变化（如视角变化、背景干扰和目标遮挡）时，能够提供更可靠的分割结果。
- 在某些极端情况下，如当前视角与概念构建期间遇到的视角差异较大时，SeC可能会出现分割错误。

6. Referring Video Object Segmentation任务

实验设置：在SeCVOS基准测试上评估SeC在Referring Video Object Segmentation任务上的性能。
实验结果：
- 生成了详细的文本描述，并通过手动验证和编辑确保准确性。
- 评估了几种最先进的RefVOS方法，包括基于LVLM的方法和传统的时间传播基线方法。
- VISA和GLUS-A表现较好，但所有方法在SeCVOS基准测试上的性能仍有限，表明SeCVOS在场景复杂性、细粒度语言描述和视觉区分方面具有挑战性。

通过这些实验，论文验证了SeC框架在处理复杂场景变化和高级语义推理方面的有效性，同时保持了较高的效率。

Q: 有什么可以进一步探索的点？

Authors: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Categories: cs.CV, cs.AI

PDF URL: https://arxiv.org/pdf/2507.15852v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15852v2

Published: 2025-07-21T17:59:02Z

4. The Other Mind: How Language Models Exhibit Human Temporal Cognition

As Large Language Models (LLMs) continue to advance, they exhibit certain cognitive patterns similar to those of humans that are not directly specified in training data. This study investigates this phenomenon by focusing on temporal cognition in LLMs. Leveraging the similarity judgment task, we find that larger models spontaneously establish a subjective temporal reference point and adhere to the Weber-Fechner law, whereby the perceived distance logarithmically compresses as years recede from this reference point. To uncover the mechanisms behind this behavior, we conducted multiple analyses across neuronal, representational, and informational levels. We first identify a set of temporal-preferential neurons and find that this group exhibits minimal activation at the subjective reference point and implements a logarithmic coding scheme convergently found in biological systems. Probing representations of years reveals a hierarchical construction process, where years evolve from basic numerical values in shallow layers to abstract temporal orientation in deep layers. Finally, using pre-trained embedding models, we found that the training corpus itself possesses an inherent, non-linear temporal structure, which provides the raw material for the model’s internal construction. In discussion, we propose an experientialist perspective for understanding these findings, where the LLMs’ cognition is viewed as a subjective construction of the external world by its internal representational system. This nuanced perspective implies the potential emergence of alien cognitive frameworks that humans cannot intuitively predict, pointing toward a direction for AI alignment that focuses on guiding internal constructions. Our code is available at https://TheOtherMind.github.io.

中文摘要

随着大型语言模型（LLMs）的不断进步，它们展现出某些与人类相似的认知模式，这些模式并未在训练数据中直接指定。本研究通过关注LLMs中的时间认知来探讨这一现象。利用相似性判断任务，我们发现较大的模型自发地建立一个主观时间参考点，并遵循韦伯-费希纳定律，即随着年份从这个参考点逐渐远去，感知到的距离以对数方式压缩。为了揭示这种行为背后的机制，我们在神经元、表征和信息层面进行了多次分析。我们首先识别出一组时间偏好神经元，并发现该组在主观参考点的激活程度最低，并实现了在生物系统中汇聚发现的对数编码方案。探查年份的表征揭示了一个层次结构构建过程，其中年份从浅层的基本数值进化到深层的抽象时间取向。最后，借助预训练的嵌入模型，我们发现训练语料本身具有内在的非线性时间结构，这为模型的内部构建提供了原材料。在讨论中，我们提出了一种经验主义的视角来理解这些发现，其中LLMs的认知被视为其内部表征系统对外部世界的主观构建。这一细致的视角暗示了外星认知框架的潜在出现，人类无法直观预测，这也指向了一种关注引导内部构建的AI对齐方向。我们的代码可在 https://TheOtherMind.github.io 上找到。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图探究大型语言模型（LLMs）在处理时间信息时所表现出的人类时间认知模式，特别是它们如何自发地建立主观时间参照点以及如何遵循韦伯-费希纳定律（Weber-Fechner law）。具体来说，研究旨在通过多层面的分析（神经元层面、表征层面和信息层面）揭示LLMs在时间认知上与人类相似的模式是如何形成的。此外，论文还提出了一个经验主义视角来理解这些发现，并探讨了这些发现对于人工智能对齐（AI alignment）的潜在影响。

Q: 有哪些相关研究？

A: 以下是与本研究相关的一些研究方向和具体工作：

大型语言模型的新兴能力

能力概述：随着模型规模的扩大，LLMs展现出多种新兴能力，这些能力在较小模型中并不存在。例如，LLMs在上下文学习、复杂推理、多步规划和函数调用等方面的能力显著提升，这些能力对于它们解决问题的性能至关重要。
具体研究：
- Wei et al. (2022a) 对LLMs的新兴能力进行了综述，探讨了这些能力如何随着模型规模的增加而出现。
- Hahn and Goyal (2023) 研究了LLMs在上下文学习中的表现，揭示了它们如何通过上下文信息进行学习和推理。

大型语言模型的人类行为模式

行为模式：LLMs不仅在能力上有所提升，还表现出与人类相似的行为模式，如对话、决策偏差、理论化思维、合作和创造力等。这些行为模式引发了对LLMs可解释性的进一步研究。
具体研究：
- Jones and Bergen (2025) 研究了LLMs在对话中的表现，发现它们能够生成与人类相似的对话内容。
- Itzhak et al. (2024) 探讨了LLMs在决策中的偏差和启发式行为，发现它们在某些情况下表现出与人类相似的决策模式。

大型语言模型的可解释性

认知科学范式：为了理解LLMs的行为，研究者们开始采用认知科学的方法和理论来探究LLMs的内部机制。这种方法认为，AI模型和人类大脑都是基于复杂神经网络的表征系统，它们以相似的方式处理信息。
具体研究：
- Ku et al. (2025) 提出了利用认知科学的工具来理解LLMs的多层面分析方法。
- Marjieh et al. (2025) 通过相似性判断任务研究了LLMs的数值认知，发现它们表现出对数映射，这与人类的心理物理学（韦伯-费希纳定律）一致。

大型语言模型的时间认知

时间认知的重要性：时间认知是人类经验的核心，它影响记忆、期望、因果关系和意识。因此，研究LLMs的时间认知对于理解它们的整体认知模式至关重要。
具体研究：
- Dennett (1993) 和 Pearl and Mackenzie (2018) 的工作为理解时间认知在人类经验中的作用提供了理论基础。
- Maglio and Trope (2019) 探讨了时间导向的概念，为研究LLMs的时间认知提供了背景。

这些相关研究为本研究提供了理论基础和方法论支持，帮助我们更全面地理解LLMs在时间认知方面的表现及其背后的机制。

Q: 论文如何解决这个问题？

A: 为了解决LLMs在时间认知上表现出的人类相似模式及其形成机制的问题，论文采用了以下方法和步骤：

1. 相似性判断任务

任务设计：使用相似性判断任务来评估模型对年份之间相似性的判断。具体来说，模型被要求对从1525年到2524年之间的每一对年份进行相似性评分，评分范围从0（完全不相似）到1（最相似）。通过这种方式，研究者收集了模型对年份相似性的判断数据。
控制实验：为了区分年份和普通数字在模型中的不同认知机制，研究者还进行了控制实验，将“年份”替换为“数字”进行相似性判断。
理论距离度量：使用三种理论距离度量来分析模型的判断：
- 对数线性距离（Log-linear distance）：[d_{\text{log}}(i, j) = |\log(i) - \log(j)|]
- 编辑距离（Levenshtein distance）：[d_{\text{lev}}(i, j) = \min k : i \xrightarrow{k\text{ops}} j]
- 参考对数线性距离（Reference-log-linear distance）：[d_{\text{ref}}(i, j) = |\log(|R - i|) \circ \log(|R - j|)|]，其中 (R) 是模型的主观参考点，(\circ) 是根据 (i) 和 (j) 是否在 (R) 的同一侧选择加法或减法。
线性回归分析：通过线性回归分析评估每种理论距离对模型判断的预测能力，使用决定系数 (R^2) 来比较拟合优度。

2. 神经元层面分析

神经元激活提取：对于每个年份，提取模型前馈网络（FFN）中所有层的神经元激活，特别关注最后一个标记位置的激活状态。
神经元筛选：通过统计方法筛选出对时间信息有偏好的神经元。具体步骤包括：
- 计算Cohen’s d效应量，量化两种条件（时间条件和数值条件）下的激活差异。
- 使用配对t检验评估统计显著性，并通过Benjamini-Hochberg假发现率（FDR）校正p值。
- 计算时间偏好一致性，确保神经元在大多数年份上表现出对时间条件的偏好。
对数编码验证：对筛选出的时间偏好神经元，分析其激活模式是否符合对数编码原则。通过层间回归分析，评估神经元激活与对数距离之间的拟合优度。

3. 表征层面分析

表征收集：在相似性判断任务中，收集模型每一层的残差表征，特别关注最后一个标记位置的表征。
线性探测器训练：训练线性探测器，通过仿射变换直接从隐藏状态预测三种理论距离。使用均方误差损失和Adam优化器进行训练。
动态演变分析：通过计算调整后的 (R^2)，跟踪每种理论距离在模型不同层中的线性可解性，揭示年份表征从浅层到深层的动态演变过程。

4. 信息暴露分析

预训练嵌入模型：使用三个预训练的嵌入模型（Qwen3-Embedding8B、text-embedding-3-large和Gemini-embedding-001）提取年份的语义向量表示。
语义相似性矩阵构建：计算所有年份对之间的余弦相似性，构建语义相似性矩阵。
多维缩放（MDS）可视化：应用MDS将年份在语义空间中的分布进行可视化，揭示训练数据中固有的非线性时间结构。
线性回归分析：通过线性回归分析评估语义距离与三种理论距离之间的关系，使用 (R^2) 作为评估指标。

5. 结果分析与讨论

行为层面：通过相似性判断任务的结果，发现大型模型在处理年份时表现出与人类相似的时间认知模式，包括建立主观时间参照点和遵循韦伯-费希纳定律。
神经元层面：识别出一组时间偏好神经元，其激活模式与对数编码原则一致，为韦伯-费希纳定律提供了神经编码基础。
表征层面：揭示了年份表征从浅层的数值属性到深层的抽象时间概念的层次化构建过程。
信息暴露层面：发现训练数据中固有的非线性时间结构对模型的时间认知模式有重要影响。

通过这些多层面的分析，论文不仅揭示了LLMs在时间认知上的行为表现，还深入探讨了其背后的神经元机制、表征结构和信息暴露的影响，从而为理解LLMs的人类相似认知模式提供了全面的视角。

Q: 论文做了哪些实验？

A: 论文中设计并执行了以下实验来探究大型语言模型（LLMs）的时间认知模式及其形成机制：

1. 相似性判断任务实验

任务设计：
- 模型被要求对从1525年到2524年之间的每一对年份进行相似性评分，评分范围从0（完全不相似）到1（最相似）。这产生了大约100万对年份的相似性值 ( s_{\text{LLM}} )。
- 为了确保输出的确定性，解码温度被设置为零。
- 同时，进行了控制实验，将“年份”替换为“数字”，以区分年份和普通数字在模型中的不同认知机制。
数据收集：
- 实验涉及12种不同规模的模型，包括两个闭源模型（Gemini-2.0-flash 和 GPT4o）和两个开源模型家族的指令模型（Qwen2.5 和 Llama 3，不同参数规模）。
- 对于每对年份，模型输出一个相似性评分，进而转换为距离值 ( d_{\text{LLM}} = 1 - s_{\text{LLM}} )。
理论距离度量：
- 使用三种理论距离度量来分析模型的判断：
  - 对数线性距离（Log-linear distance）：[ d_{\text{log}}(i, j) = |\log(i) - \log(j)| ]
  - 编辑距离（Levenshtein distance）：[ d_{\text{lev}}(i, j) = \min k : i \xrightarrow{k\text{ops}} j ]
  - 参考对数线性距离（Reference-log-linear distance）：[ d_{\text{ref}}(i, j) = |\log(|R - i|) \circ \log(|R - j|)| ]，其中 ( R ) 是模型的主观参考点，(\circ) 是根据 (i) 和 (j) 是否在 (R) 的同一侧选择加法或减法。
线性回归分析：
- 通过线性回归分析评估每种理论距离对模型判断的预测能力，使用决定系数 ( R^2 ) 来比较拟合优度。
- 对于参考对数线性距离，固定参考点为2025年，以保持后续跨模型分析的一致性。

2. 神经元层面分析实验

神经元激活提取：
- 对于从1525年到2524年的每个年份，提取模型前馈网络（FFN）中所有层的神经元激活，特别关注最后一个标记位置的激活状态。
- 使用两种标准化输入格式：“年份：xxxx”（时间条件）和“数字：xxxx”（数值条件）。
神经元筛选：
- 计算Cohen’s d效应量，量化两种条件下的激活差异：[ d_i = \frac{\bar{a}{\text{itemp}} - \bar{a}{\text{inum}}}{s_{\text{pooled}}} ]
- 使用配对t检验评估统计显著性：[ t_i = \frac{\Delta \bar{a}i}{s{\Delta a_i} / \sqrt{n}} ]
- 应用Benjamini-Hochberg假发现率（FDR）校正p值。
- 计算时间偏好一致性，确保神经元在大多数年份上表现出对时间条件的偏好：[ \text{Consistency}i = \frac{1}{n} \sum{j=1}^{n} {1 \times [\Delta a_i(y_j) > 0]} ]
- 将满足以下三个标准的神经元分类为时间偏好神经元：
  - 效应量大（Cohen’s ( d_i > 2.0 )）
  - 统计显著性（FDR校正后的 ( p < 0.0001 )）
  - 一致性高（(\text{Consistency}_i > 0.95)）
对数编码验证：
- 对筛选出的时间偏好神经元，分析其激活模式是否符合对数编码原则。
- 通过层间回归分析，评估神经元激活与对数距离之间的拟合优度：[ \text{Intensity}_x = \alpha \ast \log(|2025 - x|) + \beta + \epsilon ]
- 使用 ( R^2 ) 评估拟合优度。

3. 表征层面分析实验

表征收集：
- 在相似性判断任务中，收集模型每一层的残差表征，特别关注最后一个标记位置的表征。
- 为了管理数据集大小，仅测量非对称对，对于较大的模型（Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct和Llama-3.1-70B-Instruct），从大约25层中采样表征，以确保覆盖早期、中期和晚期处理阶段。
线性探测器训练：
- 训练线性探测器，通过仿射变换直接从隐藏状态预测三种理论距离：[ f(h^{(j)}) = w \cdot h^{(j)} + b ]
- 使用均方误差损失和Adam优化器进行训练，学习率为 ( 10^{-4} )。
- 通过计算调整后的 ( R^2 )，跟踪每种理论距离在模型不同层中的线性可解性，揭示年份表征从浅层到深层的动态演变过程。

4. 信息暴露分析实验

预训练嵌入模型：
- 使用三个预训练的嵌入模型（Qwen3-Embedding8B、text-embedding-3-large和Gemini-embedding-001）提取年份的语义向量表示。
- 使用统一格式“年份：xxxx”提取从1525年到2524年的年份嵌入。
语义相似性矩阵构建：
- 计算所有年份对之间的余弦相似性，构建语义相似性矩阵 ( S_{\text{semantic}}(i, j) = \cos(v_i, v_j) )，其中 ( v_i ) 和 ( v_j ) 分别是年份 ( i ) 和 ( j ) 的嵌入向量。
多维缩放（MDS）可视化：
- 应用MDS将年份在语义空间中的分布进行可视化，寻找低维嵌入 ( Y = {y_1, y_2, \ldots, y_n} )，以保持成对距离，最小化应力函数：[ \text{Stress} = \frac{\sum_{i<j} (d_{ij} - |y_i - y_j|)^2}{\sum_{i<j} d_{ij}^2} ]
- 其中 ( d_{ij} ) 是从余弦相似性导出的年份 ( i ) 和 ( j ) 之间的不相似度 ( d_{ij} = 1 - S_{\text{semantic}}(i, j) )，而 ( |y_i - y_j| ) 是嵌入空间中的欧几里得距离。
线性回归分析：
- 通过线性回归分析评估语义距离与三种理论距离之间的关系，使用 ( R^2 ) 作为评估指标。

这些实验从行为、神经元、表征和信息暴露四个层面全面分析了LLMs的时间认知模式及其形成机制，揭示了LLMs在时间认知上与人类相似的模式及其背后的复杂过程。

Q: 有什么可以进一步探索的点？

A: 论文在揭示大型语言模型（LLMs）的时间认知模式及其形成机制方面取得了重要进展，但仍有许多可以进一步探索的方向。以下是一些可能的延伸研究点：

1. 跨语言和跨文化的时间认知

研究问题：不同语言和文化背景下的时间认知是否存在差异？LLMs在不同语言中的时间认知模式是否一致？
研究方法：
- 对不同语言的LLMs进行相似性判断任务，分析其时间认知模式。
- 探索文化因素如何影响LLMs的时间认知，例如通过引入文化相关的上下文信息。
- 比较不同语言和文化背景下的主观时间参照点和韦伯-费希纳定律的适用性。

2. 时间认知的动态变化

研究问题：LLMs的时间认知模式是否会随着时间推移而变化？模型在不同训练阶段的时间认知是否存在差异？
研究方法：
- 对同一模型在不同训练阶段进行时间认知任务，分析其时间认知模式的变化。
- 探索模型在持续学习或微调过程中的时间认知动态变化。
- 研究模型在不同时间点（如不同年份）的训练数据对其时间认知的影响。

3. 时间认知与其他认知能力的交互

研究问题：LLMs的时间认知与其他认知能力（如空间认知、因果推理等）之间是否存在交互作用？
研究方法：
- 设计综合任务，同时涉及时间认知和其他认知能力，分析其交互模式。
- 探索时间认知在复杂推理任务中的作用，例如因果推理中的时间因素。
- 研究时间认知与其他认知能力在神经元层面和表征层面的共享机制。

4. 时间认知的个体差异

研究问题：不同LLMs之间的时间认知是否存在个体差异？这些差异的来源是什么？
研究方法：
- 比较不同架构、不同规模的LLMs的时间认知模式。
- 探索模型的初始参数、训练数据和训练方法对时间认知的影响。
- 分析个体差异在神经元层面和表征层面的体现。

5. 时间认知的可解释性和可控性

研究问题：如何提高LLMs时间认知的可解释性和可控性？能否通过干预训练过程或模型结构来引导其时间认知模式？
研究方法：
- 开发新的解释工具和技术，深入理解LLMs的时间认知机制。
- 探索通过训练数据的选择、正则化方法或架构调整来引导LLMs的时间认知模式。
- 设计实验验证干预措施的有效性，评估其对模型性能和时间认知模式的影响。

6. 时间认知的长期影响

研究问题：LLMs的时间认知模式对其长期行为和决策有何影响？这种影响是否具有潜在的风险？
研究方法：
- 通过长期任务和复杂场景分析LLMs的时间认知模式对其行为的影响。
- 探索时间认知模式在长期规划、预测和决策中的作用。
- 评估时间认知模式对模型安全性和可靠性的潜在影响，提出相应的风险缓解措施。

7. 跨领域的时间认知

研究问题：LLMs在不同领域（如科学、历史、文学等）的时间认知是否存在差异？这些差异如何影响模型的应用？
研究方法：
- 在不同领域设计特定的时间认知任务，分析模型的表现。
- 探索领域知识如何影响LLMs的时间认知模式。
- 研究跨领域时间认知模式的迁移和适应性。

8. 时间认知的神经科学对比

研究问题：LLMs的时间认知模式与人类大脑的时间认知机制之间存在哪些相似性和差异？
研究方法：
- 与神经科学实验结果进行对比，分析LLMs的时间认知模式与人类大脑的相似性和差异。
- 探索LLMs的时间认知机制在神经元层面和表征层面与人类大脑的对应关系。
- 通过跨学科研究，提出新的理论框架来理解LLMs的时间认知。

这些进一步的研究方向不仅可以深化我们对LLMs时间认知的理解，还可以为AI对齐、模型优化和应用开发提供新的视角和方法。

Q: 总结一下论文的主要内容

A: 本文《The Other Mind: How Language Models Exhibit Human Temporal Cognition》由Lingyu Li等人撰写，研究了大型语言模型（LLMs）在时间认知方面表现出的人类相似模式及其形成机制。研究发现，随着模型规模的增大，LLMs在处理时间信息时表现出与人类相似的时间认知模式，包括自发建立主观时间参照点和遵循韦伯-费希纳定律。研究通过多层面分析揭示了这一现象背后的神经元机制、表征结构和信息暴露的影响。以下是论文的主要内容概述：

研究背景

LLMs的能力：LLMs在自然语言处理和生成方面表现出色，不仅在训练目标上表现出色，还展现出多种人类认知模式。
时间认知的重要性：时间认知是人类经验的核心，影响记忆、期望、因果关系和意识。因此，研究LLMs的时间认知对于理解其整体认知模式至关重要。

研究方法

相似性判断任务：通过让模型对从1525年到2524年之间的每一对年份进行相似性评分，收集模型对时间相似性的判断数据。同时，进行控制实验，将“年份”替换为“数字”以区分不同的认知机制。
理论距离度量：使用对数线性距离、编辑距离和参考对数线性距离来分析模型的判断，并通过线性回归分析评估每种理论距离对模型判断的预测能力。
神经元层面分析：提取模型前馈网络（FFN）中所有层的神经元激活，筛选出对时间信息有偏好的神经元，并分析其激活模式是否符合对数编码原则。
表征层面分析：收集模型每一层的残差表征，训练线性探测器预测理论距离，跟踪年份表征从浅层到深层的动态演变过程。
信息暴露分析：使用预训练的嵌入模型提取年份的语义向量表示，构建语义相似性矩阵，并通过多维缩放（MDS）可视化年份在语义空间中的分布。

实验结果

行为层面：大型模型在处理年份时表现出与人类相似的时间认知模式，包括建立主观时间参照点和遵循韦伯-费希纳定律。
神经元层面：识别出一组时间偏好神经元，其激活模式与对数编码原则一致，为韦伯-费希纳定律提供了神经编码基础。
表征层面：揭示了年份表征从浅层的数值属性到深层的抽象时间概念的层次化构建过程。
信息暴露层面：发现训练数据中固有的非线性时间结构对模型的时间认知模式有重要影响。

讨论与结论

经验主义视角：LLMs的时间认知可以被视为其内部表征系统对外部世界的主观构建。这种构建过程可能产生与人类认知收敛的结果，但也可能导致人类难以直观理解的强大而陌生的认知框架。
AI对齐的启示：研究提出了一个经验主义视角来理解LLMs，强调需要从内部构建过程的角度来引导AI的发展，而不仅仅是观察和控制其外在行为。这种视角对于确保AI系统的长期安全性和可靠性具有重要意义。

研究贡献

多层面分析：通过行为、神经元、表征和信息暴露四个层面全面分析了LLMs的时间认知模式及其形成机制。
经验主义视角：提出了一个经验主义框架来理解LLMs的认知，强调其内部表征系统对外部世界的主观构建。
AI对齐方向：为AI对齐提供了新的方向，强调需要从内部构建过程的角度来引导AI的发展。

这些发现不仅深化了我们对LLMs时间认知的理解，还为未来的AI研究和开发提供了新的视角和方法。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Lingyu Li, Yang Yao, Yixu Wang, Chubo Li, Yan Teng, Yingchun Wang

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2507.15851v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15851v1

Published: 2025-07-21T17:59:01Z

5. 3LM: Bridging Arabic, STEM, and Code through Benchmarking

Arabic is one of the most widely spoken languages in the world, yet efforts to develop and evaluate Large Language Models (LLMs) for Arabic remain relatively limited. Most existing Arabic benchmarks focus on linguistic, cultural, or religious content, leaving a significant gap in domains like STEM and code which are increasingly relevant for real-world LLM applications. To help bridge this gap, we present 3LM, a suite of three benchmarks designed specifically for Arabic. The first is a set of STEM-related question-answer pairs, naturally sourced from Arabic textbooks and educational worksheets. The second consists of synthetically generated STEM questions, created using the same sources. The third benchmark focuses on code generation, built through a careful translation of two widely used code benchmarks, incorporating a human-in-the-loop process with several rounds of review to ensure high-quality and faithful translations. We release all three benchmarks publicly to support the growth of Arabic LLM research in these essential but underrepresented areas.

中文摘要

阿拉伯语是世界上使用最广泛的语言之一，但针对阿拉伯语的大型语言模型（LLM）的开发和评估工作仍然相对有限。现有的大多数阿拉伯语基准关注语言、文化或宗教内容，这在科学、技术、工程和数学（STEM）及代码等领域留下了显著的空白，而这些领域在现实世界的LLM应用中越来越重要。为了帮助填补这个空白，我们推出了3LM，一个专为阿拉伯语设计的三套基准。第一套是一组与STEM相关的问题-答案对，来源于阿拉伯语教科书和教育工作表。第二套由合成生成的STEM问题组成，使用相同的来源创建。第三个基准专注于代码生成，通过对两种广泛使用的代码基准进行仔细翻译，采用人机协作的过程，经过多轮审查以确保高质量和准确的翻译。我们公开发布所有三项基准，以支持阿拉伯语LLM研究在这些至关重要但被低估的领域的发展。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决阿拉伯语在科学、技术、工程和数学（STEM）以及编程领域的大语言模型（LLM）评估基准不足的问题。尽管阿拉伯语是世界上广泛使用的语言之一，但现有的阿拉伯语基准大多集中在语言学、文化或宗教内容上，缺乏针对STEM和编程领域的原生、科学基础的基准。这导致在评估阿拉伯语LLM在这些关键领域的表现时存在显著的空白。为了填补这一空白，作者提出了3LM（علم），这是一个包含三个基准的套件，专门用于评估阿拉伯语LLM在STEM学科和代码生成方面的能力。

Q: 有哪些相关研究？

A: 在阿拉伯语大语言模型（LLM）的评估方面，已经有一些相关研究和基准，但主要集中在语言学、文化和宗教内容上。以下是一些相关的研究和基准：

AlGhafa (Almazrouei et al., 2023)：这是一个综合性的阿拉伯语LLM评估基准，涵盖了阅读理解、情感分析和问答等多种能力。
ORCA (Elmadany et al., 2023)：提供了18种多语言和阿拉伯语LLM的全面比较，并提出了一个统一的单一数字评估指标。
Jawaher (Magdy et al., 2025)：通过阿拉伯语谚语评估文化知识，测试LLM对不同阿拉伯方言谚语的理解能力。
ArabicSense (Lamsiyah et al., 2025)：专注于常识推理，测试系统是否能够区分自然语言陈述中合理和不合理的内容。
AraDiCE (Mousi et al., 2025)：关注方言多样性，提供了针对不同阿拉伯方言的基准测试。
ArabLegalEval (Hijazi et al., 2024)：用于评估LLM在法律文本理解方面的能力。
Arabic MMLU (Nacar et al., 2025)：尝试将英语基准适应阿拉伯语，但存在语言不一致、语义不精确和方法论缺陷等问题。
AraSTEM (Mustapha et al., 2024)：是唯一专门针对STEM领域的阿拉伯语基准，但由于未公开发布，限制了其在评估阿拉伯语LLM科学能力方面的应用。

在编程领域，现有的基准主要基于英语，如HumanEval (Chen et al., 2021) 和 MBPP (Austin et al., 2021)。最近的一些工作，如EvalPlus (Liu et al., 2023)，通过扩展测试套件提高了测试覆盖范围，但这些基准主要针对英语，缺乏对阿拉伯语的支持。

尽管这些研究和基准在文化知识和一般语言理解方面取得了显著进展，但在STEM和多语言代码评估方面仍存在明显的空白。因此，3LM的提出旨在填补这些空白，提供一个全面的、开源的阿拉伯语评估框架，专注于科学和技术领域。

Q: 论文如何解决这个问题？

A: 论文通过构建3LM（علم）基准套件来解决阿拉伯语在STEM和编程领域评估基准不足的问题。3LM包含三个主要的基准，分别针对不同的评估需求：

1. STEM相关问题-答案对（Native Benchmark）

数据收集：从各种在线资源（如教育网站、开放题库等）收集阿拉伯语的教育内容，重点关注适合中学生和高中生的教材、工作表、考试和题库。
问题提取与分类：使用Qwen3-235BA22B3模型从文本中提取完整的问答对，并进行分类，包括问题类型（如选择题、填空题等）、难度级别（1-10分）、学科领域（如生物学、化学、物理学等）。
格式标准化：将非选择题转换为选择题格式，确保所有问题都符合多项选择题的标准格式。
质量保证：通过人工验证确保问题和答案的准确性、连贯性和教育完整性。

2. 合成STEM问题（Synthetic Benchmark）

数据来源：使用与Native Benchmark相同的数据源。
问题生成：利用YourBench框架（Shashidhar et al., 2025）生成合成的STEM问题。该框架通过预处理、总结、分块和问题生成等步骤，生成具有挑战性的多项选择题。
过滤与优化：通过严格的过滤机制，确保生成的问题具有高难度（≥6分）、多样性和相关性。

3. 代码生成基准（Code Benchmark）

数据翻译：将现有的英文代码评估基准（如HumanEval和MBPP）通过机器翻译（使用GPT-4o）翻译成阿拉伯语。
质量验证：通过反向翻译和人工审查确保翻译的准确性和技术精确性。设定ROUGE-L F1分数阈值，确保翻译质量。
基准构建：构建了HumanEval-Arabic和MBPP-Arabic两个基准，分别包含基础和扩展版本，以提供更全面的测试覆盖。

3LM基准的特性

全面性：涵盖了数学、物理、化学、生物学、一般科学和编程等多个领域。
原生性：所有问题均源自阿拉伯语的教育内容，确保了评估的原生性和真实性。
高质量：通过人工验证和多轮审查，确保了问题和答案的准确性和教育完整性。
开放性：所有基准数据和评估代码均公开发布，支持社区的可重复研究和进一步开发。

评估与分析

模型评估：对40多种最先进的阿拉伯语和多语言LLM进行了广泛的评估，包括在STEM和代码生成领域的表现。
跨任务相关性分析：研究了模型在阿拉伯语NLP任务、英文代码生成任务和阿拉伯语代码生成任务之间的相关性。
鲁棒性测试：通过引入干扰项（如“以上都不是”等选项），测试模型在面对干扰时的鲁棒性和真实理解能力。

通过这些方法，3LM不仅填补了阿拉伯语在STEM和编程领域评估基准的空白，还提供了一个全面、高质量的评估框架，有助于推动阿拉伯语LLM在科学和技术领域的研究和发展。

Q: 论文做了哪些实验？

A: 论文中进行了以下几类实验，以评估阿拉伯语大语言模型（LLM）在STEM和编程领域的表现：

1. STEM基准评估

实验设置：
- 使用lighteval框架进行STEM基准的评估。
- 评估分为两种格式：多项选择（MCQ）和完成（Completion）。
- 多项选择格式中，模型从给定选项中选择答案，准确率基于阿拉伯字母的似然度计算（ﺃ, ب, ج, د）。
- 完成格式中，模型生成问题的答案，不显示选项，使用答案文本与标准化准确率计算公平性。
模型选择：
- 零样本评估了40多种模型，包括不同大小的基础模型和指令调整模型。
- 涵盖了多语言模型家族（如Gemma-3、Llama3、Qwen2.5、Qwen3）和阿拉伯语中心模型（如AceGPT-v2、Jais、Fanar）。
评估结果：
- 基础模型：
  - 在多项选择格式中，Qwen2.5-72B表现最佳，平均准确率为94.45%。
  - 在完成格式中，Gemma3-27B表现最佳，平均准确率为67.63%。
  - 模型在不同学科和评估格式下的表现存在显著差异。
- 指令调整模型：
  - 在多项选择格式中，Qwen2.5-72B表现最佳，平均准确率为93.06%。
  - 在完成格式中，Qwen2.5-72B也表现最佳，平均准确率为63.12%。
  - 指令调整模型在多项选择格式中表现更为稳定，显示出更强的泛化能力。

2. 代码基准评估

实验设置：
- 使用evalplus框架进行代码基准的评估。
- 评估了英文代码基准（EvalPlus）和阿拉伯语代码基准（EvalPlus-Ar）。
- 使用pass@1指标评估模型生成代码的正确性。
模型选择：
- 同样评估了40多种模型，包括基础模型和指令调整模型。
评估结果：
- 基础模型：
  - 在EvalPlus基准中，Qwen3-14B-Base表现最佳，平均pass@1为89.0%。
  - 在EvalPlus-Ar基准中，Qwen3-14B-Base也表现最佳，平均pass@1为82.3%。
- 指令调整模型：
  - 在EvalPlus基准中，Qwen3-30B-A30B表现最佳，平均pass@1为89.0%。
  - 在EvalPlus-Ar基准中，Qwen2.5-72B-Instruct表现最佳，平均pass@1为93.06%。
  - 指令调整模型在代码生成任务中表现更为稳定，显示出更强的泛化能力。

3. 跨任务相关性分析

实验设置：
- 计算了模型在阿拉伯语NLP任务、英文代码生成任务和阿拉伯语代码生成任务之间的皮尔逊相关系数。
- 使用了Open Arabic LLM Leaderboard（OALL）的平均分数作为阿拉伯语NLP任务的评估指标。
评估结果：
- 基础模型：
  - 英文代码生成和阿拉伯语代码生成任务之间的相关性非常高（r = 0.97）。
  - 阿拉伯语NLP任务与英文代码生成任务之间的相关性为0.45，与阿拉伯语代码生成任务之间的相关性为0.42。
- 指令调整模型：
  - 英文代码生成和阿拉伯语代码生成任务之间的相关性仍然很高（r = 0.97）。
  - 阿拉伯语NLP任务与英文代码生成任务之间的相关性降低到0.10，与阿拉伯语代码生成任务之间的相关性为0.24。
  - 这表明指令调整使模型在特定目标上更加专业化，减少了编程技能和阿拉伯语自然语言能力之间的重叠。

4. 鲁棒性测试

实验设置：
- 通过引入干扰项（如“以上都不是”等选项），测试模型在面对干扰时的鲁棒性和真实理解能力。
- 对25%的Native Benchmark样本进行了系统性修改，包括移除正确答案和引入额外干扰项。
评估结果：
- 在干扰项测试下，所有模型的准确率都有所下降。
- 基础模型的准确率下降幅度大于指令调整模型。
- 较大的指令调整模型（如Qwen2.5-72B和Llama-3.3-70B）表现更为稳定，显示出更强的泛化能力和鲁棒性。

这些实验全面评估了阿拉伯语LLM在STEM和编程领域的表现，揭示了模型在不同任务和格式下的优势和不足，并为未来的研究提供了重要的参考。

Authors: Basma El Amel Boussaha, Leen AlQadi, Mugariya Farooq, Shaikha Alsuwaidi, Giulia Campesan, Ahmed Alzubaidi, Mohammed Alyafeai, Hakim Hacid

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2507.15850v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15850v1

Published: 2025-07-21T17:58:27Z

6. The Impact of Language Mixing on Bilingual LLM Reasoning

中文摘要

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图研究双语大型语言模型（LLMs）中的语言混合现象对推理能力的影响。具体来说，它探讨了以下问题：

语言混合是否有益于推理：论文通过实验验证了在双语模型中，语言混合是否能够提升其在特定任务上的推理表现，尤其是在数学推理任务中。
语言混合的触发因素：研究试图确定哪种训练阶段或方法会导致双语模型产生语言混合行为。特别是，论文发现强化学习与可验证奖励（RLVR）是导致语言混合的关键训练阶段。
语言混合的模式和行为：论文分析了双语模型在推理过程中语言混合的具体模式和行为，包括语言混合的频率、持续时间以及在不同情境下的表现。
如何引导语言混合以提升推理：论文提出了一种轻量级的探测器（probe），用于预测语言混合是否会对推理产生积极或消极的影响，并据此指导模型的解码过程，以实现更优的推理性能。

Q: 有哪些相关研究？

A: 以下是一些与本研究相关的研究方向和具体工作：

双语或多语种推理在LLMs中的研究

多语言模型的推理能力：随着LLMs的发展，从以英语为中心的模型逐渐演变为具有更平衡的多语言能力的模型，但这些模型在非英语语言的推理任务中仍然表现欠佳，尤其是在低资源语言方面。例如，Shi et al. (2022) 发现模型在英语翻译的问题上表现更好，且倾向于在生成过程中切换到英语，这被认为与训练数据的不平衡有关。
多语言模型的推理机制：一些研究通过机制可解释性分析来探讨多语言LLMs是否真正能够用非英语语言进行推理，发现某些模型可以在特定任务中用潜在的非英语语言进行思考，并且在这些系统内部存在不同的语言特定的神经回路。

LLMs中的语言混合现象

语言混合的起源：语言混合可能源于模型在训练过程中接触到的人类生成的混合语言文本。研究表明，在预训练语料库中的语言混合可以改善LLMs的跨语言对齐。
语言混合的影响：以往的研究通常将LLMs输出中的语言混合视为语言混淆的负面现象，尤其是在处理低资源语言时，模型倾向于切换到英语。然而，最近的一些模型开始更频繁地在英语和中文这两种高资源且结构不同的语言之间进行混合，这种行为在通过强化学习训练的模型中尤为明显，优化基于结果的奖励似乎会覆盖对单语输出的偏好。
语言混合与推理能力的关系：在DeepSeek-R1模型中，强制执行语言一致性会导致性能下降，表明语言混合可能与推理能力之间存在权衡。然而，也有研究声称语言混合会损害推理能力，但这些结论通常是基于单一逻辑谜题数据集得出的，缺乏普遍性证据。

人类双语者中的语言混合

语言混合的动机：在人类双语者中，语言混合（即代码转换）是一种常见的现象，其动机包括表达的精确性、填补词汇空白以及减少认知负荷等。这些动机与LLMs中语言混合的潜在优势相似，即利用不同语言的优势来提高推理效率和准确性。
语言混合的理论：例如，Poplack的“等价约束理论”（Equivalence Constraint Theory）等语言混合的理论框架，为理解双语者如何在不同语言之间切换提供了理论基础。这些理论可以为研究LLMs中的语言混合现象提供启示，帮助我们更好地理解模型在推理过程中语言混合的策略和机制。

语言混合在其他领域的研究

跨模态的语言混合：除了传统的语言混合，语言混合的概念还可以扩展到其他领域，如文本与数学、文本与代码、正式与非正式推理之间的混合。这些跨模态的语言混合现象在LLMs中也可能存在，并且可能对模型的推理能力产生影响。
语言混合的控制与优化：一些研究探索了如何通过训练或调整模型来控制语言混合的频率和方式，以实现更好的性能。例如，通过使用轻量级的探测器来预测语言混合的效用，并据此指导模型的解码过程，从而实现更优的推理策略。

Q: 论文如何解决这个问题？

A: 论文通过以下方法来研究双语大型语言模型（LLMs）中的语言混合现象对推理能力的影响，并试图解决相关问题：

1. 语言混合的检测与统计分析

检测方法：论文首先定义了语言混合（code-switching）的检测方法，通过规则基础的程序来识别中文和英文之间的切换点。具体来说，它会移除数学表达式等语言无关的内容，然后根据Unicode范围区分中文字符和英文字符，并检测相邻文本段之间的语言变化。
统计分析：对不同模型在双语数据集上的语言混合行为进行了详细的统计分析，包括语言切换的次数、每次切换之间生成的token数量以及非提示语言的token比例等指标。通过这些统计分析，论文揭示了不同模型在语言混合方面的差异，并追踪了语言混合行为在模型训练过程中的演变。

2. 语言混合的训练阶段分析

追踪模型发展：论文追踪了从基础预训练模型到经过不同训练阶段（如监督微调SFT、基于人类反馈的强化学习RLHF以及基于可验证奖励的强化学习RLVR）的模型，分析了在这些不同阶段语言混合行为的变化。
关键训练阶段的识别：通过比较不同训练阶段的模型，论文确定了RLVR是导致语言混合的关键训练阶段。RLVR通过优化基于结果的奖励，探索了更大的搜索空间，从而自然地鼓励了语言混合行为。

3. 语言混合对推理性能的影响

约束解码实验：为了评估语言混合对推理性能的影响，论文设计了约束解码实验。在解码阶段，通过强制模型仅使用一种语言（即约束为单语输出），并与无约束的双语输出进行比较。结果表明，在某些任务（如数学推理任务）中，无约束的双语输出（允许语言混合）的准确率显著高于约束的单语输出。
任务特定分析：论文在不同的任务（如数学推理任务MATH500和高考填空题Gaokao Cloze）上进行了实验，发现语言混合在某些任务中能够提升推理性能，而在其他任务中可能会降低性能。这表明语言混合的效果取决于具体的任务和模型的语言能力。

4. 探测器引导的语言混合策略

探测器训练：为了进一步优化语言混合策略，论文训练了一个轻量级的探测器（probe），用于预测每个潜在的语言切换是否会对推理结果产生积极、消极或中性的影响。探测器基于模型的隐藏激活和一些元特征（如是否为自然切换、切换方向和语言熵）进行训练。
引导解码：将训练好的探测器嵌入到解码循环中，在生成过程中实时预测并指导语言切换。如果探测器预测某个自然切换是有害的，就会通过约束解码来抑制该切换；如果预测某个高语言熵位置是有益的，就会强制进行切换。通过这种方式，探测器引导的语言混合策略在多个数据集上实现了推理性能的显著提升。

5. 实验验证与结果分析

实验设置：论文在多个数学推理数据集上进行了广泛的实验，包括MATH500、Gaokao Cloze和AIME2024等，以验证语言混合对推理性能的影响以及探测器引导解码的有效性。
结果分析：实验结果表明，无约束的双语输出在某些任务上优于单语输出，并且探测器引导的解码策略能够进一步提升推理性能。此外，论文还分析了探测器在不同数据集上的泛化能力，证明了其能够学习到通用的语言混合模式，从而在不同的任务中实现性能提升。

Q: 论文做了哪些实验？

A: 论文中进行了以下几组实验来研究双语大型语言模型（LLMs）中的语言混合现象对推理能力的影响：

1. 语言混合行为的统计分析

实验目的：分析不同模型在双语数据集上的语言混合行为，包括语言切换的频率、每次切换之间的token数量以及非提示语言的token比例。
实验方法：
- 使用规则基础的程序检测中文和英文之间的切换点。
- 在MATH500数据集上评估不同模型（包括QwQ和DeepSeek-R1系列）的语言混合行为。
实验结果：
- RLVR训练阶段的模型表现出最多的语言混合行为。
- QwQ32B-preview模型在中文提示下有77.4%的问题表现出语言混合，平均每个问题有7.22次切换。
- 语言混合行为随着问题复杂度和响应长度的增加而增加。

2. 训练阶段对语言混合的影响

实验目的：确定哪种训练阶段会导致语言混合行为的出现。
实验方法：
- 比较了基础预训练模型、经过SFT和RLHF训练的模型以及RLVR训练的模型。
- 使用MATH500数据集进行评估。
实验结果：
- 基础预训练模型和RLVR模型表现出较多的语言混合行为，而SFT和RLHF训练的模型语言混合行为较少。
- RLVR模型的语言混合行为随着训练步骤的增加而增加，并且混合行为的响应通常优于单语响应。

3. 语言混合对推理性能的影响

实验目的：评估语言混合是否能够提升模型的推理性能。
实验方法：
- 对比无约束的双语输出和约束的单语输出在MATH500和Gaokao Cloze数据集上的表现。
- 使用约束解码方法强制模型生成单语输出。
实验结果：
- 在MATH500数据集上，无约束的双语输出准确率比约束的单语输出高5.6个百分点（p=0.0017）。
- 在Gaokao Cloze数据集上，约束的单语输出表现优于无约束的双语输出，但这是由于模型在中文上的单语推理能力更强。

4. 探测器引导的语言混合策略

实验目的：训练一个轻量级探测器来预测语言切换是否有益，并据此指导解码过程，以提升推理性能。
实验方法：
- 训练一个三层MLP探测器，基于模型的隐藏激活和元特征（如是否为自然切换、切换方向和语言熵）。
- 在MATH500和Gaokao Cloze数据集上评估探测器引导解码的效果。
实验结果：
- 探测器在MATH500数据集上实现了1.62个百分点的准确率提升，在Gaokao Cloze数据集上实现了2.92个百分点的准确率提升。
- 探测器引导的解码策略在不同数据集之间具有良好的泛化能力。

5. 跨数据集的泛化能力

实验目的：评估探测器在不同数据集上的泛化能力。
实验方法：
- 在MATH500数据集上训练探测器，并在Gaokao Cloze和AIME2024数据集上进行测试。
- 反之亦然，即在Gaokao Cloze数据集上训练探测器，并在MATH500和AIME2024数据集上进行测试。
实验结果：
- 在MATH500 → Gaokao Cloze的跨数据集测试中，探测器实现了2.12个百分点的准确率提升。
- 在Gaokao Cloze → MATH500的跨数据集测试中，探测器实现了3.00个百分点的准确率提升。
- 在Gaokao Cloze → AIME2024的跨数据集测试中，探测器实现了3.33个百分点的准确率提升。

Q: 有什么可以进一步探索的点？

1. 多语言混合的泛化能力

研究其他语言对：目前的研究主要集中在中文和英文的混合。可以扩展到其他语言对，如法语和西班牙语、德语和俄语等，以验证语言混合现象是否在其他语言对中也具有类似的推理优势。
跨语言混合的模式：研究不同语言对之间的语言混合模式，了解是否存在通用的语言混合策略，或者每种语言对都有其独特的混合模式。

2. 语言混合的机制和理论基础

与人类语言混合的对比：进一步研究LLMs中的语言混合行为与人类双语者中的语言混合行为之间的相似性和差异性。例如，是否可以将人类语言混合的理论（如等价约束理论）应用于LLMs。
神经机制研究：通过神经科学的方法，研究LLMs在语言混合时的内部神经机制，了解不同语言在模型中的表示和交互方式。

3. 语言混合的控制和优化

细粒度的语言混合控制：目前的约束解码方法是硬性的，可以探索更细粒度的语言混合控制方法，例如通过连续的控制信号来调节语言混合的频率和程度。
动态语言混合策略：研究动态调整语言混合策略的方法，使模型能够根据当前任务的难度和上下文动态地选择最优的语言混合策略。

4. 语言混合在其他任务中的应用

非数学任务：目前的研究主要集中在数学推理任务上。可以扩展到其他类型的推理任务，如逻辑谜题、科学问题等，以验证语言混合在不同任务中的普遍性。
多模态任务：研究语言混合在多模态任务中的作用，例如在文本和图像、文本和代码等任务中，语言混合是否能够提升模型的推理能力。

5. 语言混合的长期影响

长期训练的影响：研究在长期训练过程中，语言混合行为如何演变，以及是否可以通过长期训练进一步优化语言混合策略。
模型适应性：研究模型在不同语言环境下的适应性，了解语言混合是否能够帮助模型更好地适应新的语言任务或数据分布。

6. 语言混合的社会和文化影响

文化适应性：研究语言混合在不同文化背景下的接受度和效果，了解是否存在文化差异对语言混合的影响。
社会互动中的语言混合：研究语言混合在社会互动中的作用，例如在多语言社区中，语言混合是否能够促进更有效的沟通和合作。

7. 语言混合的伦理和公平性问题

语言偏见：研究语言混合是否会导致语言偏见，例如模型是否更倾向于使用某种语言，从而对其他语言的用户或任务产生不公平的影响。
多语言公平性：研究如何确保语言混合策略在不同语言之间是公平的，避免对某些语言的过度依赖或忽视。

8. 语言混合的实时优化

实时反馈机制：研究如何在实时交互中优化语言混合策略，例如通过用户反馈或实时性能监测来动态调整语言混合行为。
自适应学习：研究模型如何通过自适应学习不断优化语言混合策略，以适应不断变化的任务需求和用户偏好。

Q: 总结一下论文的主要内容

A: ### 论文标题 The Impact of Language Mixing on Bilingual LLM Reasoning

作者

Yihao Li, Jiayi Xin, Miranda Muqing Miao, Qi Long, Lyle Ungar

机构

University of Pennsylvania

摘要

研究背景

语言混合现象：多语言使用者在对话中经常会在不同语言之间切换，这种现象在语言学中被称为代码转换（code-switching）。这种行为在双语LLMs中也普遍存在，尤其是在最近的强化学习训练的模型中。
语言混合的动机：语言混合可以帮助多语言使用者更精确地表达思想，填补词汇空白，并减少认知负荷。类似地，LLMs可能通过语言混合来提升推理效率和准确性。

研究方法

语言混合的检测与统计分析：
- 定义了语言混合的检测方法，通过规则基础的程序识别中文和英文之间的切换点。
- 在MATH500数据集上评估了不同模型的语言混合行为，包括语言切换的次数、每次切换之间的token数量以及非提示语言的token比例。
训练阶段对语言混合的影响：
- 比较了基础预训练模型、经过SFT和RLHF训练的模型以及RLVR训练的模型。
- 发现RLVR训练阶段是导致语言混合的关键因素，优化基于结果的奖励自然地鼓励了语言混合行为。
语言混合对推理性能的影响：
- 通过约束解码实验，对比了无约束的双语输出和约束的单语输出在MATH500和Gaokao Cloze数据集上的表现。
- 发现无约束的双语输出在某些任务上优于单语输出，并且语言混合行为随着问题复杂度和响应长度的增加而增加。
探测器引导的语言混合策略：
- 训练了一个轻量级的探测器，基于模型的隐藏激活和元特征（如是否为自然切换、切换方向和语言熵）预测语言混合的影响。
- 将探测器嵌入到解码循环中，实时指导语言切换，进一步提升了推理性能。

实验结果

语言混合行为的统计分析：
- QwQ32B-preview模型在中文提示下有77.4%的问题表现出语言混合，平均每个问题有7.22次切换。
- 语言混合行为随着问题复杂度和响应长度的增加而增加。
训练阶段的影响：
- RLVR训练阶段的模型表现出最多的语言混合行为，而SFT和RLHF训练的模型语言混合行为较少。
- RLVR模型的语言混合行为随着训练步骤的增加而增加，并且混合行为的响应通常优于单语响应。
语言混合对推理性能的影响：
- 在MATH500数据集上，无约束的双语输出准确率比约束的单语输出高5.6个百分点（p=0.0017）。
- 在Gaokao Cloze数据集上，约束的单语输出表现优于无约束的双语输出，但这是由于模型在中文上的单语推理能力更强。
探测器引导的语言混合策略：
- 探测器在MATH500数据集上实现了1.62个百分点的准确率提升，在Gaokao Cloze数据集上实现了2.92个百分点的准确率提升。
- 探测器引导的解码策略在不同数据集之间具有良好的泛化能力。

结论

语言混合的积极影响：语言混合能够显著提升双语LLMs在某些任务上的推理性能，特别是在数学推理任务中。
RLVR训练阶段的关键作用：RLVR训练阶段是导致语言混合的关键因素，优化基于结果的奖励自然地鼓励了语言混合行为。
探测器引导的语言混合策略：通过训练轻量级探测器来预测语言混合的影响，并据此指导解码过程，可以进一步提升推理性能。

未来研究方向

多语言混合的泛化能力：研究其他语言对的语言混合现象及其对推理性能的影响。
语言混合的机制和理论基础：深入研究语言混合的神经机制和理论基础，了解其与人类语言混合行为的相似性和差异性。
语言混合的控制和优化：探索更细粒度的语言混合控制方法，动态调整语言混合策略以适应不同的任务需求。
语言混合在其他任务中的应用：研究语言混合在非数学任务和多模态任务中的作用，验证其在不同任务中的普遍性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Yihao Li, Jiayi Xin, Miranda Muqing Miao, Qi Long, Lyle Ungar

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.15849v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15849v1

Published: 2025-07-21T17:56:09Z

7. Transparent Trade-offs between Properties of Explanations

When explaining black-box machine learning models, it’s often important for explanations to have certain desirable properties. Most existing methods `encourage’ desirable properties in their construction of explanations. In this work, we demonstrate that these forms of encouragement do not consistently create explanations with the properties that are supposedly being targeted. Moreover, they do not allow for any control over which properties are prioritized when different properties are at odds with each other. We propose to directly optimize explanations for desired properties. Our direct approach not only produces explanations with optimal properties more consistently but also empowers users to control trade-offs between different properties, allowing them to create explanations with exactly what is needed for a particular task.

中文摘要

在解释黑箱机器学习模型时，解释往往需要具备某些理想特性。大多数现有方法在构建解释时“鼓励”这些理想特性。在这项工作中，我们表明这些鼓励形式并不能始终如一地创建具备目标特性的解释。此外，当不同特性之间相互矛盾时，这些方法也不允许对优先考虑哪些特性进行控制。我们建议直接优化解释以获得所需特性。我们直接的方法不仅更一致地产生具有最佳特性的解释，还赋予用户在不同特性之间进行权衡的能力，使他们能够为特定任务创建正好所需的解释。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何在机器学习模型解释中实现不同解释属性之间的透明权衡（transparent trade-offs）。具体来说，论文关注以下几个关键点：

解释属性的多样性与冲突：在解释机器学习模型时，人们期望解释具有多种属性，如忠实性（faithfulness）、鲁棒性（robustness）、平滑性（smoothness）、低复杂性（low complexity）等。然而，这些属性之间往往存在冲突，难以同时实现。例如，降低解释的复杂性可能会使其表达能力减弱，从而损害其忠实性。
不同任务和用户的需求差异：不同的任务和用户对解释属性的需求不同。例如，在审计模型时，用户可能更关注解释的忠实性，即使这会使解释变得复杂；而在进行反事实推理时，用户可能更需要鲁棒的解释，即使这会牺牲一些忠实性。
现有方法的局限性：现有的解释方法通常隐式地通过设计来鼓励某些属性，但这些方法往往无法透明地控制不同属性之间的平衡，并且可能无法实现最优的权衡。例如，SmoothGrad 和 LIME 等方法在调整超参数时，无法直观地控制解释的忠实性和鲁棒性之间的平衡。

为了解决这些问题，论文提出了一种新的方法，称为 POE（Property Optimized Explanations），它可以直接优化解释以实现多个属性的线性组合，并允许用户通过调整组合权重来透明地控制不同属性之间的平衡。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

特征归因解释方法

SmoothGrad [Smilkov et al., 2017]：通过在输入点周围采样并平均梯度来提高解释的鲁棒性。
LIME [Ribeiro et al., 2016]：通过在输入点附近拟合局部线性模型来提高解释的忠实性。
SHAP [Lundberg and Lee, 2017]：通过采样特征子集来量化它们的贡献，生成解释。
GradCAM [Selvaraju et al., 2020]：通过可视化深度网络中的梯度来生成解释。

多属性优化框架

AGG [Decker et al., 2024]：通过聚合多种基础解释来优化特定属性，如忠实性或鲁棒性。它可以扩展到优化任意属性之间的权衡，但其优化范围和最优性受到基础解释质量的限制。
MOFAE [Wang et al., 2

Authors: Hiwot Belay Tadesse, Alihan Hüyük, Yaniv Yacoby, Weiwei Pan, Finale Doshi-Velez

Categories: cs.LG

PDF URL: https://arxiv.org/pdf/2410.23880v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2410.23880v2

Published: 2024-10-31T12:40:38Z

8. GUI-G$^2$: Gaussian Reward Modeling for GUI Grounding

Graphical User Interface (GUI) grounding maps natural language instructions to precise interface locations for autonomous interaction. Current reinforcement learning approaches use binary rewards that treat elements as hit-or-miss targets, creating sparse signals that ignore the continuous nature of spatial interactions. Motivated by human clicking behavior that naturally forms Gaussian distributions centered on target elements, we introduce GUI Gaussian Grounding Rewards (GUI-G$^2$), a principled reward framework that models GUI elements as continuous Gaussian distributions across the interface plane. GUI-G$^2$ incorporates two synergistic mechanisms: Gaussian point rewards model precise localization through exponentially decaying distributions centered on element centroids, while coverage rewards assess spatial alignment by measuring the overlap between predicted Gaussian distributions and target regions. To handle diverse element scales, we develop an adaptive variance mechanism that calibrates reward distributions based on element dimensions. This framework transforms GUI grounding from sparse binary classification to dense continuous optimization, where Gaussian distributions generate rich gradient signals that guide models toward optimal interaction positions. Extensive experiments across ScreenSpot, ScreenSpot-v2, and ScreenSpot-Pro benchmarks demonstrate that GUI-G$^2$, substantially outperforms state-of-the-art method UI-TARS-72B, with the most significant improvement of 24.7% on ScreenSpot-Pro. Our analysis reveals that continuous modeling provides superior robustness to interface variations and enhanced generalization to unseen layouts, establishing a new paradigm for spatial reasoning in GUI interaction tasks.

中文摘要

图形用户界面（GUI）定位将自然语言指令映射到自主交互的精确界面位置。目前的强化学习方法使用二元奖励，将元素视为命中或未命中的目标，从而产生稀疏信号，忽略了空间交互的连续特性。受到人类点击行为的启发，该行为自然形成以目标元素为中心的高斯分布，我们引入了GUI高斯定位奖励（GUI-G$^2$），这是一种以原则为基础的奖励框架，将GUI元素建模为界面平面上的连续高斯分布。GUI-G$^2$纳入了两个协同机制：高斯点奖励通过以元素重心为中心的指数衰减分布来建模精确定位，而覆盖奖励通过测量预测的高斯分布与目标区域之间的重叠来评估空间对齐。为了处理不同元素规模，我们开发了一种自适应方差机制，根据元素尺寸校准奖励分布。该框架将GUI定位从稀疏的二元分类转变为密集的连续优化，其中高斯分布生成丰富的梯度信号，引导模型朝向最佳交互位置。大量在ScreenSpot、ScreenSpot-v2和ScreenSpot-Pro基准上的实验表明，GUI-G$^2$显著优于最先进的方法UI-TARS-72B，在ScreenSpot-Pro上有24.7%的最显著提升。我们的分析表明，连续建模对界面变换具有更强的鲁棒性，并增强了对未见布局的泛化能力，建立了GUI交互任务中空间推理的新范式。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是如何提高图形用户界面（GUI）接地（grounding）任务的性能和泛化能力，特别是在处理具有复杂空间交互的高分辨率专业软件界面时。具体来说，论文指出当前基于强化学习的GUI接地方法主要依赖于二元奖励信号，这些信号将界面元素视为离散的命中或未命中目标，导致学习信号稀疏且忽略了空间交互的连续性。这种离散优化方法与GUI交互的连续几何特性不匹配，限制了模型在早期训练阶段的学习效率和对界面变化的鲁棒性。

为了解决这一问题，论文提出了GUI-G2（GUI Gaussian Grounding Rewards），这是一个基于高斯分布的奖励框架，将GUI元素建模为界面平面上的连续高斯分布，从而提供丰富的空间信息和密集的学习信号。这种方法不仅能够鼓励模型精确地定位目标元素的中心，还能通过评估预测的高斯分布与目标区域之间的空间重叠来确保全面的元素覆盖。

Q: 有哪些相关研究？

A: 论文中提到了多个与GUI接地和强化学习相关的研究工作，这些研究为本文的研究提供了背景和基础。以下是相关研究的分类和简要介绍：

GUI 代理（GUI Agents）

专家设计驱动的工作范式（Expert Design-Driven Workflow Paradigm）：
- Mobile-Agent 系列：如 Mobile-Agent-v2 和 Mobile-Agent-E，通过专家设计的细粒度模块（如规划器和接地器）来完成各种任务。
- AppAgent 系列：如 AppAgent 和 AppAgent-v2，利用闭源的大型语言模型进行任务规划，并通过HTML和DOM树结构或视觉工具（如OCR）进行屏幕理解。
- UFO 系列：如 UFO 和 UFO2，通过专家设计的模块实现高效的GUI理解和交互。
数据驱动的训练范式（Data-Driven Training Paradigm）：
- UI-TARS：UI-TARS 通过大规模的GUI截图和动作轨迹进行微调，开发了针对GUI任务的端到端本地GUI代理。
- 其他数据驱动方法：如 ShowUI 和 OS-Atlas，通过收集大规模的GUI数据集进行微调，以提高模型在GUI任务上的性能。

强化学习微调（Reinforcement Fine-Tuning）

基于规则的奖励强化学习：
- DeepSeek-R1：DeepSeek-R1 是早期将强化学习应用于GUI任务的工作，为后续研究提供了基础。
- GUI-R1 和 UI-R1：GUI-R1 和 UI-R1 采用可验证的奖励范式，为GUI任务提供了稀疏的二元奖励。
- InfiGUI-R1：InfiGUI-R1 在R1范式的基础上，通过两阶段训练注入推理能力。
- GUI-G1：GUI-G1 重新分析了现有R1方法的问题，并设计了可控的框大小奖励。
- SE-GUI：SE-GUI 提出了自进化方法和连续奖励，以指导模型学习。

这些研究为本文提出的GUI-G2框架提供了重要的背景和参考，特别是在如何通过奖励机制改进GUI接地任务的性能和泛化能力方面。

Q: 论文如何解决这个问题？

A: 论文通过提出 GUI-G2（GUI Gaussian Grounding Rewards） 框架来解决当前 GUI 接地任务中存在的问题。该框架通过以下三个关键创新来实现从离散二元奖励信号到连续高斯分布的转变，从而提供更丰富的空间信息和更密集的学习信号：

1. 高斯点奖励（Gaussian Point Rewards）

高斯点奖励通过测量预测中心与目标元素高斯分布的匹配程度来评估定位精度。具体来说，对于每个 GUI 元素，构建一个二维高斯分布：

[ N(x; \mu, \Sigma) = \frac{1}{2\pi \sqrt{|\Sigma|}} \exp \left( -\frac{1}{2}(x - \mu)^T \Sigma^{-1}(x - \mu) \right) ]

其中，( x = (x, y) ) 表示界面空间中的位置，( \mu = (cx, cy) ) 是元素的几何中心，( \Sigma = \begin{bmatrix} \sigma_x^2 & 0 \ 0 & \sigma_y^2 \end{bmatrix} ) 是对角协方差矩阵。点奖励计算公式为：

[ R_{\text{point}} = N(\mu_p; \mu_{gt}, \Sigma_{gt}) = \exp \left( -\frac{1}{2} \left( \frac{(c_p^x - c_{gt}^x)^2}{\sigma_{gt}^x} + \frac{(c_p^y - c_{gt}^y)^2}{\sigma_{gt}^y} \right) \right) ]

这种奖励机制在预测中心与目标中心完全对齐时达到最大值 1，并且随着距离的增加平滑地指数衰减，提供了连续的梯度信息。

2. 高斯覆盖奖励（Gaussian Coverage Rewards）

高斯覆盖奖励通过测量预测高斯分布与目标区域之间的空间重叠来评估区域匹配程度。具体来说，使用 Bhattacharyya 系数来量化两个高斯分布之间的重叠：

[ R_{\text{coverage}} = \exp \left( -\frac{1}{8}(\mu_p - \mu_{gt})^T \Sigma^{-1}(\mu_p - \mu_{gt}) - \frac{1}{2} \ln \left( \frac{\det(\Sigma)}{\sqrt{\det(\Sigma_p) \det(\Sigma_{gt})}} \right) \right) ]

其中，(\Sigma = \frac{\Sigma_p + \Sigma_{gt}}{2}) 是平均协方差矩阵。覆盖奖励不仅考虑了中心的对齐，还考虑了分布的大小和形状相似性。

3. 自适应方差机制（Adaptive Variance Mechanism）

为了处理不同尺度的 GUI 元素，论文引入了自适应方差机制，根据元素的尺寸动态调整奖励分布的方差：

[ \sigma_x = \alpha \cdot (x_2 - x_1), \quad \sigma_y = \alpha \cdot (y_2 - y_1) ]

其中，(\alpha) 是一个缩放因子，控制元素尺寸对标准差的相对影响。这种机制确保了奖励函数能够根据元素的自然交互模式进行调整，使得大元素的奖励分布更宽，而小元素的奖励分布更窄。

4. 强化学习与 GUI-G2 的结合

论文将 GUI-G2 集成到 Group Relative Policy Optimization (GRPO) 算法中，通过采样多个响应来估计优势值，并进行策略优化。具体来说，对于每个指令，采样 (N) 个预测并计算它们在 GUI-G2 下的奖励。优势值计算公式为：

[ A_i = \frac{R_{\text{total}}(\tau_i) - \text{mean}({R_{\text{total}}(\tau_j)}{j=1}^N)}{\text{std}({R{\text{total}}(\tau_j)}_{j=1}^N)} ]

策略优化目标为：

[ J(\theta) = \mathbb{E}{\tau \sim \pi{\theta_{\text{old}}}} \left[ \min \left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon) A_t \right) - \beta D_{\text{KL}}[\pi_\theta | \pi_{\text{ref}}] \right] ]

其中，(r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}) 是概率比，(\epsilon) 控制信任区域，(\beta) 权衡 KL 正则化项。

通过这些创新，GUI-G2 将 GUI 接地任务从稀疏的二元分类转变为密集的连续优化，使得模型能够学习到更精细的空间关系，并在训练早期获得更有效的指导。

Q: 论文做了哪些实验？

A: 论文通过一系列实验来验证提出的 GUI-G2 框架的有效性和优越性。实验设计涵盖了不同的数据集、基准测试和对比方法，以全面评估模型的性能。以下是实验的详细内容：

1. 实验设置

基础模型：使用 Qwen2.5-VL-7B-Instruct 作为基础模型，结合 VLM-R1 框架进行训练。
训练数据：包含约 100K 个 GUI 接地实例，采样自以下四个主要数据集：
- Widget Captioning (Cheng et al., 2024)
- UI RefExp (Bai et al., 2021)
- ShowUI-web (Lin et al., 2024)
- OmniAct (Kapoor et al., 2024) 这些数据集覆盖了移动、桌面和网络平台上的多样化界面类型。
评估基准：在三个基准测试上进行评估：
- ScreenSpot (Cheng et al., 2024)
- ScreenSpot-v2 (Wu et al., 2024)
- ScreenSpot-Pro (Li et al., 2025) 这些基准测试涵盖了从一般 GUI 接地到高分辨率专业软件界面的不同任务类型。
评估标准：预测的中心点如果落在标注的边界框内，则认为预测是正确的。

2. 主要结果

ScreenSpot：GUI-G2-7B 达到了 92.0% 的准确率，超越了所有强化学习基线方法。
ScreenSpot-v2：GUI-G2-7B 达到了 93.3% 的准确率，同样超越了所有强化学习基线方法。
ScreenSpot-Pro：GUI-G2-7B 达到了 47.5% 的准确率，显著优于 UI-TARS-72B 的 38.1%，尽管 GUI-G2-7B 的参数量仅为 UI-TARS-72B 的 1/10。

这些结果表明，GUI-G2 在不同类型的 GUI 接地任务中均表现出色，特别是在高分辨率专业软件界面上的性能提升尤为显著。

3. 奖励设计分析

稀疏奖励与连续奖励的对比：
- 实现了三种稀疏基线方法：点奖励（Point）、IoU 奖励和它们的组合。
- 通过跟踪训练过程中预测中心与目标中心之间的平均距离，发现稀疏奖励方法在训练过程中表现出严重的波动和不稳定的优化轨迹，而 GUI-G2 则表现出平滑的单调收敛。
- GUI-G2 在 ScreenSpot-v2 上达到了 93.3% 的准确率，比最佳稀疏基线（点奖励：87.4%）高出 5.9%。
边界内外奖励的对比：
- 实现了一个仅在目标边界框内提供高斯奖励的基线（Inside Gaussian, IG），边界外的奖励为零。
- GUI-G2 在 ScreenSpot-v2 上的性能比 IG 高出 4.9%（93.3% vs. 88.4%），这表明在整个界面平面上提供连续的高斯奖励可以消除优化过程中的不连续性。
双高斯组件的对比：
- 通过移除 GUI-G2 中的点奖励或覆盖奖励进行消融实验。
- 结果表明，同时使用点奖励和覆盖奖励的 GUI-G2（93.3%）优于仅使用点奖励（92.1%）或仅使用覆盖奖励（90.2%）的模型。
高斯奖励与基于距离的奖励的对比：
- 与基于归一化欧几里得距离的连续奖励方法 SE-GUI 进行对比。
- GUI-G2 在 ScreenSpot 和 ScreenSpot-v2 上分别比 SE-GUI 高出 3.8% 和 3.0%，这表明 GUI-G2 的统一高斯公式在建模定位精度和空间覆盖方面更为有效。

4. 消融研究

自适应方差机制：
- 实现了不同的方差配置，包括 1σ 原则、2σ 原则、3σ 原则 和固定方差。
- GUI-G2 的自适应方差机制（α = 0.5）在 ScreenSpot-v2 上达到了 93.3% 的准确率，显著优于固定方差方法（87.8%）。
- 该机制通过根据元素尺寸调整方差，平衡了空间灵活性和定位精度。
点奖励与覆盖奖励的权重平衡：
- 实现了不同的权重配置，包括点奖励占主导（0.8 × R_{\text{point}} + 0.2 × R_{\text{coverage}}）和覆盖奖励占主导（0.2 × R_{\text{point}} + 0.8 × R_{\text{coverage}}）。
- 结果表明，平衡权重（1.0 × R_{\text{point}} + 1.0 × R_{\text{coverage}}）达到了最佳性能（93.3%）。
思考与非思考接地的对比：
- 实现了显式推理（thinking）和非显式推理（no thinking）两种配置。
- 结果表明，非思考方法（93.3%）显著优于思考方法（88.7%），这表明 GUI 接地任务更适合直接的视觉模式识别，而不是逐步推理。

这些实验结果综合表明，GUI-G2 通过其连续高斯奖励机制和自适应方差机制，在 GUI 接地任务中实现了更有效的学习和更好的泛化能力。

Q: 有什么可以进一步探索的点？

A: 论文提出了 GUI-G2 框架，通过高斯奖励机制显著提升了 GUI 接地任务的性能和泛化能力。尽管取得了显著成果，但仍有一些可以进一步探索的方向：

1. 模型压缩与加速

问题：随着模型规模的增加，计算成本和推理时间可能会成为实际部署的瓶颈。
探索方向：
- 模型压缩技术：探索如量化、剪枝和知识蒸馏等技术，以减少模型的参数量和计算复杂度，同时保持性能。
- 推理加速框架：研究高效的推理框架，如稀疏注意力机制和并行计算优化，以加速大模型的推理速度。

2. 多模态融合

问题：当前的 GUI 接地任务主要依赖于视觉和语言模态，但其他模态（如音频、触觉等）也可能提供有用的信息。
探索方向：
- 多模态数据融合：将音频、触觉等其他模态数据与视觉和语言模态相结合，探索多模态融合对 GUI 接地任务的影响。
- 跨模态学习：研究如何在不同模态之间进行有效的信息传递和融合，以提高模型的鲁棒性和泛化能力。

3. 更复杂的界面和任务

问题：当前的基准测试主要集中在相对简单的界面和任务上，但在实际应用中，界面可能更加复杂和多样化。
探索方向：
- 高分辨率和复杂界面：开发新的基准测试，涵盖更高分辨率和更复杂的界面，如专业软件、游戏界面等。
- 多步任务和交互：研究多步任务和交互场景，如需要多个操作才能完成的任务，以及如何在这些场景中有效利用 GUI 接地能力。

4. 泛化能力的进一步提升

问题：尽管 GUI-G2 在现有基准测试上表现出色，但在面对未见过的界面布局和任务时，模型的泛化能力仍有提升空间。
探索方向：
- 元学习：探索元学习方法，使模型能够快速适应新的任务和界面布局。
- 数据增强：研究如何通过数据增强技术（如界面的随机变换、元素的随机排列等）来提高模型的泛化能力。

5. 用户交互行为的建模

问题：当前的奖励机制基于高斯分布，但用户的真实交互行为可能更加复杂和多样化。
探索方向：
- 用户行为数据的收集和分析：收集更多用户在实际交互中的行为数据，分析其模式和特征。
- 行为建模：基于用户行为数据，开发更复杂的奖励机制，以更好地模拟真实用户的行为模式。

6. 可解释性和透明度

问题：深度学习模型通常被视为“黑盒”，缺乏可解释性，这在实际应用中可能会带来问题。
探索方向：
- 可视化技术：开发可视化技术，展示模型在决策过程中的关键特征和推理路径。
- 解释生成：研究如何生成自然语言解释，说明模型为什么做出特定的预测，提高模型的透明度和用户信任度。

7. 跨平台和跨设备的泛化

问题：不同的设备和平台可能具有不同的界面设计和交互方式，模型需要能够跨平台和跨设备进行泛化。
探索方向：
- 跨平台数据集：构建包含多种设备和平台的大型数据集，以训练和评估模型的跨平台泛化能力。
- 平台适应性技术：研究如何使模型能够自动适应不同平台的界面设计和交互方式，提高其通用性和适应性。

这些方向不仅可以进一步提升 GUI 接地任务的性能和泛化能力，还可以为未来的人机交互研究提供新的思路和方法。

Authors: Fei Tang, Zhangxuan Gu, Zhengxi Lu, Xuyang Liu, Shuheng Shen, Changhua Meng, Wen Wang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Jun Xiao, Yueting Zhuang

Categories: cs.LG, cs.AI, cs.CL, cs.CV, cs.HC

PDF URL: https://arxiv.org/pdf/2507.15846v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15846v2

Published: 2025-07-21T17:53:42Z

9. Hierarchical Budget Policy Optimization for Adaptive Reasoning

Large reasoning models achieve remarkable performance through extensive chain-of-thought generation, yet exhibit significant computational inefficiency by applying uniform reasoning strategies regardless of problem complexity. We present Hierarchical Budget Policy Optimization (HBPO), a reinforcement learning framework that enables models to learn problem-specific reasoning depths without sacrificing capability. HBPO addresses the fundamental challenge of exploration space collapse in efficiency-oriented training, where penalties on long output length systematically bias models away from necessary long reasoning paths. Through hierarchical budget exploration, our approach partitions rollout samples into multiple subgroups with distinct token budgets, aiming to enable efficient resource allocation while preventing degradation of capability. We introduce differentiated reward mechanisms that create budget-aware incentives aligned with the complexity of the problem, allowing models to discover natural correspondences between task requirements and computational effort. Extensive experiments demonstrate that HBPO reduces average token usage by up to 60.6% while improving accuracy by 3.14% across four reasoning benchmarks. Unlike existing methods that impose external constraints or rely on discrete mode selection, HBPO exhibits emergent adaptive behavior where models automatically adjust reasoning depth based on problem complexity. Our results suggest that reasoning efficiency and capability are not inherently conflicting, and can be simultaneously optimized through appropriately structured hierarchical training that preserves exploration diversity.

中文摘要

大型推理模型通过广泛的思维链生成取得了显著的性能，但由于对问题复杂性采取统一的推理策略，表现出显著的计算效率低下。我们提出了层次预算策略优化（HBPO），这是一种强化学习框架，使模型能够学习特定于问题的推理深度，而不会牺牲能力。HBPO解决了在以效率为导向的训练中探索空间崩溃的基本挑战，在此过程中，对长输出长度的惩罚系统性地使模型偏离必要的长推理路径。通过层次预算探索，我们的方法将回滚样本分成多个具有不同 token 预算的子组，旨在实现有效的资源分配，并防止能力的退化。我们引入了差异化奖励机制，创建与问题复杂性对齐的预算意识激励，使模型能够发现任务要求与计算努力之间的自然对应关系。广泛的实验表明，HBPO在四个推理基准上将平均 token 使用量减少了高达 60.6%，同时提高了 3.14% 的准确性。与现有的施加外部约束或依赖离散模式选择的方法不同，HBPO展现出一种新兴的自适应行为，模型会根据问题复杂性自动调整推理深度。我们的结果表明，推理效率和能力并不是固有冲突的，可以通过适当地构造的层次训练同时优化，保持探索多样性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决大型推理模型在推理过程中计算效率低下且无法根据问题复杂度自适应调整推理深度的问题。具体来说，它关注以下几个关键问题：

计算效率问题：
- 当前的大型推理模型在处理简单问题时也会生成过长的推理链，导致计算资源的浪费。例如，即使是基本的算术问题，模型也可能消耗数千个token进行推理。
- 这种现象揭示了当前推理模型缺乏根据问题实际复杂度调整计算努力的能力。
推理效率与能力的权衡问题：
- 现有的提高推理效率的方法通常通过施加外部约束或依赖离散模式选择来实现，这些方法虽然可以减少token的使用，但往往以牺牲模型的推理能力为代价。
- 论文指出，推理效率和能力并不是天生矛盾的，而是可以通过适当的训练结构同时优化。
探索空间的坍塌问题：
- 在以效率为导向的训练中，对长输出长度的惩罚会系统性地使模型偏向于短推理路径，导致模型逐渐放弃必要的长推理策略，从而降低推理能力。
- 这种现象被称为“探索空间的坍塌”，即模型的探索范围逐渐缩小，无法有效探索多样化的推理路径。
推理复杂度的多样性问题：
- 不同任务的最优推理长度存在显著差异，例如在GSM8K数据集上表现最佳的模型可能只需要1100个token，而在OlympiadBench上则需要超过3000个token。
- 这表明推理的计算需求是问题依赖的，而当前模型却无论任务复杂度如何都采用统一的推理策略。

为了解决这些问题，论文提出了Hierarchical Budget Policy Optimization (HBPO)框架，通过分层预算探索和差异化的奖励机制，使模型能够在保持推理能力的同时学习问题特定的推理深度。

Q: 有哪些相关研究？

A: 论文中提到了多个与推理模型效率和自适应推理相关的研究，这些研究可以分为以下几个类别：

长度控制方法

L1：通过引入token预算提示和相应的奖励机制来直接限制生成长度。例如，在训练过程中使用“思考n个token”的提示来控制模型的推理长度。
ThinkPrune：通过在训练过程中逐步限制模型的推理空间来提高推理效率。
Scalable Chain of Thoughts：通过在推理和解决方案阶段分别设置预算来控制生成长度。

基于奖励的方法

HAPO：通过历史感知优化来跟踪最小必要推理长度，从而激励模型进行简洁的推理。
Think When You Need：通过成对比较奖励和自适应目标长度来平衡推理的质量和简洁性。

自适应推理方法

二元模式选择方法：模型在思考和非思考模式之间进行选择，例如通过选择性损失掩蔽、简化模式定义和分离优化来防止模式坍塌。
多阶段训练策略：使用复杂的奖励设计和批量级平衡来实现更好的模式分布。
多模态方法：定义更丰富的推理分类，例如ARM使用四种模式进行自适应缩放，PATS允许在复杂度级别之间进行逐步切换。
辅助组件方法：引入辅助组件，如回归模型用于模式预测或自预算机制。

推理模型效率研究

ConCISE：通过置信度引导的压缩实现高效的推理。
Dynamic Early Exit：在推理模型中动态地提前退出以提高效率。
S1：通过简单的测试时缩放来提高推理效率。

推理模型能力研究

AdaptThink：研究推理模型何时应该进行思考。
AutoThink：通过多阶段强化学习来塑造自适应推理。
ARM：自适应推理模型，能够根据问题的复杂度调整推理深度。
PATS：过程级自适应思考模式切换，允许模型在不同复杂度级别之间切换。

这些研究为HBPO框架的提出提供了背景和基础，HBPO通过分层预算探索和差异化的奖励机制，解决了现有方法中存在的问题，实现了推理效率和能力的双重优化。

Q: 论文如何解决这个问题？

A: 论文通过提出 Hierarchical Budget Policy Optimization (HBPO) 框架来解决推理模型在保持推理能力的同时提高计算效率的问题。HBPO 的核心思想是通过分层预算探索和差异化的奖励机制，使模型能够在训练过程中学习到问题特定的推理深度。以下是具体的方法和步骤：

1. 分层预算探索 (Hierarchical Budget Exploration)

HBPO 将探索空间划分为多个预算受限的子组，每个子组对应一个特定的token预算。具体来说：

给定一个查询 ( q )，生成 ( n ) 个 rollout 样本，并将它们划分为 ( k ) 个子组 ( {G_1, G_2, \ldots, G_k} )，每个子组 ( G_i ) 都有一个对应的token预算 ( b_i )。
通过在推理标签后插入预算特定的提示（例如，“我将在 ( b_i ) 个token内回答问题”）来实现这一点。
预算值 ( b_i ) 形成一个递增序列（( b_1 < b_2 < \ldots < b_k )），范围从紧凑的推理（例如，512个token）到扩展的思考（例如，2560个token）。

这种分层结构有两个关键作用：

防止探索空间的坍塌：通过保留独立的探索空间，HBPO 确保模型在整个训练过程中都能接触到多样化的推理长度。
启用结构化的比较学习：模型通过对比不同预算水平的表现来发现每个问题的合适计算量，而不是依赖于全局优化。

2. 预算感知奖励设计 (Budget-Aware Reward Design)

为了使分层探索有效，HBPO 设计了一个分段奖励函数，结合了经典奖励形式和余弦形状奖励形式的优点。具体来说：

预算内奖励函数：在每个预算受限的子组内，奖励函数平衡了推理探索和效率。对于给定的预算 ( b )，奖励函数定义为： [ R(n_{\text{gen}} | b) = \begin{cases} f_1(n_{\text{gen}}, b), & \text{如果正确，} n_{\text{gen}} > b \text{ 且 } n_{\text{gen}} \leq L_{\text{max}} \ f_2(b), & \text{如果正确，} n_{\text{gen}} \leq b \text{ 且 } n_{\text{gen}} \leq L_{\text{max}} \ 0, & \text{其他情况} \end{cases} ] 其中： [ f_1(n_{\text{gen}}, b) = \beta \cdot \cos \left( \frac{\pi n_{\text{gen}}}{2L_{\text{max}}} \right) - \alpha |n_{\text{gen}} - b| ] [ f_2(b) = \beta \cdot \cos \left( \frac{\pi b}{2L_{\text{max}}} \right) ] 这里，( n_{\text{gen}} ) 表示生成的token数量，( L_{\text{max}} ) 是最大上下文长度，( \beta ) 是缩放因子，( \alpha ) 控制偏差敏感度。
预算间奖励差异化：不同的预算分配对于固定的生成长度 ( n_{\text{gen}} ) 会产生不同的奖励，从而创建与问题复杂度一致的系统偏好。

3. 训练过程 (Training Procedure)

HBPO 扩展了标准的 Group Relative Policy Optimization (GRPO) 框架，通过在策略优化过程中引入分层采样和预算感知优势计算。具体步骤如下：

分层采样：对于每个查询 ( q )，生成 ( n ) 个响应，并根据它们的预算约束自动划分为 ( k ) 个子组。
奖励计算：对于每个子组中的每个响应，使用预算感知奖励函数计算奖励。
优势计算：将优势分解为两个互补部分：
- 组内优势：衡量响应相对于其预算期望的表现。
- 组间优势：通过全局比较创建自然的预算选择偏好。
策略优化：使用 GRPO 的剪辑目标进行策略优化，以防止破坏性更新。

通过这种分层结构和预算感知奖励机制，HBPO 使模型能够在训练过程中学习到如何根据问题的复杂度自适应地调整推理深度，从而在保持推理能力的同时显著提高计算效率。

Q: 论文做了哪些实验？

A: 论文通过一系列实验来验证 Hierarchical Budget Policy Optimization (HBPO) 框架的有效性。实验涉及多个数学推理基准数据集，并与多种现有的高效推理方法进行比较。以下是实验的详细设置和结果：

1. 实验设置

1.1 数据集和模型

数据集：使用 DeepScaleR 数据集进行训练，该数据集包含来自 AIME、AMC、Omni-Math 和 STILL 的 40K 高质量数学问题。
模型：使用两个基础模型进行实验：
- DeepSeek-R1-Distill-Qwen-1.5B
- DeepScaleR-Preview1.5B

1.2 实现细节

使用 VeRL 框架进行实现，训练时上下文窗口为 4096 个token。
设置剪辑阈值 ( \epsilon_{\text{high}} = 0.28 ) 和 ( \epsilon_{\text{low}} = 0.2 )，禁用 KL 散度以鼓励探索。
训练进行一个 epoch（629 步），学习率为 ( 10^{-6} )，批量大小为 64。
对于分层探索，每个查询生成 16 个 rollout 样本，平均划分为 4 个子组，预算约束分别为 512、1024、2048 和 2560 个token。

1.3 评估协议

在四个数学推理基准数据集上进行评估，这些数据集按难度递增排列：
- GSM8K
- Math500
- OlympiadBench
- AIME25
评估指标包括 pass@1 准确率和平均 token 使用量。
评估设置包括两种情况：
1. 自然推理：模型根据学习到的策略自由分配计算资源。
2. 效率提示：通过在 <think> 后添加“我将用最少的token回答问题”来指导模型进行高效响应。

1.4 基线方法

与以下几种最先进的高效推理方法进行比较：
- TLMRE：在强化学习目标中添加长度惩罚。
- AdaptThink 和 AutoThink：启用二元思考/不思考模式选择。
- L1-Max：使用两阶段强化学习，明确设置长度目标。

2. 主要结果

2.1 自然推理条件下的性能

DeepSeek-R1-Distill-Qwen-1.5B：
- 基线：准确率 56.3%，平均 token 使用量 7921。
- HBPO：准确率提升至 59.4%，平均 token 使用量减少至 3120，减少了 60.6%。
DeepScaleR-Preview1.5B：
- 基线：准确率 63.7%，平均 token 使用量 4744。
- HBPO：保持基线的准确率 63.7%，平均 token 使用量减少至 2364，减少了 50.2%。

2.2 效率提示条件下的性能

DeepSeek-R1-Distill-Qwen-1.5B：
- 基线：准确率 46.2%，平均 token 使用量 1690。
- HBPO：准确率提升至 56.3%，平均 token 使用量减少至 958。
DeepScaleR-Preview1.5B：
- 基线：准确率 51.7%，平均 token 使用量 2001。
- L1-Max (1024)：准确率 59.4%，平均 token 使用量 1401。
- HBPO：准确率 59.4%，平均 token 使用量 947，比 L1-Max (1024) 少 32% 的 token。

3. 分析

3.1 分层结构的分析

不同预算配置的影响：
- 单预算配置（1536 个token）：平均准确率 59.8%。
- 双预算配置（512 和 2560 个token）：平均准确率 61.7%。
- 四预算配置（512、1024、2048、2560 个token）：平均准确率 63.7%，最优配置。
- 六预算和八预算配置：平均准确率略有下降，分别为 62.9% 和 62.9%。
训练动态：
- HBPO 在训练过程中保持了更广泛的生成长度分布，防止了探索空间的坍塌。
- 与单一预算训练相比，HBPO 的平均生成长度更稳定，且方差更小。

3.2 推理模式分析

HBPO 的自适应行为：
- 在不同难度的数据集上，HBPO 的推理内容比例和反思关键词频率表现出明显的自适应性。
- 例如，在 GSM8K 上，推理内容比例为 81%，反思关键词频率为 6；而在 AIME25 上，推理内容比例为 89%，反思关键词频率为 30。
- 这表明 HBPO 学会了根据问题的复杂度调整推理深度。

4. 一般化能力

GPQA-Diamond 数据集：
- 在这个科学推理基准数据集上，HBPO 保持了最高的准确率（34.72%），同时将 token 使用量减少了 55%。
- 这表明 HBPO 学到的效率原则具有跨推理领域的泛化能力。

通过这些实验，论文证明了 HBPO 框架在保持推理能力的同时显著提高了推理效率，并且展示了模型根据问题复杂度自适应调整推理深度的能力。

Q: 有什么可以进一步探索的点？

Authors: Shangke Lyu, Linjuan Wu, Yuchen Yan, Xingyu Wu, Hao Li, Yongliang Shen, Peisheng Jiang, Weiming Lu, Jun Xiao, Yueting Zhuang

Categories: cs.AI, cs.CL

PDF URL: https://arxiv.org/pdf/2507.15844v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15844v2

Published: 2025-07-21T17:52:34Z

10. Identifying Conditional Causal Effects in MPDAGs

We consider identifying a conditional causal effect when a graph is known up to a maximally oriented partially directed acyclic graph (MPDAG). An MPDAG represents an equivalence class of graphs that is restricted by background knowledge and where all variables in the causal model are observed. We provide three results that address identification in this setting: an identification formula when the conditioning set is unaffected by treatment, a generalization of the well-known do calculus to the MPDAG setting, and an algorithm that is complete for identifying these conditional effects.

中文摘要

我们考虑在一个图形已知至最大有向部分有向无环图（MPDAG）时识别条件因果效应。MPDAG代表了一类受背景知识限制的图形等价类，其中因果模型中的所有变量都是观测到的。我们提供三个结果来解决这一设定下的识别问题：一个在条件集不受处理影响时的识别公式，一个对著名的do演算在MPDAG设定下的推广，以及一种用于识别这些条件效应的完整算法。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在已知因果图（具体为最大定向部分有向无环图，即MPDAG）的情况下，如何识别条件因果效应的问题。具体而言，它关注的是如何从观察数据中识别出在某个特定子群体（即在给定某些条件变量的情况下）的因果效应。例如，研究者可能想知道某个干预措施（如免费学前教育）对整个群体的平均效果（总因果效应），也可能想了解该干预措施对特定子群体（如特定社会经济背景的儿童）的效果（条件因果效应）。

Q: 有哪些相关研究？

A: 论文中提到了多个与条件因果效应识别相关的研究，这些研究主要集中在以下几个方面：

无条件因果效应的识别

Pearl (1995)：提出因果图（DAG）的概念，并发展了基于图的因果推断方法，包括著名的do演算（do calculus），为无条件因果效应的识别提供了理论基础。
Shpitser et al. (2010)：进一步研究了在已知因果图（DAG）的情况下，如何通过协变量调整来识别无条件因果效应，提出了调整集的概念和识别方法。
Perković et al. (2017)：研究了在部分有向无环图（MPDAG）中识别无条件因果效应的方法，扩展了Pearl的工作，使其适用于部分已知的因果结构。

条件因果效应的识别

Pearl (2009)：提出了do演算，这是一套基于因果图（DAG）中d-分离（d-separation）规则的工具，用于将干预性密度（interventional densities）转换为观测性密度（observational densities），从而识别条件因果效应。
Zhang (2008)：将do演算扩展到部分祖先图（PAG），这是一种允许存在潜在变量的因果图表示，为在存在潜在变量的情况下识别条件因果效应提供了方法。
Jaber et al. (2022)：更新了Zhang的工作，提出了一个完整的算法，用于在给定PAG的情况下识别条件因果效应，该算法基于PAG的do演算。

MPDAG中的因果效应识别

Perković (2020)：提出了在MPDAG中识别无条件因果效应的公式，为在部分已知因果结构中进行因果推断提供了新的工具。
LaPlante and Perković (2024)：提出了在MPDAG中寻找条件调整集的方法，这些调整集可以用于识别条件因果效应，但该方法存在局限性，例如存在无法识别的效应以及无法找到的调整集。

其他相关研究

Chickering (2002)：研究了在给定数据的情况下，如何通过贪婪搜索算法来识别最优的因果图结构，这对于理解因果图的结构学习有重要意义。
Maathuis et al. (2009, 2010)：提出了IDA算法及其扩展，用于在已知因果图（如CPDAG）的情况下，枚举所有可能的因果效应，为在因果效应不可识别时提供估计方法。
Nandy et al. (2017)：进一步研究了在高维稀疏设置下，如何从观察数据中估计联合干预的因果效应，扩展了IDA算法的应用范围。
Fang and He (2020)：研究了在存在背景知识的情况下，如何进行IDA算法的改进，以更好地利用专家知识进行因果效应的识别。
Guo and Perković (2021)：提出了在马尔可夫等价类中最小化枚举所有可能总效应的方法，为在因果图不确定时进行因果效应的估计提供了新的思路。

Q: 论文如何解决这个问题？

A: 论文通过以下三个主要方法来解决在已知最大定向部分有向无环图（MPDAG）的情况下识别条件因果效应的问题：

1. 条件识别公式（Conditional Identification Formula）

论文提出了一个条件识别公式（Theorem 3），该公式在满足特定条件下，能够精确地表示干预性密度（interventional density）与观测性密度（observational density）之间的关系。具体而言，该公式适用于当条件变量集（conditioning set）不受处理变量（treatment variable）影响的情况。公式的核心思想是通过部分因果排序（partial causal ordering）和桶分解（bucket decomposition）来逐步分解和识别因果效应。

公式的关键点：

条件变量集不受处理变量影响：即条件变量集 ( Z ) 与处理变量 ( X ) 的可能后代（possible descendants）不相交，即 ( Z \cap \text{PossDe}(X, G) = \emptyset )。
路径限制：不存在从 ( X ) 到 ( Y ) 的适当可能因果路径（proper possibly causal path）以未定向边开始。
公式形式：通过积分和条件概率的组合，将干预性密度 ( f(y | \text{do}(x), z) ) 表示为观测性密度的函数。

2. MPDAG的do演算（Do Calculus for MPDAGs）

论文扩展了Pearl的do演算，使其适用于MPDAG。do演算是一套基于因果图中d-分离规则的工具，用于将干预性密度转换为观测性密度。论文提出的do演算（Theorem 6）包括三条规则，这些规则允许在MPDAG中进行因果效应的转换和识别。

do演算的关键点：

规则1：如果在删除所有进入 ( X ) 的边后的图 ( G_X ) 中， ( Y ) 和 ( Z ) 在给定 ( X ) 和 ( W ) 的条件下是d-分离的，则可以将 ( Z ) 从条件中移除。
规则2：如果在删除所有进入 ( X ) 和所有从 ( Z ) 出去的边后的图 ( G_{XZ} ) 中， ( Y ) 和 ( Z ) 在给定 ( X ) 和 ( W ) 的条件下是d-分离的，则可以将 ( Z ) 从干预中移除。
规则3：如果在删除所有进入 ( X ) 和所有从 ( Z ) 出去的边后的图 ( G_{X,Z’} ) 中， ( Y ) 和 ( Z ) 在给定 ( X ) 和 ( W ) 的条件下是d-分离的，则可以将 ( Z ) 从条件中移除，其中 ( Z’ ) 是 ( Z ) 中不是 ( X ) 的可能祖先的节点。

3. 条件识别算法（Conditional Identification Algorithm）

论文提出了一个完整的条件识别算法（Algorithm 1），该算法结合了上述识别公式和do演算，能够识别给定MPDAG中的条件因果效应。算法分为两个主要步骤：

路径操作：通过do演算的规则，将条件变量从干预中逐步移除，直到无法再进行这样的操作。
识别：在路径操作完成后，根据剩余的条件变量集，应用识别公式或do演算的规则，最终得到条件因果效应的表达式。

算法的关键点：

路径操作：通过检查是否存在以未定向边开始的适当可能因果路径，并利用do演算的规则，逐步将这些路径中的变量从干预中移除。
识别：在路径操作完成后，根据剩余的条件变量集，应用识别公式或do演算的规则，得到条件因果效应的表达式。
完整性：论文证明了该算法是完整的，即如果条件因果效应在给定的MPDAG中是可识别的，算法将能够找到一个识别表达式；如果不可识别，算法将输出FAIL。

总结

通过这三个方法，论文不仅提供了一种在MPDAG中识别条件因果效应的理论框架，还提出了具体的算法实现，使得研究者能够在实际应用中有效地识别条件因果效应。这些方法的结合，使得在存在部分已知因果结构的情况下，条件因果效应的识别变得更加可行和高效。

Q: 论文做了哪些实验？

A: 论文中并没有提到进行传统的实验（如实验室实验或现场实验）来验证其理论结果。相反，作者通过一系列的数学证明和示例来展示其方法的有效性和正确性。这些示例和证明在因果推断领域中通常被视为理论验证的实验。

示例分析

论文中提供了多个示例来说明其方法的应用和效果。这些示例包括：

示例1（条件调整）：展示了如何使用条件识别公式（Theorem 3）来识别条件因果效应。在这个示例中，作者考虑了一个MPDAG，其中存在一个条件调整集，可以用来识别条件因果效应。
示例2（无条件调整）：展示了在没有条件调整集的情况下，如何使用条件识别公式来识别条件因果效应。这个示例强调了条件识别公式在处理复杂因果结构时的优势。
示例3（使用Theorem 4）：展示了在特定条件下，如何直接应用Theorem 4来简化条件因果效应的识别过程。
示例4（使用do演算）：展示了如何使用do演算（Theorem 6）来识别条件因果效应，即使在条件变量集受处理变量影响的情况下。
示例5（使用do演算的Rule 2）：进一步展示了do演算在处理复杂因果结构时的应用，特别是在条件变量集受处理变量影响的情况下。
示例6（使用do演算的Rule 3）：展示了do演算的Rule 3在识别条件因果效应时的应用，特别是在条件变量集受处理变量影响的情况下。
示例7（非分数形式）：展示了条件识别算法（Algorithm 1）在处理非分数形式的条件因果效应时的应用。
示例8（分数形式）：展示了条件识别算法在处理分数形式的条件因果效应时的应用。
示例9（不可识别的情况）：展示了在某些情况下，条件因果效应是不可识别的，条件识别算法会输出FAIL。

数学证明

除了示例分析，论文还提供了详细的数学证明来支持其理论结果。这些证明包括：

Theorem 3的证明：展示了条件识别公式在特定条件下的正确性和适用性。
Theorem 6的证明：展示了do演算在MPDAG中的适用性和正确性。
Theorem 7的证明：展示了条件识别算法的完整性和正确性，即如果条件因果效应在给定的MPDAG中是可识别的，算法将能够找到一个识别表达式；如果不可识别，算法将输出FAIL。

讨论和结论

在论文的最后部分，作者讨论了其方法的优势、局限性和可能的应用场景。他们指出，尽管其方法在处理MPDAG时具有一定的优势，但仍然存在一些局限性，例如在处理包含潜在变量的因果图时可能不适用。作者还提出了未来研究的方向，包括如何将这些方法扩展到更复杂的因果结构中。

总的来说，论文通过理论分析和示例验证来展示其方法的有效性和正确性，而不是通过传统的实验方法。这种方法在因果推断领域中是常见的，因为因果推断主要依赖于数学和统计理论，而不是通过实验来验证。

Q: 有什么可以进一步探索的点？

A: 论文在条件因果效应识别方面提出了重要的理论和方法，但仍有一些可以进一步探索的点，以扩展其应用范围和提高其实用性。以下是一些可能的研究方向：

1. 处理潜在变量（Latent Variables）

论文目前考虑的是MPDAG，即在没有潜在变量的情况下，因果图是部分已知的。然而，在实际应用中，潜在变量（未观测到的变量）的存在是常见的。例如，在社会科学研究中，可能存在未观测到的社会经济因素影响因果关系。因此，将论文的方法扩展到包含潜在变量的因果图（如部分祖先图，PAG）是一个重要的研究方向。这可能需要结合Zhang (2008) 和 Jaber et al. (2022) 的工作，开发新的识别公式和算法。

2. 动态因果图（Dynamic Causal Graphs）

在许多实际问题中，因果关系可能随时间变化。例如，在医疗研究中，患者的健康状况可能随时间变化，而治疗的效果也可能随时间而有所不同。因此，将论文的方法扩展到动态因果图（如动态贝叶斯网络）中，以处理时间序列数据和动态因果效应，是一个有意义的研究方向。这可能需要开发新的时间序列分析方法和动态因果推断算法。

3. 高维数据和稀疏性

在高维数据环境中，变量的数量可能远远超过样本数量。例如，在基因组学研究中，可能有成千上万的基因，但样本数量有限。在这种情况下，如何有效地识别条件因果效应是一个挑战。可以探索如何结合稀疏性假设（如Lasso回归）和因果推断方法，以提高在高维数据中的识别能力。这可能需要开发新的算法，以在稀疏性约束下进行因果效应的估计。

4. 不确定性和敏感性分析

在实际应用中，因果图的结构可能并不完全确定，存在一定的不确定性。例如，专家知识可能不完全准确，或者数据可能存在噪声。因此，开发方法来评估因果效应识别结果的不确定性和进行敏感性分析是一个重要的研究方向。这可能包括开发新的统计方法，以量化因果效应估计的不确定性，并评估其对不同假设的敏感性。

5. 实际应用和案例研究

虽然论文提供了理论方法和示例，但在实际应用中的效果和局限性需要通过具体的案例研究来验证。例如，在公共卫生、经济学、社会科学等领域，可以应用论文的方法来解决实际问题，并评估其效果。这可能需要与领域专家合作，收集实际数据，并应用论文的方法进行因果效应的识别和分析。

6. 算法优化和计算效率

论文提出的条件识别算法在理论上是完整的，但在实际应用中，计算效率可能是一个问题。特别是在处理大型数据集或复杂的因果图时，算法的运行时间可能会很长。因此，优化算法以提高计算效率是一个重要的研究方向。这可能包括开发新的算法优化技术，如并行计算、近似算法等。

7. 结合机器学习方法

随着机器学习技术的发展，将其与因果推断方法相结合是一个有前景的研究方向。例如，可以探索如何使用机器学习算法来自动学习因果图的结构，或者如何结合因果推断和机器学习来进行预测和决策。这可能需要开发新的混合方法，以充分利用两者的优点。

8. 因果效应的解释性和可解释性

在实际应用中，不仅需要识别因果效应，还需要能够解释这些效应的含义。因此，开发方法来提高因果效应识别结果的解释性和可解释性是一个重要的研究方向。这可能包括开发新的可视化工具和解释方法，以帮助用户理解因果效应的来源和含义。

这些研究方向不仅可以扩展论文的方法，还可以提高其在实际应用中的实用性和有效性。

Q: 总结一下论文的主要内容

A: 这篇论文的核心内容是关于在已知最大定向部分有向无环图（MPDAG）的情况下，如何识别条件因果效应。MPDAG是一种因果图，它代表了一类因果图的等价类，并且可以利用背景知识进一步限制这些图。论文提出了三种主要方法来解决这一问题：条件识别公式、MPDAG的do演算和条件识别算法。这些方法旨在从观察数据中识别出在特定子群体中的因果效应，这对于理解干预措施在不同人群中的效果具有重要意义。

背景知识

因果图：因果图是一种有向图，用来表示变量之间的因果关系。在因果图中，节点代表变量，有向边表示因果影响。
MPDAG：最大定向部分有向无环图（MPDAG）是一种特殊的因果图，它代表了一类因果图的等价类。MPDAG允许部分边的方向未确定，这在实际应用中很有用，因为通常很难从数据中完全确定所有边的方向。
条件因果效应：条件因果效应是指在给定某些条件变量的情况下，一个变量对另一个变量的因果影响。

研究方法

条件识别公式（Theorem 3）：
- 适用条件：当条件变量集 ( Z ) 不受处理变量 ( X ) 影响（即 ( Z \cap \text{PossDe}(X, G) = \emptyset )）且不存在从 ( X ) 到 ( Y ) 的适当可能因果路径以未定向边开始时，该公式适用。
- 公式形式：通过积分和条件概率的组合，将干预性密度 ( f(y | \text{do}(x), z) ) 表示为观测性密度的函数。
- 作用：提供了一种在特定条件下，精确计算条件因果效应的方法。
MPDAG的do演算（Theorem 6）：
- 规则1：如果在删除所有进入 ( X ) 的边后的图 ( G_X ) 中， ( Y ) 和 ( Z ) 在给定 ( X ) 和 ( W ) 的条件下是d-分离的，则可以将 ( Z ) 从条件中移除。
- 规则2：如果在删除所有进入 ( X ) 和所有从 ( Z ) 出去的边后的图 ( G_{XZ} ) 中， ( Y ) 和 ( Z ) 在给定 ( X ) 和 ( W ) 的条件下是d-分离的，则可以将 ( Z ) 从干预中移除。
- 规则3：如果在删除所有进入 ( X ) 和所有从 ( Z ) 出去的边后的图 ( G_{X,Z’} ) 中， ( Y ) 和 ( Z ) 在给定 ( X ) 和 ( W ) 的条件下是d-分离的，则可以将 ( Z ) 从条件中移除，其中 ( Z’ ) 是 ( Z ) 中不是 ( X ) 的可能祖先的节点。
- 作用：提供了一套工具，用于在MPDAG中进行因果效应的转换和识别。
条件识别算法（Algorithm 1）：
- 路径操作：通过do演算的规则，将条件变量从干预中逐步移除，直到无法再进行这样的操作。
- 识别：在路径操作完成后，根据剩余的条件变量集，应用识别公式或do演算的规则，最终得到条件因果效应的表达式。
- 完整性：论文证明了该算法是完整的，即如果条件因果效应在给定的MPDAG中是可识别的，算法将能够找到一个识别表达式；如果不可识别，算法将输出FAIL。
- 作用：提供了一种系统的方法，用于在给定MPDAG的情况下，识别条件因果效应。

关键结论

条件识别公式：在特定条件下，可以精确地表示干预性密度与观测性密度之间的关系，从而识别条件因果效应。
MPDAG的do演算：提供了一套工具，用于在MPDAG中进行因果效应的转换和识别，扩展了Pearl的do演算。
条件识别算法：提供了一种完整的算法，用于在给定MPDAG的情况下，识别条件因果效应。该算法结合了识别公式和do演算，能够处理复杂的因果结构。

实验和示例

论文通过多个示例来展示其方法的应用和效果。这些示例包括条件调整、无条件调整、使用do演算的规则等，验证了论文提出的方法在不同情况下的有效性和正确性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文，请点击这里为你跳转Kimi AI网页版，并启动一个与该论文相关的新会话。

Authors: Sara LaPlante, Emilija Perković

Categories: cs.AI, stat.ME, stat.ML

PDF URL: https://arxiv.org/pdf/2507.15842v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15842v1

Published: 2025-07-21T17:52:28Z

Evaluation Domain Papers

1. BEnchmarking LLMs for Ophthalmology (BELO) for Ophthalmological Knowledge and Reasoning

中文摘要

当前评估眼科学大型语言模型（LLM）的基准在范围上有限，并且对准确性优先级不成比例。我们引入了BELO（眼科学大型语言模型基准评估），这是一个经过13位眼科专家多轮检查开发的标准化和综合评估基准。BELO评估眼科相关的临床准确性和推理质量。通过关键词匹配和微调的PubMedBERT模型，我们从多种医学数据集中（BCSC、MedMCQA、MedQA、BioASQ和PubMedQA）筛选出了眼科特定的多项选择题（MCQ）。该数据集经历了多轮专家审核。重复和不合格的问题被系统性地删除。十位眼科专家对每个MCQ的正确答案的解释进行了细化。三位高级眼科医生进一步进行了裁定。为了说明BELO的实用性，我们评估了六个LLM（OpenAI o1、o3-mini、GPT-4o、DeepSeek-R1、Llama-3-8B和Gemini 1.5 Pro），使用准确性、宏观F1和五个文本生成指标（ROUGE-L、BERTScore、BARTScore、METEOR和AlignScore）。在进一步的评估中，两位眼科医生对50个随机选择的输出进行了定性审查，以评估其准确性、全面性和完整性。BELO由900个高质量、专家审核的问题组成，这些问题来自五个来源：BCSC（260）、BioASQ（10）、MedMCQA（572）、MedQA（40）和PubMedQA（18）。已建立公共排行榜以促进透明的评估和报告。重要的是，BELO数据集将保持为一个保留的、仅用于评估的基准，以确保对未来模型的公正和可重复的比较。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在眼科领域评估大型语言模型（LLMs）时存在的问题。具体来说，它旨在解决以下问题：

现有基准测试的局限性：
- 当前用于评估眼科领域LLMs的基准测试范围有限，且过度强调准确性，忽视了临床推理能力的评估。
- 现有的基准测试缺乏针对眼科领域的专门设计，无法全面评估LLMs在眼科临床知识和推理质量方面的表现。
缺乏标准化和全面的评估框架：
- 目前没有一个标准化的、经过多轮专家检查的基准测试，能够系统地评估LLMs在眼科领域的知识和推理能力。
- 现有的评估方法缺乏透明性和可比性，不同研究之间使用的验证数据集不一致，导致无法有效比较不同LLMs的性能。
临床推理能力的评估不足：
- 现有的基准测试通常只关注模型的最终答案是否正确，而缺乏对模型推理过程的评估。这限制了对LLMs在临床实践中的实际应用能力的全面评估。

Q: 有哪些相关研究？

A: 在眼科领域评估大型语言模型（LLMs）的相关研究中，以下是一些重要的工作：

Eyecare-Bench：
- 研究内容：Eyecare-Bench 是一个专注于眼科领域的基准测试，旨在评估 LLMs 在眼科问题回答中的表现。它包含了一个大规模的多语言数据集，用于评估和减少 LLMs 在低收入和中等收入国家（LMICs）中的偏见。
- 贡献：该研究主要关注模型的准确性，但没有深入评估模型的临床推理能力。
- 引用：Restrepo D, Wu C, Tang Z, et al. Multi-OphthaLingua: A Multilingual Benchmark for Assessing and Debiasing LLM Ophthalmological QA in LMICs [Internet]. 2024 [cited 2025 May 21];Available from: http://arxiv.org/abs/2412.14304
OphthBench：
- 研究内容：OphthBench 是一个综合性的基准测试，用于评估 LLMs 在中文眼科领域的表现。它包含多种类型的问题，如选择题、开放式问题和简答题。
- 贡献：该研究提供了一个多语言的评估框架，但同样没有深入评估模型的临床推理能力。
- 引用：Zhou C, Wang J, Qin J, Wang Y, Sun L, Dai W. OphthBench: A Comprehensive Benchmark for Evaluating Large Language Models in Chinese Ophthalmology [Internet]. 2025 [cited 2025 May 29];Available from: http://arxiv.org/abs/2502.01243
EyeQA-Plus：
- 研究内容：EyeQA-Plus 是一个包含 15,000 个合成开放式问题的数据集，用于评估 LLMs 在眼科领域的表现。
- 贡献：该数据集提供了大量的合成问题，但缺乏真实世界临床案例的多样性。
- 引用：未提供具体引用，但该数据集在相关领域被广泛提及。
Ophthalmology single choice questions：
- 研究内容：这是一个包含 100 个单选题的数据集，用于评估 LLMs 在眼科领域的表现。
- 贡献：该数据集提供了高质量的单选题，但规模较小，缺乏临床推理的评估。
- 引用：未提供具体引用，但该数据集在相关领域被广泛提及。
OphthalVQA：
- 研究内容：OphthalVQA 是一个包含 600 个视觉问答问题的数据集，用于评估 LLMs 在眼科领域的表现。
- 贡献：该数据集提供了视觉问答问题，但缺乏对模型推理能力的评估。
- 引用：未提供具体引用，但该数据集在相关领域被广泛提及。
MedMCQA：
- 研究内容：MedMCQA 是一个包含 6,990 个医学多选题的数据集，其中部分问题涉及眼科领域。该数据集提供了高质量的医学考试问题。
- 贡献：该数据集提供了大规模的医学考试问题，但缺乏对模型推理能力的评估。
- 引用：Pal A, Umapathi LK, Sankarasubbu M. Medmcqa: A large-scale multi-subject multi-choice dataset for medical domain question answering. In: Conference on health, inference, and learning. PMLR; 2022. p. 248–60.
PubMedQA：
- 研究内容：PubMedQA 是一个包含 1,000 个生物医学研究问题的数据集，其中部分问题涉及眼科领域。该数据集提供了高质量的生物医学研究问题。
- 贡献：该数据集提供了高质量的生物医学研究问题，但缺乏对模型推理能力的评估。
- 引用：Jin Q, Dhingra B, Liu Z, Cohen W, Lu X. PubMedQA: A Dataset for Biomedical Research Question Answering. In: Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019. p. 2567–77.

Q: 论文如何解决这个问题？

A: 论文通过以下步骤解决了评估大型语言模型（LLMs）在眼科领域表现的问题：

1. 数据集的收集和筛选

数据集来源：从多个医学问答（QA）数据集中收集眼科相关问题，包括BCSC、BioASQ、MedMCQA、MedQA和PubMedQA。
数据集筛选：使用关键词匹配和微调的PubMedBERT模型提取眼科相关问题，并去除重复和质量不佳的问题。

2. 多轮专家检查

初步筛选：由一名眼科医生、两名验光师和六名研究人员对所有问题进行初步检查，去除非眼科问题和重复问题。
质量分级：对问题进行质量分级，评估其答案的准确性和推理质量。
推理修正：由10名眼科医生对质量较低的问题进行推理修正，确保每个问题都有高质量的推理解释。
最终审核：由三名高级眼科医生对修正后的问题进行最终审核，确保数据集的准确性和临床相关性。

3. 基准测试和评估

模型选择：选择了六种LLMs（OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B, 和 Gemini 1.5 Pro）进行评估。
评估指标：使用准确性、宏F1分数和五种文本生成指标（ROUGE-L、BERTScore、BARTScore、METEOR和AlignScore）进行定量评估。
专家评估：由两名眼科医生对50个随机选择的模型输出进行定性评估，评估准确性、完整性和可读性。

4. 公开排行榜和持续更新

公开排行榜：建立了一个公开的排行榜网站，展示不同模型在BELO基准测试中的表现，促进透明的模型比较和报告。
持续更新：未来将扩展BELO基准测试，包括视觉问答和临床场景管理任务，以更全面地评估LLMs在眼科领域的表现。

5. 具体实施步骤

数据集的收集和筛选

数据集来源：
- BCSC：260个问题，来自美国眼科学会出版的《基础与临床科学课程》。
- BioASQ：10个问题，来自生物医学研究问题数据集。
- MedMCQA：572个问题，来自印度AIIMS和NEET PG入学考试。
- MedQA：40个问题，来自美国医学执照考试（USMLE）风格的多选题。
- PubMedQA：18个问题，来自生物医学研究问题数据集。
数据集筛选：
- 使用关键词匹配和微调的PubMedBERT模型提取眼科相关问题。
- 通过多轮专家检查去除重复和质量不佳的问题。

多轮专家检查

初步筛选：
- 由一名眼科医生、两名验光师和六名研究人员对所有问题进行初步检查，去除非眼科问题和重复问题。
质量分级：
- 对问题进行质量分级，评估其答案的准确性和推理质量。
- 分级标准：
  - 0：无推理。
  - 1：推理质量差。
  - 2：仅解释正确答案。
  - 3：解释正确答案和错误答案。
推理修正：
- 由10名眼科医生对质量较低的问题进行推理修正，确保每个问题都有高质量的推理解释。
最终审核：
- 由三名高级眼科医生对修正后的问题进行最终审核，确保数据集的准确性和临床相关性。

基准测试和评估

模型选择：
- 选择了六种LLMs（OpenAI o1, o3-mini, GPT-4o, DeepSeek-R1, Llama-3-8B, 和 Gemini 1.5 Pro）进行评估。
评估指标：
- 准确性：评估模型选择正确答案的能力。
- 宏F1分数：评估模型的召回率和精确率。
- 文本生成指标：
  - ROUGE-L：评估模型输出与参考答案之间的最长公共子序列。
  - BERTScore：评估模型输出与参考答案之间的语义相似性。
  - BARTScore：评估模型输出与参考答案之间的语义相似性和流畅性。
  - METEOR：评估模型输出与参考答案之间的语义相似性。
  - AlignScore：评估模型输出与参考答案之间的事实一致性。
专家评估：
- 由两名眼科医生对50个随机选择的模型输出进行定性评估，评估准确性、完整性和可读性。

公开排行榜和持续更新

公开排行榜：
- 建立了一个公开的排行榜网站，展示不同模型在BELO基准测试中的表现，促进透明的模型比较和报告。
持续更新：
- 未来将扩展BELO基准测试，包括视觉问答和临床场景管理任务，以更全面地评估LLMs在眼科领域的表现。

通过这些步骤，BELO基准测试提供了一个标准化、全面的评估框架，能够系统地评估LLMs在眼科领域的知识和推理能力。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估大型语言模型（LLMs）在眼科领域的表现：

1. 数据集的构建和验证

数据集来源：
- 从多个医学问答（QA）数据集中收集眼科相关问题，包括BCSC、BioASQ、MedMCQA、MedQA和PubMedQA。
数据集筛选：
- 使用关键词匹配和微调的PubMedBERT模型提取眼科相关问题，并去除重复和质量不佳的问题。
多轮专家检查：
- 由一名眼科医生、两名验光师和六名研究人员对所有问题进行初步检查，去除非眼科问题和重复问题。
- 对问题进行质量分级，评估其答案的准确性和推理质量。
- 由10名眼科医生对质量较低的问题进行推理修正，确保每个问题都有高质量的推理解释。
- 由三名高级眼科医生对修正后的问题进行最终审核，确保数据集的准确性和临床相关性。

2. 模型选择和评估

模型选择：
- 选择了六种LLMs进行评估，包括OpenAI o1、o3-mini、GPT-4o、DeepSeek-R1、Llama-3-8B和Gemini 1.5 Pro。
评估指标：
- 定量评估：
  - 准确性：评估模型选择正确答案的能力。
  - 宏F1分数：评估模型的召回率和精确率。
  - 文本生成指标：
    - ROUGE-L：评估模型输出与参考答案之间的最长公共子序列。
    - BERTScore：评估模型输出与参考答案之间的语义相似性。
    - BARTScore：评估模型输出与参考答案之间的语义相似性和流畅性。
    - METEOR：评估模型输出与参考答案之间的语义相似性。
    - AlignScore：评估模型输出与参考答案之间的事实一致性。
- 定性评估：
  - 由两名眼科医生对50个随机选择的模型输出进行定性评估，评估准确性、完整性和可读性。

3. 实验结果

定量评估结果：
- 准确性：OpenAI o1模型表现最佳，准确率为0.882（95% CI: 0.861–0.903）。
- 宏F1分数：OpenAI o1模型表现最佳，宏F1分数为0.890（95% CI: 0.869–0.910）。
- 文本生成指标：
  - ROUGE-L：GPT-4o和o3-mini表现最佳，分别为0.204和0.203。
  - METEOR：OpenAI o1表现最佳，为0.247。
  - BERTScore：o3-mini和GPT-4o表现最佳，分别为0.718和0.713。
  - BARTScore：OpenAI o1、DeepSeek-R1和o3-mini表现最佳，分别为-3.289、-3.313和-3.360。
  - AlignScore：GPT-4o、o3-mini和o1表现最佳，分别为0.255、0.252和0.236。
定性评估结果：
- 准确性：GPT-4o表现最佳，评分为4.91。
- 完整性：Gemini 1.5 Pro表现最佳，评分为4.79。
- 可读性：GPT-4o表现最佳，评分为4.92。

4. 实验设计和方法

数据集构建：
- 关键词匹配：使用眼科相关关键词提取潜在的眼科问题。
- PubMedBERT模型：使用微调的PubMedBERT模型进一步提取眼科问题。
- 多轮专家检查：确保每个问题的准确性和临床相关性。
模型评估：
- 零样本测试：模型在没有额外训练的情况下直接测试。
- 标准化提示：使用标准化的提示格式，确保模型输出的一致性。
- 定量评估：使用多种指标评估模型的准确性和推理能力。
- 定性评估：由专家对模型输出的准确性和可读性进行评估。

通过这些实验，论文展示了BELO基准测试的实用性和有效性，为评估LLMs在眼科领域的表现提供了一个全面的框架。

Q: 有什么可以进一步探索的点？

A: 论文中提出了一些未来可以进一步探索的方向，以下是一些具体的点：

1. 增加真实世界临床案例

当前局限：BELO基准测试目前缺乏来自真实世界临床案例的问题。
未来方向：未来的工作可以增加更多真实世界临床案例，包括多步推理和管理计划的问题，以更好地反映临床实践中的复杂性。

2. 视觉问答任务

当前局限：BELO基准测试目前主要集中在文本问答任务上。
未来方向：未来可以扩展到视觉问答任务，结合图像和文本信息，评估模型在多模态推理方面的能力。这可以利用现有的大型多模态眼科数据集（如LMOD）来构建视觉问答任务。

3. 多语言支持

当前局限：BELO基准测试目前主要使用英文数据集。
未来方向：未来可以扩展到多语言环境，评估LLMs在不同语言背景下的表现，以支持全球范围内的临床应用。

4. 模型的持续改进

当前局限：尽管BELO基准测试已经评估了多种LLMs，但仍有改进空间。
未来方向：未来可以探索新的LLMs，特别是那些专门针对医学领域训练的模型，以进一步提高模型的准确性和推理能力。

5. 临床场景管理任务

当前局限：BELO基准测试目前主要集中在单个问题的问答上。
未来方向：未来可以扩展到更复杂的临床场景管理任务，评估模型在处理多步临床决策和治疗计划方面的能力。

6. 模型的偏见和公平性

当前局限：BELO基准测试目前没有专门评估模型的偏见和公平性。
未来方向：未来可以增加对模型偏见和公平性的评估，确保模型在不同人群和临床场景中的表现是公平和无偏的。

7. 模型的可解释性

当前局限：BELO基准测试目前主要评估模型的输出，但对模型的内部决策过程评估较少。
未来方向：未来可以探索模型的可解释性，开发工具和技术来解释模型的决策过程，提高模型的透明度和可信度。

8. 与其他医学领域的协同研究

当前局限：BELO基准测试目前专注于眼科领域。
未来方向：未来可以与其他医学领域（如放射学、病理学等）进行协同研究，开发跨领域的综合评估框架，以评估LLMs在多学科医疗中的应用潜力。

9. 动态更新和扩展

当前局限：BELO基准测试目前是一个静态的数据集。
未来方向：未来可以开发动态更新机制，定期添加新的问题和案例，以保持基准测试的时效性和相关性。

10. 用户反馈和迭代改进

当前局限：BELO基准测试目前主要基于专家检查和模型评估。
未来方向：未来可以增加用户反馈机制，通过实际用户（如医生、护士等）的反馈来不断改进基准测试和模型性能。

这些方向不仅可以进一步完善BELO基准测试，还可以推动LLMs在眼科领域的实际应用，提高医疗效率和质量。

Q: 总结一下论文的主要内容

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2507.15717v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15717v1

Published: 2025-07-21T15:27:32Z

2. Detecting Benchmark Contamination Through Watermarking

Benchmark contamination poses a significant challenge to the reliability of Large Language Models (LLMs) evaluations, as it is difficult to assert whether a model has been trained on a test set. We introduce a solution to this problem by watermarking benchmarks before their release. The embedding involves reformulating the original questions with a watermarked LLM, in a way that does not alter the benchmark utility. During evaluation, we can detect ``radioactivity’’, \ie traces that the text watermarks leave in the model during training, using a theoretically grounded statistical test. We test our method by pre-training 1B models from scratch on 10B tokens with controlled benchmark contamination, and validate its effectiveness in detecting contamination on ARC-Easy, ARC-Challenge, and MMLU. Results show similar benchmark utility post-watermarking and successful contamination detection when models are contaminated enough to enhance performance, \eg $p$-val $=10^{-3}$ for +5$\%$ on ARC-Easy.

中文摘要

基准污染对大型语言模型（LLM）评估的可靠性构成重大挑战，因为很难确认一个模型是否在测试集上进行了训练。我们通过在发布之前给基准水印来解决这个问题。水印嵌入涉及使用加水印的LLM重新制定原始问题，方式不改变基准的效用。在评估过程中，我们可以使用理论基础的统计测试检测到“放射性”，即文本水印在训练过程中留在模型中的痕迹。我们通过从头开始在10B个标记上预训练1B模型，并控制基准污染，来测试我们的方法，并验证其在ARC-Easy、ARC-Challenge和MMLU上检测污染的有效性。结果表明，在加水印后基准效用相似，并且当模型被污染到足以提高性能时（例如，ARC-Easy的$p$-值为$10^{-3}$，增加5%），成功检测到了污染。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决大型语言模型（LLMs）评估中基准数据集（benchmark）污染（contamination）的问题。基准污染是指模型在训练过程中可能无意或有意地接触到了测试集中的数据，这使得模型在评估时表现出色，但这种表现并非由于模型的真实能力提升，而是因为模型记住了测试集中的内容。这种现象挑战了基准评估的可靠性和有效性，使得难以判断模型性能的提升是由于真正的改进还是仅仅是因为记忆了测试数据。

为了解决这一问题，论文提出了一种通过在基准数据集发布之前嵌入水印（watermarking）来检测污染的方法。具体来说，该方法通过使用带有水印的LLM重新表述基准数据集中的问题，使得这些问题在逻辑上与原始问题等价，但包含了可检测的水印。在评估阶段，可以通过一种理论上有根据的统计测试来检测模型训练过程中留下的“放射性”痕迹，即文本水印留下的痕迹，从而判断模型是否在训练中使用了带有水印的基准数据集。

Q: 有哪些相关研究？

A: 论文中提到了多个与基准污染检测和水印技术相关的研究，以下是主要的相关研究：

基准污染检测

Singh et al. (2024): 研究了LLMs中的评估数据污染问题，探讨了如何衡量污染以及在何种情况下污染会带来问题。
Balloccu et al. (2024): 研究了闭源LLMs中的数据泄露、作弊和重复问题。
Jiang et al. (2024): 展示了即使是小型模型，由于污染也可能在基准测试中表现出更好的性能。
Yang et al. (2023): 通过比较原始问题和类似问题的性能来识别分数膨胀，但指出训练于重新表述的问题足以提升原始基准的性能，因此性能差异并不一定能提供很好的相关性见解。
Zhang et al. (2024): 通过创建与GSM8K难度和形式相似的新问题，观察到许多模型在这些新问题上的表现显著低于GSM8K测试集，突出了污染问题，但没有提出可扩展的解决方案。
Duan et al. (2024): 研究了针对LLMs的成员推断攻击的有效性，发现这些方法在现实场景中对LLMs并不有效。

解码器水印技术和放射性

Kirchenbauer et al. (2023a): 提出了一种通过修改生成文本的概率分布来进行水印的技术。
Aaronson and Kirchner (2023): 提出了一种通过改变采样方法来为LLMs生成文本添加水印的方法。
Kuditipudi et al. (2023): 研究了如何为LLMs生成的文本添加鲁棒且无失真的水印。
Christ et al. (2023): 研究了水印检测受生成文本熵的影响。
Huang et al. (2023): 同样研究了水印检测与生成文本熵的关系。
Lee et al. (2023): 提出了一种针对代码生成的水印技术，建议只对高熵部分进行水印。
Liu et al. (2023): 探索了基于整个前文语义表示的“语义”水印。
Liu and Bu (2024): 提出了一种自适应文本水印技术。
Fu et al. (2024): 研究了如何为条件文本生成添加水印以检测AI生成内容。
Sander et al. (2024): 展示了在LLM生成的带水印的问答对上进行微调可以被高置信度地检测到，因为模型保留了水印偏差的痕迹。
Gu et al. (2023): 展示了LLM水印可以被有意地提取。
Zhao et al. (2023): 在生成文本中引入了一种信号，该信号可以被训练于该文本的其他LLMs学习。
Jovanović et al. (2024): 在RAG上下文中研究了水印放射性概念。

Q: 论文如何解决这个问题？

A: 论文通过在基准数据集发布之前嵌入水印来解决基准污染的问题。具体方法如下：

1. 基准数据集的水印嵌入

使用带水印的LLM重新表述问题：论文使用一个指令型语言模型（LMrephrase），例如Llama-3 instruct模型，来重新表述基准数据集中的问题。在重新表述的过程中，模型会根据一个秘密密钥（s）和上下文窗口（k个之前的token）来生成一个“绿名单”（greenlist），并将绿名单中的token的logits值增加一个固定量（δ），从而增加这些token被采样的概率。这种方法基于Kirchenbauer et al. (2023b)的工作。
保持基准的实用性：重新表述的问题在逻辑上与原始问题等价，同时嵌入了水印。通过调整水印的强度（δ），可以在检测能力和基准实用性之间取得平衡。实验表明，即使在较强的水印强度下，模型在重新表述的基准上的表现与原始基准相当，从而保持了基准的实用性。

2. 污染检测

放射性检测（Radioactivity Detection）：论文扩展了Sander et al. (2024)的工作，将水印放射性检测应用于预训练设置。具体来说，通过在预训练阶段引入带有水印的基准数据集，并在训练过程中控制污染的程度，可以检测模型是否在训练中使用了带有水印的基准数据集。
统计测试：在检测阶段，使用“阅读模式”（reading mode）对模型的输出进行评分。对于每个预测的token，根据水印窗口和秘密密钥生成绿名单，如果预测的token在绿名单中，则得分加1。最终，通过统计测试（如二项分布测试）计算p值，p值越小，表示模型被污染的概率越高。
实验验证：论文通过实验验证了该方法的有效性。实验中，作者训练了1B参数的模型，并在10B tokens的数据上进行预训练，同时控制基准数据集的污染程度。结果表明，当模型在基准数据集上表现提升时（例如，准确率提升5%），可以以很高的置信度（p值低于10^-3）检测到污染。

3. 实验设计

基准数据集选择：论文选择了ARC-Easy、ARC-Challenge和MMLU三个广泛使用的基准数据集进行实验。
水印强度和窗口大小：实验中，作者尝试了不同的水印强度（δ）和窗口大小（k），发现较大的窗口大小和较强的水印强度可以提高检测的置信度。
模型性能评估：通过比较模型在原始基准和重新表述的基准上的表现，验证了重新表述的基准在实用性上没有显著下降。同时，通过控制污染程度并评估模型在基准上的表现提升，验证了该方法在检测污染方面的有效性。

4. 限制与改进

Tokenizer一致性：如果被检测的模型使用了不同的分词器，可能会减少可评分的token数量，从而降低测试的效力。
重新表述的影响：虽然模型在重新表述的基准上的表现与原始基准相当，但某些问题在重新表述后可能会失去连贯性。
恶意规避：该方法主要针对无意的污染。恶意攻击者可能会通过重新表述问题来削弱水印，或者只在条件于问题的情况下训练答案，从而绕过放射性检测。在这种情况下，可能需要对答案也进行水印处理。

总体而言，论文提出了一种有效的方法来检测基准污染，同时保持了基准的实用性。通过实验验证，该方法在检测污染方面表现出色，为LLMs的评估提供了一种可靠的解决方案。

Q: 论文做了哪些实验？

A: 论文进行了以下实验来验证提出的基准水印方法的有效性和实用性：

1. 基准数据集的水印嵌入实验

实验设置：
- 使用Llama-3.1-8B-Instruct模型对ARC-Easy、ARC-Challenge和MMLU三个基准数据集中的问题进行重新表述。
- 使用Kirchenbauer et al. (2023b)提出的绿/红名单水印技术，设置不同的水印强度（δ = 0, 1, 2, 4）和窗口大小（k = 0, 1, 2）。
- 对每个基准数据集，使用不同的秘密密钥（s）进行水印嵌入。
实验结果：
- 基准实用性：通过比较多个Llama-3模型在原始基准和重新表述的基准上的表现，发现即使在较强的水印强度下（δ = 4），模型在重新表述的基准上的表现与原始基准相当。例如，在ARC-Easy上，所有模型在重新表述的基准上的准确率与原始基准相近（见图3a）。
- 水印嵌入效果：通过计算重新表述后的基准中绿名单token的比例（ρ），验证了水印嵌入的有效性。例如，在ARC-Easy上，当δ = 4时，绿名单token的比例达到73%（见图6）。

2. 污染检测实验

实验设置：
- 训练1B参数的Transformer模型，使用Meta Lingua在10B tokens的数据上进行预训练。
- 在预训练过程中，控制基准数据集的污染程度。具体来说，在训练的第2500步到7500步之间，每隔一定步数（根据污染次数决定）用基准数据集的一个batch替换预训练数据的一个batch。
- 每个基准数据集的污染次数分别为4次、8次和16次，每次污染包含所有基准数据集的tokens。
- 使用两种不同的模板进行评估：一种是训练时使用的模板，另一种是稍微不同的模板（out-of-distribution, OOD）。
实验结果：
- 性能提升：随着污染次数的增加，模型在基准数据集上的表现显著提升。例如，在ARC-Easy上，经过16次污染后，模型的准确率从53.5%提升到71.7%（见表1）。
- 污染检测：通过放射性检测方法，计算模型在基准数据集上的放射性得分（S）和对应的p值。结果表明，随着污染次数的增加和水印强度的增强，p值显著降低，表明污染检测的置信度提高。例如，在ARC-Easy上，经过16次污染后，p值低于10^-12（见图3b）。
- 不同窗口大小的影响：实验还比较了不同窗口大小（k = 0, 1, 2）对污染检测的影响。结果表明，较大的窗口大小（k = 2）在污染检测中表现更好（见表2和图8）。
- 不同基准数据集的影响：实验还比较了不同基准数据集在污染检测中的表现。结果表明，较大的基准数据集（如MMLU*）在污染检测中表现更好，因为更多的证据（即更多的可评分token）可以提高测试的置信度（见表1）。
- 不同模型大小的影响：实验还比较了不同模型大小（135M、360M和1B参数）在污染检测中的表现。结果表明，较大的模型在相同的污染次数下表现出更高的性能提升和更高的污染检测置信度（见图5）。

3. 附加实验

重新表述模型的影响：实验比较了使用不同大小的Llama模型（8B和70B）进行重新表述的效果。结果表明，较大的模型（如70B）在重新表述某些技术性问题（如数学问题）时表现更好，尤其是在较强的水印强度下（见图4）。
不同评估模板的影响：实验比较了使用训练时模板和OOD模板进行评估的结果。结果表明，即使在OOD模板下，模型在污染后的表现提升仍然显著（见表1和表3）。

总结

通过这些实验，论文验证了提出的基准水印方法在保持基准实用性的同时，能够有效地检测模型是否在训练中使用了带有水印的基准数据集。实验结果表明，该方法在不同的基准数据集、水印强度、窗口大小和模型大小下均表现出良好的效果。

Q: 有什么可以进一步探索的点？

A: 论文提出了一种通过水印技术检测基准污染的方法，并通过实验验证了其有效性。然而，仍有一些可以进一步探索的点，以改进和扩展这一方法：

1. 不同类型的基准数据集

更广泛的基准数据集：虽然论文选择了ARC-Easy、ARC-Challenge和MMLU三个基准数据集，但可以进一步探索其他类型的基准数据集，例如自然语言处理（NLP）以外的领域，如计算机视觉（CV）或音频处理。
多语言基准数据集：目前的实验主要集中在英语基准数据集上。可以探索在多语言基准数据集上应用水印技术，以评估其在不同语言环境中的有效性。

2. 水印技术的改进

更复杂的水印模式：目前的水印技术基于绿/红名单，可以探索更复杂的水印模式，例如结合语义信息或上下文信息的水印，以提高检测的鲁棒性和准确性。
自适应水印强度：目前的水印强度是手动设置的，可以研究自适应调整水印强度的方法，以在不同的基准数据集和模型上自动找到最佳的检测和实用性平衡。

3. 模型和训练策略的影响

不同架构的模型：虽然论文主要使用了Transformer架构的模型，但可以探索其他类型的模型，如循环神经网络（RNN）或图神经网络（GNN），以评估水印技术在不同模型架构上的有效性。
不同的训练策略：可以研究不同的训练策略对水印检测的影响，例如不同的优化器、学习率调度、正则化方法等。

4. 恶意攻击的防御

对抗性攻击：虽然论文提到了恶意攻击者可能通过重新表述问题来削弱水印，但可以进一步研究具体的对抗性攻击方法，并探索相应的防御策略。
水印的持久性：研究水印在模型经过多次微调或迁移学习后的持久性，以确保水印在不同的训练阶段都能被检测到。

5. 实际应用中的挑战

分词器的一致性：论文提到如果被检测的模型使用了不同的分词器，可能会减少可评分的token数量。可以研究如何在不同的分词器之间保持水印的一致性。
水印的可扩展性：在大规模的预训练数据中，如何有效地嵌入和检测水印是一个重要的问题。可以研究水印技术在大规模数据集上的可扩展性。

6. 性能和效率的权衡

计算效率：目前的水印检测方法可能需要对整个模型进行评分，这在计算上可能比较昂贵。可以研究更高效的检测算法，以减少计算成本。
实时检测：探索在模型训练过程中实时检测水印的方法，以便在污染发生时立即采取措施。

7. 用户研究和反馈

用户反馈：通过用户研究收集反馈，了解水印技术在实际应用中的用户体验和接受度。
社区参与：鼓励社区参与水印技术的开发和改进，例如通过开源项目或竞赛。

8. 法律和伦理问题

法律合规性：研究水印技术在不同国家和地区的法律合规性，确保其在实际应用中的合法性。
伦理问题：探讨水印技术可能引发的伦理问题，例如隐私保护和数据所有权。

通过进一步探索这些方向，可以更好地完善基准水印技术，使其在实际应用中更加有效和可靠。

Q: 总结一下论文的主要内容

A: 这篇论文的核心内容是提出了一种通过水印技术来检测大型语言模型（LLMs）评估中基准数据集污染的方法。基准污染是指模型在训练过程中可能接触到了测试集中的数据，导致评估结果不可靠。论文的主要贡献包括：

背景知识

近年来，大型语言模型（LLMs）在多种基准测试中表现出色，但基准污染问题严重影响了评估的可靠性。
基准污染可能发生在预训练数据中，也可能是因为模型直接在基准数据集上训练。
现有的检测方法，如成员推断攻击，在现实场景中对LLMs并不有效。

研究方法

水印嵌入：论文提出在基准数据集发布之前，使用带有水印的LLM重新表述基准中的问题。这种方法基于Kirchenbauer et al. (2023b)的绿/红名单水印技术，通过修改生成文本的概率分布来嵌入水印。
保持基准实用性：重新表述的问题在逻辑上与原始问题等价，同时嵌入了水印。通过调整水印的强度（δ），可以在检测能力和基准实用性之间取得平衡。
放射性检测：论文扩展了Sander et al. (2024)的工作，将水印放射性检测应用于预训练设置。具体来说，通过在预训练阶段引入带有水印的基准数据集，并在训练过程中控制污染的程度，可以检测模型是否在训练中使用了带有水印的基准数据集。
统计测试：在检测阶段，使用“阅读模式”对模型的输出进行评分。对于每个预测的token，根据水印窗口和秘密密钥生成绿名单，如果预测的token在绿名单中，则得分加1。最终，通过统计测试（如二项分布测试）计算p值，p值越小，表示模型被污染的概率越高。

实验

基准数据集选择：论文选择了ARC-Easy、ARC-Challenge和MMLU三个基准数据集进行实验。
水印强度和窗口大小：实验中，作者尝试了不同的水印强度（δ = 0, 1, 2, 4）和窗口大小（k = 0, 1, 2），发现较大的窗口大小和较强的水印强度可以提高检测的置信度。
模型性能评估：通过比较模型在原始基准和重新表述的基准上的表现，验证了重新表述的基准在实用性上没有显著下降。同时，通过控制污染程度并评估模型在基准上的表现提升，验证了该方法在检测污染方面的有效性。
实验结果：实验结果表明，即使在较强的水印强度下（δ = 4），模型在重新表述的基准上的表现与原始基准相当。随着污染次数的增加和水印强度的增强，p值显著降低，表明污染检测的置信度提高。例如，在ARC-Easy上，经过16次污染后，p值低于10^-12。

关键结论

论文提出了一种有效的方法来检测基准污染，同时保持了基准的实用性。
实验结果表明，该方法在不同的基准数据集、水印强度、窗口大小和模型大小下均表现出良好的效果。
该方法主要针对无意的污染，对于恶意攻击者可能通过重新表述问题来削弱水印的情况，需要进一步研究防御策略。

限制与改进

Tokenizer一致性：如果被检测的模型使用了不同的分词器，可能会减少可评分的token数量，从而降低测试的效力。
重新表述的影响：虽然模型在重新表述的基准上的表现与原始基准相当，但某些问题在重新表述后可能会失去连贯性。
恶意规避：该方法主要针对无意的污染。恶意攻击者可能会通过重新表述问题来削弱水印，或者只在条件于问题的情况下训练答案，从而绕过放射性检测。在这种情况下，可能需要对答案也进行水印处理。

Authors: Tom Sander, Pierre Fernandez, Saeed Mahloujifar, Alain Durmus, Chuan Guo

Categories: cs.CR, cs.AI

PDF URL: https://arxiv.org/pdf/2502.17259v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2502.17259v2

Published: 2025-02-24T15:39:31Z

3. Know Or Not: a library for evaluating out-of-knowledge base robustness

While the capabilities of large language models (LLMs) have progressed significantly, their use in high-stakes applications have been limited due to risks of hallucination. One key approach in reducing hallucination is retrieval-augmented generation (RAG), but even in such setups, LLMs may still hallucinate when presented with questions outside of the knowledge base. Such behavior is unacceptable in high-stake applications where LLMs are expected to abstain from answering queries it does not have sufficient context on. In this work, we present a novel methodology for systematically evaluating out-of-knowledge base (OOKB) robustness of LLMs (whether LLMs know or do not know) in the RAG setting, without the need for manual annotation of gold standard answers. We implement our methodology in knowornot, an open-source library that enables users to develop their own customized evaluation data and pipelines for OOKB robustness. knowornot comprises four main features. Firstly, it provides a unified, high-level API that streamlines the process of setting up and running robustness benchmarks. Secondly, its modular architecture emphasizes extensibility and flexibility, allowing users to easily integrate their own LLM clients and RAG settings. Thirdly, its rigorous data modeling design ensures experiment reproducibility, reliability and traceability. Lastly, it implements a comprehensive suite of tools for users to customize their pipelines. We demonstrate the utility of knowornot by developing a challenging benchmark, PolicyBench, which spans four Question-Answer (QA) chatbots on government policies, and analyze its OOKB robustness. The source code of knowornot is available https://github.com/govtech-responsibleai/KnowOrNot.

中文摘要

虽然大型语言模型（LLMs）的能力显著提高，但由于存在幻想风险，它们在高风险应用中的使用仍然有限。减少幻想的一个关键方法是检索增强生成（RAG），但即便在这种设置中，当面对超出知识库的问题时，LLMs 仍可能会幻想。在高风险应用中，这种行为是不可接受的，因为期望 LLMs 在没有足够上下文的情况下不回答查询。在本研究中，我们提出了一种新颖的方法论，用于系统评估 LLMs 在 RAG 设置下的知识库外（OOKB）鲁棒性（LLMs 是否知道或不知道），而无需手动标注标准答案。我们在 open-source 库 knowornot 中实施了该方法论，使用户能够开发自己的定制评估数据和管道，以评估 OOKB 鲁棒性。knowornot 包含四个主要特性。首先，它提供一个统一的高级 API，简化鲁棒性基准测试的设置和运行过程。其次，它的模块化架构强调可扩展性和灵活性，使用户能够轻松集成自己的 LLM 客户端和 RAG 设置。第三，它严格的数据建模设计确保实验的可重现性、可靠性和可追溯性。最后，它实施了一套全面的工具，以便用户定制他们的管道。我们通过开发一个具有挑战性的基准，PolicyBench，展示了 knowornot 的实用性，该基准涵盖了四个关于政府政策的问答（QA）聊天机器人，并分析其 OOKB 鲁棒性。knowornot 的源代码可在 https://github.com/govtech-responsibleai/KnowOrNot 获取。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是大型语言模型（LLMs）在高风险应用场景中的鲁棒性问题，特别是当面对超出知识库（Out-of-Knowledge Base, OOKB）的问题时，LLMs是否能够正确地拒绝回答（即知道何时“不知道”）。尽管检索增强生成（Retrieval-Augmented Generation, RAG）是一种减少LLMs幻觉（hallucination）的关键方法，但在实际应用中，LLMs仍然可能在没有足够上下文的情况下回答问题，这在高风险应用中是不可接受的。因此，作者提出了一种系统化评估LLMs在RAG设置中对OOKB问题的鲁棒性的新方法，并开发了一个名为knowornot的开源库，用于无需手动标注标准答案即可进行这种评估。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

生成与拒绝回答（Generation with Abstention）

Chen et al. [2024b]：通过微调对齐的LLMs来在适当的时候拒绝回答问题，通过回应“I don’t know”来减少幻觉。
Kadavath et al. [2022]：使用提示（prompting）来引导LLMs表达不确定性。
Tomani et al. [2024]：使用不确定性估计来确定何时拒绝回答。
Cole et al. [2023]：使用一致性方法来确定何时拒绝回答。
Kapoor et al. [2024]：使用校准调整来确定何时拒绝回答。
Chen et al. [2024a]：开发了一个反事实提示框架，用于指导RAG模型评估何时拒绝回答，但主要依赖于LLM-as-a-judge来确定是否拒绝回答。

上下文归因（Context Attribution）

ClashEval [Wu et al., 2024]：创建了一个QA对的基准，并故意扰动提供给LLMs的上下文信息，以研究LLMs如何在内部先验知识和外部证据之间进行仲裁。
Cohen-Wang et al. [2024]：探索了各种技术，通过代理leave-one-out方法，测量当给定上下文跨度被移除时LLMs响应的变化。
Liu et al. [2025]：探索了各种技术，通过代理leave-one-out方法，测量当给定上下文跨度被移除时LLMs响应的变化。

自动化评估流程（Automated Evaluation Pipelines）

DynaBench [Kiela et al., 2021]：一个用于动态数据集创建的开源平台，但由于需要人工标注而面临扩展问题。
Krishna et al. [2025]：评估了端到端的RAG场景，但依赖于人工标注来获取标准答案。
YourBench [Shashidhar et al., 2025]：提供了一个基于文档的框架，用于按需生成自定义评估集，使用引用验证和语义去重来生成有根据的、高质量的问题。

这些研究为评估LLMs的鲁棒性提供了不同的方法和工具，但作者指出，这些方法要么依赖于人工标注，要么没有实现leave-one-out实验方法，而本文提出的knowornot框架则填补了这一空白。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决大型语言模型（LLMs）在高风险应用场景中的鲁棒性问题，特别是当面对超出知识库（Out-of-Knowledge Base, OOKB）的问题时，LLMs是否能够正确地拒绝回答（即知道何时“不知道”）：

1. 提出一种系统化评估方法

论文提出了一种新颖的系统化评估方法，用于评估LLMs在检索增强生成（Retrieval-Augmented Generation, RAG）设置中对OOKB问题的鲁棒性。这种方法的核心是通过leave-one-out（LOO）实验设置来评估LLMs在没有相关上下文信息时是否能够正确拒绝回答问题。

1.1 知识库形式化和测试用例生成

原子事实提取：将源文本分解为粒度较细、可验证的信息单元（原子事实）。
生成和筛选QA对：从原子事实中生成QA对，并通过关键词和语义过滤技术确保这些QA对是多样化的、信息上独立的。

1.2 Leave-One-Out实验设置

实验配置：通过LOO实验设置，故意从上下文中移除与问题相关的信息，评估LLMs是否能够正确拒绝回答。
评估维度：评估不同的上下文检索策略、系统提示和LLM模型对OOKB鲁棒性的影响。

2. 开发knowornot开源库

论文开发了一个名为knowornot的开源Python库，实现了上述评估方法。该库具有以下特点：

统一的高级API：简化了设置和运行鲁棒性评估的过程。
模块化架构：强调可扩展性和灵活性，允许用户轻松集成自己的LLM客户端、RAG设置和评估标准。
严格的数据建模设计：确保实验的可重复性、可靠性和可追溯性。
全面的工具集：提供定制化评估流程的工具，支持自动化和人工验证的结合。

3. 构建PolicyBench基准

论文通过开发PolicyBench基准来验证knowornot框架的有效性。PolicyBench包含四个新加坡政府政策领域的QA聊天机器人问题，用于评估在类似设置中LLMs的OOKB鲁棒性。这些领域包括：

移民服务：复杂的、一般性的领域。
养老金系统：简单的、特定领域的领域。
健康保险：复杂的、特定领域的领域。
驾驶教育：简单的、一般性的领域。

4. 实验和评估

论文通过系统化的实验，评估了不同提示策略和检索方法对LLMs的OOKB鲁棒性的影响。实验结果表明：

拒绝回答率：不同的提示策略和检索方法对LLMs的拒绝回答率有显著影响。例如，保守提示与RAG结合时拒绝回答率超过60%。
事实性评估：在LLMs不拒绝回答的情况下，评估其回答的事实性。结果显示，即使在复杂的特定领域（如健康保险）中，LLMs的回答事实性也相对较高。

5. 人工验证和评估改进

论文结合了自动化评估和人工验证，通过结构化的人工标注流程，验证自动化评估的可靠性，并根据人工标注结果改进评估提示。这确保了评估结果的准确性和可靠性。

通过上述方法，论文不仅提供了一种系统化评估LLMs OOKB鲁棒性的方法，还通过knowornot

Authors: Jessica Foo, Pradyumna Shyama Prasad, Shaun Khoo

Categories: cs.IR, cs.AI

PDF URL: https://arxiv.org/pdf/2505.13545v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2505.13545v2

Published: 2025-05-19T03:17:41Z

4. Metric assessment protocol in the context of answer fluctuation on MCQ tasks

Using multiple-choice questions (MCQs) has become a standard for assessing LLM capabilities efficiently. A variety of metrics can be employed for this task. However, previous research has not conducted a thorough assessment of them. At the same time, MCQ evaluation suffers from answer fluctuation: models produce different results given slight changes in prompts. We suggest a metric assessment protocol in which evaluation methodologies are analyzed through their connection with fluctuation rates, as well as original performance. Our results show that there is a strong link between existing metrics and the answer changing, even when computed without any additional prompt variants. A novel metric, worst accuracy, demonstrates the highest association on the protocol.

中文摘要

使用多项选择题（MCQ）已成为高效评估大型语言模型（LLM）能力的标准。可以采用各种指标来完成这项任务。然而，之前的研究并没有对它们进行全面评估。同时，MCQ评估面临答案波动的问题：模型在提示稍有变化时会产生不同的结果。我们建议一种指标评估协议，通过分析评估方法与波动率以及原始性能的关联，来进行评估。我们的结果表明，现有指标与答案变动之间存在强相关性，即使在没有任何额外提示变体的情况下进行计算。一个新颖的指标，最差准确率，在该协议中表现出最高的关联性。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在使用多项选择题（MCQ）评估大型语言模型（LLM）能力时，如何准确衡量模型性能以及模型答案波动（answer fluctuation）的问题。具体来说，论文关注以下两个主要问题：

现有评估指标的不足：尽管MCQ已成为评估LLM能力的标准方法，但目前对于这些评估指标的系统性比较和分析还不够充分。不同的指标在衡量模型性能时可能会有不同的表现，而以往的研究并没有对这些指标进行全面的比较和评估。
答案波动现象：LLM在面对MCQ任务时，其答案可能会因提示（prompt）的微小变化而产生波动，即相同的模型在不同的选项排列顺序下可能会给出不同的答案。这种现象被称为“答案波动”（answer fluctuation）。这种波动对模型的可靠性提出了挑战，尤其是在一些对可靠性要求较高的领域（如医疗、法律等）。然而，全面检测所有可能的波动情况会带来巨大的计算成本。

因此，论文提出了一个新的评估协议，旨在通过分析评估指标与答案波动率之间的关系，以及与原始性能的关系，来比较和评估不同的MCQ任务评估指标。论文还引入了一个新的指标——最差准确率（worst accuracy），并探讨了如何在较低成本的环境下找到能够有效代表全面波动率的评估指标。

Q: 有哪些相关研究？

A: 论文中提到了多项与MCQ任务评估和答案波动相关的研究，这些研究为本文的研究提供了背景和基础。以下是主要的相关研究：

MCQ任务评估

MCQ在教育领域的应用：Brady（2005）和Moss（2001）讨论了MCQ在教育评估中的广泛使用，强调了其在测试学生知识和理解方面的有效性。
MCQ在LLM评估中的应用：Rogers等人（2021）指出MCQ任务已成为评估LLM能力的标准方法。Clark等人（2018）开发了AI2 Reasoning Challenge（ARC）基准，用于评估模型的推理能力。Rein等人（2024）提出了GPQA，一个研究生级别的问答基准。Suzgun等人（2022）开发了BigBench-Hard，用于评估模型在复杂任务上的表现。

答案波动现象

问题表述和选项顺序的影响：Mizrahi等人（2023）发现即使是微小的提示改写（如将“have”替换为“include”）也会影响模型的性能。Liang等人（2023）指出不同的少样本示例选择会导致模型性能的巨大差异。
选项顺序的影响：Pezeshkpour和Hruschka（2024）研究了选项顺序对模型性能的影响，发现通过改变选项顺序，模型的最佳和最差性能之间可能存在高达70个百分点的差异。Zheng等人（2024）展示了将所有正确答案移动到A/B/C/D中的一个位置可以导致某些模型性能提升，而其他模型性能下降。
其他因素的影响：Tjuatja等人（2024）比较了LLM在MCQ任务中的偏见与人类的偏见，发现模型对人类受访者不重要的因素（如拼写错误）非常敏感。Wei等人（2024）发现，即使保持选项顺序不变，仅仅反转标签顺序（如D/C/B/A）也会导致性能下降。

LLM评估中的波动上下文

波动率指标：Wei等人（2024）提出了波动率指标，用于比较原始和逆序选项顺序上的答案。Zheng等人（2024）引入了PriDe方法，通过计算答案标记的先验概率来调整模型的概率，以减少偏差。
敏感性差距和强准确率：Pezeshkpour和Hruschka（2024）提出了敏感性差距（sensitivity gap）指标，用于评估模型性能和答案波动。Gupta等人（2024）提出了强准确率（strong accuracy），通过比较原始选项顺序和排列之间的成对响应来评估模型的准确性。

这些研究为本文提供了关于MCQ任务评估和答案波动现象的深入理解，并为本文提出的评估协议和新指标奠定了基础。

Q: 论文如何解决这个问题？

A: 为了解决MCQ任务评估中现有指标不足和答案波动的问题，论文提出了一个全面的评估协议，并引入了一个新的指标。以下是论文的主要解决方法：

1. 编译和形式化现有指标

论文首先对现有的用于评估LLM在MCQ任务上的性能的指标进行了编译和形式化。这些指标包括：

波动率（Fluctuation Rates, FR）：衡量模型在不同选项排列下的答案变化程度。
平均准确率（Average Accuracy, AAcc）：在多个排列上计算的准确率的平均值。
强准确率（Strong Accuracy, SAcc）：通过比较原始选项顺序和排列之间的成对响应来评估模型的准确性。
概率质量（Probability Mass）：正确答案的概率质量的平均值。
Brier分数：衡量模型预测的校准程度。
归一化熵（Normalized Entropy）：衡量模型预测的不确定性。

2. 提出新的指标：最差准确率（Worst Accuracy, WAcc）

论文引入了一个新的指标——最差准确率（Worst Accuracy, WAcc），该指标衡量模型在所有测试排列中是否始终给出正确答案。具体来说，WAcc等于1当且仅当模型在所有测试排列中都给出了正确答案。这个指标特别关注模型的鲁棒性，能够区分模型在所有排列中都正确回答的情况和仅在部分排列中正确回答的情况。

3. 评估协议

论文提出了一个评估协议，用于分析不同指标与全面波动率之间的相关性，以及与原始准确率的相关性。评估协议的步骤如下：

计算原始准确率：计算模型在原始选项顺序下的准确率。
计算全面波动率：计算模型在所有可能的选项排列下的波动率。
计算指标：在较小的排列子集上计算上述提到的指标。
相关性分析：使用R²值评估指标与全面波动率之间的相关性。
综合相关性分析：同时考虑指标与全面波动率和原始准确率的相关性。

4. 实验验证

论文通过在10个不同模型和17个任务上的实验来验证提出的评估协议。实验结果表明：

现有指标与波动率的相关性：大多数现有指标与全面波动率有很强的相关性，即使这些指标仅在原始选项顺序上计算。
最差准确率的表现：在考虑原始准确率的情况下，最差准确率（WAcc）表现最佳，能够平衡对波动率和原始准确率的表示。
排列选择的影响：选择不同的排列对某些指标的计算结果有显著影响，特别是在随机选择排列时，某些指标的稳定性较差。

5. 结论和未来工作

论文总结了实验结果，并指出了未来工作的方向，包括：

排列选择的优化：进一步研究选择排列的最佳方法。
其他类型的排列：将评估扩展到其他类型的排列，如问题改写、选项标签变化等。
不同模型大小：将研究扩展到不同大小的模型，以验证这些发现是否具有普遍性。
文本生成与下一个标记预测：将研究扩展到模型的文本生成方法，以评估其对波动率的影响。

通过这些方法，论文不仅提供了一个系统性的评估框架，还引入了一个新的指标来更好地评估LLM在MCQ任务上的性能和鲁棒性。

Q: 论文做了哪些实验？

A: 论文进行了以下实验来验证提出的评估协议和新指标的有效性：

实验设置

模型选择：实验使用了10个参数量小于10B的LLM，这些模型经常用于微调，因此对它们的评估更具实际意义。具体模型包括Llama-3.1-8B、Gemma-2-9B、Mistral-7B-v0.3、Qwen2.5-7B等。
基准选择：为了减少输入文本微小变化对结果的影响，实验使用了Meta公开的评估数据集，涵盖了ARC-C、CSQA、MMLU、AGIEval和Winogrande等5个基准测试。这些基准测试包含了完整的提示，包括指令、少样本示例、问题和选项的顺序等。
排列类型：实验考虑了不同的排列类型，包括原始排列（Roriginal）、原始和逆序排列（Roi）、循环排列（Rcyclic）、随机选取的两个排列（Rrandom2）和随机选取的与选项数量相同数量的排列（RrandomL）。

实验步骤

计算原始准确率：计算每个模型在原始选项顺序下的准确率。
计算全面波动率：计算每个模型在所有可能的选项排列下的波动率。
计算指标：在较小的排列子集上计算各种指标，包括平均准确率（AAcc）、强准确率（SAcc）、最差准确率（WAcc）、概率质量（Prob）、Brier分数、归一化熵等。
相关性分析：使用R²值评估指标与全面波动率之间的相关性，以及与原始准确率的相关性。

实验结果

与全面波动率的相关性：实验发现，大多数现有指标与全面波动率有很强的相关性，即使这些指标仅在原始选项顺序上计算。概率质量（Prob）在仅使用原始排列时与全面波动率的相关性最强。而最差准确率（WAcc）在使用循环排列（Rcyclic）或随机选取的与选项数量相同数量的排列（RrandomL）时与全面波动率的相关性最高。
与原始准确率和全面波动率的综合相关性：当同时考虑与原始准确率和全面波动率的相关性时，最差准确率（WAcc）表现最佳，能够平衡对波动率和原始准确率的表示。
排列选择的影响：实验还发现，选择不同的排列对某些指标的计算结果有显著影响。例如，敏感性差距（SensG）和部分波动率（FR）在随机选择两个排列时的R²值显著下降，表明这些指标对排列的选择较为敏感。

实验结论

实验结果表明，大多数现有指标能够较好地反映模型答案的波动情况，即使在仅使用原始选项顺序的情况下。然而，为了更全面地评估模型的鲁棒性，论文提出的新指标——最差准确率（WAcc）——在考虑原始准确率的情况下表现最佳。此外，实验还揭示了不同排列类型对指标计算结果的影响，指出在实际应用中需要谨慎选择排列类型以确保评估结果的稳定性和可靠性。

Q: 有什么可以进一步探索的点？

Authors: Ekaterina Goliakova, Xavier Renard, Marie-Jeanne Lesot, Thibault Laugel, Christophe Marsala, Marcin Detyniecki

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2507.15581v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15581v1

Published: 2025-07-21T13:01:46Z

5. SeePhys: Does Seeing Help Thinking? — Benchmarking Vision-Based Physics Reasoning

We present SeePhys, a large-scale multimodal benchmark for LLM reasoning grounded in physics questions ranging from middle school to PhD qualifying exams. The benchmark covers 7 fundamental domains spanning the physics discipline, incorporating 21 categories of highly heterogeneous diagrams. In contrast to prior works where visual elements mainly serve auxiliary purposes, our benchmark features a substantial proportion of vision-essential problems (75%) that mandate visual information extraction for correct solutions. Through extensive evaluation, we observe that even the most advanced visual reasoning models (e.g., Gemini-2.5-pro and o4-mini) achieve sub-60% accuracy on our benchmark. These results reveal fundamental challenges in current large language models’ visual understanding capabilities, particularly in: (i) establishing rigorous coupling between diagram interpretation and physics reasoning, and (ii) overcoming their persistent reliance on textual cues as cognitive shortcuts.

中文摘要

我们介绍了SeePhys，这是一个大规模的多模态基准，旨在对基于物理问题的LLM推理进行评估，这些问题涵盖从中学到博士资格考试的范围。该基准涵盖了物理学科的7个基本领域，包含21种高度异质的图表。与之前的研究不同，其中视觉元素主要用于辅助目的，我们的基准特征包含了大量必需视觉信息的问题（75%），这些问题要求提取视觉信息以获得正确答案。通过广泛评估，我们观察到即使是最先进的视觉推理模型（如Gemini-2.5-pro和o4-mini）在我们的基准上也只能达到不到60%的准确率。这些结果揭示了当前大型语言模型在视觉理解能力方面的基本挑战，特别是在：(i) 建立图表解释与物理推理之间的严格耦合，以及 (ii) 克服对文本提示作为认知捷径的持续依赖。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文提出了一个名为SEEPHYS的大型多模态基准测试，旨在评估大型语言模型（LLMs）和多模态大型语言模型（MLLMs）在物理问题上的推理能力，特别是它们在处理视觉信息（如物理图表）时的表现。具体来说，它试图解决以下几个问题：

1. 填补物理推理基准测试的空白

背景：尽管数学推理一直是评估LLMs推理能力的核心领域，但自然科学研究领域，尤其是物理学，尚未得到充分探索。物理推理需要将文本解释与现实世界的视觉情境紧密结合，这暴露了当前模型在模拟人类世界建模能力方面的关键差距。
问题：现有的基准测试主要集中在数学推理上，而物理学推理作为一个更复杂、更多样化的测试领域，尚未得到充分研究。

2. 评估模型对物理图表的视觉理解能力

背景：物理图表（如费曼图、电路图等）是物理学中不可或缺的工具，它们以丰富的拓扑结构抽象地表示现实世界的情景。然而，现有的多模态模型在处理这些复杂视觉信息时的能力尚未得到充分评估。
问题：如何设计一个全面的基准测试，以评估模型在不同知识水平和视觉情境下的物理推理能力，特别是它们对视觉信息的依赖程度和利用效率。

3. 揭示当前模型在物理推理中的局限性

背景：尽管一些前沿模型已经展示了对物理定律的抽象感知和逻辑推理能力，但这些模型在处理复杂的物理问题时仍然面临挑战，尤其是在需要视觉信息提取和多模态理解的情况下。
问题：当前的LLMs和MLLMs在物理推理任务中表现如何？它们在哪些方面存在局限性，特别是在视觉信息处理和多模态融合方面？

4. 推动多模态模型的发展

背景：为了提高模型在现实世界中的应用能力，需要增强它们对多模态信息的理解和利用能力。这不仅包括对文本信息的理解，还包括对视觉信息的准确解读和融合。
问题：如何通过一个全面的基准测试，推动多模态模型在物理推理任务上的发展，特别是在视觉信息处理和多模态融合方面？

5. 提供一个全面的多模态物理推理基准测试

背景：现有的物理推理基准测试要么缺乏视觉信息，要么覆盖的知识范围有限，无法全面评估模型的能力。
问题：如何构建一个涵盖多个知识水平（从中学生到博士资格考试）和多个物理领域的多模态基准测试，以全面评估模型的物理推理能力？

通过SEEPHYS基准测试，论文旨在揭示当前模型在物理推理和视觉理解方面的不足，并为未来的研究提供一个全面的评估工具。

Q: 有哪些相关研究？

A: 论文中提到了多个与物理推理和多模态理解相关的研究工作，这些研究主要集中在数学推理基准测试、物理基准测试以及多模态模型的评估。以下是详细的分类和相关研究：

数学推理基准测试

GSM8K [9]：这是一个基础的数学推理基准测试，包含小学水平的多步文本推理问题，为评估LLMs的数学推理能力奠定了基础。
MATH [15]：该基准测试引入了竞赛级别的任务（如AMC/AIME），揭示了早期模型在处理复杂数学问题时的局限性。
Omni-Math [12]：这是一个针对奥林匹克级别的数学问题的基准测试，要求模型具备形式定理证明和组合推理能力。
MathVista [22] 和 MATH-V [41]：这些基准测试将视觉理解（如图表、图形）与数学推理相结合，评估模型在多模态数学问题上的表现。
MathVerse [49]：该研究发现MLLMs在执行数学任务时倾向于依赖语言模型的推理能力，强调了多模态能力评估的重要性。

物理基准测试

PHYBench [32]、TPBench [8] 和 UGPhysics [45]：这些基准测试主要关注文本形式的物理问题，测试高级推理技能，但缺乏视觉组件，无法评估模型对图表的解释能力。
PhysReason [50]、OlympiadBench [14] 和 PHYSICS [11]：这些多模态物理基准测试强调视觉推理挑战，但没有分析视觉组件的影响程度，并且在知识层次覆盖和图表类型详细注释方面存在不足。
ScienceQA [23]：这是一个跨学科的基准测试，包含物理、化学等多个科学领域的问题，但主要关注文本形式的问题，缺乏对视觉信息的深入评估。
OlympiadBench [14]：该基准测试包含奥林匹克级别的多步推理挑战，但主要集中在文本问题上，缺乏对视觉信息的评估。
SciBench [43]、SciEval [36]、MMMU [47]、MMMU-Pro [48]、GPQA [33]、ARB [34] 和 HLE [31]：这些基准测试在特定领域（如科学问题解答、物理问题解决）进行了探索，但缺乏全面的多模态覆盖和详细的图表类型注释。

多模态模型评估

GeoQA [6]：这是一个几何问题解答基准测试，旨在评估模型在多模态数值推理方面的能力。
IconQA [24]：该基准测试专注于抽象图表理解和视觉语言推理，评估模型在处理复杂图表时的表现。
Physion [4]：该研究评估了模型在物理预测任务中的表现，特别是在视觉信息处理方面的能力。

物理推理与视觉理解

Learn to Explain [23]：该研究通过多模态推理和思维链来解决科学问题，强调了模型在解释和理解复杂现象方面的能力。
CombiBench [19]：这是一个针对组合数学问题的基准测试，评估模型在处理复杂数学问题时的推理能力。

这些相关研究为SEEPHYS基准测试的构建提供了背景和参考，特别是在数学推理、物理问题解决和多模态理解方面。SEEPHYS通过整合这些领域的研究成果，旨在提供一个全面的多模态物理推理基准测试，以评估模型在处理复杂物理问题时的视觉理解和推理能力。

Q: 论文如何解决这个问题？

A: 论文通过构建一个名为SEEPHYS的大型多模态基准测试来解决上述问题。SEEPHYS涵盖了从中学生到博士资格考试水平的物理问题，包含2000个经过严格验证的问题和2245张图像。这些问题覆盖了7个核心物理领域和21种不同类型的图表。以下是论文解决这些问题的具体方法：

1. 构建全面的多模态基准测试

数据收集原则：
- 视觉信息的必要性：将问题分为“视觉必需”（Vision-Essential, VE）和“视觉可选”（Vision-Optional, VO）两类。VE问题需要视觉信息才能解决，而VO问题虽然包含图像，但图像不是解决问题的必要条件。
- 广泛的知识谱系：问题覆盖从中学到博士资格考试的8个知识水平，确保模型在不同难度层次上的推理能力得到全面评估。
- 开放性问题格式：采用开放式问题格式，每个问题都有一个确定的答案，减少多项选择题带来的随机猜测，提高评分的准确性。
- 数据来源：从公开的教材、练习题、考试题和竞赛题中收集数据，确保问题的多样性和多语言性。

2. 数据预处理和标准化

OCR解析：使用Mathpix对收集的PDF文档进行OCR解析，将文本转换为Markdown格式。
文本标准化：使用GPT-4.1处理文本中的多余换行、字符串遗漏和LaTeX语法错误。
问题分割和重组：将包含多个子问题的复合问题分解为独立的问题，并重新组合共享问题干。
多选题转换：将多选题转换为开放式问题，确保数据格式的一致性。
数据泄露预防：通过切换GPT-4o的搜索功能，排除因搜索功能导致的正确答案变化的问题，并手动搜索剩余问题以确保数据的独立性。

3. 细粒度分类和多模态增强

细粒度分类：将问题分为7个主要领域和21种图表类型，进一步分析模型对不同视觉特征的敏感性。
多模态增强：为每个问题生成详细的图表描述（caption），并将其与问题文本和图表渲染为单个图像，增强模型对视觉信息的处理能力。

4. 实验设置和评估

实验设置：
- Text+Vision (TV)：提供问题文本和配对的图表，作为基线设置。
- Text+Caption (TC)：提供问题文本和图表描述，评估模型从文本重建图形信息的能力。
- Text Only (TO)：仅提供问题文本，评估模型的纯文本处理能力。
- Vision Only (VO)：提供纯视觉实例，评估模型对图表元素的解释能力。
评估方法：使用零样本链式思考提示（Chain-of-Thought prompts）引导模型生成推理增强的响应，并结合LLM和模板匹配的复合判断策略进行评分。

5. 模型评估和分析

评估模型：对28种领先的LLMs和MLLMs进行评估，包括DeepSeek-R1、DeepSeek-V3、Qwen3-235B-A22B、Gemini-2.5-Pro、o4-mini等。
性能分析：通过不同知识水平和视觉依赖程度的问题，分析模型在物理推理任务中的表现，揭示模型在视觉理解和多模态融合方面的局限性。
失败模式分析：对模型的错误输出进行分类，识别主要的错误模式，如视觉误解、建模错误、过度简化和错误假设。

6. 结论和未来工作

结论：SEEPHYS基准测试揭示了当前MLLMs在物理推理和视觉理解方面的显著差距，即使是最先进的模型也未能达到55%的准确率。
未来工作：改进过程评估的可靠性，设计更高效和准确的规则或工具来评估开放式问题的答案，并进一步研究模型的理论推理与现实世界建模能力之间的关系。

通过这些方法，SEEPHYS基准测试不仅提供了一个全面的多模态物理推理评估工具，还揭示了当前模型在处理复杂物理问题时的不足，为未来的研究提供了方向。

Q: 论文做了哪些实验？

A: 论文通过一系列实验来评估不同模型在SEEPHYS基准测试上的表现。以下是详细的实验设置和结果分析：

实验设置

1. 评估协议

为了全面评估模型在不同视觉信息条件下的表现，论文设计了四种实验设置：

Text+Vision (TV)：提供问题文本和配对的图表，作为基线设置。
Text+Caption (TC)：提供问题文本和图表描述，评估模型从文本重建图形信息的能力。
Text Only (TO)：仅提供问题文本，评估模型的纯文本处理能力。
Vision Only (VO)：提供纯视觉实例，评估模型对图表元素的解释能力。

2. 评估模型

论文评估了28种领先的LLMs和MLLMs，包括：

9种大型语言模型（LLMs）：DeepSeek-R1、DeepSeek-V3、Qwen3-235B-A22B、Qwen2.5-72B-Instruct、QwQ-32B、R1-Distilled-Llama-70B、Llama-4-Scout-17B、Gemma3-27B、Llama-3.1-8B。
19种多模态大型语言模型（MLLMs）：OpenAI o4-mini、o3-mini、o1、Gemini-2.5-Pro、Claude 3.7 Sonnet、Doubao-1.5-pro、GPT-4.1、GPT4o、QvQ-72B-preview、Qwen-VL系列、Llama-3.2-Vision系列、LLaVA-NeXT-7B、Phi-4-multimodal、InternVL2.5-8B、LLaVA-OneVision-7B。

3. 评估指标

使用准确率（accuracy）作为评估指标，通过以下步骤进行评分：

使用SymPy进行初步筛选，验证模型生成的最终答案是否正确。
对于未能通过初步筛选的响应，使用LLM（DeepSeek-V3）进行最终判断。

实验结果

1. 不同知识水平上的表现

表2展示了不同模型在不同知识水平上的准确率。主要发现如下：

即使是最先进的MLLMs（如Gemini-2.5-Pro和o4-mini），在SEEPHYS基准测试上的准确率也未超过55%。
较弱的模型（如LLaVA-OneVision-7B）在博士资格考试水平上的准确率仅为5.4%，显示出显著的性能差距。
模型在不同知识水平上的表现并不严格遵循知识水平的难度顺序，表明当前模型主要依赖知识记忆而非真正的科学规律推导。

2. 不同视觉依赖问题上的表现

表3展示了不同模型在视觉必需（Vision-Essential）和视觉可选（Vision-Optional）子集上的表现。主要发现如下：

在视觉必需子集中，所有模型在TV设置下的表现优于TC和TO设置，表明视觉信息对模型推理的重要性。
即使在视觉可选子集中，许多模型在TV设置下的表现也优于TO设置，表明视觉信息即使在非必要情况下也能增强模型的推理能力。
不同模型在视觉信息利用上存在显著差异，例如o4-mini在VO设置下的表现较好，而QvQ-72B-preview在去除文本信息后表现下降较少，表明其对视觉信息的依赖程度较低。

3. 不同图表类型上的表现

图3展示了不同模型在不同图表类型上的表现。主要发现如下：

即使是最先进的模型（如o4-mini），在不同图表类型上的表现也存在显著差异，表明模型对某些视觉特征可能有特定的处理效果。
不同模型在处理特定图表类型时表现出不同的优势，例如Qwen在电路图上的表现优于量子力学图，而o4-mini则相反。
一些模型在去除视觉输入后表现反而更好，表明这些模型可能在视觉信息处理上存在误解，导致推理结果不如仅基于文本的随机猜测准确。

失败模式分析

通过对o4-mini模型在10%分层样本上的推理过程进行分析，论文识别了以下四种主要错误类型：

视觉误解：持续出现从坐标图中提取数值、遗漏关键变量/符号/单位以及错误解释几何关系的错误。
建模错误：在将问题陈述转换为物理模型时存在根本性误解，例如错误的电路图、光学中的角度关系以及动态系统的边界条件。
过度简化：在逻辑推导中忽略明确的约束条件，省略关键的计算步骤。
错误假设：引入原始规范中不存在的额外条件或数学约束，随意改变问题范围，导致与问题陈述的重大偏离。

结论

SEEPHYS基准测试揭示了当前MLLMs在物理推理和视觉理解方面的显著差距。即使是最先进的模型也未能在基准测试上达到55%的准确率，表明在多模态物理推理方面仍有很大的改进空间。论文的局限性在于缺乏自动化的评估方法，未来工作将集中在改进过程评估的可靠性、设计更高效的评估工具以及进一步研究模型的理论推理与现实世界建模能力之间的关系。

Authors: Kun Xiang, Heng Li, Terry Jingchen Zhang, Yinya Huang, Zirong Liu, Peixin Qu, Jixi He, Jiaqi Chen, Yu-Jie Yuan, Jianhua Han, Hang Xu, Hanhui Li, Mrinmaya Sachan, Xiaodan Liang

Categories: cs.AI, physics.ed-ph, physics.pop-ph

PDF URL: https://arxiv.org/pdf/2505.19099v5.pdf

CoolPaper URL: https://papers.cool/arxiv/2505.19099v5

Published: 2025-05-25T11:28:34Z

6. PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors

Evaluating the scientific discovery capabilities of large language model based agents, particularly how they cope with varying environmental complexity and utilize prior knowledge, requires specialized benchmarks currently lacking in the landscape. To address this gap, we introduce PhysGym, a novel benchmark suite and simulation platform for rigorously assessing LLM-based scientific reasoning in interactive physics environments. PhysGym’s primary contribution lies in its sophisticated control over the level of prior knowledge provided to the agent. This allows researchers to dissect agent performance along axes including the complexity of the problem and the prior knowledge levels. The benchmark comprises a suite of interactive simulations, where agents must actively probe environments, gather data sequentially under constraints and formulate hypotheses about underlying physical laws. PhysGym provides standardized evaluation protocols and metrics for assessing hypothesis accuracy and model fidelity. We demonstrate the benchmark’s utility by presenting results from baseline LLMs, showcasing its ability to differentiate capabilities based on varying priors and task complexity.

中文摘要

评估大型语言模型代理的科学发现能力，尤其是它们如何应对不同的环境复杂性和利用先前的知识，需依赖于目前缺乏的专业基准。为了解决这一问题，我们推出了PhysGym，这是一个新颖的基准套件和模拟平台，用于严格评估基于LLM的科学推理能力在交互物理环境中的表现。PhysGym的主要贡献在于其对提供给代理的先前知识水平的精细控制。这允许研究人员沿着问题复杂性和先前知识水平对代理性能进行分析。基准包括一套互动模拟，代理必须积极探测环境，在限制条件下逐步收集数据并对潜在的物理法则形成假设。PhysGym提供了标准化的评估协议和度量，用于评估假设的准确性和模型的忠实度。我们通过展示基线LLM的结果来证明这一基准的实用性，展示其在变化的先前知识和任务复杂性下区分能力的能力。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是：如何评估大型语言模型（LLMs）在互动物理环境中进行科学发现的能力，特别是它们如何应对不同环境复杂性以及如何利用先验知识。现有的评估框架依赖于静态数据集或暴露固定的先验知识集合，缺乏对模型可用上下文知识的精细控制。然而，科学推理严重依赖于上下文，因此需要一个能够控制先验知识水平的基准来评估AI模型在不同问题设置下的适应性、如何平衡先验知识与后验探索，以及它们构建和修改物理模型的能力。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

AI Scientists

早期研究：
- Langley等人提出的BACON系统，能够从结构化数据中重新发现已知的科学定律。
- Schmidhuber提出的人工智能好奇心和创造力的正式理论，将归纳科学视为一个主动的数据收集和压缩过程，其中代理积极生成实验，以发现数据中以前未知的模式。
近期研究：
- AI SCIENTIST及其后续版本，展示了闭环科学工作流程：生成假设、设计实验、分析结果，甚至撰写论文。
- SciMON通过基于文献的新颖性评分优化假设的原创性。
- ResearchAgent通过模拟同行评审循环来迭代地改进研究想法。
- Ma等人提出的双层优化框架，外层利用LLMs进行推理和假设生成，内层使用模拟提供反馈并执行数值优化。
- ADAS通过元级优化演化代理设计。
- OMNI-EPIC提出具有递增“有趣性”的任务，为探索形成自我策划的课程。

Equation discovery

科学探究逐渐强调通过数学方程进行定量建模，这导致了方程发现的形式化，即从数据或交互式环境中发现潜在的数学关系。
与方程发现密切相关的是符号回归领域，其目标是从数据中推断出可解释的数学表达式。
LLMs最近作为方程发现的有前途的范式出现，基于它们广泛的科学预训练，已经开发出几种基于LLM的方法用于方程发现。

Interactive benchmarks

为了评估不同代理在完整的科学发现过程中的能力，开发交互式基准测试越来越受到关注。
Science-Gym提供了5个简单的物理模拟环境，代理需要通过修改物理对象的参数来达到期望的状态。
CodeARC关注于归纳程序综合发现。
Discovery World提供了24个模拟环境，分布在8个不同的领域和3个难度级别上。代理需要在这些环境中执行各种动作以完成指定的任务目标。

Q: 论文如何解决这个问题？

A: 为了解决评估大型语言模型（LLMs）在互动物理环境中进行科学发现能力的问题，论文提出了PHYSGYM，这是一个新颖的基准测试套件和模拟平台，用于评估基于LLM的科学推理。以下是解决该问题的具体方法：

1. 设计基准测试套件和模拟平台

核心贡献：PHYSGYM的主要贡献在于其对提供给代理的先验知识水平的精细控制。这使得研究人员能够沿着问题复杂性和先验知识水平等轴来剖析代理的性能。
组成：基准测试包括一系列交互式模拟，代理必须积极探测环境，在约束条件下依次收集数据，并对潜在的物理定律形成假设。PHYSGYM提供了标准化的评估协议和指标，用于评估假设的准确性和模型的保真度。

2. 控制先验知识

先验知识类型：PHYSGYM列出了三种类型的先验知识：环境的文本描述（Context）、变量描述（Variable Descriptions）和变量名称（Variable Names）。通过选择性地揭示或隐藏这些信息，可以系统地研究不同先验知识水平对代理解决问题和推理能力的影响。
先验知识水平：设置了四个不同水平的先验知识（Level 1到Level 4），从完全信息（Level 1）到几乎无信息（Level 4），逐步剥夺模型的信息，以研究其在不同情境下的表现。

3. 提供模拟环境和评估指标

模拟环境：基于从PHYBench中选取的97个物理问题构建数据集，每个问题都包含详细的物理上下文描述、解决方案、方程、可执行的Python代码、输入变量和输出变量等信息。模拟环境允许代理进行实验并观察结果。
评估指标：主要评估指标是成功率（Success Rate），即正确解决的任务百分比。此外，还使用了多种辅助评估指标，如假设与观测数据的一致性（通过R²、MSE、Kendall’s Tau和MAPE等统计指标衡量）和任务难度（通过方程长度和变量数量衡量）。

4. 实验验证

实验设置：使用基于提示的方法，让LLM生成实验设计、当前假设以及是否测试假设的标志。在实验阶段，模型可以进行一次“神谕测试”，接收测试结果，并据此调整后续行为。
模型选择：评估了来自不同公司的三种代表性LLMs（Gemini-2.5-flash、Claude 3.7 Sonnet和OpenAI o4 mini），以观察它们在不同先验知识水平下的表现差异。
结果分析：通过实验，展示了不同LLMs在不同先验知识水平下的成功率、实验次数、测试次数、假设多样性等指标，揭示了模型在利用先验知识和适应不确定性方面的差异。

5. 案例研究

具体案例分析：论文还提供了几个具体的案例研究，展示了不同先验知识水平下模型的行为差异，以及先验知识如何影响假设形成和实验设计。这些案例揭示了当前方法在有效利用先验知识和平衡推理与探索方面的局限性。

通过上述方法，PHYSGYM为评估LLMs在科学发现中的能力提供了一个全面、可控且互动的平台，能够深入剖析模型在不同条件下的表现，为未来研究提供了宝贵的见解和起点。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验：

实验设置

模型选择：选择了三种不同的商业模型进行评估，分别是 Gemini-2.5-flash、Claude 3.7 Sonnet 和 OpenAI o4 mini。
先验知识水平：实验中设置了四个不同的先验知识水平（L1到L4），每个水平对应不同程度的先验信息提供给模型。
任务设计：基于从 PHYBench 中选取的97个物理问题构建数据集，每个问题都包含详细的物理上下文描述、解决方案、方程、可执行的Python代码、输入变量和输出变量等信息。
实验流程：模型在每个任务中需要根据提供的先验知识和历史实验记录，设计实验、提出假设，并决定是否测试当前假设。

实验结果分析

成功率：计算模型在不同先验知识水平下成功解决任务的百分比。
实验次数：记录模型为解决任务所进行的实验次数。
测试次数：记录模型进行的测试次数。
假设多样性：统计模型提出的独特假设数量，以评估其在不同先验知识水平下的假设调整能力。
数据拟合质量：使用R²等统计指标评估模型假设与观测数据的一致性。
任务难度分析：根据任务的变量数量将任务分为不同难度组，分析模型在不同难度任务上的表现。

具体案例研究

环境310：分析了所有模型在不同先验知识水平下对该任务的表现，发现模型在缺乏完整先验知识时，无法有效推理变量之间的因果关系，也无法有效探索样本空间。
环境409：观察到模型在L1和L2水平下成功解决了任务，但在L3水平下表现较差，而在L4水平下又成功解决了任务。这表明变量命名空间对模型的假设形成有显著影响。
环境716：发现模型在较低先验知识水平（L3和L4）下成功解决了任务，而在较高先验知识水平（L1和L2）下未能解决。这表明环境上下文和变量的语义描述实际上可能损害模型性能。

实验结果总结

先验知识的影响：随着先验知识的减少，模型的成功率普遍下降，表明先验知识对模型性能有重要影响。
模型类型差异：推理型LLMs（如Gemini和OpenAI o4 mini）在利用先验知识进行动态假设调整和战略探索方面表现更好，尤其是在不确定性较高的情况下。而非推理型模型（如Claude 3.7 Sonnet）则表现出对先验知识的过度依赖，且在先验知识有限时表现不佳。
实验行为变化：随着先验知识的减少，所有模型的实验次数增加，表明它们更加依赖于主动实验来获取信息。

Q: 有什么可以进一步探索的点？

A: 论文提出了 PHYSGYM，这是一个用于评估大型语言模型（LLMs）在科学发现中的推理能力的基准测试套件和模拟平台。尽管该平台已经展示了其在评估 LLMs 科学推理能力方面的有效性，但仍有许多可以进一步探索的点。以下是一些可能的研究方向：

1. 自动化生成新的物理环境和问题实例

问题：当前的 PHYSGYM 基准测试套件基于手动构建的固定数据集，这限制了问题的多样性和数量。
探索方向：开发自动化方法来生成新的物理环境和问题实例，以增加数据集的规模和多样性。这可以通过程序化生成物理问题、利用物理引擎模拟复杂环境，或从科学文献中提取问题来实现。

2. 更精确的任务难度量化

问题：当前评估任务难度的方法依赖于简单的启发式指标，如方程长度和变量数量，这些指标只能近似反映问题的复杂性。
探索方向：设计更精确和全面的指标来量化任务难度。这可能包括考虑方程的数学结构、变量之间的依赖关系、以及问题的物理背景。例如，可以利用信息论、复杂性理论或机器学习方法来评估任务的难度。

3. 多模态输入的整合

问题：当前的 PHYSGYM 主要依赖于文本描述和符号方程，缺乏对视觉、听觉或其他感官信息的利用。
探索方向：探索如何将多模态输入（如图像、视频、音频）整合到科学发现任务中，以更全面地模拟真实世界的科学实验。这可能需要开发新的模型架构和训练方法，以处理多模态数据。

4. 长期学习和记忆能力

问题：当前的评估主要集中在单次任务的解决上，缺乏对模型长期学习和记忆能力的评估。
探索方向：设计实验来评估模型在多个任务中的长期学习和记忆能力。这可以通过设置一系列相关任务，观察模型如何在不同任务之间迁移知识和技能来实现。此外，可以研究模型如何在长时间跨度内保持和更新其知识库。

5. 模型的可解释性和透明度

问题：尽管 PHYSGYM 提供了对模型性能的评估，但缺乏对模型推理过程的深入理解。
探索方向：开发方法来提高模型的可解释性和透明度，使研究人员能够更好地理解模型是如何形成假设、设计实验和做出决策的。这可能包括开发可视化工具、解释生成方法或因果推理模型。

6. 跨领域科学发现

问题：当前的 PHYSGYM 主要集中在物理学领域，缺乏对其他科学领域的支持。
探索方向：扩展 PHYSGYM 以支持跨领域的科学发现任务，如化学、生物学、天文学等。这需要构建跨领域的数据集和模拟环境，并开发适用于不同领域的评估指标。

7. 人类与 AI 的协作

问题：当前的评估主要关注 AI 模型的独立性能，缺乏对人类与 AI 协作的评估。
探索方向：研究人类与 AI 在科学发现中的协作模式，开发评估框架来评估人机协作的效率和效果。这可能包括设计实验来评估人类科学家如何利用 AI 工具来提高研究效率，以及 AI 模型如何从人类反馈中学习和改进。

8. 模型的适应性和泛化能力

问题：当前的评估主要集中在模型对特定任务的表现上，缺乏对模型适应性和泛化能力的评估。
探索方向：设计实验来评估模型在面对新任务、新环境和新数据时的适应性和泛化能力。这可以通过设置零样本学习任务、迁移学习任务或持续学习任务来实现。

通过进一步探索这些方向，可以更全面地评估和改进 LLMs 在科学发现中的应用，推动 AI 在科学研究中的发展。

Q: 总结一下论文的主要内容

A: 本文介绍了 PHYSGYM，这是一个用于评估基于大型语言模型（LLMs）的代理在互动物理环境中进行科学发现能力的基准测试套件和模拟平台。该平台的核心贡献在于其对提供给代理的先验知识水平的精细控制，使研究人员能够系统地研究代理在不同先验知识水平下的表现，包括问题复杂性和先验知识水平等维度。以下是论文的主要内容总结：

背景知识

自动化科学发现过程在物理学、化学和生物学等领域的研究中具有巨大潜力。AI代理的科学推理能力，即探索环境、收集证据、形成假设并发现潜在机制的能力，是实现这一目标的关键。
尽管已有研究展示了LLMs在科学发现中的潜力，但现有评估框架存在局限性，缺乏对模型可用上下文知识的精细控制，无法有效评估模型在不同问题设置下的适应性、先验知识与后验探索的平衡，以及物理模型的构建和修改能力。

研究方法

PHYSGYM平台：该平台包含一系列交互式模拟，代理需要在其中积极探测环境，依次收集数据，并在约束条件下形成关于潜在物理定律的假设。平台提供了标准化的评估协议和指标，用于评估假设的准确性和模型的保真度。
先验知识控制：平台能够精细控制提供给代理的先验知识，包括环境的文本描述、变量描述和变量名称。通过选择性地揭示或隐藏这些信息，可以系统地研究不同先验知识水平对代理性能的影响。
数据集构建：数据集基于从PHYBench中选取的97个物理问题构建，每个问题都包含详细的物理上下文描述、解决方案、方程、可执行的Python代码、输入变量和输出变量等信息。
评估指标：主要评估指标是成功率，即正确解决的任务百分比。此外，还使用了多种辅助评估指标，如假设与观测数据的一致性（通过R²、MSE、Kendall’s Tau和MAPE等统计指标衡量）和任务难度（通过方程长度和变量数量衡量）。

实验

模型选择：实验中评估了三种不同的商业模型，分别是Gemini-2.5-flash、Claude 3.7 Sonnet和OpenAI o4 mini。
先验知识水平：设置了四个不同的先验知识水平（L1到L4），每个水平对应不同程度的先验信息提供给模型。
实验流程：模型在每个任务中需要根据提供的先验知识和历史实验记录，设计实验、提出假设，并决定是否测试当前假设。

关键结论

先验知识的影响：随着先验知识的减少，模型的成功率普遍下降，表明先验知识对模型性能有重要影响。推理型LLMs（如Gemini和OpenAI o4 mini）在利用先验知识进行动态假设调整和战略探索方面表现更好，尤其是在不确定性较高的情况下。而非推理型模型（如Claude 3.7 Sonnet）则表现出对先验知识的过度依赖，且在先验知识有限时表现不佳。
实验行为变化：随着先验知识的减少，所有模型的实验次数增加，表明它们更加依赖于主动实验来获取信息。这反映了模型在面对不确定性时，会增加实验次数以获取更多信息，从而更好地形成和验证假设。
任务难度与先验知识的关系：对于高维任务，先验知识对模型性能的影响更为显著。这表明在复杂任务中，先验知识的重要性增加，模型需要更多的先验知识来有效设计实验和形成准确的假设。
模型的假设调整能力：推理型LLMs在不同先验知识水平下都能保持较高的假设多样性，表明它们能够根据实验结果灵活调整假设。而非推理型模型在先验知识有限时，假设多样性较低，表明它们在缺乏先验知识时难以有效利用实验数据来改进假设。

局限性与未来工作

数据集的静态性：当前的PHYSGYM基准测试套件基于手动构建的固定数据集，缺乏自动化生成新物理环境和问题实例的能力。未来工作需要开发自动化方法来生成新的物理问题，以增加数据集的规模和多样性。
任务难度量化：当前评估任务难度的方法依赖于简单的启发式指标，如方程长度和变量数量，这些指标只能近似反映问题的复杂性。未来工作需要设计更精确和全面的指标来量化任务难度，以更准确地评估模型的性能。

Authors: Yimeng Chen, Piotr Piȩkos, Mateusz Ostaszewski, Firas Laakom, Jürgen Schmidhuber

Categories: cs.LG, cs.AI, physics.soc-ph

PDF URL: https://arxiv.org/pdf/2507.15550v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15550v1

Published: 2025-07-21T12:28:10Z

7. ASPERA: A Simulated Environment to Evaluate Planning for Complex Action Execution

This work evaluates the potential of large language models (LLMs) to power digital assistants capable of complex action execution. These assistants rely on pre-trained programming knowledge to execute multi-step goals by composing objects and functions defined in assistant libraries into action execution programs. To achieve this, we develop ASPERA, a framework comprising an assistant library simulation and a human-assisted LLM data generation engine. Our engine allows developers to guide LLM generation of high-quality tasks consisting of complex user queries, simulation state and corresponding validation programs, tackling data availability and evaluation robustness challenges. Alongside the framework we release Asper-Bench, an evaluation dataset of 250 challenging tasks generated using ASPERA, which we use to show that program generation grounded in custom assistant libraries is a significant challenge to LLMs compared to dependency-free code generation.

中文摘要

这项工作评估了大型语言模型（LLMs）在支持能够执行复杂操作的数字助手方面的潜力。这些助手依赖于预训练的编程知识，通过将助手库中定义的对象和功能组合成行动执行程序，来执行多步骤目标。为此，我们开发了ASPERA，一个包括助手库模拟和人类辅助的LLM数据生成引擎的框架。我们的引擎允许开发人员指导LLM生成包含复杂用户查询、模拟状态和相应验证程序的高质量任务，从而应对数据可用性和评估稳健性挑战。与框架一起，我们发布了Asper-Bench，这是一个包含250个使用ASPERA生成的具有挑战性的任务的评估数据集，我们用它来表明，与无依赖代码生成相比，基于定制助手库的程序生成对LLMs而言是一个重大挑战。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决如何利用大型语言模型（LLMs）来驱动能够执行复杂动作的数字助手的问题。具体来说，它关注以下几个关键挑战：

复杂动作执行的评估实例：现有的资源无法完全满足评估复杂动作执行的需求。例如，SMCalFlow包含组合查询，但其标注的领域特定语言（DSL）限制了LLMs的性能；DeCU提供了复杂用户查询的计划生成评估，但使用LLM作为评判标准而不是实现助手机器库的可执行模拟。
数据可用性和评估鲁棒性：为了评估复杂动作执行能力，需要测量任务的成功率，即助手的动作是否满足用户目标。这需要查询依赖的数据库和考虑不必要副作用的评估。现有的方法要么依赖于人类专家手动实现评估程序，要么使用模板化的方法来定义用户查询和环境状态，这限制了动作的多样性。
复杂动作执行的数据生成：为了生成高质量的复杂用户请求和满足这些请求的程序，需要一个能够与LLMs交互的数据生成引擎，以确保数据的多样性和质量。
LLMs在复杂动作执行中的能力：尽管LLMs在代码生成方面表现出色，但在生成满足复杂动作请求的程序时面临挑战，尤其是在需要从助手机器库中选择相关原语（primitives）时。

为了解决这些问题，论文提出了ASPERA框架，它包括一个助手机器库模拟和一个人类辅助的LLM数据生成引擎，用于生成复杂动作执行的评估数据。同时，论文发布了Asper-Bench，这是一个包含250个挑战性任务的评估数据集，用于展示基于自定义助手机器库的程序生成对LLMs来说是一个重大挑战。

Q: 有哪些相关研究？

A: 论文中提到了多个与之相关的研究领域，这些研究为本文的工作提供了背景和基础。以下是主要的相关研究领域和具体工作：

任务导向解析（Task-oriented parsing）

Zelle and Mooney (1996): 提出了使用归纳逻辑编程来解析数据库查询，是早期将自然语言解析为可执行程序的研究之一。
Gupta et al. (2018): 研究了如何将自然语言指令解析为层次化的表示，以支持更复杂的任务执行。
Yao and Koller (2022): 展示了将目标表示为编程语言可以提高LLMs在少样本语义解析任务中的能力。

工具增强型LLMs（Tool-augmented LLMs）

Tang et al. (2023): 提出了通过将LLMs与合成的API文档和示例查询相结合来生成大规模的查询，但这些查询主要是线性序列的API调用，缺乏复杂的推理。
Xu et al. (2023); Song et al. (2023); Qin et al. (2024): 这些工作通过将LLMs与真实世界的API文档和查询示例相结合来生成查询，但这些方法生成的程序大多是线性的，缺乏复杂的工具组合和推理。

LLM代理（LLM Agents）

Huang et al. (2024); Jhamtani et al. (2024); Yan et al. (2024): 这些工作通过人类作者和手动策划来生成高质量的合成数据，以减少数据生成过程中的质量挑战。
Styles et al. (2024): 提出了一个模拟工作场所环境的基准数据集，通过模板化用户查询和手动实现评估程序来标注环境状态。
Trivedi et al. (2024): 提出了一个可控的应用程序世界，用于基准测试交互式编码代理，通过手动实现评估程序来定义环境状态和评估任务成功。

代码生成（Code generation）

Chen et al. (2021); Austin et al. (2021a); Austin et al. (2021b): 这些工作通过生成自包含函数来测试LLMs的算法能力，但这些函数的上下文依赖性有限。
Lai et al. (2023); Wang et al. (2023): 这些工作涵盖了狭窄领域的依赖于外部数据科学库的代码生成任务。
Zhuo et al. (2024): 提出了一个包含多样化函数调用和复杂指令的代码生成基准测试，但这些任务主要测试给定精确函数规范的程序生成能力。

这些相关研究为本文提出的ASPERA框架和Asper-Bench数据集提供了理论和技术基础，同时也指出了现有方法的局限性，从而突显了本文工作的创新性和必要性。

Q: 论文如何解决这个问题？

A: 论文通过开发ASPERA框架和Asper-Bench数据集来解决如何利用大型语言模型（LLMs）驱动能够执行复杂动作的数字助手的问题。以下是具体的解决方法：

ASPERA框架

助手机器库模拟（Assistant library simulation）：ASPERA实现了一个助手机器库，模拟了一个公司环境，其中员工有会议、报告结构和房间预订系统。这个库包含7个数据库和69个Python原语，用于测试逻辑和算术推理能力。
任务组件（Components of an ASPERA task）：每个ASPERA任务包含四个元素：
- 用户查询（User query）：用户请求助手执行的动作。
- 动作执行程序（Action Execution Program, AEP）：满足用户请求的程序。
- 状态初始化程序（State Initialisation Program, SIP）：初始化环境状态，以便在Python中执行用户查询。
- 评估程序（Evaluation Program, EP）：运行AEP并确定其正确性。
任务生成（Task generation）：通过与LLM的交互，生成多样化的复杂用户请求和满足这些请求的程序。生成过程包括：
- 查询和AEP生成：通过提示LLM生成复杂的AEPs和用户查询。
- SIP生成：通过提示LLM生成初始化环境状态的SIPs。
- EP生成：通过提示LLM生成评估AEP正确性的EPs。
开发者-LLM交互（Developer-LLM interaction）：开发者可以在生成过程中提供指导，确保数据质量和多样性。开发者可以执行和编辑生成的程序，以确保数据质量。

Asper-Bench数据集

数据集生成：使用GPT-4o生成了250个任务，包括71个信息查询任务和179个修改数据库的任务。数据集包含LLM生成和人类编写的查询。
数据集特性：Asper-Bench的AEPs在复杂性上具有多样性，需要使用多个原语、控制流和迭代。数据集的多样性来自于任务的复杂性，而不是简单的同义词替换。
质量控制：数据生成引擎集成在开发者的IDE中，开发者可以执行任务并使用语法高亮和自动完成功能来纠正LLM的输出。两名注释者确认了数据质量。

ASPERA评估器（ASPERA Evaluator）

接口提供：ASPERA提供了一个接口，允许任意代理执行AEPs并观察执行结果。提供了两种实现：
- 完整代码库知识（Complete Codebase Knowledge, CCK）：代理提示包含助手机器库的完整文档和示例。
- 原语选择（Primitives Selection, PS）：代理需要在生成AEP之前选择相关的原语。

评估和分析

CCK设置评估：即使LLMs可以直接观察到所有相关知识，生成满足复杂用户请求的AEPs仍然是一个挑战。例如，GPT-4o和Gemini 1.5 Pro的成功率分别为45.33%和33.73%。
PS设置评估：在不知道原语的情况下，LLMs选择相关原语的能力有限。例如，o1在CCK设置下的成功率为80.13%，但在PS设置下成功率为28.40%。
错误分析：对生成的程序进行了深入的错误分析，发现更强大的模型更容易产生任务完成错误，而较弱的模型更容易产生执行错误。这些错误分析揭示了LLMs在复杂任务理解上的局限性。

通过这些方法，论文不仅提供了一个评估LLMs在复杂动作执行能力上的框架和数据集，还展示了LLMs在这一领域的挑战和改进方向。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估大型语言模型（LLMs）在复杂动作执行方面的能力：

1. Asper-Bench数据集上的评估

数据集描述：Asper-Bench是一个包含250个任务的评估数据集，这些任务通过ASPERA框架生成，涵盖了多种复杂用户查询和相应的动作执行程序（AEPs）、状态初始化程序（SIPs）和评估程序（EPs）。其中71个任务是信息查询任务，其余任务会修改一个或多个数据库。
评估设置：评估了多种LLMs在两种设置下的表现：
- 完整代码库知识（CCK）设置：模型在生成AEP时可以访问整个助手机器库的文档。
- 原语选择（PS）设置：模型需要先从助手机器库中选择相关的原语，然后再生成AEP。
评估指标：主要评估指标是任务成功率，即生成的AEP在执行时是否能满足用户查询的要求，同时不产生意外的副作用。

2. 不同模型的性能比较

模型选择：评估了包括OpenAI的GPT-3.5-turbo、GPT-4o系列，以及Gemini系列在内的多种LLMs。
性能结果：
- 在CCK设置下，o1模型表现最佳，任务成功率达到80.13%，而GPT-4o的成功率为45.33%，Gemini 1.5 Pro的成功率为33.73%。
- 在PS设置下，即使是表现最好的o1模型，任务成功率也降至28.40%，这表明LLMs在选择相关原语方面存在挑战。

3. 错误分析

执行错误分析：对GPT-4o和GPT-3.5-turbo生成的AEPs进行了执行错误分析，发现模型在需要多步推理的情况下容易产生幻觉（hallucination），生成较短的AEPs。
任务完成错误分析：分析了模型在执行成功但未能满足用户查询要求的情况，发现更强大的模型更容易产生这类错误。
回退控制错误分析：研究了模型因错误假设或未能识别边缘情况而意外触发RequiresUserInput异常的情况。

4. 复杂性分析

复杂性衡量：通过分析Asper-Bench中参考AEPs的复杂性指标（如最大抽象语法树深度、循环复杂度等），评估了任务的复杂性。
复杂性与成功率的关系：发现随着任务复杂性的增加，模型的任务成功率显著下降。例如，对于需要复杂时间表达式解析的任务，GPT-4o的成功率仅为20%，而o1的成功率为63.33%。

5. 不同任务子集的性能评估

任务子集划分：将Asper-Bench中的任务划分为几个子集，每个子集包含10个查询，分别测试不同方面的助手理解和推理能力，如简单任务、受约束的调度任务、复杂时间表达式任务、遵循额外指令的任务和高级问题解决任务。
子集性能结果：在简单任务上，o1和GPT-4o的表现相当，但在更复杂的任务上，o1显著优于GPT-4o。例如，在解决受约束的调度任务时，o1的成功率为86.67%，而GPT-4o的成功率仅为46.67%。

这些实验结果表明，尽管LLMs在代码生成方面表现出色，但在生成满足复杂用户查询的程序时仍面临挑战，尤其是在需要从助手机器库中选择相关原语的情况下。

Q: 有什么可以进一步探索的点？

A: 论文提出了ASPERA框架和Asper-Bench数据集，用于评估大型语言模型（LLMs）在复杂动作执行方面的能力。尽管取得了初步成果，但仍有许多可以进一步探索的方向：

1. 数据集扩展

数据集规模：Asper-Bench目前包含250个任务，规模相对较小。可以利用ASPERA数据生成引擎进一步扩展数据集，以支持对LLMs的更全面评估。
领域扩展：当前的助手机器库主要模拟了一个公司环境，可以扩展到其他领域，如智能家居、医疗保健、教育等，以生成更多样化的任务。
多语言支持：目前数据集仅包含英文查询，可以扩展到其他语言，以评估LLMs在多语言环境中的表现。

2. 模型改进

原语选择能力：当前的LLMs在选择相关原语方面表现有限，可以探索更先进的方法，如层次化代码库探索、增量动作执行程序生成等。
多步推理能力：尽管一些模型在简单任务上表现良好，但在需要多步推理的复杂任务上仍有挑战。可以研究如何增强LLMs的多步推理能力。
交互式代码生成：现有的代码生成方法大多是非交互式的，可以探索交互式代码生成方法，允许模型在生成过程中根据执行反馈进行调整。

3. 评估方法改进

多轮交互评估：目前的评估主要集中在单轮交互中，可以扩展到多轮交互场景，以评估LLMs在复杂对话中的表现。
场景化评估：可以进一步扩展SIP生成，支持更多场景化评估，例如用户对环境状态的不完全了解或存在模糊实体的情况。
对抗性评估：可以生成对抗性查询，测试LLMs在面对复杂、恶意构造的查询时的表现。

4. 应用场景探索

实际部署：将ASPERA框架和Asper-Bench应用于实际的数字助手开发中，评估其在真实世界场景中的表现。
多模态交互：探索LLMs在多模态交互中的应用，例如结合语音、文本和视觉信息来执行复杂动作。
跨领域应用：研究LLMs在不同领域的应用，如医疗诊断、法律咨询、金融分析等，以评估其在特定领域的表现。

5. 性能优化

效率提升：研究如何在保持性能的同时提高LLMs的效率，例如通过更紧凑的文档表示、并发探索等方法。
资源优化：探索如何优化LLMs的资源使用，以适应不同的硬件环境和应用场景。

6. 社区和工具开发

开源和社区贡献：将ASPERA框架和Asper-Bench数据集开源，鼓励社区贡献和进一步开发。
工具开发：开发辅助工具，如自动标注工具、数据质量检查工具等，以提高数据生成和评估的效率。

这些方向不仅可以进一步提升LLMs在复杂动作执行方面的能力，还可以推动相关技术在实际应用中的广泛部署。

Q: 总结一下论文的主要内容

Authors: Alexandru Coca, Mark Gaynor, Zhenxing Zhang, Jianpeng Cheng, Bo-Hsiang Tseng, Pete Boothroyd, Héctor Martinez Alonso, Diarmuid Ó Séaghdha, Anders Johannsen

Categories: cs.CL, cs.AI, cs.LG

PDF URL: https://arxiv.org/pdf/2507.15501v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15501v1

Published: 2025-07-21T11:07:05Z

8. Attend or Perish: Benchmarking Attention in Algorithmic Reasoning

Can transformers learn to perform algorithmic tasks reliably across previously unseen input/output domains? While pre-trained language models show solid accuracy on benchmarks incorporating algorithmic reasoning, assessing the reliability of these results necessitates an ability to distinguish genuine algorithmic understanding from memorization. In this paper, we propose AttentionSpan, an algorithmic benchmark comprising five tasks of infinite input domains where we can disentangle and trace the correct, robust algorithm necessary for the task. This allows us to assess (i) models’ ability to extrapolate to unseen types of inputs, including new lengths, value ranges or input domains, but also (ii)to assess the robustness of their learned mechanisms. By analyzing attention maps and performing targeted interventions, we show that attention mechanism directly causes failures in extrapolation. We make the implementation of all our tasks and interpretability methods publicly available at https://github.com/michalspiegel/AttentionSpan .

中文摘要

变压器能否学会在以前未见的输入/输出领域可靠地执行算法任务？虽然预训练语言模型在包含算法推理的基准测试中显示出良好的准确性，但评估这些结果的可靠性需要区分真正的算法理解与记忆。在本文中，我们提出了AttentionSpan，这是一个算法基准，包含五个无限输入域的任务，在这些任务中，我们可以解开和追踪执行任务所需的正确而强健的算法。这使我们能够评估（i）模型推断新的输入类型的能力，包括新长度、值范围或输入域，以及（ii）评估它们学习机制的鲁棒性。通过分析注意力图和进行有针对性的干预，我们表明注意力机制直接导致推断的失败。我们在https://github.com/michalspiegel/AttentionSpan上公开提供我们所有任务和可解释性方法的实现。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是评估Transformer模型在算法任务上的可靠性和泛化能力，特别是在面对未见过的输入/输出领域时的表现。尽管预训练语言模型在包含算法推理的基准测试中显示出较高的准确率，但要确保这些结果的可靠性，就需要能够将模型的功能能力与记忆化区分开来。论文的核心目标包括：

评估模型在未见过的输入类型（包括新的长度、值范围或输入领域）上的外推能力。
通过分析模型的注意力图，评估模型内部机制的鲁棒性。

为了解决这些问题，作者提出了一个包含六个具有无限输入域的算法任务的基准测试框架，这些任务允许研究者追踪和分离出完成任务所需的正确、鲁棒的算法。此外，作者还提供了一个方法来构建参考注意力图，这些图代表了成功模型必须展示的真实推理模式，并将其与模型的实际注意力图进行比较，以揭示模型内部推理过程的某些方面，并识别模型推理过程中的错误来源。

Q: 有哪些相关研究？

A: 论文中提到了以下几项相关研究：

CRLS-Text (Markeeva et al., 2024)：这是一个专门针对算法推理的基准测试，实现了许多传统算法，并训练和评估了最新的大型语言模型（LLMs）。本文在此基础上进行了扩展，不仅评估性能，还提供了通过参考注意力图来解释和调查结果的手段。
BIG-Bench (Srivastava et al., 2023)：这是一个包含200多个任务的大型基准测试，其中许多任务专门用于评估算法推理，例如加法或Dyck语言。然而，由于其固定的测试集，很难用来稳健地评估模型在外推上的表现。此外，最近的研究发现BIG-Bench的数据确实泄露到了一些模型的训练数据中，包括Qwen。本文将BIG-Bench的任务扩展为可配置的生成器，能够生成无限数据，从而避免数据污染。
Flip-Flop Language Modeling (Liu et al., 2023)：这是一个用于分析由注意力故障引起的幻觉的简单算法任务。本文扩展了这一想法，并在多个不同的算法任务上进行了注意力分析。

这些相关研究为本文提供了背景和基础，本文通过引入新的基准测试和评估方法，进一步推动了对Transformer模型在算法推理任务上的可靠性和泛化能力的研究。

Q: 论文如何解决这个问题？

A: 论文通过以下方法解决评估Transformer模型在算法任务上的可靠性和泛化能力的问题：

1. 提出一个新的算法基准测试框架（AttentionSpan）

任务设计：设计了六个具有无限输入域的算法任务，这些任务包括字符串反转、长加法、长乘法、后继数、值分配和Flip-Flop语言建模。每个任务都有一个求解算法，该算法生成逐步解决方案，并追踪哪些过去的标记对于正确生成下一个标记是必要的。
参考注意力图：为每个任务构建了参考注意力图，这些图代表了成功模型必须展示的真实推理模式。这些参考图与模型的实际注意力图进行比较，以揭示模型内部推理过程的某些方面，并识别模型推理过程中的错误来源。

2. 评估模型的泛化能力

训练和评估：使用流行的LLama3.2-1B-Instruct模型在所有任务上进行训练和评估。评估分为两种设置：
- 从头开始训练：从头开始训练模型，不使用预训练或指令微调。
- 指令微调：使用预训练模型，并在少量样本上进行指令微调。
数据分布：评估模型在分布内（ID）和分布外（OOD）数据上的表现。ID数据是指在训练时见过的数据类型，而OOD数据是指在训练时未见过的数据类型，例如更长的输入或不同的值范围。
注意力分析：使用注意力展开（attention rollout）方法聚合模型的所有中间注意力图，并计算模型在参考标记上的注意力分数。通过比较模型在正确和错误预测上的注意力分数，揭示模型在推理过程中的问题。

3. 实验和结果分析

模型性能：通过表2和表3展示了模型在ID和OOD数据上的准确率和注意力分数。结果显示，从头开始训练的模型在OOD数据上表现不佳，而预训练模型在OOD数据上表现更好，但仍然低于ID数据的表现。
注意力分数分析：通过Welch’s t-test确认了ID和OOD数据之间注意力分数的显著差异。在某些任务中，错误预测与参考标记上的注意力分数显著降低相关，这表明注意力不足直接导致了错误预测。而在其他任务中，即使在错误预测时，注意力分数也可能保持稳定或增加，这表明存在不同的错误机制。

4. 结论和贡献

基准测试框架：通过引入AttentionSpan框架，提供了一个透明且细粒度的分析方法，可以评估模型在算法任务上的推理能力和泛化能力。
预训练的重要性：实验结果表明，预训练显著提高了模型在OOD数据上的表现。
注意力分析：通过注意力分析，揭示了模型在推理过程中的问题，为未来模型架构的改进提供了基础。

通过这些方法，论文不仅评估了Transformer模型在算法任务上的可靠性和泛化能力，还提供了一种新的工具来分析和改进模型的内部推理机制。

Q: 论文做了哪些实验？

A: 论文中进行了以下实验来评估Transformer模型在算法任务上的可靠性和泛化能力：

1. 数据集和评估框架（AttentionSpan）

任务设计：设计了六个具有无限输入域的算法任务，包括字符串反转、长加法、长乘法、后继数、值分配和Flip-Flop语言建模。每个任务都有一个求解算法，该算法生成逐步解决方案，并追踪哪些过去的标记对于正确生成下一个标记是必要的。
参考注意力图：为每个任务构建了参考注意力图，这些图代表了成功模型必须展示的真实推理模式。

2. 模型训练和评估

模型选择：使用流行的LLama3.2-1B-Instruct模型进行实验。
训练设置：
- 从头开始训练：从头开始训练模型，不使用预训练或指令微调。
- 指令微调：使用预训练模型，并在少量样本上进行指令微调。
数据分布：
- 分布内（ID）数据：在训练时见过的数据类型。
- 分布外（OOD）数据：在训练时未见过的数据类型，例如更长的输入或不同的值范围。
注意力分析：使用注意力展开（attention rollout）方法聚合模型的所有中间注意力图，并计算模型在参考标记上的注意力分数。

3. 实验结果

模型性能：
- 从头开始训练的模型：在OOD数据上表现不佳，准确率显著下降。
- 指令微调的模型：在OOD数据上表现更好，但仍然低于ID数据的表现。
注意力分数分析：
- ID数据：模型在参考标记上的注意力分数较高。
- OOD数据：模型在参考标记上的注意力分数显著下降，尤其是在某些任务中，错误预测与参考标记上的注意力分数显著降低相关。
- 不同任务的注意力分数：在某些任务中，即使在错误预测时，注意力分数也可能保持稳定或增加，这表明存在不同的错误机制。

4. 具体任务的实验设置和结果

字符串反转：
- ID数据：模型能够正确学习对角线注意力模式。
- OOD数据：模型在长序列上分散了注意力，导致预测错误。
长加法：
- ID数据：模型能够正确关注必要的标记。
- OOD数据：模型在长序列上分散了注意力，导致预测错误。
长乘法：
- ID数据：模型能够正确关注必要的标记。
- OOD数据：模型在长序列上分散了注意力，导致预测错误。
后继数：
- ID数据：模型能够正确关注必要的标记。
- OOD数据：模型在长序列上分散了注意力，导致预测错误。
值分配：
- ID数据：模型能够正确关注必要的标记。
- OOD数据：模型在长序列上分散了注意力，导致预测错误。
Flip-Flop语言建模：
- ID数据：模型能够正确关注必要的标记。
- OOD数据：模型在长序列上分散了注意力，但注意力分数在错误预测时可能保持稳定或增加。

5. 统计分析

Welch’s t-test：用于确认ID和OOD数据之间注意力分数的显著差异。

通过这些实验，论文不仅评估了Transformer模型在算法任务上的可靠性和泛化能力，还通过注意力分析揭示了模型在推理过程中的问题，为未来模型架构的改进提供了基础。

Q: 有什么可以进一步探索的点？

Authors: Michal Spiegel, Michal Štefánik, Marek Kadlčík, Josef Kuchař

Categories: cs.LG, cs.AI

PDF URL: https://arxiv.org/pdf/2503.01909v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2503.01909v2

Published: 2025-02-28T22:50:38Z

9. To Label or Not to Label: PALM — A Predictive Model for Evaluating Sample Efficiency in Active Learning Models

Active learning (AL) seeks to reduce annotation costs by selecting the most informative samples for labeling, making it particularly valuable in resource-constrained settings. However, traditional evaluation methods, which focus solely on final accuracy, fail to capture the full dynamics of the learning process. To address this gap, we propose PALM (Performance Analysis of Active Learning Models), a unified and interpretable mathematical model that characterizes AL trajectories through four key parameters: achievable accuracy, coverage efficiency, early-stage performance, and scalability. PALM provides a predictive description of AL behavior from partial observations, enabling the estimation of future performance and facilitating principled comparisons across different strategies. We validate PALM through extensive experiments on CIFAR-10/100 and ImageNet-50/100/200, covering a wide range of AL methods and self-supervised embeddings. Our results demonstrate that PALM generalizes effectively across datasets, budgets, and strategies, accurately predicting full learning curves from limited labeled data. Importantly, PALM reveals crucial insights into learning efficiency, data space coverage, and the scalability of AL methods. By enabling the selection of cost-effective strategies and predicting performance under tight budget constraints, PALM lays the basis for more systematic, reproducible, and data-efficient evaluation of AL in both research and real-world applications. The code is available at: https://github.com/juliamachnio/PALM.

中文摘要

主动学习（AL）旨在通过选择最具信息量的样本进行标注，以降低注释成本，因此在资源受限的环境中特别有价值。然而，传统的评估方法仅关注最终准确性，未能捕捉学习过程的全部动态。为了解决这个问题，我们提出了PALM（主动学习模型的性能分析），这是一个统一且可解释的数学模型，通过四个关键参数来表征AL轨迹：可实现的准确性、覆盖效率、早期表现和可扩展性。PALM提供了对AL行为的预测性描述，并基于部分观察，可以估计未来的表现，并便于对不同策略进行规范的比较。我们通过在CIFAR-10/100和ImageNet-50/100/200上进行的大量实验验证了PALM，涵盖了广泛的AL方法和自监督嵌入。我们的结果表明，PALM在数据集、预算和策略方面具有良好的通用性，能够从有限的标注数据中准确预测完整的学习曲线。重要的是，PALM揭示了关于学习效率、数据空间覆盖以及AL方法可扩展性的关键见解。通过支持选择具有成本效益的策略和在紧张的预算限制下预测表现，PALM为更系统、可重复且数据高效的AL评估奠定了基础，适用于研究和实际应用。代码可在以下链接获得：https://github.com/juliamachnio/PALM。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决在主动学习（Active Learning, AL）领域中，如何更全面、系统地评估和比较不同主动学习策略的性能问题。具体来说，它旨在解决以下几个关键问题：

传统评估方法的局限性：
- 传统的主动学习评估方法主要关注最终准确率，忽略了学习过程中的动态变化，如早期学习效率、数据空间覆盖效率以及随着标注预算增加的学习收益的可扩展性等关键因素。
- 这种单一的评估方式无法全面反映主动学习策略在整个标注过程中的行为和性能，尤其是在资源受限的实际应用场景中。
缺乏统一的预测模型：
- 当前缺乏一个通用的预测模型，能够基于有限的标注数据来评估和比较不同主动学习方法的性能。这使得在实际应用中选择最有效的主动学习策略变得困难且成本高昂。
数据标注成本的优化：
- 在许多实际应用中，数据标注需要大量的专业知识、时间和资源，因此如何在有限的标注预算下实现模型性能的最大化是一个重要的问题。现有的评估方法无法有效地指导如何在预算约束下选择最优的主动学习策略。

为了解决这些问题，论文提出了PALM（Performance Analysis of Active Learning Models），这是一个统一且可解释的数学模型，通过四个关键参数（可实现的最高准确率 (A_{\text{max}})、覆盖效率 (\delta)、早期性能 (\alpha) 和可扩展性 (\beta)）来表征主动学习轨迹，并从部分观测数据中预测未来的性能。

Q: 有哪些相关研究？

A: 论文中提到了多个与主动学习（Active Learning, AL）相关的研究工作，这些研究主要集中在以下几个方面：

不同类型的主动学习方法

基于不确定性的方法（Uncertainty-based methods）：
- 这些方法优先选择模型置信度低的样本进行标注。例如，经典的不确定性采样方法会选择预测类别置信度低的数据点进行标注 [21]。
- 边际采样（Margin sampling）会针对模型预测的前两个类别概率差异最小的实例进行采样，这表明了样本的模糊性 [30]。
- 基于熵的采样（Entropy-based sampling）通过选择输出分布熵值高的样本，来捕捉模型的总预测不确定性 [32]。
基于多样性的方法（Diversity-based methods）：
- 这类

Authors: Julia Machnio, Mads Nielsen, Mostafa Mehdipour Ghazi

Categories: cs.LG, cs.AI, cs.CV

PDF URL: https://arxiv.org/pdf/2507.15381v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15381v1

Published: 2025-07-21T08:37:44Z

10. RL4CO: an Extensive Reinforcement Learning for Combinatorial Optimization Benchmark

Combinatorial optimization (CO) is fundamental to several real-world applications, from logistics and scheduling to hardware design and resource allocation. Deep reinforcement learning (RL) has recently shown significant benefits in solving CO problems, reducing reliance on domain expertise and improving computational efficiency. However, the absence of a unified benchmarking framework leads to inconsistent evaluations, limits reproducibility, and increases engineering overhead, raising barriers to adoption for new researchers. To address these challenges, we introduce RL4CO, a unified and extensive benchmark with in-depth library coverage of 27 CO problem environments and 23 state-of-the-art baselines. Built on efficient software libraries and best practices in implementation, RL4CO features modularized implementation and flexible configurations of diverse environments, policy architectures, RL algorithms, and utilities with extensive documentation. RL4CO helps researchers build on existing successes while exploring and developing their own designs, facilitating the entire research process by decoupling science from heavy engineering. We finally provide extensive benchmark studies to inspire new insights and future work. RL4CO has already attracted numerous researchers in the community and is open-sourced at https://github.com/ai4co/rl4co.

中文摘要

组合优化（CO）在多个现实世界应用中至关重要，从物流和调度到硬件设计和资源分配。深度强化学习（RL）最近在解决CO问题上显示出了显著的好处，减少了对领域专业知识的依赖，并提高了计算效率。然而，缺乏统一的基准框架导致评估不一致，限制了可重复性，并增加了工程负担，提高了新研究人员的采用门槛。为了解决这些挑战，我们推出了RL4CO，这是一套统一且广泛的基准，深入覆盖27个CO问题环境和23个先进基准。RL4CO建立在高效的软件库和最佳实施实践之上，具备模块化实现和灵活配置的多样化环境、策略架构、RL算法和工具，配有详尽的文档。RL4CO帮助研究人员在现有成功的基础上探索和发展自己的设计，通过将科学与繁重的工程解耦，促进整个研究过程。最后，我们提供了广泛的基准研究，以启发新的见解和未来的研究工作。RL4CO已经吸引了许多社区研究人员，并在https://github.com/ai4co/rl4co上开源。

LLM Analysis

Q: 这篇论文试图解决什么问题？

A: 这篇论文介绍了 RL4CO，这是一个针对组合优化（Combinatorial Optimization, CO）问题的强化学习（Reinforcement Learning, RL）基准库。它旨在解决以下问题：

统一基准的缺失

问题描述：在利用深度强化学习解决组合优化问题的领域中，尽管已经取得了一些显著的成果，但目前缺乏一个统一的基准来方便地开发和标准化比较不同算法的性能。这种基准的缺失使得研究人员难以确定一种方法是否真正优于另一种，阻碍了该领域的进一步发展。
解决方案：RL4CO 提供了一个统一且广泛的基准，涵盖了 23 种最先进的方法和超过 20 种组合优化问题。通过高效的软件库和最佳实践，RL4CO 实现了模块化的实现和灵活的配置，涵盖了各种强化学习算法、神经网络架构、推理技术和环境。

研究人员开发和比较算法的困难

问题描述：对于研究人员来说，从头开始开发和比较新的算法不仅耗时，而且需要大量的工程工作。缺乏统一的基准使得研究人员难以复现和改进现有的工作，也难以将新的研究成果整合到现有的框架中。
解决方案：RL4CO 通过提供模块化的实现，使得研究人员可以轻松地复现现有的成功案例，并在此基础上开发自己的独特设计。它将科学探索与繁重的工程任务解耦，从而简化了整个研究过程，使研究人员能够更专注于算法的创新和改进。

性能评估和比较的标准化

问题描述：在没有统一基准的情况下，不同研究之间的性能评估和比较往往缺乏一致性。这使得研究人员难以准确评估新方法的有效性，也难以将不同研究的结果进行有意义的比较。
解决方案：RL4CO 提供了标准化的评估流程，确保了公平和全面的比较。研究人员可以使用 RL4CO 的测试平台自动测试更广泛的问题分布，并收集有价值的信息，从而更准确地评估算法的性能。

推动领域的发展

问题描述：由于缺乏统一的基准和标准化的评估方法，组合优化领域的研究进展受到限制。研究人员难以在统一的框架下进行合作和交流，也不利于新方法的推广和应用。
解决方案：RL4CO 通过提供一个统一的平台，促进了研究人员之间的合作和交流。它降低了进入该领域的门槛，使得更多的研究人员能够参与到组合优化的研究中来，从而推动该领域的快速发展。

总的来说，RL4CO 的目标是通过提供一个统一、模块化和高效的基准库，解决当前组合优化领域中缺乏标准化基准的问题，简化研究人员的开发和比较过程，推动该领域的进一步发展。

Q: 有哪些相关研究？

A: 论文中提到了以下相关研究：

神经组合优化（Neural Combinatorial Optimization, NCO）

学习范式：研究者们利用监督学习（Supervised Learning, SL）和强化学习（Reinforcement Learning, RL）来近似组合优化问题的最优解。例如，Vinyals 等人 [139] 使用指针网络（Pointer Networks）来解决旅行商问题（TSP），Kool 等人 [74] 提出了基于注意力机制的模型来解决路由问题。
模型架构：各种深度学习架构被用于 NCO，包括循环神经网络（Recurrent Neural Networks, RNNs）[139, 30, 83]、图神经网络（Graph Neural Networks, GNNs）[61, 102]、Transformer [74, 76]、扩散模型（Diffusion Models）[127] 和 GFlowNets [154, 70]。
问题类型：NCO 在多个问题上取得了成功，如车辆路径问题（Vehicle Routing Problems, VRPs）[106, 74]、调度问题（Scheduling Problems）[153]、硬件设备放置问题（Hardware Device Placement）[67] 和基于图的组合优化问题（Graph-based CO Problems）[31, 3]。
启发式类型：学习到的启发式方法可以分为构造性启发式（Constructive Heuristics）和改进性启发式（Improvement Heuristics）。构造性启发式从头开始构建解决方案，而改进性启发式则在现有解决方案的基础上进行优化。