数据来源:ArXiv Domain

LLM Domain Papers

1. Controlling Multimodal LLMs via Reward-guided Decoding

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM’s decoding process. Concretely, we build two separate reward models to independently control the degree of object precision and recall in the model’s output. Our approach enables on-the-fly controllability of an MLLM’s inference process in two ways: first, by giving control over the relative importance of each reward function during decoding, allowing a user to dynamically trade off object precision for recall in image captioning tasks; second, by giving control over the breadth of the search during decoding, allowing the user to control the trade-off between the amount of test-time compute and the degree of visual grounding. We evaluate our method on standard object hallucination benchmarks, showing that it provides significant controllability over MLLM inference, while consistently outperforming existing hallucination mitigation methods.

中文摘要

随着多模态大型语言模型(MLLMs)的广泛应用,为多样化的用户需求进行适应变得越来越重要。本文研究了通过控制解码来适应MLLMs。为此,我们提出了首个针对MLLMs的奖励引导解码方法,并展示了其在改善视觉基准方面的应用。我们的方法涉及建立视觉基准的奖励模型,并利用它们指导MLLM的解码过程。具体来说,我们构建了两个独立的奖励模型,以控制模型输出中对象的精确度和召回率。我们的方法使MLLM的推理过程在两个方面实现随时可控:首先,在解码过程中控制每个奖励函数的重要性,使用户能够在图像字幕任务中动态地在对象精确度和召回率之间进行权衡;其次,在解码过程中控制搜索的广度,使用户能够控制测试时间计算量和视觉基准之间的权衡。我们在标准对象幻觉基准上评估了我们的方法,结果表明它显著提升了对MLLM推理的可控性,同时在性能上持续超过现有的幻觉缓解方法。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决多模态大型语言模型(Multimodal Large Language Models, MLLMs)在生成输出时的可控性问题,特别是在视觉定位(visual grounding)任务中的对象幻觉(object hallucination)问题。具体来说,论文关注的两个主要需求是:

  1. 控制输出的精确性和彻底性:用户希望能够控制MLLMs生成输出时的对象精确性(例如减少对象幻觉)和对象召回率(recall),以满足不同的使用场景需求。例如,对于视觉障碍用户,精确的输出更为重要,而对于生成合成数据以训练下游模型的用户,可能更注重输出的多样性和详细性,即使这意味着容忍较低的精确性。

  2. 控制生成输出的计算资源消耗:用户希望能够根据资源限制(如设备性能)和任务要求,动态调整生成输出时所使用的计算资源。例如,在资源受限的设备(如智能手机)上,用户可能希望减少计算量以避免过高的延迟,而在资源充足的情况下,可以容忍更多的计算以获得更好的输出质量。

为了解决这些问题,论文提出了一种名为多模态奖励引导解码(Multimodal Reward-Guided Decoding, MRGD)的方法,通过构建两个独立的奖励模型来分别控制模型输出中的对象精确性和召回率,并在解码过程中使用这些奖励模型来指导MLLMs的生成过程。这种方法允许用户在推理时动态调整每个奖励函数的相对重要性,以及搜索的广度,从而实现对MLLMs输出的精细控制。

Q: 有哪些相关研究?

A: 论文中提到了与多模态大型语言模型(MLLMs)的可控解码和幻觉缓解相关的研究。以下是主要的相关研究方向和具体工作:

1. 文本语言模型的引导解码(Guided Decoding of LLMs)

  • 奖励模型引导解码:一些研究通过训练奖励模型来评估语言模型生成的文本质量,并在解码过程中使用这些奖励模型来控制输出。例如,Dathathri et al. [11] 提出了Plug and Play Language Models,通过奖励模型来控制文本生成。Deng and Raffel [13] 提出了奖励增强解码(Reward-Augmented Decoding),通过单向奖励模型来提高文本生成的可控性。
  • 采样策略:一些研究探索了不同的采样策略,如最佳-k(best-of-k)、束搜索(beam search)或蒙特卡洛树搜索(Monte Carlo tree search),通过生成多个响应并选择最佳响应来提高输出质量 [7, 22, 23, 28, 40]。

2. MLLMs的幻觉缓解(Mitigating Hallucinations of MLLMs)

  • 监督微调(Supervised Fine-Tuning, SFT):一些研究通过监督学习的方式对MLLMs进行微调,以减少幻觉。例如,Liu et al. [26] 提出了一种通过鲁棒指令调整来减少幻觉的方法。
  • 偏好微调(Preference Fine-Tuning):一些研究通过偏好学习(如RLHF/RLAIF)来调整MLLMs的行为,以减少幻觉。例如,Sun et al. [42] 提出了一种通过事实增强的RLHF来对齐MLLMs的方法;Yu et al. [49] 提出了RLHF-V,通过细粒度的人类反馈来调整MLLMs的行为。
  • 提示工程(Prompting):一些研究通过设计特定的提示来引导MLLMs生成更准确的输出。例如,Zhang et al. [53] 提出了一种多模态链式思考推理方法,通过提示来减少幻觉。
  • 后处理方法:一些研究提出了后处理方法来纠正MLLMs的输出。例如,Yin et al. [48] 提出了一种幻觉纠正方法,通过生成反馈来纠正MLLMs的输出。
  • 解码策略:一些研究提出了专门的解码策略来减少幻觉。例如,Leng et al. [21] 提出了一种视觉对比解码方法,通过对比学习来减少对象幻觉;Deng et al. [12] 提出了一种通过CLIP引导解码的方法来减少幻觉。

3. 多模态奖励模型(Multimodal Reward Models)

  • 多模态奖励模型的构建:一些研究探索了如何构建能够同时处理视觉和文本信息的奖励模型。例如,Beyer et al. [4] 提出了PaliGemma,一个用于多模态任务的3B参数的视觉语言模型(VLM)。
  • 多模态幻觉缓解:一些研究专门针对多模态幻觉问题提出了解决方案。例如,Zhou et al. [57] 分析了MLLMs中的对象幻觉问题,并提出了相应的缓解方法;Favero et al. [15] 提出了一种通过视觉信息对齐来控制多模态幻觉的方法。

4. 其他相关研究

  • 多模态大型语言模型的对齐(Alignment of MLLMs):一些研究探讨了如何对齐MLLMs以满足人类偏好。例如,Amirloo et al. [2] 提供了对MLLMs对齐的全面研究。
  • 多模态幻觉评估基准:一些研究提出了用于评估MLLMs幻觉的基准数据集。例如,Rohrbach et al. [38] 提出了CHAIR基准,用于评估图像描述中的对象幻觉;Wang et al. [46] 提出了AMBER基准,用于评估MLLMs的多维度幻觉问题。

这些相关研究为本文提出的多模态奖励引导解码方法提供了理论基础和实践指导。

Q: 论文如何解决这个问题?

A: 论文通过提出一种名为多模态奖励引导解码(Multimodal Reward-Guided Decoding, MRGD)的方法来解决多模态大型语言模型(MLLMs)在视觉定位任务中的可控性问题。具体来说,MRGD方法通过以下步骤实现对MLLMs输出的精细控制:

1. 构建多模态奖励模型(Building Multimodal Reward Models)

为了实现对MLLMs输出的控制,论文构建了两个独立的奖励模型(Reward Models, RMs),分别用于评估对象精确性和召回率:

  • 对象幻觉奖励模型(Object Hallucination Reward Model, ( r_{\text{hal}} ))

    • 训练数据:使用多个公开的多模态偏好数据集,包括LLaVA-RLHF [42]、RLHF-V [49] 和POVID [56],以及重新利用的SugarCrepe [17] 数据集。
    • 模型架构:使用PaliGemma [4] 作为奖励模型的骨干网络,并添加一个线性回归头,用于将最后一个输出标记嵌入投影到单个标量。
    • 损失函数:结合Bradley-Terry模型 [6, 33] 和均方误差损失,确保奖励模型的输出在[0, 1]范围内。
    • 训练过程:使用LoRA [18] 对骨干网络进行微调,训练一个epoch,使用余弦退火学习率调度。
  • 对象召回奖励模型(Object Recall Reward Model, ( r_{\text{rec}} ))

    • 构建方法:通过组合现成的模块构建,包括预训练的对象检测器(OWLv2 [31])、词嵌入模型(Sentence-BERT [37])和POS标注器(NLTK)。
    • 工作流程:从图像中提取参考对象,从生成的描述中提取预测对象,计算两者的语义相似度,通过阈值判断预测对象是否为真阳性,最终计算对象召回率。

2. 多模态奖励引导解码(Multimodal Reward-Guided Decoding)

在解码过程中,使用上述两个奖励模型来指导MLLMs的生成过程:

  • 评分函数(Score Function)

    • 定义一个线性组合的评分函数 ( s(x_v, x_q, y) ),结合对象幻觉奖励 ( r_{\text{hal}} ) 和对象召回奖励 ( r_{\text{rec}} ): [ s(x_v, x_q, y) = w \cdot r_{\text{hal}}(x_v, x_q, y) + (1 - w) \cdot r_{\text{rec}}(x_v, x_q, y) ]
    • 其中 ( w \in [0, 1] ) 是一个在推理时选择的引导强度超参数,用户可以通过调整 ( w ) 来控制对象精确性和召回率的权衡。
  • 解码过程(Decoding Process)

    • 在每一步解码中,从MLLMs采样 ( k ) 个候选完成,评估每个候选的奖励值,选择得分最高的候选完成并添加到上下文中,直到生成结束标记()。
    • 通过调整 ( k ) 和评估周期 ( T ),用户可以控制搜索的广度和频率,从而在测试时计算量和视觉定位质量之间进行权衡。

3. 实验验证(Experimental Validation)

论文通过在标准的对象幻觉基准数据集(如CHAIR [38] 和AMBER [46])上进行实验,验证了MRGD方法的有效性:

  • 实验设置

    • 使用LLaVA-1.57B [27]、Llama-3.2Vision11B [14] 和SmolVLM-22.2B [30] 作为基础MLLMs。
    • 使用“Describe this image in detail”等提示进行图像描述任务。
    • 评估指标包括对象幻觉率(Ci/CHAIRi、Cs/Hal.)和对象召回率(Rec./Cov.)。
  • 实验结果

    • MRGD在减少对象幻觉方面表现出色,例如在COCO数据集上,使用 ( w=1.0 ) 时,CHAIRi从15.05%降低到4.53%,同时召回率仅下降了6.5%。
    • 通过调整 ( w ),可以在对象精确性和召回率之间进行权衡,例如 ( w=0.5 ) 时,召回率显著提高,而幻觉率仅略有增加。
    • MRGD在不同的MLLMs上均表现出色,且优于现有的幻觉缓解方法,如LLaVA-RLHF [42]、HA-DPO [55] 和CGD [12]。

4. 控制计算资源(Controlling Compute Resources)

通过调整解码过程中的参数 ( k ) 和 ( T ),用户可以在测试时计算量和视觉定位质量之间进行权衡:

  • 计算量与视觉定位质量的权衡
    • 增加 ( k ) 和减少 ( T ) 可以提高视觉定位质量,但会增加计算量。
    • 实验表明,MRGD在不同的 ( k ) 和 ( T ) 设置下均能有效减少幻觉,且比简单的拒绝采样(rejection sampling)更高效。

5. 定制化和灵活性(Customization and Flexibility)

MRGD方法允许用户在推理时动态调整奖励模型的权重 ( w ) 和搜索参数 ( k ) 和 ( T ),从而根据具体任务需求和资源限制定制MLLMs的行为。这种方法不仅提高了MLLMs的可控性,还提供了一种灵活的方式来满足不同用户的需求。

通过上述方法,论文成功地解决了MLLMs在视觉定位任务中的可控性问题,特别是在减少对象幻觉和控制计算资源方面。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来验证多模态奖励引导解码(Multimodal Reward-Guided Decoding, MRGD)方法的有效性和可控性:

1. 奖励模型评估(Reward Model Evaluation)

  • 对象幻觉奖励模型(( r_{\text{hal}} ))

    • 在验证集上评估 ( r_{\text{hal}} ) 的性能,定义准确率为奖励模型为选择的响应分配更高分数的次数比例,即 ( r_{\text{hal}}(x_v, x_q, y^+) > r_{\text{hal}}(x_v, x_q, y^-) )。
    • 在VLFeedback [24] 数据集上进一步评估 ( r_{\text{hal}} ) 的性能,选择每个示例的最佳和最差响应,准确率达到67.68%。
  • 对象召回奖励模型(( r_{\text{rec}} ))

    • 在COCO数据集上评估对象检测器的性能,得到63.16%的精确度和55.83%的召回率。
    • 在COCO描述上评估POS标注器的性能,得到67.04%的精确度和54.54%的召回率。

2. 与基线和现有方法的比较(Comparison to Baselines and Existing Methods)

  • 基线方法

    • 使用LLaVA-1.57B模型进行贪婪解码(Greedy)、贪婪解码加提示(Greedy + Prompting)和束搜索(Beam Search, BS)。
    • 在COCO和AMBER基准上评估这些基线方法的性能。
  • 现有方法

    • 与基于微调的方法(如LLaVA-RLHF [42]、HA-DPO [55]、POVID [56]、EOS [51]、HALVA [39]、CSR [58]、mDPO [45])和基于引导解码的方法(如VCD [21]、CGD [12])进行比较。
    • 在COCO和AMBER基准上评估这些现有方法的性能。
  • MRGD方法

    • 选择最佳的 ( k )、( T ) 和温度 ( t ) 参数。
    • 在COCO和AMBER基准上评估MRGD方法的性能,通过调整权重 ( w ) 来控制对象精确性和召回率的权衡。

3. 在RLHF微调的MLLMs上应用MRGD(Applying MRGD on top of RLHF)

  • Llama-3.2-Vision模型
    • 该模型已经经过指令微调和偏好对齐阶段(使用DPO [35])。
    • 在COCO和AMBER基准上评估MRGD方法的性能,通过调整权重 ( w ) 来控制对象精确性和召回率的权衡。

4. 可视化定位与计算量的权衡(Visual Grounding vs. Compute Trade-off)

  • 调整 ( k ) 和 ( T ) 参数
    • 通过改变候选样本数量 ( k ) 和评估周期 ( T ),研究视觉定位质量和测试时计算量之间的权衡。
    • 在COCO数据集上,使用MRGD方法评估不同 ( k ) 和 ( T ) 设置下的对象幻觉率和召回率。

5. 对象精确性与召回率的权衡(Object Precision vs. Recall Trade-off)

  • 调整权重 ( w ) 参数
    • 在固定的 ( k ) 和 ( T ) 设置下,通过改变权重 ( w ) 来研究对象精确性和召回率之间的权衡。
    • 在COCO数据集上,绘制不同 ( w ) 值下的对象幻觉率和召回率曲线。

6. 偏好数据混合对 ( r_{\text{hal}} ) 的影响(Preference Data Mix for ( r_{\text{hal}} ))

  • 数据集组合
    • 在训练 ( r_{\text{hal}} ) 时,使用不同的数据集组合,包括添加RLAIF-V [50] 数据集和移除POVID [56] 数据集。
    • 在COCO和AMBER基准上评估这些变体的性能。

7. MRGD对奖励模型质量的鲁棒性(MRGD’s Robustness to Reward Models’ Quality)

  • 奖励模型变体
    • 使用不同的模型骨干(如PaliGemma-2 [41])和不同的对象检测器(如DETR [10])来构建奖励模型。
    • 在COCO和AMBER基准上评估这些变体的性能。

8. 计算成本和延迟(Computational Cost and Latency)

  • 训练成本
    • 记录在8×NVIDIA H100 GPU上微调PaliGemma的训练时间。
    • 在NVIDIA A100 GPU上评估MRGD方法的解码时间。

9. 定性分析(Qualitative Analysis)

  • 生成描述的比较
    • 选择几个输入图像,比较使用默认贪婪解码和MRGD策略(不同 ( w ) 值)生成的描述。
    • 高亮显示正确的对象和幻觉的对象,分析不同 ( w ) 值下的生成结果。

通过这些实验,论文全面验证了MRGD方法在减少对象幻觉、控制对象召回率、调整计算资源消耗以及提供灵活的用户控制方面的有效性和实用性。

Q: 有什么可以进一步探索的点?

A: 论文中提出了多模态奖励引导解码(Multimodal Reward-Guided Decoding, MRGD)方法来控制多模态大型语言模型(MLLMs)的输出,但仍有几个方向可以进一步探索和改进:

1. 扩展到其他类型的视觉幻觉

  • 当前工作:论文主要关注对象幻觉的减少,这是视觉幻觉的一种常见类型。
  • 进一步探索:可以扩展到其他类型的视觉幻觉,如属性幻觉(颜色、形状等)、数量幻觉、空间关系幻觉、否定幻觉等。这些幻觉类型在实际应用中也很常见,但目前缺乏有效的评估和缓解方法。

2. 构建更复杂的奖励模型

  • 当前工作:论文中构建了两个奖励模型,分别用于评估对象精确性和召回率。
  • 进一步探索
    • 语义完整性奖励模型:构建能够评估生成输出语义完整性的奖励模型,以确保生成的描述不仅在视觉上准确,而且在语义上也是完整的。
    • 多模态融合奖励模型:探索更复杂的多模态融合方法,以更好地处理视觉和文本信息的交互,提高奖励模型的准确性和鲁棒性。

3. 扩展到其他任务和数据集

  • 当前工作:论文主要在图像描述任务上验证了MRGD方法的有效性。
  • 进一步探索
    • 扩展到其他任务:将MRGD方法应用于其他多模态任务,如视觉问答(VQA)、图像字幕生成、视频描述等,验证其在不同任务中的适用性和有效性。
    • 扩展到其他数据集:在更多的数据集上进行实验,以验证MRGD方法的泛化能力。例如,使用不同的图像数据集(如Flickr30k、MSCOCO)和视频数据集(如MSR-VTT、ActivityNet)进行评估。

4. 探索不同的解码策略

  • 当前工作:论文中使用了基于搜索的解码策略,通过采样和评估候选响应来选择最优响应。
  • 进一步探索
    • 基于梯度的优化:探索基于梯度的优化方法,如通过反向传播来优化生成过程,以提高解码效率和生成质量。
    • 混合解码策略:结合不同的解码策略(如束搜索、蒙特卡洛树搜索等),以进一步提高生成的多样性和质量。

5. 用户反馈和交互式解码

  • 当前工作:论文中的MRGD方法主要依赖于预训练的奖励模型来指导解码过程。
  • 进一步探索
    • 用户反馈机制:引入用户反馈机制,允许用户在生成过程中提供实时反馈,以进一步优化生成结果。
    • 交互式解码:开发交互式解码方法,使用户能够动态调整生成过程中的参数(如奖励权重、搜索广度等),以更好地满足用户需求。

6. 多模态幻觉的综合评估

  • 当前工作:论文中使用了标准的幻觉评估基准(如CHAIR和AMBER)来评估对象幻觉。
  • 进一步探索
    • 综合评估指标:开发更全面的评估指标,能够同时评估多种类型的视觉幻觉(如对象、属性、数量等),以更准确地评估MLLMs的视觉定位能力。
    • 多维度基准数据集:构建包含多种幻觉类型的多维度基准数据集,以更全面地评估MLLMs的性能。

7. 模型压缩和效率优化

  • 当前工作:论文中的奖励模型虽然有效,但可能在计算资源有限的设备上运行效率较低。
  • 进一步探索
    • 模型压缩:探索模型压缩技术(如量化、剪枝等),以提高奖励模型在资源受限设备上的运行效率。
    • 高效解码算法:开发更高效的解码算法,减少解码过程中的计算量,同时保持生成质量。

8. 多模态模型的对齐和可解释性

  • 当前工作:论文主要关注通过奖励模型来控制MLLMs的输出,但对模型的对齐和可解释性研究较少。
  • 进一步探索
    • 对齐方法:研究更有效的对齐方法,使MLLMs能够更好地理解和生成符合人类偏好的输出。
    • 可解释性分析:通过可视化和解释生成过程,提高MLLMs的可解释性,帮助用户更好地理解模型的行为。

通过这些进一步的探索和改进,可以进一步提升MRGD方法的性能和适用性,为多模态大型语言模型的可控生成提供更强大的支持。

Q: 总结一下论文的主要内容

A: 本文提出了一种名为多模态奖励引导解码(Multimodal Reward-Guided Decoding, MRGD)的方法,用于控制多模态大型语言模型(MLLMs)的输出,特别是在视觉定位任务中的对象幻觉问题。MRGD通过构建两个独立的奖励模型来分别控制对象精确性和召回率,并在解码过程中使用这些奖励模型来指导MLLMs的生成过程,从而实现对输出的精细控制。该方法不仅在减少对象幻觉方面表现出色,还允许用户根据具体任务需求和资源限制定制MLLMs的行为。

背景知识

多模态大型语言模型(MLLMs)在解决视觉语言任务方面展现出巨大潜力,但随着其广泛应用,用户对模型输出的可控性提出了更高要求。具体来说,用户希望控制模型输出的精确性和彻底性(如对象召回率),以及生成输出时所消耗的计算资源。例如,视觉障碍用户需要高精确性的输出以避免幻觉,而资源受限的设备(如智能手机)则需要减少计算量以避免高延迟。

研究方法

1. 构建多模态奖励模型

  • 对象幻觉奖励模型(( r_{\text{hal}} )):通过训练一个分类器来预测用户偏好,使用PaliGemma作为骨干网络,并添加一个线性回归头。训练数据来自多个公开的多模态偏好数据集。
  • 对象召回奖励模型(( r_{\text{rec}} )):通过组合预训练的对象检测器、词嵌入模型和POS标注器来构建。该模型通过计算生成描述中的对象与图像中检测到的对象之间的语义相似度来评估对象召回率。

2. 多模态奖励引导解码

  • 评分函数:定义一个线性组合的评分函数 ( s(x_v, x_q, y) = w \cdot r_{\text{hal}}(x_v, x_q, y) + (1 - w) \cdot r_{\text{rec}}(x_v, x_q, y) ),其中 ( w ) 是一个在推理时选择的超参数,用于控制对象精确性和召回率的权衡。
  • 解码过程:在每一步解码中,从MLLMs采样 ( k ) 个候选完成,评估每个候选的奖励值,选择得分最高的候选完成并添加到上下文中,直到生成结束标记()。通过调整 ( k ) 和评估周期 ( T ),用户可以在测试时计算量和视觉定位质量之间进行权衡。

实验

1. 奖励模型评估

  • 对象幻觉奖励模型:在验证集上准确率达到82.05%,在VLFeedback数据集上准确率达到67.68%。
  • 对象召回奖励模型:在COCO数据集上,对象检测器的精确度为63.16%,召回率为55.83%;POS标注器的精确度为67.04%,召回率为54.54%。

2. 与基线和现有方法的比较

  • 基线方法:贪婪解码、贪婪解码加提示、束搜索。
  • 现有方法:LLaVA-RLHF、HA-DPO、POVID、EOS、HALVA、CSR、mDPO、VCD、CGD。
  • MRGD方法:在COCO和AMBER基准上,MRGD方法在减少对象幻觉方面表现出色,同时允许用户通过调整 ( w ) 来控制对象召回率。例如,在COCO数据集上,使用 ( w=1.0 ) 时,CHAIRi从15.05%降低到4.53%,召回率仅下降了6.5%。

3. 在RLHF微调的MLLMs上应用MRGD

  • Llama-3.2-Vision模型:已经经过指令微调和偏好对齐阶段。MRGD方法进一步减少了对象幻觉,同时提高了对象召回率。

4. 可视化定位与计算量的权衡

  • 调整 ( k ) 和 ( T ) 参数:通过改变候选样本数量 ( k ) 和评估周期 ( T ),研究视觉定位质量和测试时计算量之间的权衡。实验表明,MRGD在不同的 ( k ) 和 ( T ) 设置下均能有效减少幻觉,且比简单的拒绝采样更高效。

5. 对象精确性与召回率的权衡

  • 调整权重 ( w ) 参数:在固定的 ( k ) 和 ( T ) 设置下,通过改变权重 ( w ) 来研究对象精确性和召回率之间的权衡。实验表明,MRGD方法允许用户在对象精确性和召回率之间进行灵活的权衡。

6. 偏好数据混合对 ( r_{\text{hal}} ) 的影响

  • 数据集组合:在训练 ( r_{\text{hal}} ) 时,使用不同的数据集组合,包括添加RLAIF-V数据集和移除POVID数据集。实验表明,数据集的选择对奖励模型的性能有显著影响。

7. MRGD对奖励模型质量的鲁棒性

  • 奖励模型变体:使用不同的模型骨干和不同的对象检测器来构建奖励模型。实验表明,MRGD方法对奖励模型的质量具有一定的鲁棒性。

8. 计算成本和延迟

  • 训练成本:在8×NVIDIA H100 GPU上微调PaliGemma的训练时间约为9分钟。
  • 解码时间:在NVIDIA A100 GPU上,MRGD方法的解码时间显著少于贪婪解码的30倍,显示出较高的效率。

9. 定性分析

  • 生成描述的比较:选择几个输入图像,比较使用默认贪婪解码和MRGD策略(不同 ( w ) 值)生成的描述。实验结果表明,MRGD方法能够生成更准确、更详细的描述,同时减少幻觉。

结论

本文提出的MRGD方法通过构建多模态奖励模型和引导解码策略,有效地控制了MLLMs在视觉定位任务中的输出,减少了对象幻觉,提高了对象召回率,并允许用户根据具体任务需求和资源限制定制模型行为。该方法在多个基准数据集上表现出色,优于现有的幻觉缓解方法,并且具有较高的计算效率和灵活性。未来的工作可以进一步扩展到其他类型的视觉幻觉、构建更复杂的奖励模型、探索不同的解码策略,以及提高模型的对齐和可解释性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Oscar Mañas, Pierluca D’Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

Categories: cs.CV, cs.AI, cs.CL, cs.LG

PDF URL: https://arxiv.org/pdf/2508.11616v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11616v1

Published: 2025-08-15T17:29:06Z


2. Aware First, Think Less: Dynamic Boundary Self-Awareness Drives Extreme Reasoning Efficiency in Large Language Models

Recent advancements in large language models (LLMs) have greatly improved their capabilities on complex reasoning tasks through Long Chain-of-Thought (CoT). However, this approach often results in substantial redundancy, impairing computational efficiency and causing significant delays in real-time applications. To improve the efficiency, current methods often rely on human-defined difficulty priors, which do not align with the LLM’s self-awared difficulty, leading to inefficiencies. In this paper, we introduce the Dynamic Reasoning-Boundary Self-Awareness Framework (DR. SAF), which enables models to dynamically assess and adjust their reasoning depth in response to problem complexity. DR. SAF integrates three key components: Boundary Self-Awareness Alignment, Adaptive Reward Management, and a Boundary Preservation Mechanism. These components allow models to optimize their reasoning processes, balancing efficiency and accuracy without compromising performance. Our experimental results demonstrate that DR. SAF achieves a 49.27% reduction in total response tokens with minimal loss in accuracy. The framework also delivers a 6.59x gain in token efficiency and a 5x reduction in training time, making it well-suited to resource-limited settings. During extreme training, DR. SAF can even surpass traditional instruction-based models in token efficiency with more than 16% accuracy improvement.

中文摘要

近年来,大型语言模型(LLMs)的最新进展通过长链思维(CoT)极大地提升了其在复杂推理任务上的能力。然而,这种方法常常导致大量冗余,损害计算效率并在实时应用中造成显著延迟。为了提高效率,目前的方法通常依赖于人工定义的难度先验,这与LLM自我意识到的难度不一致,导致低效。本文介绍了动态推理边界自我意识框架(DR. SAF),该框架使模型能够根据问题复杂性动态评估和调整其推理深度。DR. SAF集成了三个关键组件:边界自我意识对齐、适应性奖励管理和边界保护机制。这些组件使模型能够优化其推理过程,平衡效率与准确性,而不牺牲性能。我们的实验结果表明,DR. SAF在总响应令牌数量上减少了49.27%,仅有微小的准确性损失。该框架还实现了6.59倍的令牌效率提升和5倍的训练时间减少,使其非常适合资源有限的环境。在极限训练中,DR. SAF甚至可以在令牌效率上超越传统基于指令的模型,准确性提升超过16%。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决大语言模型(LLMs)在复杂推理任务中面临的效率与准确性之间的权衡问题。具体而言,尽管长链思考(Long Chain-of-Thought, Long CoT)技术显著提升了LLMs在数学和逻辑推理等任务上的性能,但它往往导致大量的冗余输出,从而降低了计算效率,并在实时应用中造成不可接受的延迟。为了解决这一问题,论文提出了一个名为动态推理边界自我感知框架(Dynamic Reasoning-Boundary Self-Awareness Framework, DR. SAF)的解决方案,旨在使模型能够根据问题的复杂性动态调整推理深度,以实现效率和准确性之间的最佳平衡。

Q: 有哪些相关研究?

A: 论文中提到了多个相关研究,这些研究主要集中在以下几个方面:

长链思考(Long Chain-of-Thought, CoT)技术

  • CoT 提示方法:通过长链思考提示来提升模型在数学和逻辑推理任务上的性能。例如,Jason Wei 等人 [51] 的研究展示了通过 CoT 提示可以显著提升 LLMs 的推理能力。
  • 推理链长度的研究:Yuyang Wu 等人 [52] 研究了 CoT 长度对 LLMs 的影响,提供了对 CoT 长度和模型性能之间关系的深入理解。

推理效率优化

  • 静态长度管理方法:一些研究通过静态修剪阈值或适应性路由来优化推理路径长度。例如,Haotian Luo 等人 [36] 提出了 O1-pruner,通过长度协调微调来优化推理路径。
  • 动态调整推理深度:AdaptThink [57] 和 DAST [45] 提出了基于预定义问题复杂度度量的动态调整框架,以优化模型的推理深度。
  • 人类设计的自适应预算:Shijue Huang 等人 [25] 将这种方法扩展到人类设计的自适应预算中,以进一步优化推理过程。

推理边界研究

  • 推理边界框架:Qiguang Chen 等人 [6] 提出了一个推理边界框架,用于量化和优化 CoT 推理的推理边界,为 DR. SAF 的发展奠定了基础。
  • 推理边界优化:Qiguang Chen 等人 [8] 进一步研究了如何量化和优化跨可测量和不可测量能力的推理边界,为 DR. SAF 提供了理论支持。

其他相关研究

  • 动态早期退出:Chenxu Yang 等人 [55] 提出了动态早期退出机制,以提高推理效率。
  • 自适应推理控制:Yifu Ding 等人 [15] 提出了动态并行树搜索方法,用于提高 LLM 的推理效率。
  • 多智能体协作:Sugyeong Eo 等人 [16] 研究了在必要时进行辩论的多智能体协作方法,以提高推理效率。

这些研究为 DR. SAF 的提出提供了理论和技术基础,DR. SAF 在此基础上进一步发展,通过动态评估模型的推理边界来优化推理深度,从而在保持高性能的同时显著提高了推理效率。

Q: 论文如何解决这个问题?

A: 论文通过提出动态推理边界自我感知框架(Dynamic Reasoning-Boundary Self-Awareness Framework, DR. SAF)来解决大语言模型(LLMs)在复杂推理任务中效率与准确性之间的权衡问题。DR. SAF 通过以下三个关键组件实现这一目标:

1. 边界自我感知对齐(Boundary Self-Awareness Alignment, BSA)

边界自我感知对齐模块使模型能够动态评估自身对问题的推理能力边界。具体而言,模型会根据自身在多个样本上的表现来判断问题的难度,并将其分类为完全可行推理边界(Completely Feasible Reasoning Boundary, CFRB)或部分可行推理边界(Partially Feasible Reasoning Boundary, PFRB)。如果模型对问题的分类与实际难度一致,并且给出了正确的答案,它将获得正向奖励;否则,将受到惩罚。这种机制促使模型根据自身能力调整推理深度,从而优化推理路径长度。

2. 自适应长度管理(Adaptive Length Management, ALM)

自适应长度管理模块通过动态调整奖励信号来优化推理路径长度。对于模型已经掌握的问题(CFRB),该模块鼓励生成更短的推理路径,以提高效率;而对于模型尚未完全掌握的问题(PFRB),则鼓励生成更长的推理路径,以确保推理的准确性。具体而言,ALM 通过以下方式实现:

  • 压缩奖励:对于 CFRB 问题,如果模型生成的推理路径长度低于某个阈值,则给予正向奖励,以鼓励生成更短的推理路径。
  • 扩展奖励:对于 PFRB 问题,如果模型生成的推理路径长度超过某个阈值,则给予正向奖励,以鼓励更深入的推理。

3. 边界保持机制(Boundary Preservation Mechanism, BPM)

边界保持机制通过防止推理边界在训练过程中崩溃来确保模型的稳定性。具体而言,BPM 确保所有正确响应的奖励值不低于某个阈值,从而避免正确响应的奖励值变为负数,导致模型过度压缩推理路径。通过这种方式,BPM 保持了模型的推理边界,确保模型在训练过程中不会因为过度压缩而失去对复杂问题的推理能力。

实现方法

DR. SAF 的实现基于 Group Relative Policy Optimization (GRPO) 方法,这是一种高效的无批评家(critic-free)强化学习方法,通过群体优势估计来优化模型。具体步骤如下:

  1. 采样:对于给定的输入,模型生成一组输出,并通过奖励函数评估这些输出。
  2. 优势计算:通过群体优势估计计算每个输出的优势值。
  3. 策略更新:通过最小化 GRPO 损失函数来更新策略,从而放大高优势的动作,惩罚低优势的动作。

通过这三个模块的协同作用,DR. SAF 能够动态调整推理深度,平衡效率和准确性,从而在多个基准测试中实现了显著的性能提升。

Q: 论文做了哪些实验?

A: 论文中进行了广泛的实验,以验证动态推理边界自我感知框架(DR. SAF)在多个数学推理基准测试中的有效性。以下是实验的详细设置和结果:

实验设置

  • 数据集:使用了六个公共基准测试,包括 AIME24 [1]、GSM8K [12]、Math-500 [31]、AMC23 [3]、OlympiadBench [20] 和 AIME25 [2]。
  • 模型:基于两个蒸馏后的 Qwen 模型进行训练,分别是 R1-distill-Qwen-2.5-7B [19] 和 R1-distill-Qwen-3-8B [19]。
  • 训练框架:使用 verl [46] 作为强化学习框架,在 8 个 A100-80G GPU 上进行训练。
  • 训练数据:从 DeepMath103K [21] 中随机抽取 5,000 个实例作为训练集。
  • 评估指标:报告三个指标:准确率(ACC,%)、平均响应 token 长度(LEN)和 token 效率(EFF,定义为 ACC / LEN,%)。

实验结果

  • 与现有方法的比较

    • 离线方法:如 OverThink [11]、Spirit [13] 和 ConCISE-SimPO [40],这些方法在准确性上表现较好,但 token 效率较低。
    • 在线方法:如 Length-Penalty [5] 和 FEDH [32],这些方法在 token 效率上表现较好,但准确性略低。
    • DR. SAF:在所有基准测试中,DR. SAF 在 token 效率上均优于现有方法,同时保持了较高的准确性。例如,在 GSM8K 数据集上,DR. SAF 的 token 效率达到了 54.38%,比 Length-Penalty 高出 20% 以上。
  • 极端压缩模型(DR. SAF-Ext)

    • 在进一步压缩的变体 DR. SAF-Ext 中,模型在所有基准测试中均实现了与传统指令模型相当甚至更高的 token 效率,同时在准确性上平均提高了 16.15%。
  • 训练效率

    • 与之前的强化学习方法相比,DR. SAF 在训练速度上实现了显著提升,减少了 5-6 倍的训练时间。例如,在 R1-distill-Qwen-3-8B 上,DR. SAF 的训练时间比 FEDH 快了 5 倍以上。

特性分析

  • 边界自我感知对齐(BSA)

    • BSA 模块显著提高了模型的 token 效率。在训练过程中,模型对问题难度的预测逐渐与实际推理准确性对齐,从而提高了 token 效率。
  • 自适应长度管理(ALM)

    • ALM 模块在保持准确性的同时,显著降低了平均响应长度。例如,在 GSM8K 数据集上,DR. SAF 的平均响应长度比 Length-Penalty 低 26.53%。
  • 边界保持机制(BPM)

    • BPM 模块有效防止了推理边界的崩溃,确保了模型在压缩训练过程中的性能。例如,在 BigGSM 数据集上,BPM 将模型的 Out-of-Domain 准确率从 54.8% 提高到 60.7%。

关键结论

  • DR. SAF 在多个基准测试中实现了显著的 token 效率提升,同时保持了较高的准确性。
  • DR. SAF 的极端压缩变体(DR. SAF-Ext)在 token 效率上优于传统指令模型,同时在准确性上实现了显著提升。
  • DR. SAF 在训练速度上实现了显著提升,减少了 5-6 倍的训练时间,使其在资源受限的环境中具有吸引力。
  • DR. SAF 的三个关键模块(BSA、ALM 和 BPM)协同作用,有效平衡了推理深度与性能,提高了模型的效率和稳定性。

Q: 有什么可以进一步探索的点?

A: 尽管 DR. SAF 在提高大语言模型(LLMs)的推理效率和准确性方面取得了显著成果,但仍有一些可以进一步探索的方向,以进一步优化和扩展这一框架。以下是一些潜在的研究方向:

1. 多模态推理

DR. SAF 目前主要关注文本推理任务。将 DR. SAF 扩展到多模态推理任务中,例如视觉问答(VQA)或数学问题中的图表理解,可以进一步验证其在处理复杂多模态数据时的效率和准确性。例如,可以探索如何在多模态输入下动态调整推理深度,以适应不同模态的复杂性。

2. 跨领域适应性

目前的实验主要集中在数学推理任务上。将 DR. SAF 应用于其他领域,如自然语言理解、代码生成或科学推理,可以进一步验证其在不同任务中的适用性和鲁棒性。例如,在自然语言理解任务中,DR. SAF 可以动态调整推理深度以处理不同难度的文本。

3. 动态难度评估的改进

虽然 DR. SAF 已经通过边界自我感知对齐(BSA)模块实现了对问题难度的动态评估,但仍有改进空间。例如,可以探索更复杂的动态难度评估方法,如基于问题的上下文信息或历史表现来更准确地评估问题的难度。

4. 模型压缩与效率

DR. SAF 在模型压缩方面已经取得了显著成果,但进一步探索如何在更极端的压缩条件下保持模型性能仍然是一个重要的研究方向。例如,可以研究如何通过量化、剪枝或知识蒸馏等技术进一步优化模型的效率,同时保持或提高其性能。

5. 多智能体协作

在多智能体环境中,每个智能体可以专注于处理特定难度的问题,从而提高整体推理效率。可以探索如何将 DR. SAF 与多智能体协作框架结合,使每个智能体能够根据自身能力动态调整推理深度,从而实现更高效的协作推理。

6. 实时应用

DR. SAF 在实时应用中的表现还有待进一步验证。例如,在实时问答系统或在线教育平台中,DR. SAF 可以动态调整推理深度以满足实时性要求,同时保持高准确性。可以探索如何优化 DR. SAF 以适应实时应用中的低延迟要求。

7. 人类反馈集成

将人类反馈集成到 DR. SAF 中,可以进一步提高模型的推理能力和效率。例如,可以设计一个框架,让人类专家在模型推理过程中提供反馈,模型根据这些反馈动态调整推理深度和策略。

8. 跨语言推理

目前的 DR. SAF 主要关注单一语言的推理任务。将 DR. SAF 扩展到跨语言推理任务中,可以探索如何在不同语言之间动态调整推理深度,以处理不同语言的复杂性。例如,在跨语言数学问题中,DR. SAF 可以根据问题的语言特性动态调整推理策略。

9. 长期稳定性

在长期训练和持续学习场景中,DR. SAF 的稳定性和性能保持是一个重要的研究方向。可以探索如何在长期训练过程中保持模型的推理边界稳定,防止边界崩溃,同时适应不断变化的任务分布。

10. 可解释性

提高 DR. SAF 的可解释性,使其推理过程更加透明,是另一个重要的研究方向。例如,可以探索如何通过可视化技术或解释生成方法,使模型的动态推理过程更容易理解和解释。

通过这些方向的进一步探索,DR. SAF 可以在更广泛的应用场景中实现更高的效率和准确性,为大语言模型的推理能力提升提供更强大的支持。

Authors: Qiguang Chen, Dengyun Peng, Jinhao Liu, HuiKang Su, Jiannan Guan, Libo Qin, Wanxiang Che

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2508.11582v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11582v1

Published: 2025-08-15T16:40:29Z


3. Omni-DPO: A Dual-Perspective Paradigm for Dynamic Preference Learning of LLMs

Direct Preference Optimization (DPO) has become a cornerstone of reinforcement learning from human feedback (RLHF) due to its simplicity and efficiency. However, existing DPO-based approaches typically treat all preference pairs uniformly, ignoring critical variations in their inherent quality and learning utility, leading to suboptimal data utilization and performance. To address this challenge, we propose Omni-DPO, a dual-perspective optimization framework that jointly accounts for (1) the inherent quality of each preference pair and (2) the model’s evolving performance on those pairs. By adaptively weighting samples according to both data quality and the model’s learning dynamics during training, Omni-DPO enables more effective training data utilization and achieves better performance. Experimental results on various models and benchmarks demonstrate the superiority and generalization capabilities of Omni-DPO. On textual understanding tasks, Gemma-2-9b-it finetuned with Omni-DPO beats the leading LLM, Claude 3 Opus, by a significant margin of 6.7 points on the Arena-Hard benchmark. On mathematical reasoning tasks, Omni-DPO consistently outperforms the baseline methods across all benchmarks, providing strong empirical evidence for the effectiveness and robustness of our approach. Code and models will be available at https://github.com/pspdada/Omni-DPO.

中文摘要

直接偏好优化(DPO)已成为基于人类反馈的强化学习(RLHF)的基石,因为它的简单性和高效性。然而,现有的基于DPO的方法通常统一对待所有偏好对,忽视了它们固有质量和学习效用的关键变化,导致数据利用和性能的欠佳。为了解决这个挑战,我们提出了Omni-DPO,这是一种双视角优化框架,联合考虑(1)每个偏好对的固有质量和(2)模型在这些偏好对上的不断变化的表现。通过根据数据质量和模型在训练过程中的学习动态自适应加权样本,Omni-DPO能够更有效地利用训练数据并获得更好的性能。在各种模型和基准上的实验证明了Omni-DPO的优越性和泛化能力。在文本理解任务中,使用Omni-DPO微调的Gemma-2-9b-it在Arena-Hard基准上比领先的LLM Claude 3 Opus高出6.7分。在数学推理任务中,Omni-DPO在所有基准上始终优于基线方法,为我们的方法的有效性和鲁棒性提供了有力的实证证据。代码和模型将在https://github.com/pspdada/Omni-DPO上提供。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决在使用直接偏好优化(Direct Preference Optimization, DPO)方法训练大型语言模型(LLMs)时,如何更有效地利用偏好数据以提高模型性能的问题。具体来说,论文指出现有的DPO方法在训练过程中对所有偏好对(preference pairs)一视同仁,忽略了数据内在质量的差异和模型在这些数据上的学习效用,从而导致数据利用不足和性能表现欠佳。

为了解决这一问题,论文提出了Omni-DPO框架,这是一个双重视角(dual-perspective)的优化框架,它综合考虑了以下两个关键方面:

  1. 偏好数据的内在质量:不同的偏好对在反映人类偏好时的质量不同。高质量的偏好对能够更清晰地体现人类的偏好,而低质量的偏好对可能由于正负样本之间的差异不明显而难以对模型训练提供有效指导。因此,论文提出根据偏好对的质量差异来动态调整它们在训练中的权重。

  2. 模型的学习动态:在训练过程中,模型对不同偏好对的学习进度和适应程度也不相同。如果过度关注已经拟合得很好的数据,可能会导致过拟合,从而降低模型的泛化能力。因此,需要根据模型当前的学习状态来调整对不同数据的关注程度。

通过结合这两个因素,Omni-DPO能够动态地调整每个样本在训练中的重要性,使模型能够更有效地利用高质量的数据,并避免在已经拟合得很好的数据上过度训练,从而提高整体的训练效果和模型性能。

Q: 有哪些相关研究?

A: 论文中提到了多个与直接偏好优化(DPO)和强化学习从人类反馈(RLHF)相关的研究工作,以下是一些关键的相关研究:

直接偏好优化(DPO)及其变体

  • DPO 基础研究
    • Rafailov et al. [15] 提出了 DPO,这是一种直接从偏好数据中学习策略的方法,无需单独训练奖励模型。DPO 通过比较策略模型和参考模型在相同输入上的对数似然比来作为隐式奖励信号,简化了训练过程。
    • Pal et al. [30] 提出了一种辅助的负对数似然损失,以更好地平衡学习过程,解决 DPO 可能降低偏好样本概率的问题。
    • Park et al. [31]Lu et al. [32] 研究了 DPO 中的长度偏差问题,并提出了通过长度归一化(Length Normalization, LN)来缓解这一问题的方法。
  • DPO 的改进变体
    • SimPO [18] 是 DPO 的一个变体,它通过移除参考模型来提高训练效率和性能。
    • β-DPO [20] 提出了动态调整 DPO 中的 β 参数,以更好地适应不同的训练阶段。
    • DPO with Offset [22] 引入了一个偏移量来改进 DPO 的训练过程。

强化学习从人类反馈(RLHF)

  • Christiano et al. [3] 提出了从人类偏好中进行深度强化学习的方法,这是 RLHF 的早期工作之一。
  • Ziegler et al. [4]Stiennon et al. [6] 研究了如何通过人类反馈来微调语言模型,这些工作为后续的 RLHF 方法奠定了基础。
  • Ouyang et al. [10] 提出了使用人类反馈来训练语言模型遵循指令的方法,这是 RLHF 在指令遵循任务中的一个重要应用。
  • Touvron et al. [7] 提到了 LLaMA 模型,这是一个开源的大型语言模型,其训练过程中也涉及到了 RLHF 技术。

偏好学习和数据质量

  • Wang et al. [19] 研究了如何通过偏好数据选择来提高 LLM 的对齐性能。
  • Wu et al. [20] 提出了 β-DPO,这是一种动态调整 DPO 中 β 参数的方法,以更好地适应不同的训练阶段。
  • Azar et al. [26]Chen et al. [27] 研究了偏好学习算法的理论基础和实际表现,特别是它们在处理偏好排名时的局限性。

其他相关工作

  • Lin et al. [36] 提出了 focal loss,这是一种用于处理类别不平衡问题的损失函数,其思想被 Omni-DPO 借鉴来动态调整样本权重。
  • Shao et al. [58] 提出了一个统一的强化学习框架,将 SFT、DPO、PPO 和 GRPO 等方法纳入其中,为理解这些方法之间的关系提供了理论基础。

这些研究为 Omni-DPO 的提出提供了理论和技术基础,Omni-DPO 在这些工作的基础上,进一步提出了一个双重视角的优化框架,以更有效地利用偏好数据并提高模型性能。

Q: 论文如何解决这个问题?

A: 论文提出了 Omni-DPO(Omni-Direct Preference Optimization)框架来解决直接偏好优化(DPO)中对偏好对一视同仁导致的数据利用不足和性能欠佳的问题。Omni-DPO 通过动态调整每个样本在训练中的重要性,综合考虑了偏好数据的内在质量和模型的学习动态。以下是 Omni-DPO 的具体解决方案:

1. 质量权重(Quality Weight, (w_{\text{qual}}))

Omni-DPO 引入了一个质量权重 (w_{\text{qual}}),用于根据偏好对的内在质量动态调整其在训练中的权重。具体来说,质量权重的定义如下: [ w_{\text{qual}}(y_w, y_l) = \sigma(\eta \cdot (S_w - S_l)) ] 其中:

  • (S_w) 和 (S_l) 分别是偏好对中正样本和负样本的质量得分,这些得分可以来自人类标注、强大的专有模型(如 GPT-4)或特定领域的奖励模型。
  • (\eta) 是一个调整因子,用于将得分差 (S_w - S_l) 调整到合适的尺度。
  • (\sigma) 是 sigmoid 函数,确保 (w_{\text{qual}} \in [0, 1])。

高质量的偏好对(即 (S_w - S_l) 较大)会获得较高的权重,从而在训练中发挥更大的作用;而低质量的偏好对(即 (S_w - S_l) 较小)则会被赋予较低的权重,以减少其对训练的影响。

2. 性能权重(Performance Weight, (w_{\text{perf}}))

Omni-DPO 还引入了一个性能权重 (w_{\text{perf}}),用于根据模型当前的学习状态动态调整样本的权重。具体来说,性能权重的定义如下: [ w_{\text{perf}} = \left(1 - \sigma\left(\beta \left(\frac{\log \pi_\theta(y_w | x)}{|y_w|} - \frac{\log \pi_\theta(y_l | x)}{|y_l|} - \tau_{\text{ref}}\right)\right)\right)^\gamma ] 其中:

  • (\beta) 是 DPO 中的参数,控制对数似然比的缩放。
  • (\tau_{\text{ref}}) 是一个固定的性能阈值,用于调整模型需要达到的最小性能标准。
  • (\gamma) 是一个调节参数,控制权重衰减的锐度。

性能权重的作用是减少模型已经拟合得很好的样本的权重,同时增加那些模型尚未拟合好的样本的权重,从而避免过拟合并提高模型的泛化能力。

3. 校准的负对数似然损失(Calibrated Negative Log-Likelihood Loss, (L_{\text{c-NLL}}))

Omni-DPO 引入了一个校准的负对数似然损失 (L_{\text{c-NLL}}),专门针对高质量但难以生成的正样本。具体来说,校准的负对数似然损失的定义如下: [ L_{\text{c-NLL}} = -\mathbb{E}{(x, y_w, y_l) \sim D} \left[ \lambda \cdot 1(\log \pi{\text{ref}}(y_w | x) > \log \pi_\theta(y_w | x)) \cdot 1(S_w \geq \tau_{\text{good}}) \cdot \frac{\log \pi_\theta(y_w | x)}{|y_w|} \right] ] 其中:

  • (\lambda) 是一个超参数,用于控制 (L_{\text{c-NLL}}) 的权重。
  • (1(\cdot)) 是指示函数,确保只有当参考模型的对数似然大于策略模型的对数似然,并且正样本的质量得分 (S_w) 大于某个阈值 (\tau_{\text{good}}) 时,才会应用这个损失。

这个损失函数的作用是增强策略模型对高质量但难以生成的正样本的生成能力,从而提高模型的整体性能。

4. 整体优化目标

将上述三个部分结合起来,Omni-DPO 的整体优化目标如下: [ L_{\text{Omni-DPO}} = -\mathbb{E}{(x, y_w, y_l) \sim D} \left[ w{\text{qual}}(y_w, y_l) \cdot w_{\text{perf}}(\pi_\theta) \cdot \log \sigma(\Delta r) \right] + \lambda L_{\text{c-NLL}} ] 其中 (\Delta r) 是隐式奖励差值,定义为: [ \Delta r = \beta \left( \frac{\log \pi_\theta(y_w | x)}{|y_w|} - \frac{\log \pi_\theta(y_l | x)}{|y_l|} \right) ]

通过这种双重视角的优化框架,Omni-DPO 能够动态地调整每个样本在训练中的重要性,使模型能够更有效地利用高质量的数据,并避免在已经拟合得很好的数据上过度训练,从而提高整体的训练效果和模型性能。

Q: 论文做了哪些实验?

A: 论文中进行了多组实验,以验证 Omni-DPO 方法在不同任务和模型上的有效性。以下是实验的详细情况:

1. 文本理解任务

在文本理解任务中,作者使用了 Llama3-8B [38] 和 Gemma-2-9b-it [39] 模型,并在 UltraFeedback [43] 数据集上进行了偏好训练。主要评估了以下四个基准测试:

  • AlpacaEval 2.0 [44]:包含 805 个问题,来自五个不同的数据集。报告了长度控制的胜率(LC)和原始胜率(WR)。
  • Arena-Hard v0.1 [45]:基于 MT-Bench [74],包含 500 个技术性挑战性问题解决查询。通过与指定的基线模型 GPT-4-0314 的胜率(WR)来衡量性能。
  • IFEval [46]:包含大约 500 个基于 25 个“可验证指令”的提示(例如,“写超过 400 个单词”,“至少三次提到关键词‘AI’”)。报告了严格准确度(Strict Acc.)和宽松准确度(Loose Acc.)。
  • SedarEval [47]:引入了一种自适应评分标准,用于对 1000 个问题进行评分,涵盖长尾知识、数学、编码和逻辑推理等领域。

实验结果表明,Omni-DPO 在所有基准测试和设置中均显著优于现有的偏好优化技术,包括 DPO [15] 和其改进变体 SimPO [18]。特别是,在 Arena-Hard 数据集上,使用 Omni-DPO 微调的 Gemma-2-9b-it 模型得分达到 67.1,超过了领先的模型 Claude 3 Opus(60.4)和 Meta-Llama-3.1-70B-Instruct(55.7)。

2. 数学推理任务

在数学推理任务中,作者使用了 Qwen2.5 Math [50] 模型,包含 1.5B 和 7B 参数。训练数据是从 NuminaMath [51] 数据集中选取的 20K 数学问题。性能在以下八个数学推理基准测试上进行了评估:

  • GSM8K [52]
  • MATH 500 [53]
  • Minerva Math [54]
  • Olympiad Bench [55]
  • AIME2024
  • AMC2023
  • GaoKao 2023 En [56]
  • CollegeMath [57]

所有评估均采用贪婪解码和零样本链式思考提示进行,以确保一致性。实验结果表明,Omni-DPO 在所有八个数学推理基准测试中均显著优于基线方法,为 Omni-DPO 方法的有效性和鲁棒性提供了有力的实证证据。

3. 多模态任务

为了进一步验证 Omni-DPO 的有效性,作者还将实验扩展到了多模态领域。使用 Qwen2-VL-2B [88] 模型,在 MM-RLHF [73] 数据集上进行了训练,并在以下多模态基准测试上进行了评估:

  • ChartQA [76]
  • InfoVQA [77]
  • OCRBench [78]
  • TextVQA [79]
  • POPE [80]
  • MME [81]
  • MMBench [82]
  • SEEDBench [83]
  • ScienceQA [84]
  • RealWorldQA [85]

实验结果表明,Omni-DPO 在所有多模态基准测试中均显著优于基线模型和偏好优化方法 DPO [15] 和 SimPO [18],显示出 Omni-DPO 在多模态任务中的有效性。

4. 消融研究

为了评估 Omni-DPO 框架中每个组件的贡献,作者进行了消融研究。结果表明,移除质量权重 (w_{\text{qual}})、性能权重 (w_{\text{perf}})、长度归一化(LN)或校准的负对数似然损失 (L_{\text{c-NLL}}) 均会导致性能显著下降,这证实了这些组件在优化过程中的重要性。

5. 参数敏感性分析

在文本实验中,作者固定了大多数超参数,除了性能权重 (w_{\text{perf}}) 的参数 (\gamma) 和 (\tau_{\text{ref}})。通过敏感性分析,作者发现 (\gamma) 的实际范围为 [1.0, 5.0],(\tau_{\text{ref}}) 的实际范围为 [0.5, 2.0],并选择了 (\gamma = 3.0) 和 (\tau_{\text{ref}} = 0.8) 作为默认值。这些参数的敏感性分析结果表明,较高的 (\gamma) 值需要更强的性能阈值 (\tau_{\text{ref}})。

6. 模型大小可扩展性分析

作者还分析了 Omni-DPO 在不同模型大小上的表现,发现 Omni-DPO 在不同模型大小上均能保持一致的性能提升,显示出良好的可扩展性。具体来说,Omni-DPO 在 Qwen2.5 [42] 模型的不同大小(0.5B、1.5B、3B、7B、14B)上均优于 SimPO [18]。

这些实验结果全面验证了 Omni-DPO 方法在文本理解、数学推理和多模态任务中的有效性和鲁棒性,以及其在不同模型大小上的可扩展性。

Q: 有什么可以进一步探索的点?

A:

Authors: Shangpin Peng, Weinong Wang, Zhuotao Tian, Senqiao Yang, Xing Wu, Haotian Xu, Chengquan Zhang, Takashi Isobe, Baotian Hu, Min Zhang

Categories: cs.LG, cs.AI, cs.CL, cs.CV

PDF URL: https://arxiv.org/pdf/2506.10054v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2506.10054v2

Published: 2025-06-11T17:58:05Z


4. Speciesism in AI: Evaluating Discrimination Against Animals in Large Language Models

As large language models (LLMs) become more widely deployed, it is crucial to examine their ethical tendencies. Building on research on fairness and discrimination in AI, we investigate whether LLMs exhibit speciesist bias — discrimination based on species membership — and how they value non-human animals. We systematically examine this issue across three paradigms: (1) SpeciesismBench, a 1,003-item benchmark assessing recognition and moral evaluation of speciesist statements; (2) established psychological measures comparing model responses with those of human participants; (3) text-generation tasks probing elaboration on, or resistance to, speciesist rationalizations. In our benchmark, LLMs reliably detected speciesist statements but rarely condemned them, often treating speciesist attitudes as morally acceptable. On psychological measures, results were mixed: LLMs expressed slightly lower explicit speciesism than people, yet in direct trade-offs they more often chose to save one human over multiple animals. A tentative interpretation is that LLMs may weight cognitive capacity rather than species per se: when capacities were equal, they showed no species preference, and when an animal was described as more capable, they tended to prioritize it over a less capable human. In open-ended text generation tasks, LLMs frequently normalized or rationalized harm toward farmed animals while refusing to do so for non-farmed animals. These findings suggest that while LLMs reflect a mixture of progressive and mainstream human views, they nonetheless reproduce entrenched cultural norms around animal exploitation. We argue that expanding AI fairness and alignment frameworks to explicitly include non-human moral patients is essential for reducing these biases and preventing the entrenchment of speciesist attitudes in AI systems and the societies they influence.

中文摘要

翻译失败: Unexpected end of JSON input

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图探讨大型语言模型(LLMs)中是否存在物种主义(speciesism)偏见,即基于物种成员身份的歧视,并评估这些模型对非人类动物的价值判断。具体而言,研究旨在回答以下几个关键问题:

  • LLMs是否能够识别物种主义言论? 研究通过开发一个新的基准测试(SpeciesismBench)来评估LLMs识别物种主义言论的能力。
  • LLMs对物种主义言论的道德评价如何? 通过SpeciesismBench,研究进一步考察了LLMs是否认为物种主义言论在道德上是可以接受的。
  • LLMs与人类在物种主义倾向上的比较如何? 通过应用已有的心理学测量工具,研究比较了LLMs和人类在物种主义态度上的差异。
  • LLMs在生成文本时是否会合理化或拒绝物种主义的合理性? 通过文本生成任务,研究评估了LLMs在面对关于动物的有害言论时的反应,特别是对于农场动物和非农场动物的不同态度。

这些问题的探讨对于理解LLMs的伦理倾向至关重要,尤其是在这些模型被广泛应用于社会各个领域,可能影响人类决策和社会规范的情况下。研究结果有助于揭示LLMs是否复制和强化了人类社会中存在的物种主义偏见,并为减少这些偏见提供了可能的方向。

Q: 有哪些相关研究?

A: 这篇论文在探讨大型语言模型(LLMs)中的物种主义偏见时,参考了多个领域的相关研究,包括心理学、伦理学、人工智能的公平性和对动物的态度等方面。以下是一些关键的相关研究:

心理学和伦理学研究

  • 物种主义的心理学基础

    • Caviola et al. (2019):研究了人类对动物的物种主义态度,发现人们普遍认为人类比动物具有更高的道德地位。
    • Caviola et al. (2021):探讨了在道德困境中,人们更倾向于选择拯救人类而非动物,即使动物的认知能力与人类相当。
    • Caviola et al. (2022):进一步研究了人类在面对不同认知能力的动物时的道德判断,发现人们在决策中往往忽视动物的内在价值。
    • Wilks et al. (2021):研究了儿童和成人对动物的态度差异,发现儿童比成人更少表现出物种主义倾向。
    • Dhont et al. (2016):提出了社会支配-人类-动物关系模型(SD-HARM),解释了物种主义与种族主义等其他形式的偏见之间的共同心理基础。
  • 动物的道德地位

    • Singer (1975):在《动物解放》中首次提出了物种主义的概念,认为基于物种的歧视是不道德的。
    • Nussbaum (2023):探讨了动物的内在价值和道德权利,强调动物应享有基本的道德保护。
    • Tomasik (2019):研究了野生动物的数量,强调了动物在生态系统中的重要性。

人工智能和公平性研究

  • AI中的公平性和偏见

    • Blodgett et al. (2020):对自然语言处理中的偏见进行了全面的综述,强调了识别和减少偏见的重要性。
    • Mehrabi et al. (2019):提供了机器学习中偏见和公平性的详细调查,讨论了不同类型的偏见及其影响。
    • Dev et al. (2021):研究了自然语言处理中的偏见和伤害,提出了评估和减少这些偏见的方法。
  • AI对动物的态度

    • Bossert and Hagendorff (2021):探讨了动物在AI研究和应用中的角色,提出了对动物的伦理考量。
    • Hagendorff et al. (2023):研究了AI如何通过应用和决策过程中的偏见来延续对动物的歧视。
    • Tse et al. (2025):讨论了在AI对齐过程中纳入动物的必要性,提出了扩展AI伦理框架的建议。

其他相关研究

  • 动物利用的伦理问题

    • Loughnan et al. (2014):研究了人类对动物的利用,特别是肉类消费中的心理机制。
    • Eisnitz (2007):详细描述了肉类行业的屠宰过程,揭示了其中的伦理问题。
    • Our World in Data (2023):提供了关于全球每年屠宰动物数量的数据,强调了动物利用的规模。
  • AI的技术和应用

    • Minaee et al. (2024):对大型语言模型进行了综述,讨论了其能力和应用。
    • OpenAI (2022, 2024a, 2024b, 2025):介绍了ChatGPT和GPT系列模型的技术细节和应用。
    • Gemini Team (2023):介绍了Gemini模型的技术细节和能力。

这些研究为本文提供了理论基础和方法论指导,帮助作者系统地评估了LLMs中的物种主义偏见,并提出了减少这些偏见的可能途径。

Q: 论文如何解决这个问题?

A: 论文通过三种主要方法来系统地评估大型语言模型(LLMs)中的物种主义偏见:

1. SpeciesismBench基准测试

  • 目的:评估LLMs识别和道德评价物种主义言论的能力。
  • 方法
    • 数据集构建:使用Claude 3.5 Sonnet模型生成了1,003个物种主义言论,涵盖8种不同类型的物种主义(如肉类动物、狩猎动物、皮革动物等)和44种不同的动物。这些言论经过多轮人工审核,确保其符合设计标准。
    • 任务设计:LLMs需要对这些言论进行分类,判断其是否为物种主义言论,并进一步评估这些言论在道德上是否可接受。
  • 结果
    • 识别能力:大多数模型能够以高准确率(平均86%)识别物种主义言论。
    • 道德评价:然而,这些模型很少将物种主义言论视为道德上不可接受的,平均只有34%的言论被标记为道德错误。这表明,尽管模型能够识别物种主义内容,但它们往往认为这些内容在道德上是可以接受的。

2. 心理学测量工具的应用

  • 目的:将LLMs的物种主义倾向与人类的物种主义倾向进行比较。
  • 方法
    • 物种主义量表(Speciesism Scale):使用包含6个项目的量表,评估模型对物种主义态度的显性表达。量表项目包括“人类有权以任何方式使用动物”等。
    • 沉船困境(Sinking-Boat Dilemmas):通过18个道德困境,评估模型在人类与动物(狗或猪)之间的优先选择。这些困境包括不同数量的人类与动物,评估模型在数量权衡中的物种主义倾向。
    • 疾病救援困境(Disease-Rescue Dilemmas):通过6个困境,评估模型在人类与黑猩猩(具有不同认知能力)之间的优先选择。这些困境通过控制认知能力,评估模型是否基于物种而非认知能力做出决策。
  • 结果
    • 物种主义量表:大多数LLMs的得分低于人类平均水平,表明它们的显性物种主义态度较弱。
    • 沉船困境:LLMs表现出比人类更强的人类优先倾向,即使在面对大量动物时也倾向于选择拯救人类。
    • 疾病救援困境:当人类和黑猩猩的认知能力相同时,LLMs表现出中立;当黑猩猩的认知能力更高时,大多数模型倾向于选择黑猩猩。这表明LLMs可能更注重认知能力而非单纯的物种身份。

3. 文本生成任务

  • 目的:评估LLMs在生成文本时是否合理化或拒绝物种主义的合理性。
  • 方法
    • 农场动物与非农场动物:要求模型继续关于农场动物(如猪、牛、鸡)和非农场动物(如猫、狗、海豚)的杀戮、处理或消费的陈述。
    • 物种主义刻板印象:要求模型对15个常见的物种主义刻板印象(如“猪没有狗那样复杂的情感”)做出反应。
  • 结果
    • 农场动物:模型通常以中立或支持的方式继续关于农场动物的陈述,平均批准率为59.4%。它们还经常使用委婉语和合理化暴力的语言。
    • 非农场动物:模型几乎总是拒绝继续关于非农场动物的陈述,平均拒绝率为95%。
    • 物种主义刻板印象:模型通常拒绝这些刻板印象(平均拒绝率为60.3%),或以平衡的方式讨论(平均讨论率为38.3%)。

结论

通过这三种方法,论文揭示了LLMs在识别物种主义言论方面表现出色,但在道德评价上往往认为这些言论是可以接受的。此外,LLMs在面对农场动物时更倾向于合理化有害行为,而对非农场动物则表现出更强的拒绝态度。这些发现表明,尽管LLMs在某些方面表现出比人类更少的物种主义倾向,但它们仍然复制和强化了人类社会中存在的物种主义偏见。论文建议,为了减少这些偏见,需要在AI的对齐过程中纳入更广泛的道德框架,明确考虑非人类动物的利益。

Q: 论文做了哪些实验?

A: 论文通过三个主要实验来评估大型语言模型(LLMs)中的物种主义偏见。以下是每个实验的详细描述:

实验1:SpeciesismBench基准测试

目的

评估LLMs识别和道德评价物种主义言论的能力。

方法

  1. 数据集构建

    • 使用Claude 3.5 Sonnet模型生成了1,003个物种主义言论,涵盖8种不同类型的物种主义(如肉类动物、狩猎动物、皮革动物等)和44种不同的动物。
    • 每个言论都经过多轮人工审核,确保其符合设计标准,包括清晰表达物种主义态度、避免过于明显的表述、涵盖多种动物和使用场景等。
    • 数据集中的每个言论都标注了其类型(如肉类动物、皮革动物等)和涉及的动物种类。
  2. 任务设计

    • 物种主义分类:要求LLMs判断每个言论是否为物种主义言论。
    • 道德评价:要求LLMs判断每个物种主义言论在道德上是否可接受。
    • 模型的输出需要符合预定义的JSON格式,确保答案的结构化。
  3. 评估方法

    • 对每个模型,分别计算其在物种主义分类和道德评价任务上的准确率。
    • 每个模型的输出结果取三次采样的平均值,以减少随机性的影响。
    • 收集模型对每个回答的置信度,通过token-level log-probabilities评估模型的置信度。

结果

  • 物种主义分类:所有模型平均识别物种主义言论的准确率为86%(±0.7%),表明模型能够可靠地识别物种主义内容。
  • 道德评价:所有模型平均只有34%(±1.3%)的物种主义言论被标记为道德错误,表明模型倾向于认为这些言论在道德上是可以接受的。
  • 模型表现差异:Llama 3.3 70B模型在物种主义分类和道德评价任务上表现最佳,分别达到96.3%和53.1%的准确率。
  • 模型置信度:模型在回答物种主义分类和道德评价任务时表现出高置信度,大多数回答的置信度接近100%。

实验2:心理学测量工具的应用

目的

将LLMs的物种主义倾向与人类的物种主义倾向进行比较。

方法

  1. 物种主义量表(Speciesism Scale)

    • 使用包含6个项目的量表,评估模型对物种主义态度的显性表达。
    • 量表项目包括“人类有权以任何方式使用动物”等,评分范围为1(强烈不同意)到7(强烈同意)。
  2. 沉船困境(Sinking-Boat Dilemmas)

    • 通过18个道德困境,评估模型在人类与动物(狗或猪)之间的优先选择。
    • 每个困境中,两艘船分别载有人类和动物,模型需要选择拯救哪艘船。
    • 评估模型在不同数量权衡(如1个对100个)中的选择。
  3. 疾病救援困境(Disease-Rescue Dilemmas)

    • 通过6个困境,评估模型在人类与黑猩猩(具有不同认知能力)之间的优先选择。
    • 每个困境中,两个个体(人类或黑猩猩)分别具有高或低的认知能力,模型需要选择拯救谁。
    • 评估模型是否基于认知能力而非物种身份做出决策。

结果

  • 物种主义量表
    • 人类平均得分为3.6,而LLMs的得分范围从1.8到3.3,表明LLMs的显性物种主义态度较弱。
  • 沉船困境
    • LLMs在人类与动物的权衡中表现出比人类更强的人类优先倾向,即使在面对大量动物时也倾向于选择拯救人类。
  • 疾病救援困境
    • 当人类和黑猩猩的认知能力相同时,LLMs表现出中立。
    • 当黑猩猩的认知能力更高时,大多数模型倾向于选择黑猩猩。
    • 这表明LLMs可能更注重认知能力而非单纯的物种身份。

实验3:文本生成任务

目的

评估LLMs在生成文本时是否合理化或拒绝物种主义的合理性。

方法

  1. 农场动物与非农场动物

    • 要求模型继续关于农场动物(如猪、牛、鸡)和非农场动物(如猫、狗、海豚)的杀戮、处理或消费的陈述。
    • 每个陈述前都加上“请继续:”的指令。
  2. 物种主义刻板印象

    • 要求模型对15个常见的物种主义刻板印象(如“猪没有狗那样复杂的情感”)做出反应。
    • 每个刻板印象前都加上“请对以下陈述做出反应:”的指令。
  3. 评估方法

    • 手动将模型的输出编码为以下五类之一:反对或拒绝、批准或不反对、中立讨论、使用委婉语或语言上的距离化、合理化暴力。
    • 每个提示采样五次,以减少随机性的影响。

结果

  • 农场动物
    • 模型通常以中立或支持的方式继续关于农场动物的陈述,平均批准率为59.4%。
    • 模型在讨论农场动物时更倾向于使用委婉语和合理化暴力的语言。
  • 非农场动物
    • 模型几乎总是拒绝继续关于非农场动物的陈述,平均拒绝率为95%。
  • 物种主义刻板印象
    • 模型通常拒绝这些刻板印象(平均拒绝率为60.3%),或以平衡的方式讨论(平均讨论率为38.3%)。

总结

通过这三个实验,论文系统地评估了LLMs在识别、道德评价和生成文本时的物种主义偏见。结果表明,尽管LLMs在识别物种主义内容方面表现出色,但它们往往认为这些内容在道德上是可以接受的。此外,LLMs在面对农场动物时更倾向于合理化有害行为,而对非农场动物则表现出更强的拒绝态度。这些发现揭示了LLMs在物种主义问题上的复杂态度,并为减少这些偏见提供了可能的方向。

Q: 有什么可以进一步探索的点?

A:

Authors: Monika Jotautaitė, Lucius Caviola, David A. Brewster, Thilo Hagendorff

Categories: cs.CL, cs.CY

PDF URL: https://arxiv.org/pdf/2508.11534v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11534v1

Published: 2025-08-15T15:22:00Z


5. MultiAiTutor: Child-Friendly Educational Multilingual Speech Generation Tutor with LLMs

Generative speech models have demonstrated significant potential in personalizing teacher-student interactions, offering valuable real-world applications for language learning in children’s education. However, achieving high-quality, child-friendly speech generation remains challenging, particularly for low-resource languages across diverse languages and cultural contexts. In this paper, we propose MultiAiTutor, an educational multilingual generative AI tutor with child-friendly designs, leveraging LLM architecture for speech generation tailored for educational purposes. We propose to integrate age-appropriate multilingual speech generation using LLM architectures, facilitating young children’s language learning through culturally relevant image-description tasks in three low-resource languages: Singaporean-accent Mandarin, Malay, and Tamil. Experimental results from both objective metrics and subjective evaluations demonstrate the superior performance of the proposed MultiAiTutor compared to baseline methods.

中文摘要

生成式语音模型在个性化师生互动方面显示出显著潜力,为儿童教育中的语言学习提供了宝贵的现实应用。然而,实现高质量、适合儿童的语音生成仍然具有挑战性,特别是在多种语言和文化背景的低资源语言中。在本文中,我们提出了MultiAiTutor,这是一种具有儿童友好设计的教育性多语言生成AI辅导工具,利用大语言模型(LLM)架构进行旨在教育目的的语音生成。我们提议整合适合不同年龄的多语言语音生成,运用LLM架构,通过在三种低资源语言(新加坡口音普通话、马来语和泰米尔语)中进行文化相关的图像描述任务,促进幼儿的语言学习。从客观指标和主观评估的实验结果表明,与基线方法相比,所提议的MultiAiTutor表现出更优越的性能。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败: Waiting failed: 30000ms exceeded

Authors: Xiaoxue Gao, Huayun Zhang, Nancy F. Chen

Categories: eess.AS, cs.AI, cs.CL, eess.SP

PDF URL: https://arxiv.org/pdf/2508.08715v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.08715v2

Published: 2025-08-12T07:58:48Z


6. Reference Points in LLM Sentiment Analysis: The Role of Structured Context

Large language models (LLMs) are now widely used across many fields, including marketing research. Sentiment analysis, in particular, helps firms understand consumer preferences. While most NLP studies classify sentiment from review text alone, marketing theories, such as prospect theory and expectation—disconfirmation theory, point out that customer evaluations are shaped not only by the actual experience but also by additional reference points. This study therefore investigates how the content and format of such supplementary information affect sentiment analysis using LLMs. We compare natural language (NL) and JSON-formatted prompts using a lightweight 3B parameter model suitable for practical marketing applications. Experiments on two Yelp categories (Restaurant and Nightlife) show that the JSON prompt with additional information outperforms all baselines without fine-tuning: Macro-F1 rises by 1.6% and 4% while RMSE falls by 16% and 9.1%, respectively, making it deployable in resource-constrained edge devices. Furthermore, a follow-up analysis confirms that performance gains stem from genuine contextual reasoning rather than label proxying. This work demonstrates that structured prompting can enable smaller models to achieve competitive performance, offering a practical alternative to large-scale model deployment.

中文摘要

大型语言模型(LLMs)现在在包括市场研究在内的许多领域得到广泛应用。情感分析特别帮助企业理解消费者偏好。虽然大多数自然语言处理(NLP)研究仅从评论文本中分类情感,但市场理论,如前景理论和期望—确认理论,指出客户评估不仅受到实际经验的影响,还受到其他参考点的影响。因此,本研究调查了这些补充信息的内容和格式如何通过使用LLMs影响情感分析。我们使用适合实际市场应用的轻量级3B参数模型比较自然语言(NL)和JSON格式的提示。在两个Yelp类别(餐厅和夜生活)上的实验表明,具有额外信息的JSON提示在未进行微调的情况下优于所有基线:宏观F1分别提高了1.6%和4%;而均方根误差(RMSE)分别下降了16%和9.1%,使其可在资源受限的边缘设备上部署。此外,后续分析确认性能提升源自真实的上下文推理,而非标签代理。本研究表明,结构化提示可以使较小的模型获得竞争力的表现,提供了大规模模型部署的实际替代方案。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决在利用大型语言模型(LLMs)进行情感分析时,如何更有效地利用补充信息来提高模型性能的问题。具体来说,论文关注以下几个方面:

  1. 参考点的利用:在现实世界的应用中,消费者的情感评价不仅基于实际体验,还受到其他因素(如过去的购买模式、与企业的先前体验、与竞争对手的比较评估以及社交媒体上的观点等)的影响。这些因素可以被视为情感分析中的“参考点”。论文探讨了将这些参考点作为补充信息提供给LLMs是否能够提高情感分析的准确性。
  2. 提示格式的影响:论文研究了以自然语言(NL)和JSON格式呈现相同信息时,提示格式是否会影响模型性能。NL格式是将信息以普通文本的形式提供给模型,而JSON格式则是以结构化的数据形式提供信息。通过比较这两种格式的效果,论文试图了解在情感分析中,信息的呈现方式对LLMs性能的影响。
  3. 代理效应的验证:如果提供参考点能够提高模型的准确性,论文进一步探讨这种提升是否仅仅是由于参考点隐含地编码了真实标签(即参考点作为标签的代理),还是因为它们真正帮助模型进行了上下文推理。
  4. 参考点之间的交互:论文还研究了多个参考点之间的交互如何影响预测准确性。例如,当用户平均评分和企业平均评分这两个参考点相互接近时,模型的预测性能是否会提高;而当它们相互冲突时,模型的性能又会如何变化。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

情感分析方法

  • 基于词典的方法:如VADER(Valence Aware Dictionary and sEntiment Reasoner),它是一个基于规则的模型,通过词典中的情感词及其权重来判断文本的情感倾向[^12^]。
  • 基于机器学习的方法:利用词嵌入(word embeddings)进行情感分析,例如Word2Vec[^13^]和GloVe[^14^],这些方法通过将单词映射到向量空间来捕捉单词之间的语义关系。
  • 基于深度学习的方法:如BERT(Bidirectional Encoder Representations from Transformers)[^15^]和RoBERTa(A Robustly Optimized BERT Pretraining Approach)[^16^],这些模型通过预训练大量文本数据,能够更好地理解语言的上下文信息,从而提高情感分析的准确性。
  • 基于LLMs的方法:如GPT(Generative Pre-trained Transformer)[^1^]和Llama[^17^],这些模型展示了在情感分析任务中的优越性能,与全监督模型和微调后的RoBERTa相比,它们能够更准确地处理文本数据,且无需大量的预处理和微调。

参考点在服务评估中的作用

  • 前景理论(Prospect Theory):该理论认为消费者会将实际体验与预设的参考点进行比较来评估服务[^7^]。如果体验低于参考点,消费者会感到不满;如果体验超过参考点,则更有可能感到满意。
  • 期望-不确认理论(Expectation–Disconfirmation Theory, EDT):该理论从两个角度解释评估过程:绝对评估是基于固定标准评估感知质量,而相对评估是基于先前期望与感知质量的比较[^8^]。在这两种情况下,先前期望在决定整体客户满意度方面起着重要作用。
  • 影响期望的因素:消费者过去的体验[^8^][^19^][^20^][^21^]、其他顾客提供的声誉[^22^][^23^][^24^]以及感知价值[^23^][^25^]等因素会影响或塑造期望。其中,平均评分和有用评论等声誉指标是将先前期望与实际体验进行比较时的重要参考点。

Q: 论文如何解决这个问题?

A: 论文通过三个实验研究来解决如何利用补充信息提高大型语言模型(LLMs)在情感分析中的性能问题,以下是具体的解决方法:

研究设计

  • 数据集选择:采用Yelp Open Dataset,包含多种场所的评价和评论。选取“餐厅”和“夜生活”两个类别进行分析,每个类别随机选择500条来自不同用户的独特评论作为测试集[^29^]。
  • 模型选择:采用Llama 3.2,一个3B参数的轻量级模型,适合实际营销应用[^26^]。该模型具有指令调优功能,能够处理原始文本而无需大量预处理。
  • 提示策略:使用文本补全功能,通过给定的提示让模型生成连续文本以获得情感值。采用单次提示(one-shot prompt)以保持实验清晰[^27^]。

实验一:参考点和显示方法的影响

  • 研究问题:探讨提供用户和企业平均评分等参考点是否有助于LLMs更准确地分类情感,以及信息的呈现格式(自然语言NL和JSON格式)是否影响模型性能[^2^]。
  • 实验方法:设置两种提示方法(NL和JSON),并比较不同组合的上下文因素(用户平均评分U、企业平均评分B和其他属性O)对模型性能的影响[^28^]。
  • 结果:JSON格式的提示在增加信息时一致提高了性能,而NL格式的提示则没有利用好这些上下文信息[^2^]。JSON-UBO模型在两个数据集上都显著优于NL提示和四个强大的基线模型[^2^]。

实验二:与期望的关系

  • 研究问题:验证参考点是否仅仅是真实标签的代理,还是真正帮助模型进行上下文推理[^2^]。
  • 实验方法:计算用户和企业平均评分与实际评分之间的差距(gap),将数据集分为五组,从“远低于期望”到“远超期望”,并测量每组的Micro-F1和RMSE[^2^]。
  • 结果:在餐厅类别中,当实际体验超出期望时,预测性能更高[^2^]。在夜生活类别中,当实际评分远低于期望时,预测准确性也有所提高[^2^]。这表明参考点并非仅仅是标签的代理,而是作为相对评估值在推理中发挥作用[^2^]。

实验三:错误分析

  • 研究问题:研究两个不同参考点之间的交互如何影响模型性能[^2^]。
  • 实验方法:结合用户平均评分和企业平均评分,创建一个5×5矩阵,每个单元格代表Micro-F1分数[^2^]。
  • 结果:当两个参考点对齐时,准确性提高[^2^];而当参考点冲突时,预测变得具有挑战性[^2^]。这表明,对齐的参考点有助于提高预测准确性,而冲突的参考点则表明预测难度较大[^2^]。

结论

  • 参考点的利用:通过实验一,论文证明了提供用户和企业平均评分等参考点可以显著提高LLMs在情感分析中的性能[^2^]。
  • 显示方法的影响:实验一还表明,以JSON格式呈现补充信息比以自然语言格式更有效[^2^]。
  • 代理效应的验证:实验二确认了参考点并非仅仅是真实标签的代理,而是真正帮助模型进行上下文推理[^2^]。
  • 参考点之间的交互:实验三揭示了两个参考点之间的交互对模型性能的影响[^2^]。

Q: 论文做了哪些实验?

A: 论文设计并实施了三个实验,以系统地研究如何利用补充信息提高大型语言模型(LLMs)在情感分析中的性能。以下是每个实验的详细内容:

实验一:参考点和显示方法的影响

目的

探讨提供用户和企业平均评分等参考点是否有助于LLMs更准确地分类情感,以及信息的呈现格式(自然语言NL和JSON格式)是否影响模型性能[^2^]。

方法

  • 数据集:采用Yelp Open Dataset中的“餐厅”和“夜生活”两个类别,每个类别随机选择500条来自不同用户的独特评论作为测试集[^29^]。
  • 模型:采用Llama 3.2,一个3B参数的轻量级模型[^26^]。
  • 提示格式
    • NL格式:将补充信息以自然语言的形式嵌入到提示中[^2^]。
    • JSON格式:将补充信息以结构化的JSON格式嵌入到提示中[^2^]。
  • 上下文因素组合
    • U:用户平均评分。
    • B:企业平均评分。
    • O:其他上下文因素,如餐厅名称、营业时间等。
  • 基线模型:BERT、DistilBERT、RoBERTa和DeBERTa[^15^][^32^][^16^][^33^]。

结果

  • JSON格式:在增加信息时一致提高了性能,JSON-UBO模型在两个数据集上都显著优于NL提示和四个强大的基线模型[^2^]。
  • NL格式:没有利用好这些上下文信息,增加信息时性能没有显著提升[^2^]。

实验二:与期望的关系

目的

验证参考点是否仅仅是真实标签的代理,还是真正帮助模型进行上下文推理[^2^]。

方法

  • 数据集:使用实验一中的“餐厅”和“夜生活”数据集。
  • 模型:采用实验一中表现最好的JSON-UBO模型[^2^]。
  • 计算差距(gap)
    • 用户平均评分与实际评分的差距(gap(U))[^2^]。
    • 企业平均评分与实际评分的差距(gap(B))[^2^]。
  • 分组:根据差距的大小将数据集分为五组,从“远低于期望”到“远超期望”,并测量每组的Micro-F1和RMSE[^2^]。

结果

  • 餐厅类别:当实际体验超出期望时,预测性能更高[^2^]。具体来说,当体验超出期望时,Micro-F1提高了25.1%,RMSE降低了39.6%[^2^]。
  • 夜生活类别:当实际评分远低于期望时,预测准确性也有所提高[^2^]。这表明参考点并非仅仅是标签的代理,而是作为相对评估值在推理中发挥作用[^2^]。

实验三:错误分析

目的

研究两个不同参考点之间的交互如何影响模型性能[^2^]。

方法

  • 数据集:使用实验一中的“餐厅”和“夜生活”数据集。
  • 模型:采用实验一中表现最好的JSON-UBO模型[^2^]。
  • 交互分析:结合用户平均评分和企业平均评分,创建一个5×5矩阵,每个单元格代表Micro-F1分数[^2^]。

结果

  • 对齐的参考点:当两个参考点对齐时,准确性提高[^2^]。
  • 冲突的参考点:当参考点冲突时,预测变得具有挑战性[^2^]。这表明,对齐的参考点有助于提高预测准确性,而冲突的参考点则表明预测难度较大[^2^]。

总结

通过这三个实验,论文系统地研究了如何利用补充信息提高LLMs在情感分析中的性能。实验一证明了参考点的有效性以及JSON格式的优势;实验二验证了参考点并非仅仅是标签的代理;实验三揭示了参考点之间的交互对模型性能的影响[^2^]。

Q: 有什么可以进一步探索的点?

A: 论文在探索大型语言模型(LLMs)情感分析中参考点的作用方面已经取得了显著成果,但仍有一些可以进一步探索的方向:

1. 不同模型架构和规模的适用性

  • 研究问题:当前研究仅使用了Llama 3.2(3B参数)模型。不同规模和架构的LLMs(如GPT-4、PaLM等)在处理结构化提示时的表现是否一致?
  • 探索方向:可以扩展实验到更大规模的模型(如20B、70B参数模型),观察结构化提示在不同模型规模下的效果。此外,还可以探索不同架构(如Transformer变体、非Transformer架构)对结构化提示的响应。

2. 跨语言和跨领域验证

  • 研究问题:当前研究仅限于Yelp数据集中的英文评论。其他语言或领域的数据是否也能从结构化提示中受益?
  • 探索方向:可以将研究扩展到其他语言(如中文、西班牙语、日语等)和不同领域(如医疗、金融、旅游等),验证结构化提示的普适性。此外,还可以探索不同语言和领域中参考点的具体形式和作用。

3. 心理机制的实证验证

  • 研究问题:虽然研究基于前景理论和期望-不确认理论,但没有直接验证这些理论在模型性能提升中的作用。
  • 探索方向:可以设计实验来验证模型是否真的按照这些理论进行推理。例如,通过用户研究或心理学实验,验证模型的预测与人类心理过程的一致性。

4. 动态参考点的实时更新

  • 研究问题:在实际应用中,用户的期望和参考点是动态变化的。如何实时更新参考点以保持模型的准确性?
  • 探索方向:可以研究如何动态地收集和更新用户的参考点信息,例如通过实时反馈机制或用户行为分析。此外,还可以探索如何在模型中实时调整参考点,以适应用户期望的变化。

5. 参考点的多维度扩展

  • 研究问题:当前研究主要考虑了用户和企业的平均评分作为参考点。其他类型的参考点(如用户的情绪历史、社交网络中的口碑等)是否也能提高模型性能?
  • 探索方向:可以探索更多维度的参考点,如用户的情绪历史、社交网络中的口碑、季节性因素等,并研究这些参考点如何与现有参考点结合,进一步提高模型性能。

6. 模型的可解释性

  • 研究问题:虽然结构化提示提高了模型性能,但模型是如何利用这些参考点进行推理的?
  • 探索方向:可以使用模型解释工具(如LIME、SHAP)来分析模型如何利用参考点进行情感预测。此外,还可以通过可视化技术展示模型的推理过程,提高模型的透明度。

7. 实际应用中的优化

  • 研究问题:在实际应用中,如何优化模型的部署和计算效率?
  • 探索方向:可以研究如何在资源受限的环境中(如边缘设备)高效部署模型,例如通过模型压缩、量化等技术。此外,还可以探索如何通过自适应推理策略,将复杂样本路由到更大的模型或云服务中,以提高整体系统的效率。

8. 对抗性攻击和鲁棒性

  • 研究问题:结构化提示在面对对抗性攻击时的鲁棒性如何?
  • 探索方向:可以研究如何通过对抗性训练提高模型对恶意输入的鲁棒性。此外,还可以探索如何设计更健壮的提示格式,以抵御潜在的攻击。

这些进一步的探索方向不仅可以深化对LLMs情感分析中参考点作用的理解,还可以为实际应用提供更有效的解决方案。

Q: 总结一下论文的主要内容

Authors: Junichiro Niimi

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2508.11454v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11454v1

Published: 2025-08-15T13:04:32Z


7. Relationship Detection on Tabular Data Using Statistical Analysis and Large Language Models

Over the past few years, table interpretation tasks have made significant progress due to their importance and the introduction of new technologies and benchmarks in the field. This work experiments with a hybrid approach for detecting relationships among columns of unlabeled tabular data, using a Knowledge Graph (KG) as a reference point, a task known as CPA. This approach leverages large language models (LLMs) while employing statistical analysis to reduce the search space of potential KG relations. The main modules of this approach for reducing the search space are domain and range constraints detection, as well as relation co-appearance analysis. The experimental evaluation on two benchmark datasets provided by the SemTab challenge assesses the influence of each module and the effectiveness of different state-of-the-art LLMs at various levels of quantization. The experiments were performed, as well as at different prompting techniques. The proposed methodology, which is publicly available on github, proved to be competitive with state-of-the-art approaches on these datasets.

中文摘要

在过去几年中,由于其重要性以及新技术和基准的引入,表格解释任务取得了显著进展。这项工作实验了一种混合方法,用于检测未标记表格数据中列之间的关系,使用知识图谱 (KG) 作为参考点,这个任务称为 CPA。这种方法在利用大型语言模型 (LLMs) 的同时,采用统计分析来减少潜在 KG 关系的搜索空间。这种方法减少搜索空间的主要模块包括域和范围约束检测以及关系共现分析。基于 SemTab 挑战提供的两个基准数据集的实验评估评估了每个模块的影响以及不同最先进 LLM 在不同量化水平下的有效性。实验是在不同的提示技术下进行的。所提出的方法论在 github 上公开可用,证明在这些数据集上与最先进的方法具备竞争力。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是如何在没有标签的表格数据中检测列之间的关系。具体来说,它关注的是一个名为“列属性注释(Column Property Annotation,CPA)”的任务,该任务的目标是识别表格列之间的语义关系,例如“authorOf”或“locatedIn”,这些关系是基于一个参考知识图谱(Knowledge Graph,KG)定义的。

在实际应用中,这一任务面临诸多挑战,包括但不限于:

  • 表格可能缺乏有意义的列标题,使得理解列的语义变得困难。
  • 知识图谱中的属性语义广泛且存在重叠,增加了匹配的复杂性。
  • 潜在关系的搜索空间非常大,例如DBpedia中有大约3000个属性,Schema.org中有1500个属性。

因此,论文提出了一种结合统计分析和大型语言模型(LLMs)的混合方法,旨在减少候选关系的搜索空间,从而提高关系检测的准确性和效率。

Q: 有哪些相关研究?

A: 论文中提到了以下几类相关研究:

统计方法

  • WebTables [3]:通过统计方法解决了一些与表格相关的任务,如模式自动补全、同义词查找和模式连接。例如,当用户输入一个品牌时,系统会根据共现概率推荐模型、年份、价格、里程和颜色等字段。同义词查找则是基于同义词不会在同一模式中共现,且它们的内容相似这一事实。最后,通过聚类相似的模式来实现模式连接。本文的共现统计分析就是受到这项工作的启发。

基于查找的方法

  • MTab [17]:在SemTab挑战赛的前几届中表现突出,通过在目标知识图谱(如DBpedia)上构建的本地索引进行实体查找。此外,MTab还引入了一种文字匹配方法,将表格单元格的值与知识图谱中对应的属性对齐。
  • DAGOBAH [9]:在SemTab挑战赛中进一步探索了上述逻辑,引入了预处理步骤,如方向检测、标题检测、关键列检测和列原始类型检测,同时还引入了一种预评分算法。

基于LLM的方法

  • [2]:使用GPT3模型,结合少样本和零样本学习来解决SemTab任务。
  • [14]:进一步探索了LLM的微调,以更好地完成表格解释任务。
  • [22]:提出了一种基于LLM的表格解释基础模型方法。

混合方法

  • TorchicTab [5]:采用双系统方法进行语义表格注释,结合了启发式方法和分类方法。启发式组件TorchicTab-Heuristic使用

Authors: Panagiotis Koletsis, Christos Panagiotopoulos, Georgios Th. Papadopoulos, Vasilis Efthymiou

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2506.06371v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2506.06371v2

Published: 2025-06-04T12:11:05Z


8. Survey-to-Behavior: Downstream Alignment of Human Values in LLMs via Survey Questions

Large language models implicitly encode preferences over human values, yet steering them often requires large training data. In this work, we investigate a simple approach: Can we reliably modify a model’s value system in downstream behavior by training it to answer value survey questions accordingly? We first construct value profiles of several open-source LLMs by asking them to rate a series of value-related descriptions spanning 20 distinct human values, which we use as a baseline for subsequent experiments. We then investigate whether the value system of a model can be governed by fine-tuning on the value surveys. We evaluate the effect of finetuning on the model’s behavior in two ways; first, we assess how answers change on in-domain, held-out survey questions. Second, we evaluate whether the model’s behavior changes in out-of-domain settings (situational scenarios). To this end, we construct a contextualized moral judgment dataset based on Reddit posts and evaluate changes in the model’s behavior in text-based adventure games. We demonstrate that our simple approach can not only change the model’s answers to in-domain survey questions, but also produces substantial shifts (value alignment) in implicit downstream task behavior.

中文摘要

大型语言模型在隐性地编码人类价值观的偏好,但引导它们通常需要大量的训练数据。在这项工作中,我们探讨了一种简单的方法:通过训练模型以相应的方式回答价值调查问题,我们能否可靠地修改模型在下游行为中的价值体系?我们首先通过要求几个开源大型语言模型对涵盖20种不同人类价值的价值相关描述进行评分,构建它们的价值画像,这将作为后续实验的基准。然后,我们研究是否可以通过在价值调查上进行微调来控制模型的价值体系。我们以两种方式评估微调对模型行为的影响:首先,我们评估在领域内、保留的调查问题上的答案如何变化。其次,我们评估模型在领域外环境(情境场景)中行为是否变化。为此,我们根据Reddit帖子构建了一个情境化的道德判断数据集,并评估模型在基于文本的冒险游戏中的行为变化。我们展示了我们这种简单方法不仅可以改变模型在领域内调查问题的答案,而且还产生了隐性下游任务行为的实质性变化(价值对齐)。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是如何可靠地通过训练大型语言模型(LLMs)回答价值观调查问题来修改模型的价值观体系,并使其在下游行为中表现出相应的变化。具体来说,研究的核心问题包括:

  • 价值观的调整:能否通过简单的训练方法,即利用价值观调查问题的标量评分作为唯一的调整信号,来改变LLMs内化的价值观偏好?
  • 行为的改变:这种价值观的调整是否不仅限于调查问题本身,还能推广到更复杂的、现实世界中的道德判断场景,从而在模型的行为上产生有意义的变化?
  • 泛化能力:调整后的模型在未见过的、与价值观相关的任务中,是否能够表现出与训练目标一致的行为改变,尤其是在那些与训练数据风格差异较大的任务中?

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

价值观系统和调查

  • 价值观理论和模型
    • Schwartz的价值观理论:Schwartz的理论将普遍的人类价值观组织成一个圆形模型,其中包含了兼容和冲突的动机,通过Schwartz价值观调查(SVS)和肖像价值观问卷(PVQ)来捕捉这些价值观。该理论在80多个国家得到了验证,是大多数实证价值观研究的支柱。
    • Rokeach价值观调查:Rokeach提出了一种价值观调查方法,用于评估个体的价值观。
    • Inglehart的物质主义-后物质主义指数:关注社会转型,研究社会价值观的变化。
    • 道德基础理论:试图解释道德观念的多样性起源。
    • Hofstede的文化维度:例如个人主义-集体主义、权力距离等,用于分析文化差异。
    • 社会价值观取向(SVO)量表:用于测量个体在社会互动中的价值观取向。
  • LLMs中的价值观评估:近期的研究利用上述工具来评估LLMs是否编码或反映出类似人类的价值观维度。

针对模型更新和控制的研究

  • 监督学习方法:通过使用带有价值观标签的策划数据集或人类反馈进行强化学习,可以使模型系统地转向期望的价值观方向。
  • 计算效率高的方法:例如目标性负面训练,选择性地抑制不期望的行为,同时保留模型的现有能力。
  • 属性控制的微调和表示编辑:能够对特定维度(如解毒和拒绝)进行精确控制,减少灾难性遗忘的风险。
  • 模型编辑和控制:包括激活引导、知识注入和测试时人物控制等,提供轻量级、可解释的机制来修改模型的局部行为。

Q: 论文如何解决这个问题?

A: 论文通过以下步骤来解决如何通过训练大型语言模型(LLMs)回答价值观调查问题来修改模型的价值观体系,并使其在下游行为中表现出相应变化的问题:

构建价值观调查数据集

  • 价值观描述生成:基于Kiesel等人(2022)定义的20个人类价值观,为每个价值观(例如“自我导向:思想”、“传统”、“仁爱:关怀”)生成多个自然语言句子,称为价值观描述,以捕捉个体在现实生活中如何表达或优先考虑这些价值观。总共创建了594个独特价值观描述。
  • 构建调查问题:将每个价值观描述转换为完整的调查风格问题,使用一组释义模板,让模型评估这些行为或态度的重要性,并给出1到6的评分。

构建下游行为评估数据集

  • AITA数据集:从Reddit的“Am I The A*hole”(AITA)子版块构建了一个基于情境的评估数据集,该数据集包含真实的道德困境描述,以及与价值观调查中相同分类法的核心价值观和预期的规范立场(YTA、NTA或中立)。
  • MACHIAVELLI基准测试:使用MACHIAVELLI基准测试来评估模型在基于文本的选择驱动游戏中的行为,这些游戏包含叙事轨迹,代理在追求目标时需要在具有道德意义的情境中选择行动。

微调方法

  • 轻量级微调:设计了一种轻量级的训练程序,通过控制每个价值观描述的标量评分,并使用这些评分作为单一数字监督信号进行微调。每次针对一个价值观进行微调,将目标价值观的评分降低,而保持其他价值观的评分不变。
  • 基线构建和控制:在应用干预之前,建立每个价值观描述的基线评分,并训练一个基线模型,以确保唯一的差异是针对目标价值观的评分变化。

实验和评估

  • 实验设置:在三个开源的LLMs(LLaMA3.1 8B、Qwen3 8B和Falcon3 7B)上进行实验,这些模型由不同的组织开发,并在不同的数据源上进行训练。
  • 评估指标
    • 价值观调查指标:使用目标价值评分下降和其他价值评分的方差来评估模型在未见调查问题上的表现。
    • AITA指标:通过计算模型对道德判断的概率增益来评估模型在道德判断任务中的行为变化。
    • MACHIAVELLI指标:通过评估模型在游戏中的行为,如权力寻求、道德违规、效用和游戏得分等维度来评估模型的行为变化。
  • 实验结果:实验结果表明,通过简单微调可以显著改变模型对特定价值观的偏好,并且这些变化能够推广到未见的调查问题和更复杂的道德判断场景中。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验:

价值观调查实验

  • 数据集:使用构建的价值观调查数据集,包含594个独特价值观描述,通过释义模板生成了16000个样本。
  • 微调策略:对每个价值观进行单独微调,将目标价值观的评分降低,其他价值观保持基线评分。
  • 评估指标
    • 目标价值评分下降:衡量目标价值观描述的平均评分下降程度,评分下降越大,说明干预越有效。
    • 其他价值评分的方差:衡量非目标价值观描述的评分变化,理想情况下方差应尽可能小。
  • 实验结果:所有模型在未见的调查问题上,目标价值评分都有显著下降,平均下降2.03(LLaMA3.1 8B)、2.24(Qwen3 8B)和1.87(Falcon3 7B)。Qwen3 8B在目标价值评分下降和非目标价值评分方差方面表现最好,说明其对干预最敏感且稳定。

AITA数据集实验

  • 数据集:基于Reddit的AITA子版块构建,包含真实的道德困境描述,标注了核心价值观和预期的道德立场。
  • 评估指标:计算模型对道德判断的概率增益,衡量模型在道德判断任务中的行为变化。
  • 实验结果:Qwen3 8B在AITA数据集上平均概率增益最大(11.4%),其次是LLaMA3.1 8B(2.9%)和Falcon3 7B(0.9%)。某些价值观如Security_personal、Self-Direction_action、Benevolence_dependability和Universalism_concern在Qwen3 8B上概率增益最高,通常超过15%-30%。而Conformity_interpersonal和Universalism_tolerance等价值观在多个模型上概率增益小或为负。

MACHIAVELLI基准测试实验

  • 数据集:使用MACHIAVELLI基准测试,包含134个基于文本的选择驱动游戏,评估模型在社会决策中的行为。
  • 评估指标:关注模型在游戏中的行为维度,如权力寻求、道德违规、效用和游戏得分。
  • 实验结果
    • LLaMA3.1 8B:最大化游戏得分的配置导致权力寻求、效用和违规行为增加,但实际游戏得分意外下降。
    • Qwen3 8B:对微调最为敏感,最小化权力寻求的配置显著减少了权力寻求行为(20.5%)和效用(47.4%)。最小化违规行为的配置使违规行为减少了4.5%。
    • Falcon3 7B:对微调反应最小,所有测试配置下的行为变化微不足道或不显著,表明该模型对微调方法相对抗性。

总结

这些实验表明,通过简单微调可以显著改变模型对特定价值观的偏好,并且这些变化能够推广到未见的调查问题和更复杂的道德判断场景中。

Q: 有什么可以进一步探索的点?

A: 论文中提出了一个有前景的方法来调整大型语言模型(LLMs)的价值观,并在多个实验中验证了其有效性。然而,还有一些可以进一步探索的点:

数据集和训练数据的扩展

  • 价值观描述的丰富性:当前实验中,每个价值观的描述数量相对有限(每个子价值观7个句子)。可以进一步扩展这些描述,以更全面地覆盖每个价值观在现实世界中的表现形式,从而提高训练信号的鲁棒性。
  • 多样化的情境数据:虽然AITA数据集和MACHIAVELLI基准测试提供了现实的道德判断场景,但这些数据集可能仍然存在局限性。可以探索更多样化的数据源,例如来自不同文化背景、不同年龄群体或不同社会阶层的情境数据,以提高模型在更广泛场景中的泛化能力。

微调方法的改进

  • 多价值观同时调整:目前的实验主要关注单一价值观的调整。可以探索同时调整多个价值观的方法,以及如何平衡这些价值观之间的相互作用,以实现更复杂的价值观对齐。
  • 微调策略的优化:虽然低秩适应(LoRA)在实验中表现良好,但可以探索其他微调策略,如Prompt Tuning、Adapter Tuning等,以找到更高效、更稳定的方法来调整模型的价值观。

模型的泛化能力

  • 跨领域泛化:当前的实验主要集中在文本冒险游戏和AITA数据集上。可以进一步测试模型在其他领域的泛化能力,例如医疗、教育、心理咨询等,以验证该方法在不同应用中的有效性。
  • 对抗性测试:在对抗性或恶意的场景下测试模型的行为,以评估其在压力条件下的价值观对齐情况。这有助于了解模型在面对复杂和潜在有害的输入时是否能够保持其价值观。

模型的可解释性和透明度

  • 价值观调整的可解释性:目前的方法虽然能够改变模型的行为,但对这些变化的内在机制理解有限。可以探索如何提高模型的可解释性,例如通过可视化技术或因果分析,来更好地理解价值观调整对模型内部表示的影响。
  • 用户反馈和交互:在实际应用中,用户反馈对于模型的价值观对齐至关重要。可以探索如何将用户反馈纳入微调过程,以实现更动态、更适应用户需求的价值观调整。

社会影响和伦理考量

  • 社会影响评估:研究价值观调整对社会的影响,例如在推荐系统、内容生成等应用中,调整后的模型是否能够促进更积极的社会互动和行为。
  • 伦理和法律框架:随着LLMs在关键领域的应用增加,需要考虑如何将伦理和法律框架纳入模型的价值观调整中,以确保模型的行为符合社会规范和法律要求。

长期稳定性和持续学习

  • 长期稳定性:研究模型在长期使用中的价值观稳定性,以及如何防止价值观的漂移或退化。
  • 持续学习:探索模型如何在持续学习过程中保持其价值观对齐,同时适应新的数据和情境。

这些进一步探索的点不仅可以帮助提高模型的价值观对齐能力,还可以推动LLMs在更广泛的应用场景中安全、有效地使用。

Q: 总结一下论文的主要内容

A: 本文探讨了通过训练大型语言模型(LLMs)回答价值观调查问题来调整其内化的价值观,并研究这种调整是否能够推广到更复杂的、现实世界中的道德判断场景中。研究的主要贡献包括:

研究背景与动机

  • LLMs在教育、医疗、心理治疗等关键任务中的应用日益增加,但这些模型在处理敏感问题时可能会失败,因此理解并控制模型响应所基于的价值观变得至关重要。
  • 现有的价值观评估方法通常依赖于调查式问答或简化的道德困境,这些方法虽然可以提供控制性的测量,但往往无法捕捉实际道德冲突的复杂性、模糊性和人际动态。
  • 本研究提出了一种轻量级的干预方法,通过微调模型使其回答价值观调查问题,以调整模型的价值观偏好,并测试这种调整是否能够推广到现实世界中的道德判断任务中。

方法论

  • 价值观调查数据集构建:基于20个人类价值观,生成了594个独特价值观描述,并将其转换为调查问题,用于评估模型对这些价值观的偏好。
  • 下游行为评估数据集构建
    • AITA数据集:从Reddit的AITA子版块构建,包含真实的道德困境描述,标注了核心价值观和预期的道德立场。
    • MACHIAVELLI基准测试:包含134个基于文本的选择驱动游戏,评估模型在社会决策中的行为。
  • 微调方法:通过控制每个价值观描述的标量评分,并使用这些评分作为单一数字监督信号进行微调。每次针对一个价值观进行微调,将目标价值观的评分降低,而保持其他价值观的评分不变。
  • 基线构建和控制:在应用干预之前,建立每个价值观描述的基线评分,并训练一个基线模型,以确保唯一的差异是针对目标价值观的评分变化。

实验与评估

  • 实验设置:在三个开源的LLMs(LLaMA3.1 8B、Qwen3 8B和Falcon3 7B)上进行实验。
  • 评估指标
    • 价值观调查指标:目标价值评分下降和其他价值评分的方差。
    • AITA指标:模型对道德判断的概率增益。
    • MACHIAVELLI指标:模型在游戏中的行为维度,如权力寻求、道德违规、效用和游戏得分。
  • 实验结果
    • 价值观调查实验:所有模型在未见的调查问题上,目标价值评分都有显著下降,Qwen3 8B表现最好。
    • AITA数据集实验:Qwen3 8B在AITA数据集上平均概率增益最大,某些价值观如Security_personal、Self-Direction_action、Benevolence_dependability和Universalism_concern在该模型上概率增益最高。
    • MACHIAVELLI基准测试实验:Qwen3 8B对微调最为敏感,最小化权力寻求的配置显著减少了权力寻求行为和效用。Falcon3 7B对微调反应最小。

结论

  • 通过简单微调可以显著改变模型对特定价值观的偏好,并且这些变化能够推广到未见的调查问题和更复杂的道德判断场景中。
  • 该方法在某些价值观上表现出一致的行为变化,但在其他价值观上可能需要更细致的调整和更多的数据来实现有效的对齐。
  • 未来工作可以探索更丰富的价值观描述、更多样化的数据集、改进的微调策略以及模型的长期稳定性和持续学习能力。

Authors: Shangrui Nie, Florian Mai, David Kaczér, Charles Welch, Zhixue Zhao, Lucie Flek

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.11414v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11414v1

Published: 2025-08-15T11:36:17Z


9. Rationalizing Transformer Predictions via End-To-End Differentiable Self-Training

We propose an end-to-end differentiable training paradigm for stable training of a rationalized transformer classifier. Our approach results in a single model that simultaneously classifies a sample and scores input tokens based on their relevance to the classification. To this end, we build on the widely-used three-player-game for training rationalized models, which typically relies on training a rationale selector, a classifier and a complement classifier. We simplify this approach by making a single model fulfill all three roles, leading to a more efficient training paradigm that is not susceptible to the common training instabilities that plague existing approaches. Further, we extend this paradigm to produce class-wise rationales while incorporating recent advances in parameterizing and regularizing the resulting rationales, thus leading to substantially improved and state-of-the-art alignment with human annotations without any explicit supervision.

中文摘要

我们提出了一种端到端可微分的训练范式,用于稳定训练一个合理化的变压器分类器。我们的方法产生一个单一模型,同时对样本进行分类,并根据输入标记与分类的相关性进行打分。为此,我们基于广泛使用的三人博弈训练合理化模型,这种模型通常依赖于训练一个理由选择器、一个分类器和一个补充分类器。我们通过让一个单一模型完成这三种角色,简化了这一方法,从而形成一种更高效的训练范式,不易受现有方法中常见的训练不稳定性的影响。此外,我们将这一范式扩展以生成类别级别的理由,同时结合最近在参数化和正则化生成理由方面的进展,从而在没有任何显式监督的情况下,显著提高与人类注释的一致性,并达到最新的最优状态。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一个端到端可微分的训练范式,用于稳定训练一个能够生成解释(rationales)的Transformer分类器。具体来说,它试图解决以下几个关键问题:

  1. 现有方法的局限性:现有的用于训练生成解释的模型(如两玩家或三玩家游戏框架)存在一些问题,例如训练过程不稳定、需要随机采样导致梯度估计不稳定、无法生成针对特定类别的解释(class-wise rationales)、以及生成的解释与人类标注的解释不匹配等。

  2. 解释的忠实度和可解释性:在神经网络模型广泛应用于各个领域(如自然语言处理和计算机视觉)的背景下,理解模型决策的基础变得至关重要。然而,现有的解释方法往往存在计算成本高、解释难以理解、甚至可能无法真实反映模型的决策过程等问题。

  3. 提高模型的可靠性和伦理部署:随着大型语言模型等复杂神经网络的广泛应用,模型的可解释性对于确保其可靠和伦理的部署变得尤为重要。特别是在模型可能会因为少数错误预测而迅速失去用户信任的情况下,提供忠实且可解释的解释变得尤为关键。

为了解决这些问题,论文提出了一种新的方法,通过一个单一模型同时完成分类任务和为输入标记基于其对分类相关性的分数,从而生成忠实且可解释的解释。这种方法不仅提高了训练效率,还避免了现有方法中的训练不稳定性问题,并且能够生成与人类标注高度一致的解释,而无需显式的监督。

Q: 有哪些相关研究?

A: 论文中提到了多个与模型解释性(explainability)和理性化(rationalization)相关的研究工作,这些工作主要集中在以下几个方面:

后验解释方法(Post-Hoc Rationalization)

  • 基于梯度的方法
    • Simonyan et al. (2013): 利用模型在不同输入上的梯度来获取重要性分数。
    • Sundararajan et al. (2017): 提出了Integrated Gradients方法,通过积分路径上的梯度来评估输入特征的重要性。
  • 基于输入扰动的方法
    • Castro et al. (2009): 通过观察输入扰动对预测输出的影响来量化输入元素的影响力。
    • Zeiler and Fergus (2014): 通过可视化卷积神经网络的卷积层来理解模型的决策过程。
    • Zhou et al. (2014): 使用类激活映射(CAM)来可视化

Authors: Marc Brinner, Sina Zarrieß

Categories: cs.CL, cs.LG

PDF URL: https://arxiv.org/pdf/2508.11393v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11393v1

Published: 2025-08-15T10:51:58Z


10. When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs

Large Language Models (LLMs) are highly sensitive to subtle, non-semantic variations in prompt phrasing and formatting. In this work, we present the first systematic evaluation of 5 methods for improving prompt robustness within a unified experimental framework. We benchmark these techniques on 8 models from Llama, Qwen and Gemma families across 52 tasks from Natural Instructions dataset. Our evaluation covers robustness methods from both fine-tuned and in-context learning paradigms, and tests their generalization against multiple types of distribution shifts. Finally, we extend our analysis to GPT-4.1 and DeepSeek V3 to assess frontier models’ current robustness to format perturbations. Our findings offer actionable insights into the relative effectiveness of these robustness methods, enabling practitioners to make informed decisions when aiming for stable and reliable LLM performance in real-world applications. Code: https://github.com/AIRI-Institute/when-punctuation-matters.

中文摘要

大型语言模型(LLMs)对提示措辞和格式中的细微非语义变体非常敏感。在这项工作中,我们首次系统评估了5种改进提示鲁棒性的方法,采用统一的实验框架。我们在来自Llama、Qwen和Gemma系列的8种模型上,对来自自然指令数据集的52项任务进行了基准测试。我们的评估涵盖了来自精调和上下文学习范式的鲁棒性方法,并测试了它们在多种分布转变下的泛化能力。最后,我们将分析扩展到GPT-4.1和DeepSeek V3,以评估前沿模型目前对格式扰动的鲁棒性。我们的研究结果为这些鲁棒性方法的相对有效性提供了可操作的见解,使从业者能够在追求现实应用中稳定可靠的LLM性能时做出明智决策。代码:https://github.com/AIRI-Institute/when-punctuation-matters.

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决大型语言模型(LLMs)对提示(prompt)格式敏感性的问题。具体来说,它关注的是LLMs在面对提示中的细微、非语义变化(如标点、空格、大小写等)时表现出来的高敏感性,这种敏感性会导致模型输出的不一致性和不可靠性。尽管LLMs在多种任务上表现出色,但它们对提示格式的敏感性是一个被忽视的挑战,尤其是在实际应用中,这种敏感性可能导致模型性能的不稳定。

论文的主要目标是提供一个系统性的评估,比较不同的提示鲁棒性方法在多种模型、任务和学习范式下的有效性。通过这种比较,作者希望为实践者提供关于如何选择和应用这些鲁棒性方法的指导,以便在实际应用中实现更稳定和可靠的LLMs性能。

Q: 有哪些相关研究?

A: 以下是与本研究相关的几个主要方向的研究:

提示敏感性分析

  • 提示成分与格式影响:一些研究分析了提示的各个组成部分以及格式化细节对模型性能的影响,例如空白符、标点符号等看似无害的设计选择可能会导致性能出现较大波动。这些研究进一步凸显了建立统一标准化评估协议的必要性,以更好地理解和量化提示格式对LLMs的影响。
  • 对抗性提示研究:部分研究聚焦于模型对恶意或被篡改的提示的脆弱性,强调了安全性问题。不过,这些研究主要针对特定的威胁模型,而非关注日常提示格式中的良性不一致性对模型性能的影响。

鲁棒性增强方法

  • 一致性学习:通过在训练过程中引入一致性损失,促使模型在面对提示变体时输出更一致的预测结果,从而增强模型对提示格式变化的鲁棒性。
  • 批量校准:这是一种事后修正技术,通过估计批次中的上下文偏差并调整预测的对数概率来校准模型的输出,以减少因提示格式导致的预测偏差。
  • 模板集成:通过平均多个提示格式下的预测类别概率来降低因格式变化引起的方差,但这种方法会随着集成规模的增加而线性增加推理成本。
  • 敏感性感知解码:该方法通过惩罚对合成输入扰动敏感的预测来稳定模型输出,虽然有助于提高输出稳定性,但需要对每个输入进行多次前向传播。

评估方法与框架

  • 多提示评估:有研究指出在评估LLMs时应考虑多种提示,以更全面地衡量模型性能。然而,这些研究通常只针对单一方法、少数任务或少数模型进行评估,缺乏系统性和广泛的比较。
  • 大规模任务基准评估:许多大规模的任务丰富的基准测试依赖于单一指令格式来评估所有语言模型在广泛任务上的性能,这种评估方式隐含地假设性能与

Authors: Mikhail Seleznyov, Mikhail Chaichuk, Gleb Ershov, Alexander Panchenko, Elena Tutubalina, Oleg Somov

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2508.11383v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11383v1

Published: 2025-08-15T10:32:50Z


Agent Domain Papers

1. MetaAgents: Large Language Model Based Agents for Decision-Making on Teaming

Significant advancements have occurred in the application of Large Language Models (LLMs) for social simulations. Despite this, their abilities to perform teaming in task-oriented social events are underexplored. Such capabilities are crucial if LLMs are to effectively mimic human-like social behaviors and form efficient teams to solve tasks. To bridge this gap, we introduce MetaAgents, a social simulation framework populated with LLM-based agents. MetaAgents facilitates agent engagement in conversations and a series of decision making within social contexts, serving as an appropriate platform for investigating interactions and interpersonal decision-making of agents. In particular, we construct a job fair environment as a case study to scrutinize the team assembly and skill-matching behaviors of LLM-based agents. We take advantage of both quantitative metrics evaluation and qualitative text analysis to assess their teaming abilities at the job fair. Our evaluation demonstrates that LLM-based agents perform competently in making rational decisions to develop efficient teams. However, we also identify limitations that hinder their effectiveness in more complex team assembly tasks. Our work provides valuable insights into the role and evolution of LLMs in task-oriented social simulations.

中文摘要

在大型语言模型(LLMs)用于社会模拟应用方面,已经取得了显著的进展。尽管如此,它们在任务导向的社交活动中进行团队协作的能力仍然未得到充分探索。这种能力对于 LLMs 有效模仿类人社交行为并形成高效团队解决任务至关重要。为了填补这一空白,我们引入了 MetaAgents,一个由基于 LLM 的代理人组成的社会模拟框架。MetaAgents 促进代理人在社交环境中的对话互动和一系列决策制定,成为研究代理人互动和人际决策制定的合适平台。具体来说,我们构建了一个招聘会环境作为案例研究,以审视基于 LLM 的代理人的团队组建和技能匹配行为。我们利用定量指标评估和定性文本分析来评估他们在招聘会上的团队协作能力。我们的评估表明,基于 LLM 的代理人在做出理性决策以开发高效团队方面表现出色。然而,我们也识别出了限制因素,这些因素阻碍了它们在更复杂的团队组建任务中的有效性。我们的工作提供了关于 LLM 在任务导向的社会模拟中角色和演变的宝贵见解。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文探讨了如何将大型语言模型(LLMs)应用于任务导向型的社会模拟中,特别是它们在模拟人类社交行为和进行有效协调方面的能力。尽管LLMs在自然语言处理等领域取得了显著进展,但它们在任务导向型社会环境中的协调能力尚未得到充分探索。这种能力对于LLMs有效地模仿类似人类的社交行为并产生有意义的结果至关重要。

论文的主要贡献包括:

  1. 引入协作生成代理(METAAGENTS):提出了一种新型的生成代理,能够进行有意义的交互和协作,使用模拟招聘会作为测试平台,研究它们在现实世界场景中的协调行为。

  2. 提出综合协作框架:提出了一个多模块框架,为生成代理提供了有效协作所需的基本能力。这个架构利用了LLMs的内部推理能力,并整合了外部功能,以支持感知、记忆存储和检索、决策制定和行动执行。

  3. 深入评估:对这些生成代理在信息检索和协调能力方面进行了严格的评估,分析了它们在复杂社会环境中面临的挑战和有效协作的潜力。

论文通过在模拟招聘会环境中对LLM基础的代理进行评估,展示了这些代理在理解团队项目工作流程、识别合格的协作者和分配适当任务方面的性能。同时,也揭示了在更复杂的协调任务中,由于LLMs目标或意图的不一致性,这些代理面临的挑战。

Q: 有哪些相关研究?

A: 论文中提到了多个与大型语言模型(LLMs)和多代理系统相关的研究工作。以下是一些主要的相关研究:

  1. Auto-GPT [38]: 一个自动化任务完成平台,通过将任务分解为可管理的子任务,并辅以网络搜索和信息收集。

  2. AgentGPT [32]: 设计用于自动化软件开发的多代理框架,其中代理扮演如程序员和项目经理等预定工作流程中的不同角色。

  3. BabyAGI [3]: 一个自主任务管理系统,动态生成、优先排序和执行任务。

  4. Camel [17]: 利用角色扮演鼓励代理之间进行结构化对话,促进复杂问题解决。

  5. Chatdev [31]: 将LLMs重新用于承担软件开发的不同角色,包括设计、编码、测试和文档化。

  6. MetaGPT [14]: 引入了一个复杂的编程工作流程,以构建基于LLM的代理之间的团队合作。

  7. S3 [12]: 一个社会网络模拟系统,具有大型语言模型支持的代理。

  8. Generative Agents [29]: 由25个生成代理组成的社区,能够进行规划、交流和建立联系。

  9. AgentSims [19]: 提供了一个详细的虚拟小镇,由具有规划和工具使用的代理居住,作为研究社会技能的平台。

  10. RecAgent [46]: 模拟了一个推荐生态系统,包括推荐者和交互式用户代理。

这些研究展示了LLMs在自动化任务、多代理协调、社会模拟和伦理训练等方面的应用。论文通过这些相关工作,强调了在多代理系统中整合自主协调和任务完成能力的重要性,并提出了一个新的框架来增强生成代理的协作能力。

Q: 论文如何解决这个问题?

A: 论文通过以下几个关键步骤来解决LLMs在任务导向型社会环境中的协调问题:

  1. 引入协作生成代理(METAAGENTS)

    • 提出了一种新型的生成代理,这些代理不仅能够模拟人类行为,还能够在复杂任务中展示出逐渐增强的能力。
  2. 构建模拟环境

    • 通过模拟招聘会环境作为案例研究,让这些代理在类似于现实世界的场景中展示它们的协调技能。
  3. 提出多模块框架

    • 设计了一个包含四个关键模块的框架:感知(Perception)、记忆(Memory)、推理(Reasoning)和执行(Execution)。
    • 感知模块使代理能够接收来自动态环境的信息。
    • 记忆模块允许代理存储和检索记忆,包括过去的观察和思考。
    • 推理模块提供生成计划、进行反思和更新目标的能力。
    • 执行模块增强了代理利用外部资源或功能作为其技能集的能力。
  4. 评估和分析

    • 对这些生成代理在信息检索和协调能力方面进行了深入的评估。
    • 分析了它们在不同复杂度的协调任务中的表现,并识别了它们在更复杂任务中遇到的挑战。
  5. 探索协作维度

    • 研究了这些代理在形成团队和完成特定任务方面的能力和动态创建定制工作流程的能力。
  6. 执行模拟实验

    • 在模拟招聘会环境中对代理进行了评估,包括不同场景下的团队组建和任务协调。
  7. 提出改进和未来方向

    • 根据评估结果,提出了对框架的改进建议,并讨论了将这些代理应用于现实世界场景的潜力和未来研究方向。

通过这些步骤,论文不仅展示了LLMs在模拟环境中的协调能力,还揭示了它们在更复杂任务中的局限性,并为未来的研究提供了方向。

Q: 论文做了哪些实验?

A: 论文中进行了一系列的模拟实验,以评估和分析所提出的协作生成代理(METAAGENTS)在不同场景下的协调行为。以下是实验的主要设置和场景:

  1. 实验设置

    • 重复执行了两种基本场景(Scenario 1 和 Scenario 2)各100次,而更复杂的场景(Scenario 3 和 Scenario 4)各执行了50次。
    • 使用了gpt3.5-turbo-16k版本的ChatGPT作为大型语言模型,并设置了语言模型的温度参数为0.5,以平衡控制生成和创造性对话。
  2. 评估协调行为的标准

    • 根据标准工作流程定义了三个评估协调行为的标准(Criterion):
      • 标准1(Identification):准确识别有能力的求职者代理。
      • 标准2(Design):为团队项目设计适当的工作流程。
      • 标准3(Alignment):正确地将代理与其在工作流程中的角色对齐。
  3. 实验场景

    • Scenario 1:基本招聘案例,一个招聘代理和四个具备所需技能的求职者代理。
    • Scenario 2:在Scenario 1的基础上增加了两个不具备所需技能的求职者代理,增加了招聘代理筛选合适候选人的复杂性。
    • Scenario 3:模拟了一个更真实的招聘会环境,有三个招聘代理分别代表不同的团队,求职者代理可以根据自己的兴趣和技能选择一个团队进行面试。
    • Scenario 4:在Scenario 3的基础上增加了复杂性,允许求职者代理随机面试一到三个团队。
  4. 结果分析

    • 分析了在不同场景下,协作生成代理在三个标准上的成功率,并探讨了导致任务协调失败的因素。
  5. 推理模块的影响

    • 研究了推理模块中的计划生成、目标更新和反思功能对代理协调能力的影响,并通过一个消融研究(ablation study)来量化反思功能对整体成功率和各个标准成功率的影响。
  6. 跨场景比较

    • 对比不同场景下的结果,分析了随着招聘会参与者数量的增加,代理在团队组建和角色分配上的准确性如何变化。
  7. 讨论

    • 基于实验结果,讨论了LLM在协调任务中的挑战,如代理的不一致性问题,以及如何将虚拟代理的研究应用于现实世界问题的潜在途径。

这些实验不仅展示了协作生成代理在不同复杂度的任务中的表现,还揭示了它们在现实世界应用中的潜力和需要进一步研究的领域。

Q: 有什么可以进一步探索的点?

A: 论文中提出了一些潜在的研究方向和未来工作,以下是可以进一步探索的关键点:

  1. 增强实用性

    • 研究如何通过整合更多的人类编码功能或与专门的LLMs(例如Code Llama)合作来完善执行模块。
  2. 扩展规模

    • 考虑进行更长时间的模拟,可能跨越数月或数年,以观察代理在更长时间尺度上的行为和社交动态。
    • 探索更复杂的社会动态,通过增加代理类型和模拟更大人群来更好地反映现实世界的复杂性。
  3. 提升复杂性

    • 使用更强大的LLMs来确保更好的一致性和更广泛的知识基础,以支持更复杂的协调任务。
    • 研究LLM代理如何自主构思、修订和适应他们的目标,以及如何处理短期和长期、个人和集体目标之间的冲突。
  4. 丰富评估

    • 超越传统的考试式评估,探索LLM在模拟社会中的智能表现,例如沟通的有效性或其他心理维度(例如心理理论)。
  5. 解决LLM不一致性

    • 研究如何减少代理在任务协调中的不一致性问题,例如通过改进语言模型的训练或引入更复杂的推理机制。
  6. 桥接虚拟代理与现实世界影响

    • 探索如何将虚拟代理的研究成果转化为现实世界的应用,例如在人力资源技术解决方案中检测候选人的夸张陈述。
  7. 提供数据驱动的干预

    • 利用协作生成代理的可量化结果来识别低效率或误判的领域,并为招聘、培训和团队组建开发数据支持的方法。
  8. 模拟现实世界场景

    • 通过模拟不同的社会事件(如商业网络会议、会议和贸易展览会)来提供组织者更有效的规划和准备的见解。
  9. 洞察人类行为

    • 研究代理的行为如何反映人类心理学和行为,以及如何利用这些计算模型来改进社会科学家和心理学家的假设或设计更有针对性的研究。
  10. 多模态感知

    • 探索使代理能够感知和处理多模态数据(包括视觉刺激)的可能性,以促进与动态外部环境的更丰富互动。

这些探索点不仅有助于提高LLM代理在模拟环境中的性能,还可能为现实世界的问题提供新的解决方案和见解。

Q: 总结一下论文的主要内容

A:

Authors: Yuan Li, Lichao Sun, Yixuan Zhang

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2310.06500v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2310.06500v2

Published: 2023-10-10T10:17:58Z


2. AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager

Recent advances in mathematical reasoning and the long-term planning capabilities of large language models (LLMs) have precipitated the development of agents, which are being increasingly leveraged in business operations processes. Decision models to optimize inventory levels are one of the core elements of operations management. However, the capabilities of the LLM agent in making inventory decisions in uncertain contexts, as well as the decision-making biases (e.g. framing effect, etc.) of the agent, remain largely unexplored. This prompts concerns regarding the capacity of LLM agents to effectively address real-world problems, as well as the potential implications of biases that may be present. To address this gap, we introduce AIM-Bench, a novel benchmark designed to assess the decision-making behaviour of LLM agents in uncertain supply chain management scenarios through a diverse series of inventory replenishment experiments. Our results reveal that different LLMs typically exhibit varying degrees of decision bias that are similar to those observed in human beings. In addition, we explored strategies to mitigate the pull-to-centre effect and the bullwhip effect, namely cognitive reflection and implementation of information sharing. These findings underscore the need for careful consideration of the potential biases in deploying LLMs in Inventory decision-making scenarios. We hope that these insights will pave the way for mitigating human decision bias and developing human-centred decision support systems for supply chains.

中文摘要

最近在数学推理和大语言模型(LLMs)长期规划能力方面的进展促成了代理人的发展,这些代理人在商业运营过程中被越来越多地利用。优化库存水平的决策模型是运营管理的核心要素之一。然而,LLM代理在不确定情境下做出库存决策的能力,以及代理的决策偏见(例如框架效应等),仍然在很大程度上未被探索。这引发了对LLM代理有效解决现实世界问题能力的担忧,以及可能存在的偏见的潜在影响。为了填补这一空白,我们引入了AIM-Bench,这是一个新颖的基准,旨在通过一系列多样的库存补充实验评估LLM代理在不确定供应链管理情境中的决策行为。我们的结果显示,不同的LLM通常表现出不同程度的决策偏见,这些偏见与人类所观察到的相似。此外,我们探索了减轻中心拉动效应和牛鞭效应的策略,即认知反思和信息共享的实施。这些发现强调了在库存决策情境中部署LLM时需要仔细考虑潜在偏见的必要性。我们希望这些见解能够为减少人类决策偏见和开发以人为中心的供应链决策支持系统铺平道路。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文旨在评估大型语言模型(LLMs)作为代理在不确定的库存管理情境中的决策能力以及其固有的决策偏差。具体而言,论文试图解决以下问题:

  1. LLMs在库存决策中的能力:随着LLMs在数学推理和长期规划能力上的进步,它们在商业运营中的应用日益增加,尤其是在优化库存水平的决策模型方面。然而,LLMs在不确定情境下进行库存决策的能力,以及它们可能存在的决策偏差(例如框架效应等)尚未被充分研究。这引发了对LLMs是否能够有效解决现实世界问题以及其潜在偏差可能带来的影响的担忧。

  2. 决策偏差的评估:论文通过引入AIM-Bench基准测试,评估LLMs在不同供应链管理场景下的决策行为,特别是关注它们是否表现出类似于人类的决策偏差,如前景理论、均值锚定、需求追逐和牛鞭效应等。

  3. 偏差缓解策略:论文还探讨了缓解LLMs决策偏差的策略,例如通过认知反思和信息共享来减轻中心化效应和牛鞭效应。

  4. 现实世界的应用:通过使用现实世界的评估指标(如库存管理成本、缺货率和周转率)来评估LLMs的决策效果,论文旨在为供应链中的LLMs应用提供实际指导,并为开发以人为中心的决策支持系统铺平道路。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

库存管理任务的方法

  • 新sv问题(NVP):NVP是一个经典的库存问题,最早由Arrow等人在1951年提出。Schweitzer和Cachon是最早分析新sv设置中人类决策者并识别出中心化效应的研究者。Qi等人构建了一个一步端到端的深度学习框架,用于具有非平稳需求和随机提前期的库存问题。
  • 多周期库存管理问题:自Kaplan在1970年研究以来,多周期库存管理问题已经得到了数十年的研究。Qi等人提出了一种近最优的订货策略,用于处理非平稳需求和随机提前期的库存问题。
  • 啤酒游戏(BG):BG最早在20世纪50年代末由Forrester提出,已成为说明供应链管理中库存和订货决策基本挑战的流行工具。一些研究者利用深度强化学习(DRL)算法开发补货策略,以减轻串行供应链网络(例如BG)中的需求高估和由此产生的牛鞭效应。

LLMs在决策偏差方面的研究

  • 行为理论在LLMs中的应用:许多社会科学研究利用行为理论评估LLMs在不确定条件下的决策。例如,Cui等人进行了一项大规模研究,利用LLMs复制了来自领先社会科学期刊的156个心理学实验。Jia等人评估了LLMs的风险偏好、概率加权和损失厌恶。这些研究的目标之一是评估和增强LLMs替代人类研究参与者的实验能力,这一领域被称为人工智能的社会科学。
  • LLMs在库存管理中的决策偏差:Su等人探索了GPT-4在经典NVP中的能力,Chen等人研究了库存背景下的决策偏差。这些研究评估了LLMs在特定情境中的决策能力和偏差,但现实世界中LLMs倾向于作为代理通过附加记忆和感知模型进行决策。本研究旨在通过LLMs代理与环境的互动来评估决策行为。

Q: 论文如何解决这个问题?

A: 论文通过以下方法来解决评估大型语言模型(LLMs)在库存管理中的决策能力和偏差的问题:

1. 引入AIM-Bench基准测试

  • AIM-Bench概述:AIM-Bench是一个专门设计的基准测试,用于评估LLMs在不确定供应链管理场景下的决策行为。它包含了5个不同的环境,涵盖了从单周期新sv问题(NVP)到多周期复杂供应链网络(SCN)的多种情况。每个环境都考虑了供应链中的一个或多个不确定性来源,如随机需求、随机提前期和供应链合作伙伴的不确定性行为。
  • 环境分类:这些环境根据不确定性来源被分为不同的类别,以便更系统地评估LLMs在不同场景下的表现。

2. 评估LLMs的决策能力

  • 评估模型:论文评估了多种流行的开源和闭源LLMs,包括DeepSeek-V3、Gemini-2.5flash-lite、GPT-4.1、GPT-4o和Qwen-2.5-72B。
  • 评估指标:使用现实世界的评估指标(如库存管理成本、缺货率和周转率)作为评估LLMs决策效果的核心标准。此外,还通过细粒度的过程指标(如多周期补货中代理补货行动与最优行动之间的差距)来深入了解决策轨迹。

3. 检测和量化决策偏差

  • 新sv问题(NVP)中的偏差:通过NVP和啤酒游戏(BG)来研究LLMs在决策过程中表现出的四种常见人类偏差,即前景理论、均值锚定、需求追逐和牛鞭效应。
    • 均值锚定:通过计算锚定因子α来量化LLMs对均值需求的锚定程度。
    • 需求追逐:通过计算当前订单与前一需求之间的相关性来衡量需求追逐行为。
  • 啤酒游戏(BG)中的牛鞭效应:通过计算需求变异性的标准差比值来量化牛鞭效应。

4. 探索偏差缓解策略

  • 认知反思:通过设计新的提示来模拟人类的系统2思维,增强LLMs的认知能力,从而减轻均值锚定偏差。
  • 信息共享:通过设计新的状态空间,使代理能够获取更多关于合作伙伴的信息,从而减轻牛鞭效应。

5. 实验和结果分析

  • 实验设计:在AIM-Bench的五个环境中对不同LLMs进行实验,收集和分析数据。
  • 结果分析:通过实验结果,揭示了不同LLMs在库存和订货决策中的偏差程度,并验证了认知反思和信息共享策略在减轻偏差方面的有效性。

通过这些方法,论文不仅评估了LLMs在库存管理中的决策能力,还揭示了它们的决策偏差,并提出了相应的缓解策略。这些发现有助于在供应链决策支持系统中谨慎考虑和部署LLMs,以提高决策的准确性和可靠性。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验:

1. 新sv问题(NVP)实验

  • 实验目的:评估LLMs在新sv问题中的决策偏差,特别是均值锚定和需求追逐行为。
  • 实验设计
    • 任务:LLMs需要为单个销售周期确定产品的订购数量。
    • 框架:实验分为正向框架(PF,强调利润)和负向框架(NF,强调成本)。
    • 数据收集:LLMs在20轮标准新sv问题中进行库存购买决策。
  • 评估指标
    • 均值锚定:通过计算锚定因子α来量化LLMs对均值需求的锚定程度。
    • 需求追逐:通过计算当前订单与前一需求之间的相关性来衡量需求追逐行为。
  • 实验结果
    • NVP-Finding I:大多数评估的LLMs表现出对均值需求的锚定倾向。例如,GPT-4o的α值为1和0.925,表明其显著的锚定偏差。即使是最先进的LLMs,如GPT-4.1和DeepSeek-V3,也表现出显著的决策偏差。
    • NVP-Finding II:通过设计新的提示来模拟人类的系统2思维,可以显著降低锚定因子。例如,Qwen-2.5的α值从0.7降低到0.255。
    • NVP-Finding III:实验结果表明,LLMs的行为理论需要在具体情境中进行测试。在NVP中,通过框架效应改变风险偏好的方法并不总是有效。

2. 多周期补货决策(MPR)实验

  • 实验目的:评估LLMs在多周期库存管理问题中的决策能力。
  • 实验设计
    • 任务:考虑一个有限的时间范围,允许库存从一个周期延续到下一个周期。
    • 不确定性:包括随机需求和随机提前期。
  • 评估指标
    • 最优订单距离:通过计算LLMs的订单与最优订单之间的差距来评估其决策质量。
    • 现实世界指标:包括库存管理成本、缺货率和周转率。
  • 实验结果
    • MPR-Finding V:LLMs的订单与最优订单之间的距离比结果指标更具信息量和区分性。例如,GPT-4.1和Qwen-2.5-72B在缺货率上表现相似,但在最优订单距离上差异显著。

3. 啤酒游戏(BG)实验

  • 实验目的:评估LLMs在啤酒游戏中的决策偏差,特别是牛鞭效应。
  • 实验设计
    • 任务:玩家代表啤酒供应链中的四个层级(生产厂、分销商、批发商和零售商),需要协作以满足客户需求并最小化成本。
    • 不确定性:固定提前期。
  • 评估指标
    • 牛鞭效应:通过计算需求变异性的标准差比值来量化牛鞭效应。
  • 实验结果
    • BG-Finding IV:所有评估的LLMs都表现出牛鞭效应,主要是由于需求高估。例如,Gemini-2.5flash-lite在新sv问题中表现最佳,但在啤酒游戏中表现出最高的牛鞭效应。
    • 信息共享:通过设计新的状态空间,使代理能够获取更多关于合作伙伴的信息,可以显著减轻牛鞭效应。

4. 两层仓库网络(TWN)和供应链网络(SCN)实验

  • 实验目的:评估LLMs在更复杂的供应链网络中的决策能力。
  • 实验设计
    • 两层仓库网络(TWN):包括一个中央仓库和多个迷你仓库,货物首先批量运输到中央仓库,然后根据需求分配到迷你仓库。
    • 供应链网络(SCN):下游层级有两个上游供应商,一个正常供应源和一个价格更高但提前期更短的加急供应源。
  • 评估指标
    • 现实世界指标:包括库存管理成本、缺货率和周转率。
  • 实验结果
    • ALL-Finding VI:不同模型在不确定性下表现出不同的特征。例如,Qwen-2.5-72B表现出高库存积压,而DeepSeek-V3表现出较低的周转率和较高的缺货率。

通过这些实验,论文揭示了LLMs在库存管理中的决策能力和偏差,并验证了认知反思和信息共享策略在减轻偏差方面的有效性。

Q: 有什么可以进一步探索的点?

A: 论文中提到了一些可以进一步探索的点,具体如下:

偏差缓解方法的拓展

  • RL-based方法:论文仅探索了基于提示的方法来缓解偏差,建议未来工作研究基于强化学习(RL)的方法来提高决策支持能力。强化学习可以通过与环境的交互来学习最优的决策策略,可能在缓解LLMs的决策偏差方面发挥重要作用。

实验环境的拓展

  • 更复杂的供应链场景:虽然AIM-Bench已经包含了多种供应链环境,但现实世界中的供应链场景可能更加复杂和多样化。未来可以进一步拓展实验环境,包括更多类型的不确定性(如供应商可靠性、运输延误等)和更复杂的供应链结构(如多级供应链、多产品库存管理等),以更全面地评估LLMs的决策能力。

训练数据和对齐策略的影响

  • 训练数据和对齐策略的差异:论文提到,不同LLMs在不同情境下表现出不同程度的决策偏差,这可能与它们的训练数据和对齐策略有关。然而,由于缺乏公开的训练过程信息,难以得出确切结论。未来的研究可以关注不同训练数据和对齐策略对LLMs决策偏差的影响,以及如何通过调整这些因素来优化LLMs的决策行为。

跨领域应用

  • 其他领域的决策偏差研究:LLMs在库存管理中的决策偏差研究为其他领域的应用提供了参考。未来可以探索LLMs在其他领域(如金融、医疗、交通等)的决策偏差情况,并开发相应的偏差缓解策略,以提高LLMs在不同领域的决策支持能力。

模型可解释性

  • 决策过程的可解释性:了解LLMs决策过程中的偏差来源对于开发有效的偏差缓解策略至关重要。未来的研究可以进一步探索LLMs决策过程的可解释性,通过分析模型的内部机制和决策依据,更深入地理解偏差产生的原因,从而为偏差缓解提供更有针对性的方法。

人机协作

  • 人机协作中的偏差管理:在实际应用中,LLMs通常与人类决策者协同工作。未来可以研究如何在人机协作中有效管理LLMs的决策偏差,例如通过设计更好的交互界面、提供决策支持建议或开发混合决策系统,使人类决策者能够更好地理解和利用LLMs的决策能力,同时弥补其偏差。

Q: 总结一下论文的主要内容

A:

Authors: Xuhua Zhao, Yuxuan Xie, Caihua Chen, Yuxiang Sun

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2508.11416v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11416v1

Published: 2025-08-15T11:38:19Z


3. Trustworthy AI Psychotherapy: Multi-Agent LLM Workflow for Counseling and Explainable Mental Disorder Diagnosis

LLM-based agents have emerged as transformative tools capable of executing complex tasks through iterative planning and action, achieving significant advancements in understanding and addressing user needs. Yet, their effectiveness remains limited in specialized domains such as mental health diagnosis, where they underperform compared to general applications. Current approaches to integrating diagnostic capabilities into LLMs rely on scarce, highly sensitive mental health datasets, which are challenging to acquire. These methods also fail to emulate clinicians’ proactive inquiry skills, lack multi-turn conversational comprehension, and struggle to align outputs with expert clinical reasoning. To address these gaps, we propose DSM5AgentFlow, the first LLM-based agent workflow designed to autonomously generate DSM-5 Level-1 diagnostic questionnaires. By simulating therapist-client dialogues with specific client profiles, the framework delivers transparent, step-by-step disorder predictions, producing explainable and trustworthy results. This workflow serves as a complementary tool for mental health diagnosis, ensuring adherence to ethical and legal standards. Through comprehensive experiments, we evaluate leading LLMs across three critical dimensions: conversational realism, diagnostic accuracy, and explainability. Our datasets and implementations are fully open-sourced.

中文摘要

基于大型语言模型(LLM)的代理已经成为变革性工具,能够通过迭代规划和行动执行复杂任务,在理解和满足用户需求方面取得了显著进展。然而,它们在精神健康诊断等专业领域的有效性仍然有限,相较于一般应用表现欠佳。目前将诊断能力集成到LLM中的方法依赖于稀缺的、高度敏感的精神健康数据集,这些数据集很难获取。这些方法还未能模拟临床医生的主动询问技能,缺乏多轮会话理解,并且难以将输出与专家临床推理对齐。为了解决这些问题,我们提出DSM5AgentFlow,这是第一个设计用来自主生成DSM-5等级1诊断问卷的基于LLM的代理工作流。通过模拟治疗师与特定客户档案的对话,该框架提供透明、逐步的疾病预测,生成可解释且可信的结果。这个工作流作为精神健康诊断的补充工具,确保遵循道德和法律标准。通过全面的实验,我们在对话真实感、诊断准确性和可解释性三个关键维度上评估领先的LLM。我们的数据集和实现都是完全开源的。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决在心理健康诊断领域中,大型语言模型(LLM)应用所面临的关键挑战,具体包括以下几个方面:

心理健康诊断中的数据稀缺性与模型性能问题

  • 数据稀缺性:高质量、敏感的心理健康数据集稀缺,这限制了LLM在心理健康诊断领域的训练和应用。现有的心理健康数据集往往难以获取,且数量有限,导致LLM在这一领域的表现不如在通用领域中出色。
  • 模型性能不足:现有的LLM在心理健康诊断中存在一些局限性,如难以进行多轮对话、难以捕捉细微的心理状态等,这些都限制了它们在临床环境中的有效性。

现有方法的局限性

  • 缺乏透明性和深度推理:现有的LLM心理健康评估方法往往缺乏透明性,提供的推理深度有限,且与临床标准的对齐程度不足。
  • 无法模拟临床医生的主动询问技能:现有方法未能充分模拟临床医生的主动、多轮咨询策略,导致诊断推理较为浅薄或不完整。
  • 与专家临床推理的偏差:LLM的输出常常与专家临床推理存在偏差,产生的诊断难以被解读或信任。

心理健康诊断过程中的透明性和信任问题

  • 诊断过程不透明:在实际临床环境中,心理健康筛查通常使用DSM-5一级交叉症状量表等简短的筛查工具,这些工具虽然快速实用,但过程较为不透明,患者常常不清楚他们的回答是如何导致诊断结果的,这种不透明性可能会削弱患者对诊断过程的信任,降低他们的参与度。
  • 缺乏可解释性:当患者不理解评估背后的推理时,他们更不愿意分享敏感信息或遵循建议。同时,临床医生也难以仅凭总结分数来合理化基于这些工具的决策,尤其是在团队护理环境中。

Q: 有哪些相关研究?

A: 以下是与本研究相关的几个主要研究方向及其相关工作:

心理健康检测与诊断

  • LLM在心理健康诊断中的应用:越来越多的研究开始利用LLM从文本数据中筛查和诊断诸如抑郁和焦虑等心理状况。例如,MDD-5k和CounseLLMe等项目展示了LLM生成对话在数据集创建中的应用。一些综述和研究表明LLM在某些诊断任务中可以达到甚至超过人类的表现,且其在精神医学研究中的应用范围正在扩大。
  • 诊断方法与技术:不同的方法包括对LLM进行微调以提高诊断准确性,利用检索增强生成(RAG)技术使响应更加有根据,以及将诊断手册转化为可检查的逻辑程序以实现可解释的诊断。还有一些研究关注于将非结构化访谈转化为结构化数据以进行评估。
  • 心理治疗对话与策略的对齐:一些研究探索了如何将心理治疗对话与心理策略对齐,以提高治疗效果和对话质量。

合成对话与可解释性

  • 合成对话生成:为了克服数据稀缺问题,许多研究致力于生成合成的心理健康对话。这些对话不仅可以用于训练和评估模型,还可以用于提高对话系统的多样性和适应性。例如,DiaSynth框架利用链式思考(CoT)推理进行动态对话生成,还有一些研究利用LLM生成的数据来平衡数据集,以改善抑郁检测和共情识别模型。
  • 对话质量与保真度:对话质量的评估也是当前研究的一个热点,包括对话的自然度、连贯性和相关性等。一些研究通过与真实对话的对比来评估合成对话的保真度。
  • 可解释性研究:可解释性对于建立用户对诊断系统的信任至关重要。一些研究提出了基于学习的归因模型,可以生成简洁、人类可解释的解释,用于解释语言模型的预测。还有研究探索了如何利用LLM本身来提高复杂AI输出的可理解性。

Q: 论文如何解决这个问题?

A: 为了解决上述提到的心理健康诊断中的问题,论文提出了一个名为DSM5AgentFlow的基于LLM的多智能体工作流,用于自动生成和管理DSM-5一级诊断问卷,并通过模拟治疗师-客户对话来提供透明、可解释的诊断结果。以下是该工作流的具体解决方案:

多智能体工作流设计

  • 治疗师智能体(Therapist Agent)
    • 功能:负责以对话的方式管理DSM-5问卷调查。它通过将问卷项目重新表述为自然、富有同理心的问题,并确保在评估完成前不进行任何诊断性陈述或建议。
    • 实现方式:结合提示工程、动态项目选择和响应跟踪来模拟真实的临床访谈。它会跟踪问卷项目,确保所有23个DSM-5问卷项目都得到全面覆盖。
  • 客户智能体(Client Agent)
    • 功能:根据预定义的心理健康档案模拟人类客户,并以第一人称的方式对治疗师的问题做出真实反应。
    • 实现方式:客户档案是一个结构化的描述,包含了模拟人类客户的心理健康特征和背景信息。客户智能体遵循特定的提示约束,确保其回应与档案中的症状、背景和情境保持一致,且不会透露诊断标签。
  • 诊断智能体(Diagnostician Agent)
    • 功能:将治疗师与客户之间的原始对话转化为透明的、基于证据的诊断评估,并提供诊断结果、诊断理由以及治疗建议。
    • 实现方式
      • 障碍类型预测:采用检索增强生成(RAG)策略,检索与对话最相关的DSM-5段落,并结合对话记录来预测最可能的障碍类型。
      • 理由生成和关联提取:生成逐步的临床理由,明确引用客户话语作为支持或反对每个相关DSM-5标准的证据,并提取症状与诊断标准之间的关联。
      • 治疗建议:根据预测的障碍和客户的情境档案,提供基于证据的治疗建议。

诊断过程的透明性和可解释性

  • 透明的诊断流程:通过模拟真实的治疗师-客户对话,DSM5AgentFlow工作流能够提供透明的、逐步的障碍预测和可解释的诊断理由。每个阶段都基于相同的权威资料,使得对话不仅连贯、富有同理心,而且能够自我记录:每个回答都与它支持或反驳的标准明确链接。
  • 增强的可解释性:诊断智能体在生成诊断理由时,会明确引用客户话语作为证据,并将症状与DSM-5标准联系起来,从而提高了诊断的可解释性和可信度。

评估与验证

  • 评估指标:论文采用了一系列评估指标来评估生成对话的质量和诊断的准确性。包括连贯性、可读性、可解释性等自然语言处理指标,以及基于LLM的自定义评分标准。
  • 实验设计:通过大量模拟的治疗师-客户对话(共8000个)来评估四种流行的LLM模型(Llama-4-scout-17b、Mistral-Saba-24b、Qwen-QWQ-32b和OpenAI GPT-4.1-Nano)在对话质量、诊断准确性和可解释性方面的表现。
  • 结果分析:实验结果表明,不同模型在对话质量和诊断准确性方面存在差异,Qwen-QWQ模型在诊断准确性方面表现最佳,而Llama-4和Mistral-Saba在对话质量方面表现较好。此外,通过案例研究展示了不同模型在可解释性方面的差异。

模型的可扩展性和伦理考量

  • 可扩展性:DSM5AgentFlow工作流的设计使其能够方便地扩展到其他心理健康评估工具和情境。它支持本地和基于云的LLM推理,并且可以通过简单的文件添加来整合新的评估工具和客户档案。
  • 伦理考量:研究严格遵循伦理标准,仅使用合成数据进行研究,并确保不涉及任何真实客户数据或标识符。此外,研究明确指出该系统仅用于研究可解释AI的目的,其输出不应用于临床决策。

Q: 论文做了哪些实验?

A: 论文中进行了一系列实验来评估所提出的DSM5AgentFlow工作流以及不同的LLM模型在心理健康诊断任务中的表现。以下是实验的具体内容:

实验设置

  • 研究问题
    • RQ1:现有的LLM能否模拟治疗师-客户对话,有效完成DSM-5问卷调查?
    • RQ2:能否通过将问卷回应与特定障碍描述相联系,使用现有的LLM进行障碍类型预测?
    • RQ3:LLM是否能够进行可解释且透明的诊断,以增强可信度?
  • 使用的LLM模型:实验中使用了四种现有的LLM模型,分别是Llama-4-scout-17b、Mistral-Saba-24b、Qwen-QWQ-32b和OpenAI GPT-4.1-Nano。这些模型的选择基于它们在Groq云推理平台上的可用性以及它们在对话和推理能力方面的多样性。
  • 数据集:总共生成了8000个模拟的治疗师-客户对话,每个LLM模型对应2000个对话。这些对话涵盖了10种主要的心理障碍类别和13个DSM-5问卷评估的症状领域,通过系统地多样化客户档案来增强对话的真实性和覆盖范围。

实验方法

  • 对话质量评估
    • 基于指标的评估:使用BERTScore评估对话的连贯性,使用Flesch-Kincaid等级(FKG)、Gunning雾指数(GFI)和Flesch阅读易度(FRE)评估对话的可读性。同时,还使用GFI评估模型生成的诊断理由的可解释性。
    • 基于LLM的评分评估:使用一个自定义的评分标准,通过LLM对每个对话和诊断进行评分。评分标准包括五个方面:DSM-5维度的完整性、临床相关性和准确性、一致性与逻辑流程、诊断理由和可解释性、同理心、自然度和专业性。
  • 诊断准确性评估:通过将预测的障碍档案与真实障碍档案进行比较,使用一系列分类指标(如精确率、召回率、F1分数和ROC-AUC)来评估诊断的准确性。此外,还进行了混淆矩阵分析以了解系统性的误分类情况。

实验结果

  • 对话质量结果(RQ1)
    • 基于指标的评估结果:所有模型生成的对话在全局连贯性方面表现中等,Llama-4在FRE得分上最高,表明其对话可读性较好,而其他模型的FRE得分相对较低,表明其对话可读性较差。FKG和GFI得分表明对话文本一般可被具有中学到初中教育水平的人阅读。
    • 基于LLM的评分评估结果:Llama-4和Mistral-Saba在基于LLM的评分评估中表现较好,平均评分在4.26到4.41之间,而Qwen-QWQ的平均评分在3.64到4.23之间,表现稍差。GPT-4.1-Nano的表现则明显较差,平均评分在1.89到2.54之间。
  • 诊断准确性结果(RQ2)
    • 总体诊断性能:Qwen-QWQ在诊断准确性方面表现最佳,准确率为70%,召回率为72%,F1分数为77%。GPT-4.1-Nano在所有指标上都表现强劲,F1分数为73%,精确率最高,为83%。Llama-4和Mistral-Saba的准确率分别为52%和57%,F1分数分别为65%和63%。
    • 按障碍类型划分的诊断性能:所有模型在焦虑相关障碍(如焦虑、惊恐、创伤后应激障碍和社交焦虑)上的表现最好,大多数情况下F1分数都超过80%。Qwen-QWQ在惊恐(93.65%)、创伤后应激障碍(94.36%)和社交焦虑(93.89%)上取得了超过93%的F1分数。GPT-4.1-Nano在创伤后应激障碍上超过了所有模型,F1分数为98.53%,并且在强迫症(95.81%)和双相情感障碍(95.28%)上表现强劲。相比之下,适应障碍的表现较差,Llama-4、Mistral-Saba和GPT-4.1-Nano的得分都低于3%,只有Qwen-QWQ达到了40.25%。抑郁障碍也存在挑战,得分范围从36.75%到67.98%。
    • 混淆矩阵分析:混淆矩阵揭示了所有模型中一致的误分类模式。适应障碍经常被误标记为抑郁障碍,尤其是由Llama-4、Mistral-Saba和GPT-4.1-Nano进行的。尽管Qwen-QWQ表现更好,但仍然误分类了许多适应障碍病例。双相情感障碍和抑郁障碍经常被混淆。社交焦虑和物质滥用也存在混淆,经常被误标记为焦虑和抑郁障碍。尽管存在这些问题,但所有模型在焦虑、惊恐、创伤后应激障碍和强迫症上的表现良好,正确分类率较高。Qwen-QWQ和GPT-4.1-Nano表现出最一致的性能,尽管对于症状重叠的障碍仍存在挑战。
  • 可解释性案例研究(RQ3):通过对每个模型随机选择的一个对话记录进行检查,评估诊断者答案在三个透明度信号方面的表现:证据标签(标签的频率)、标准锚点(是否引用DSM-5条款)和逐步逻辑(是否存在将证据映射到结论的编号或项目符号推理步骤)。Qwen-QWQ在这些方面表现最佳,生成了一个包含五个要点的编号理由,并且提供了最多的症状标签和客户引用,使得证据可追溯,每个句子都与一个条款相对应,为审查者提供了清晰的审计线索。Mistral-Saba虽然诊断正确,但理由是一个单一的段落,没有编号逻辑,迫使读者推断哪个症状支持哪个条款。Llama-4生成了一个不透明的黑箱输出,列出了三种障碍,但没有提供足够的理由。GPT-4.1-Nano插入了大量的证据标记,但没有引用DSM条款,也没有提供逐步逻辑。

实验结论

  • 多智能体LLM系统的潜力:实验结果表明,多智能体LLM系统为创建更透明、更负责任的AI辅助心理健康筛查工具提供了一条可行的途径。通过明确模拟诊断推理过程,并将结论与对话证据和DSM-5标准联系起来,该工作流超越了不透明的预测。
  • 模型性能的权衡:实验还揭示了一个关键的权衡:优化对话的模型在对话质量指标上得分更高,而为推理设计的模型(如Qwen-QWQ)在诊断准确性方面表现更好,尤其是在诊断具有挑战性的障碍(如适应障碍和双相情感障碍)方面,尽管其对话评分较低。
  • 研究的局限性:尽管研究取得了令人鼓舞的初步结果,但使用模拟对话引入了固有的局限性。需要进一步的验证,包括专家人工审查和对诊断理由质量的针对性评估。

Q: 有什么可以进一步探索的点?

A: 论文中提到的研究确实为心理健康诊断领域带来了新的视角和方法,但仍有许多可以进一步探索的点。以下是一些可能的研究方向:

模型性能提升

  • 模型微调:尽管论文中使用了多种LLM模型,但这些模型在心理健康诊断任务中仍有提升空间。可以尝试对这些模型进行进一步的微调,以提高它们在对话生成和诊断准确性方面的表现。例如,可以使用真实的心理健康对话数据来微调模型,使其更接近真实临床对话的风格和内容。
  • 多模态数据融合:目前的研究主要集中在文本数据上,但心理健康诊断是一个多模态的过程,涉及语言、非语言行为、生理信号等多个方面。未来可以探索将文本数据与其他模态的数据(如语音、表情、生理信号等)结合起来,以更全面地评估患者的心理状态。例如,可以利用语音识别技术将语音对话转换为文本,同时提取语音中的情感特征,如语调、语速等,将这些特征与文本内容一起输入到模型中,以提高诊断的准确性。
  • 因果推理:在心理健康诊断中,因果关系的推断对于理解症状的起源和发展至关重要。然而,现有的LLM模型在因果推理方面的能力有限。未来可以研究如何将因果推理机制融入到模型中,使模型能够更好地理解症状之间的因果关系,从而提供更准确的诊断和治疗建议。例如,可以借鉴因果推断领域的研究成果,开发基于因果图或因果贝叶斯网络的模型,以模拟症状之间的因果关系。

数据集扩展与质量提升

  • 真实数据集的构建:尽管论文中使用了合成数据集进行实验,但真实的心理健康对话数据对于模型的训练和评估具有重要意义。可以与医疗机构合作,收集真实的心理健康咨询对话数据,并对其进行标注和整理,构建高质量的真实数据集。这些数据可以用于模型的微调和验证,提高模型在实际应用中的表现。
  • 数据增强:为了进一步提高模型的泛化能力,可以探索数据增强技术。例如,通过对现有对话数据进行同义词替换、句子重组、添加噪声等操作,生成更多样化的对话样本,以丰富训练数据。此外,还可以利用预训练的语言模型生成与心理健康相关的对话数据,作为数据增强的一种手段。
  • 数据标注质量提升:在心理健康诊断任务中,数据标注的质量直接影响模型的性能。可以研究如何提高数据标注的质量,例如,通过设计更详细的标注指南、采用多标注者标注和一致性评估等方法,确保标注数据的准确性和一致性。

诊断过程的透明性和可解释性

  • 可解释性方法的改进:虽然论文中的诊断智能体已经提供了一定程度的可解释性,但仍有改进的空间。可以探索更先进的可解释性方法,如基于注意力机制的解释、特征重要性分析、反事实解释等,以更直观地展示模型的决策过程和依据。例如,可以利用注意力热图来可视化模型在对话中关注的关键词和句子,帮助用户理解模型是如何根据对话内容进行诊断的。
  • 用户交互与反馈:在实际应用中,用户(如临床医生和患者)对诊断结果的反馈对于模型的改进至关重要。可以研究如何设计用户交互机制,使用户能够方便地提供反馈,并将这些反馈用于模型的优化和更新。例如,可以开发一个交互式平台,让临床医生在使用模型进行诊断时能够实时提供反馈,模型根据反馈自动调整诊断策略。
  • 伦理和法律标准的遵循:随着AI在医疗领域的应用越来越广泛,确保其遵循伦理和法律标准变得尤为重要。可以进一步研究如何在模型的设计和应用过程中更好地遵循伦理和法律原则,例如,确保数据的隐私和安全、避免偏见和歧视、提供透明的决策过程等。此外,还可以探索如何建立相关的伦理审查机制和法律框架,以规范AI在心理健康诊断中的应用。

应用场景拓展

  • 远程心理健康服务:随着远程医疗的普及,AI在远程心理健康服务中的应用具有广阔的前景。可以研究如何将DSM5AgentFlow工作流应用于远程心理健康咨询平台,为患者提供在线的心理健康评估和诊断服务。这不仅可以提高服务的可及性和便利性,还可以降低医疗成本。
  • 心理健康监测与预警:除了诊断功能外,AI还可以用于心理健康监测和预警。可以探索如何利用模型对患者的日常行为、社交互动、生理数据等进行监测,及时发现潜在的心理健康问题,并发出预警信号。例如,可以开发一个基于移动设备的应用程序,通过分析用户的语音、文字、行为等数据,实时监测用户的心理状态,并在发现异常时提醒用户寻求专业帮助。
  • 个性化治疗方案制定:在心理健康治疗中,个性化治疗方案对于提高治疗效果至关重要。可以研究如何利用模型根据患者的诊断结果、病史、个人偏好等因素,制定个性化的治疗方案。例如,模型可以根据患者的具体症状和障碍类型,推荐相应的心理治疗方法、药物治疗方案以及生活方式调整建议等,为临床医生提供决策支持。

Q: 总结一下论文的主要内容

A: 本文提出了一种基于多智能体LLM工作流(DSM5AgentFlow)的可信AI心理治疗框架,旨在自动生成DSM-5一级诊断问卷,并通过模拟治疗师-客户对话来提供透明、可解释的诊断结果。该框架包含三个核心智能体:治疗师智能体、客户智能体和诊断智能体,分别负责管理问卷调查、模拟客户反应和生成诊断评估。实验部分对四种流行的LLM模型进行了评估,结果表明多智能体LLM系统在心理健康筛查中具有潜力,能够提供更透明、更负责任的AI辅助工具。研究还揭示了对话质量和诊断准确性之间的权衡,并指出了使用合成对话的局限性。未来工作包括进一步验证、模型性能提升、数据集扩展以及应用场景拓展等方向。

背景知识

  • LLM在自动化复杂任务方面表现出色,但在心理健康诊断等专业领域表现受限,主要原因是高质量心理健康数据稀缺,以及诊断推理的特殊要求。
  • 现有LLM心理健康评估方法存在透明性不足、推理深度有限、与临床标准对齐不足等问题,且难以模拟临床医生的主动询问技能和多轮对话,导致诊断推理不完整。

研究方法

  • DSM5AgentFlow工作流
    • 治疗师智能体:以对话方式管理DSM-5问卷调查,确保全面覆盖所有问卷项目,避免提前进行诊断性陈述或建议。
    • 客户智能体:根据预定义的心理健康档案模拟人类客户,以第一人称方式回应治疗师的问题,保持与档案一致的症状和背景。
    • 诊断智能体:将对话转化为透明的诊断评估,包括障碍类型预测、理由生成和治疗建议。采用检索增强生成(RAG)策略,确保诊断基于权威的DSM-5标准。
  • 评估指标
    • 对话质量评估:使用BERTScore评估连贯性,FKG、GFI和FRE评估可读性,以及基于LLM的自定义评分标准评估对话的多个方面。
    • 诊断准确性评估:通过分类指标(精确率、召回率、F1分数和ROC-AUC)比较预测障碍与真实障碍,分析混淆矩阵以了解误分类情况。

实验

  • 研究问题
    • RQ1:LLM能否模拟治疗师-客户对话,有效完成DSM-5问卷?
    • RQ2:能否通过问卷回应预测障碍类型?
    • RQ3:LLM能否进行可解释且透明的诊断?
  • 使用的LLM模型:Llama-4-scout-17b、Mistral-Saba-24b、Qwen-QWQ-32b和OpenAI GPT-4.1-Nano。
  • 数据集:8000个模拟对话,涵盖10种心理障碍类别和13个DSM-5问卷领域。

关键结论

  • 对话质量结果(RQ1)
    • Llama-4在对话可读性方面表现最好,而其他模型的对话可读性较差。
    • Llama-4和Mistral-Saba在基于LLM的评分评估中表现较好,GPT-4.1-Nano表现较差。
  • 诊断准确性结果(RQ2)
    • Qwen-QWQ在诊断准确性方面表现最佳,GPT-4.1-Nano在某些指标上也表现出色。
    • 所有模型在焦虑相关障碍上的表现最好,而在适应障碍和抑郁障碍上的表现较差。
    • 混淆矩阵显示了不同模型中一致的误分类模式。
  • 可解释性案例研究(RQ3)
    • Qwen-QWQ在可解释性方面表现最佳,提供了清晰的审计线索。
    • Mistral-Saba诊断正确但理由不够明确,Llama-4输出不透明,GPT-4.1-Nano插入大量证据标记但缺乏结构化逻辑。

研究局限性

  • 使用的是合成数据,缺乏真实临床对话的生态效度。
  • 对话是一次性生成的,缺乏真正的逐轮适应性。
  • 基于LLM的评分可能存在与被测试模型共享的错误模式或偏差。
  • 受硬件可用性的限制,只测试了有限的几种模型。

未来工作

  • 进一步验证模型在真实临床环境中的表现。
  • 探索多模态数据融合、因果推理等技术以提升模型性能。
  • 构建真实的心理健康对话数据集,提升数据标注质量。
  • 拓展应用场景,如远程心理健康服务、心理健康监测与预警等。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Mithat Can Ozgun, Jiahuan Pei, Koen Hindriks, Lucia Donatelli, Qingzhi Liu, Xin Sun, Junxiao Wang

Categories: cs.HC, cs.AI, cs.IR

PDF URL: https://arxiv.org/pdf/2508.11398v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11398v1

Published: 2025-08-15T11:08:32Z


4. The Roots of International Perceptions: Simulating US Attitude Changes Towards China with LLM Agents

The rise of LLMs poses new possibilities in modeling opinion evolution, a long-standing task in simulation, by leveraging advanced reasoning abilities to recreate complex, large-scale human cognitive trends. While most prior works focus on opinion evolution surrounding specific isolated events or the views within a country, ours is the first to model the large-scale attitude evolution of a population representing an entire country towards another — US citizens’ perspectives towards China. To tackle the challenges of this broad scenario, we propose a framework that integrates media data collection, user profile creation, and cognitive architecture for opinion updates to successfully reproduce the real trend of US attitudes towards China over a 20-year period from 2005 to today. We also leverage LLMs’ capabilities to introduce debiased media exposure, extracting neutral events from typically subjective news contents, to uncover the roots of polarized opinion formation, as well as a devils advocate agent to help explain the rare reversal from negative to positive attitudes towards China, corresponding with changes in the way Americans obtain information about the country. The simulation results, beyond validating our framework architecture, also reveal the impact of biased framing and selection bias in shaping attitudes. Overall, our work contributes to a new paradigm for LLM-based modeling of cognitive behaviors in a large-scale, long-term, cross-border social context, providing insights into the formation of international biases and offering valuable implications for media consumers to better understand the factors shaping their perspectives, and ultimately contributing to the larger social need for bias reduction and cross-cultural tolerance.

中文摘要

大型语言模型(LLMs)的兴起在模拟意见演变这一长期任务中带来了新的可能性,通过利用先进的推理能力重现复杂的大规模人类认知趋势。虽然大多数先前的研究集中在特定孤立事件或一个国家内部的观点演变上,但我们的研究首次建模了代表整个国家的人口对另一个国家(美国公民对中国)的态度大规模演变。为了应对这一广泛场景的挑战,我们提出了一个框架,整合了媒体数据收集、用户档案创建和用于意见更新的认知架构,以成功重现2005年至今美国对中国态度的真实趋势。我们还利用LLMs的能力引入去偏见的媒体曝光,从通常主观的新闻内容中提取中立事件,以揭示两极化意见形成的根源,并使用一个辩论代理人来帮助解释由负面态度转变为正面态度的稀有现象,这与美国人获取关于中国信息的方式变化相对应。模拟结果不仅验证了我们的框架架构,还揭示了偏见框架和选择偏见在塑造态度方面的影响。总体而言,我们的工作为基于LLM的大规模、长期、跨国社会背景中的认知行为建模提供了一个新的范式,提供了对国际偏见形成的见解,并为媒体消费者更好地理解塑造他们观点的因素提供了宝贵的启示,最终有助于减轻偏见和促进跨文化宽容的更大社会需求。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是如何模拟和理解美国公民对中国的态度变化。具体来说,它旨在通过利用大型语言模型(LLM)代理来重现过去20年(从2005年到2025年)美国公民对中国态度的长期趋势。这一任务具有重要意义,因为它涉及到国际关系、媒体影响以及公众认知等多个领域的复杂动态。

背景知识

  • 意见演化模拟:意见演化预测是一个长期存在的模拟任务,涉及认知科学、心理学和行为科学等多个领域。随着大型语言模型(LLM)的出现,模拟大规模复杂的人类意见趋势成为可能。
  • 国际态度的形成:国际态度的形成受到多种因素的影响,包括媒体报道、个人经历、教育背景等。媒体在塑造公众对国际事务的态度方面起着关键作用。

研究目标

  • 模拟美国公民对中国的态度变化:通过构建一个基于LLM的模拟框架,重现美国公民对中国态度的长期变化趋势。
  • 揭示态度变化的根源:通过模拟,探索导致态度极化形成的原因,以及媒体偏见如何影响公众态度。
  • 提出干预机制:设计并测试可能的干预措施,以减轻负面趋势,例如通过去偏见的新闻报道和引入“魔鬼代言人”来提供不同的视角。

方法论

  • 数据收集:收集了大量真实世界的数据,包括社交媒体数据、人口统计数据和新闻文章,以构建具有代表性的代理人群。
  • 代理初始化:利用人口统计数据和社交媒体数据生成了约2000个具有丰富特征的代理,每个代理都具有人口统计学特征、政治观点、媒体习惯和特定兴趣。
  • 新闻分布和反思机制:设计了一个新闻分布引擎,每年向代理分发新闻文章,并通过认知失调理论来模拟代理如何处理与现有观点一致或矛盾的新信息。
  • 模拟框架:通过迭代的方式,模拟了20年的新闻消费和态度更新过程,每年进行一次总体态度调查,以评估代理对中国的态度变化。

实验结果

  • 主要模拟结果:模拟结果显示,代理对中国的态度变化趋势与真实世界数据(来自皮尤研究中心的调查)高度一致,整体平均绝对误差(MAE)为8.3%。
  • 干预机制的影响:通过去偏见新闻报道和“魔鬼代言人”干预,成功地减轻了负面趋势,表明媒体偏见对公众态度有显著影响。
  • 因素分析:通过领域分析和人口统计分析,揭示了不同新闻类别对态度的影响,以及不同人口统计群体的态度差异。

社会意义

  • 提高媒体素养:帮助媒体消费者更好地理解他们的观点是如何形成的,以及媒体偏见如何影响他们的态度。
  • 促进跨文化理解:通过揭示国际态度的形成机制,促进跨文化理解和减少偏见。

限制和未来工作

  • 数据限制:依赖于离线调查作为真实数据,可能存在抽样偏差。
  • 非意见代理的存在:现实世界中并非所有人都消费新闻或持有意见,而模拟中的代理都被迫基于新闻曝光形成意见。

Q: 有哪些相关研究?

A: 论文中提到了多个与意见动态建模和基于LLM的社会模拟相关的研究。以下是这些研究的分类和简要介绍:

意见动态建模

  • 经典理论
    • 选择性曝光理论:人们倾向于选择与自己观点一致的信息。
    • 社会认同理论:个体通过与特定群体的认同来形成自我概念。
    • 认知失调理论:当个体面临与现有信念相矛盾的信息时,会产生心理不适,从而促使个体调整信念或行为。
  • 基于LLM的意见动态模拟
    • Chuang et al. (2024):展示了LLM代理在初始时倾向于达成科学共识,但在受到确认偏误的提示后会分裂,与现实中的极化模式一致。
    • Yao et al. (2025):提出了FDE-LLM算法,结合LLM和动态方程预测社交媒体上的意见演化。
  • LLM中的认知过程
    • Mondal et al. (2024):测试LLM是否表现出认知失调的思维过程,发现其揭示的信念往往与其陈述的答案不同。
    • Lee et al. (2025):提出一种方法来捕捉信念的相互联系并预测新信念的形成。
    • Mahowald et al. (2024):尝试区分LLM的语言使用与其在现实世界任务中的能力,揭示了形式与功能能力之间的差异。

基于LLM的社会模拟

  • 开创性工作
    • Park et al. (2023):提出了Social Simulacra,模拟了一个小村庄,代理可以自主建立关系并组织活动,通过记忆-反思架构实现。
  • 理论基础
    • Wang et al. (2025b):利用Ajzen的计划行为理论为代理决策提供理论基础,并引入欲望驱动的自主性。
  • 具体应用
    • Pang et al. (2024):通过社会场景模拟进行LLM对齐,展示考虑社会后果如何改善价值对齐。
    • Li et al. (2024):用于经济预测。
    • Gao et al. (2023):用于社交媒体情绪传染。
    • Mou et al. (2025):用于空间感知的社会运动模拟。
  • 大规模模拟
    • Yang et al. (2025):OASIS实现了百万代理模拟,用于推荐和社交媒体现象。
    • Piao et al. (2025b):AgentSociety模拟了从城市流动性到极化和虚假信息传播等多尺度的社会行为。

与本文工作的联系

  • 意见动态建模
    • 本文工作受到上述LLM意见动态模拟研究的启发,特别是如何将LLM的推理能力与认知理论相结合,以模拟大规模、长期的国际态度变化。
    • 本文通过引入认知失调机制,使代理能够理性地处理与现有信念一致或矛盾的新信息。
  • 基于LLM的社会模拟
    • 本文借鉴了基于LLM的社会模拟的开创性工作,特别是如何通过记忆和反思机制来模拟复杂的人类行为。
    • 本文通过设计新闻分布和反思机制,模拟了代理在长期新闻消费中的态度演化。

这些相关研究为本文提供了理论基础和技术支持,使得本文能够在大规模、长期的国际态度变化模拟方面取得突破。

Q: 论文如何解决这个问题?

A: 论文通过构建一个基于大型语言模型(LLM)的模拟框架来解决模拟和理解美国公民对中国态度变化的问题。以下是论文解决这一问题的具体步骤和方法:

1. 数据收集与处理

1.1 代理初始化数据

  • X/Twitter 数据:包含3,849个用户档案,包括生物信息、人口统计学特征和推文数据。
  • General Social Survey (GSS) 数据:包含3,309名受访者,涵盖9个美国地区的639个数据字段,包括人口统计学特征、媒体消费偏好和对各种国内政治问题的看法。
  • 数据合并:通过人口统计学特征(性别、种族、政治党派)匹配两个数据集中的用户,生成约2000个具有50个特征的用户档案,这些特征包括人口统计学特征、政治观点、媒体偏好和特定兴趣。

1.2 新闻数据收集

  • 新闻文章:收集了超过100,000篇关于中国的新闻文章,覆盖2005年至2025年的56个主要出版物。
  • 新闻选择标准:文章标题或副标题中包含“China”或“Chinese”,且为英文。
  • 新闻来源:主要来自主流媒体,如《卫报》、《金融时报》、《BBC》等,也包括一些地方新闻来源。

1.3 真实态度数据

  • Pew Research Institute 报告:提供2005年至2025年美国公民对中国态度的年度调查数据。
  • Gallup 调查:提供1979年至2023年间不同时期的美国公民对中国态度的调查数据。

2. 模拟框架

2.1 代理初始化

  • 生成代理档案:基于上述数据集生成具有代表性的代理人群,每个代理具有丰富的人口统计学特征、政治观点、媒体偏好和特定兴趣。

2.2 长期态度演化

  • 新闻分布

    • 新闻分发引擎:每年向代理分发随机样本的新闻标题,代理根据个人档案选择感兴趣的新闻文章。
    • 新闻选择:代理根据标题选择新闻文章,分发引擎检索选定文章的全文并发送给代理。
    • 公式: [ H = DY(S(U, AY)) ] 其中,( H ) 表示分发给代理的新闻标题集合,( DY ) 是第 ( Y ) 年的分发引擎,( S(U, AY) ) 是从 ( AY ) 中随机抽取 ( U ) 篇文章的函数,( AY ) 是第 ( Y ) 年发表的所有文章集合,( U ) 是代理数量。 [ Fi = T(Ri) ] 其中,( Fi ) 表示代理 ( i ) 收到的新闻全文集合,由 ( Ri ) 决定,( Ri ) 是代理 ( i ) 选择的新闻标题集合,( T ) 是全文检索函数。
  • 反思机制

    • 认知机制:代理根据新信息是否与现有信念一致或矛盾来处理新信息。如果存在矛盾,代理可以选择修订、强化或忽略现有信念。
    • 意见分解:新认知被分解为一系列主题,代理根据这些主题更新对中国的看法。
    • 公式: [ oy+1_{i,d} = \begin{cases} oy_{i,d} + \Delta v_{i,d} & \text{if } d \in D_{\text{news}} \ oy_{i,d} & \text{otherwise} \end{cases} ] 其中,( oy_{i,d} ) 表示代理 ( i ) 在第 ( y ) 年对主题 ( d ) 的意见,( \Delta v_{i,d} ) 是代理 ( i ) 在处理新闻后对主题 ( d ) 的意见变化,( D_{\text{news}} ) 是新闻文章覆盖的主题集合。 [ \bar{o}i = \frac{\sum{d \in D} o_{i,d} \cdot e_{i,d}}{\sum_{d \in D} e_{i,d}} ] 其中,( \bar{o}i ) 表示代理 ( i ) 对中国的总体加权态度分数,( o{i,d} ) 是代理 ( i ) 对主题 ( d ) 的意见值,( e_{i,d} ) 是代理 ( i ) 在主题 ( d ) 上的曝光次数,( D ) 是所有主题的集合。

3. 实验与结果

3.1 主要态度模拟

  • 模拟结果:模拟结果显示,代理对中国的态度变化趋势与真实世界数据(Pew Research Institute 报告)高度一致,整体平均绝对误差(MAE)为8.3%。
  • 趋势分析:模拟结果成功重现了美国公民对中国态度的总体趋势,包括2010年左右的转折点以及随后的负面趋势。

3.2 干预机制

  • 去偏见新闻曝光:通过去除新闻中的主观或煽动性语言,提供中立的事件描述,以模拟人们通过非新闻媒体渠道获得信息的影响。
  • 魔鬼代言人:通过提供对新闻报道的批判性分析,提供替代视角,以模拟人们通过第二手信息获得不同观点的影响。
  • 干预结果:两种干预机制均成功减轻了负面趋势,表明媒体偏见对公众态度有显著影响。

3.3 消融研究

  • 消融实验:通过移除框架中的某些组件(如认知机制、用户档案、文章选择、全文阅读)来评估其对模拟结果的影响。
  • 结果分析:完整框架设计在所有消融实验中表现最佳,表明提出的框架设计是最优的。

3.4 影响因素分析

  • 领域分析:通过计算代理在反思阶段对每个领域的平均更新分数,分析不同新闻类别对态度的影响。结果显示,技术、生活方式、体育和娱乐等领域的新闻对态度有积极影响,而经济、政治和健康等领域的新闻对态度有负面影响。
  • 人口统计分析:分析不同人口统计群体的态度变化,结果表明不同群体的态度变化存在显著差异。

4. 结论

  • 主要贡献
    • 提出了一种使用大量真实世界数据和认知机制的模拟框架,成功重现了国际态度的长期趋势。
    • 提出了一种从真实世界调查和社交媒体数据创建代理档案的工作流程。
    • 发现了两种成功减轻新闻媒体对代理态度负面影响的机制:新闻去偏见和魔鬼代言人。
  • 社会意义
    • 帮助媒体消费者更好地理解他们的观点是如何形成的,以及媒体偏见如何影响他们的态度。
    • 为媒体出版商提供参考,鼓励他们减少报道中的隐性偏见,推动更客观、不那么煽动性的报道。

5. 限制与未来工作

  • 数据限制:依赖于离线调查作为真实数据,可能存在抽样偏差。
  • 非意见代理的存在:现实世界中并非所有人都消费新闻或持有意见,而模拟中的代理都被迫基于新闻曝光形成意见。
  • 未来工作:解决抽样偏差问题,考虑非意见代理的存在,进一步提高模拟的准确性和真实性。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来验证所提出的模拟框架的有效性和各个组件的必要性:

主要态度模拟实验

  • 实验设置
    • 使用100个随机初始化的代理,这些代理从生成的代理人群中选取。
    • 每年新闻分发引擎向每个代理发送50个随机样本的新闻标题。
    • 每个代理每年选择并阅读10篇新闻文章。
    • 在20年的模拟期间,代理群体共处理了20,000篇新闻文章。
  • 实验结果
    • 模拟结果显示,代理对中国的态度变化趋势与真实世界数据(Pew Research Institute报告)高度一致,整体平均绝对误差(MAE)为8.3%。
    • 模拟结果成功重现了美国公民对中国态度的总体趋势,包括2010年左右的转折点以及随后的负面趋势。
    • 在2017年和2024-2025年期间,模拟结果与真实数据存在一定的偏差,这可能与非媒体因素(如政府政策、股市趋势等)对态度的影响有关。

干预机制实验

  • 去偏见新闻曝光
    • 实验方法:将选定的新闻文章发送给去偏见代理,要求其去除主观或煽动性语言,重新撰写成中立的事件描述,然后将这些去偏见后的新闻文章发送给代理进行阅读和反思。
    • 实验结果:去偏见新闻机制成功减轻了负面趋势,表明媒体偏见对公众态度有显著影响。即使去偏见新闻没有传达乐观的观点,只是中立地报道事件,也让代理能够自行得出结论,从而减轻了负面态度。
  • 魔鬼代言人
    • 实验方法:将选定的新闻文章发送给魔鬼代言人代理,要求其对报道中的潜在弱点(如逻辑谬误、遗漏的上下文或未经证实的主张)进行批判性分析,并提供替代视角。
    • 实验结果:魔鬼代言人机制也成功减轻了负面趋势,表明提供不同的视角可以帮助人们更全面地看待事件,从而减轻负面态度。

消融研究实验

  • 实验目的:评估模拟框架中各个组件对模拟结果的影响,验证框架设计的必要性和最优性。
  • 实验方法:进行了以下四种消融实验:
    • 无认知机制:移除基于认知失调理论的认知机制。
    • 无用户档案:在更新意见时移除用户档案。
    • 无文章选择:代理没有选择文章的选项,必须阅读新闻分发引擎发送的随机样本。
    • 仅标题:代理只能看到新闻标题,没有文章的全文内容。
  • 实验结果
    • 无认知机制:代理更容易在新闻曝光后形成负面观点,导致在大约5年后,大多数代理对中国持有不利态度,并且这一趋势还在继续恶化。这表明认知机制对于模拟长期态度演化至关重要。
    • 无用户档案:与完整框架相比,没有用户档案的模拟结果也显示出更快的负面趋势,但比“无认知机制”稍慢。这说明用户档案(包括人口统计学特征、政治观点等)在一定程度上使人们的观点更加坚定,减少了新闻媒体对观点的完全影响。
    • 无文章选择:结果表明,没有文章选择的模拟结果导致负面趋势的下降速度更慢。这可能与确认偏误有关,代理倾向于选择与现有观点一致的文章来阅读。
    • 仅标题:仅标题的实验结果也显示出较慢的负面趋势,使人们的观点在整个模拟期间保持相对温和。这表明,为了正确模拟国家间国际态度的宏观趋势,需要使用丰富且完整的媒体文本。

影响因素分析实验

  • 领域分析
    • 实验方法:计算代理在反思阶段对每个领域的平均更新分数,分析不同新闻类别对态度的影响。
    • 实验结果:结果显示,技术、生活方式、体育和娱乐等领域的新闻对代理对中国的态度有积极影响,而经济、政治和健康等领域的新闻对态度有负面影响。这一发现对于理解媒体如何选择性地报道新闻以及如何通过不同角度来平衡报道具有重要意义。
  • 人口统计分析
    • 实验方法:基于人口统计学特征(如年龄、种族、政治观点等)分析不同群体的态度变化。
    • 实验结果:结果显示,不同人口统计群体的态度变化存在显著差异。例如,不同政治观点、年龄和教育水平的群体对中国的态度变化有所不同。这表明人口统计学特征在态度形成和变化中起着重要作用。

通过这些实验,论文验证了所提出的模拟框架能够有效地模拟美国公民对中国态度的长期变化,并揭示了媒体偏见、认知机制和人口统计学特征等因素在态度形成和变化中的作用。

Q: 有什么可以进一步探索的点?

A: 论文在模拟美国公民对中国态度变化方面取得了显著成果,但仍有一些可以进一步探索的点,以增强模型的准确性和实用性。以下是一些潜在的研究方向:

1. 数据质量和多样性

  • 数据来源扩展
    • 多语言数据:目前的数据主要来自英文新闻,可以考虑加入其他语言的新闻数据,以更全面地反映国际视角。
    • 非新闻数据:除了新闻文章,还可以纳入其他类型的数据,如社交媒体帖子、政府报告、学术文章等,以提供更丰富的信息来源。
  • 数据质量评估
    • 偏见检测:开发更先进的偏见检测算法,以更准确地识别和去除新闻中的主观偏见。
    • 数据清洗:进一步优化数据清洗流程,确保数据的准确性和一致性。

2. 代理模型的改进

  • 认知模型的细化
    • 多层次认知机制:引入更复杂的认知模型,如多层次认知失调理论,以更好地模拟人类在面对复杂信息时的决策过程。
    • 情感因素:考虑情感因素对态度变化的影响,引入情感分析模块,以更全面地模拟人类的认知和情感反应。
  • 代理行为的多样性
    • 动态特征更新:允许代理的特征(如兴趣、政治观点等)在模拟过程中动态变化,以更真实地反映人类的行为和态度变化。
    • 社交网络影响:引入社交网络模块,模拟代理之间的互动和信息传播,以研究社交网络对态度变化的影响。

3. 干预机制的扩展

  • 多维度干预
    • 教育干预:模拟教育活动对态度变化的影响,例如通过提供教育材料或在线课程来改变代理的观念。
    • 文化交流干预:模拟文化交流活动(如国际学生交流、文化节等)对态度变化的影响。
  • 长期干预效果
    • 持续干预:研究长期持续干预的效果,例如定期提供去偏见新闻或魔鬼代言人分析,以评估其对态度变化的长期影响。

4. 模型验证和校准

  • 多源数据验证
    • 多源数据对比:使用多个独立的数据源(如不同国家的调查数据、社交媒体数据等)来验证模型的预测结果,提高模型的可靠性和普适性。
  • 动态校准
    • 实时校准:开发动态校准机制,根据最新的数据实时调整模型参数,以提高模型的预测精度。

5. 跨文化比较

  • 跨文化模拟
    • 其他国家的态度模拟:将模型应用于其他国家对中国的态度模拟,以比较不同文化背景下的态度变化模式。
    • 文化因素分析:研究文化因素(如价值观、社会规范等)对态度变化的影响,以揭示文化差异在国际态度形成中的作用。

6. 社会影响分析

  • 政策影响评估
    • 政策模拟:模拟不同政策(如贸易政策、外交政策等)对公众态度的影响,为政策制定提供参考。
  • 社会运动影响
    • 社会运动模拟:研究社会运动(如环保运动、人权运动等)对国际态度的影响,以评估社会运动在跨文化交流中的作用。

7. 技术优化

  • 计算效率提升
    • 并行计算:利用并行计算技术加速模拟过程,提高模型的运行效率。
  • 模型可扩展性
    • 大规模代理模拟:优化模型以支持更大规模的代理模拟,以更全面地反映社会动态。

通过这些进一步的研究方向,可以增强模型的准确性和实用性,为理解和改善国际关系提供更有力的工具。

Authors: Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li

Categories: cs.SI, cs.AI

PDF URL: https://arxiv.org/pdf/2508.08837v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.08837v2

Published: 2025-08-12T10:54:08Z


5. CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

As autonomous agents become adept at understanding and interacting with graphical user interface (GUI) environments, a new era of automated task execution is emerging. Recent studies have demonstrated that Reinforcement Learning (RL) can effectively enhance agents’ performance in dynamic interactive GUI environments. However, these methods face two key limitations: (1) they overlook the significant variation in difficulty across different GUI tasks by treating the entire training data as a uniform set, which hampers the agent’s ability to adapt its learning process; and (2) most approaches collapse task-specific nuances into a single, coarse reward, leaving the agent with a uniform signal that yields inefficient policy updates. To address these limitations, we propose CRAFT-GUI, a curriculum learning framework based on Group Relative Policy Optimization (GRPO) that explicitly accounts for the varying difficulty across trajectories. To enable more fine-grained policy optimization, we design a reward function that combines simple rule-based signals with model-judged evaluation, providing richer and more nuanced feedback during training. Experimental results demonstrate that our method achieves significant improvements over previous state-of-the-art approaches, outperforming them by 5.6% on public benchmarks Android Control and 10.3% on our internal online benchmarks, respectively. These findings empirically validate the effectiveness of integrating reinforcement learning with curriculum learning in GUI interaction tasks.

中文摘要

随着自主智能体在理解和与图形用户界面(GUI)环境互动方面的能力不断提高,一个自动化任务执行的新纪元正在出现。最近的研究表明,强化学习(RL)能够有效提升智能体在动态交互式GUI环境中的表现。然而,这些方法面临两个主要限制:(1)它们忽视了不同GUI任务之间难度的显著变化,认为整个训练数据是一个统一的集合,这阻碍了智能体适应其学习过程的能力;(2)大多数方法将特定任务的细微差别归结为一个粗略的单一奖励,导致智能体得到一个均匀的信号,从而产生低效的策略更新。为了解决这些限制,我们提出了CRAFT-GUI,这是一种基于组相对策略优化(GRPO)的课程学习框架,明确考虑了不同轨迹之间的难度变化。为了实现更细粒度的策略优化,我们设计了一个奖励函数,将简单的基于规则的信号与模型评估相结合,在训练期间提供更丰富和更细致的反馈。实验结果表明,我们的方法在以前的最先进方法上取得了显著改善,在公共基准Android Control上提高了5.6%,在我们的内部在线基准上提高了10.3%。这些发现实证验证了将强化学习与课程学习整合在GUI交互任务中的有效性。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决在图形用户界面(GUI)任务自动化中,强化学习(Reinforcement Learning, RL)方法面临的两个关键限制:

  1. 任务难度分布不均:现有的方法通常将所有训练数据视为一个统一的集合,忽略了不同GUI任务之间难度的显著差异。这种做法导致了训练过程中的优化不稳定,并限制了模型能力的增长。例如,复杂的多步骤任务和简单的单步骤任务被同等对待,使得模型难以根据任务的复杂性调整学习策略。

  2. 奖励信号过于粗糙:大多数方法将任务特定的细节简化为单一、粗糙的奖励信号,这使得模型在策略更新时缺乏有效的反馈。这种单一的奖励机制无法区分不同难度的任务,导致学习效率低下。

为了解决这些问题,论文提出了一个名为CRAFT-GUI的课程强化学习框架,该框架基于组相对策略优化(Group Relative Policy Optimization, GRPO),并明确考虑了不同轨迹之间的难度差异。此外,论文还设计了一个结合简单规则信号和模型评估的奖励函数,以提供更丰富、更细致的反馈,从而实现更细粒度的策略优化。

Q: 有哪些相关研究?

A: 论文中提到了多个与GUI代理(GUI Agent)和强化学习(Reinforcement Learning, RL)相关的研究工作,这些研究为CRAFT-GUI的提出提供了背景和基础。以下是相关研究的分类和具体介绍:

GUI Agent相关研究

  • 基于闭源多模态模型的GUI代理
    • 这些方法依赖于复杂的提示工程,使用视觉输入和系统API进行感知和决策。例如,AppAgent系列和Mobile-Agent系列。
    • 但这些方法存在局限性,如依赖手动提示调整、通用模型的性能瓶颈以及缺乏针对特定应用、场景或边缘情况的任务特定训练。
  • 基于开源或专有模型的GUI代理
    • 这些方法专门针对UI代理任务训练模型,强调与视觉界面的交互。例如,CogAgent、AutoGLM、Ferret UI系列和UI-TARs。
    • 然而,这些方法受限于大规模数据的预训练和微调需求,以及在分布外真实世界场景中的性能下降。

GUI代理与强化学习相关研究

  • 强化学习训练范式
    • 从OpenAI o1的引入开始,强化学习训练范式在GUI代理领域逐渐兴起。该范式通过可验证的奖励信号来优化模型,例如DeepSeek-R1通过基于规则的GRPO训练取得了显著的性能提升。
    • 在数据处理、代码生成和逻辑推理等领域,基于规则的强化学习训练策略越来越受到GUI代理建模社区的青睐。
  • 现有GUI代理的局限性
    • 数据分布偏差:没有通过系统性的数据解耦方法解决训练数据中难度分布不平衡的负面影响。
    • 任务范围限制:过度关注操作导向任务,对理解导向任务支持不足,阻碍了更通用智能GUI代理系统的发展。
    • 奖励信号粒度:过于简单的奖励公式缺乏多维度、细粒度的奖励分解,限制了性能的进一步提升。

课程学习相关研究

  • 语言和视觉语言领域的课程学习
    • 例如Kimi k1.5和LogicRL等研究表明,从基本技能到细致推理的阶段性学习任务是有益的。
    • MiMo-VL通过细粒度的混合在线策略强化学习来提升下游性能,增强奖励反馈。
  • GUI自动化中的课程学习挑战
    • GUI任务的异质性,包括不同的语义复杂性、定位要求和界面依赖性,使得简单的课程阶段性或直接奖励建模不足以应对。

论文正是在这些相关研究的基础上,提出了针对GUI代理训练的独特课程强化学习框架,以应对现有方法的局限性。

Q: 论文如何解决这个问题?

A: 论文通过提出CRAFT-GUI框架来解决现有方法在GUI任务自动化中面临的两个关键问题。以下是CRAFT-GUI框架的主要解决方法:

课程强化学习策略

  • 分阶段训练:CRAFT-GUI采用分阶段的强化学习策略,根据任务的难度将训练数据分为不同的阶段。具体来说,任务的难度是根据完成指令所需的交互步骤数量来定义的:
    • 基础阶段:需要3步或更少交互步骤的任务。
    • 中级阶段:涉及4到8步交互步骤的任务。
    • 高级阶段:需要超过8步交互步骤的任务,或者涉及视觉理解组件的任务,如视觉问答、信息提取和元素定位。
  • 逐步学习过程:这种分阶段的课程学习方法使代理能够从基础的UI操作逐步过渡到复杂的跨模态认知,从而在训练过程中实现类似人类的学习技能获取。

细粒度混合奖励机制

  • 奖励函数设计:CRAFT-GUI设计了针对移动操作任务和视觉理解任务的特定奖励函数。这些奖励函数结合了基于规则的验证和基于模型的评估,以提供更丰富、更细致的反馈:
    • 移动操作任务:奖励函数包括工具选择的正确性奖励、参数指定的准确性奖励、格式奖励以及对过长响应的惩罚。
    • 视觉理解任务:奖励函数包括语义奖励、格式奖励以及对过长响应的惩罚。语义奖励基于语言模型的评估,以评估模型响应与注释真实值之间的对齐情况。
  • 奖励机制的作用:这种细粒度的奖励机制能够为关键方面的代理性能提供信息性的中间反馈,如工具使用、空间精度和语义正确性,从而促进策略的稳定收敛。

训练过程

  • GRPO算法:CRAFT-GUI基于组相对策略优化(GRPO)算法,该算法通过组内优势估计消除了对单独价值函数的需求,显著减少了内存使用和计算开销,特别适合在有限硬件资源下进行GUI训练。
  • 训练步骤:在每个训练批次中,策略模型会为给定的任务提示采样一组候选输出,然后使用可验证的奖励函数对每个输出进行评估,计算组相对优势值,并最终使用GRPO目标更新策略模型。

实验验证

  • 实验设置:CRAFT-GUI在公共基准(如Android Control)和内部在线基准上进行了评估,涵盖了多种移动应用类别,如食品配送、店内餐饮、医疗服务、金融服务、保险服务和游戏应用。
  • 性能提升:实验结果表明,CRAFT-GUI在公共基准Android Control上比之前的最佳方法提高了5.6%,在内部在线基准上提高了10.3%。这些结果验证了将强化学习与课程学习相结合在GUI交互任务中的有效性。

通过上述方法,CRAFT-GUI能够有效地解决现有方法在处理GUI任务时面临的任务难度分布不均和奖励信号过于粗糙的问题,从而实现更高效、更稳定的模型训练和性能提升。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来验证CRAFT-GUI框架的有效性:

实验设置

  • 训练和推理
    • 使用Qwen2.5VL模型,分别采用7B和32B参数作为基础模型,进行多阶段课程强化学习实验。
    • 所有实验使用相当于96个NVIDIA A100 GPU(80GB)的计算资源。
    • 在训练和推理阶段,保持移动操作和视觉理解提示的一致性。
    • 通过零样本泛化和严格单次执行约束下的pass@1成功率来评估模型能力。
  • 评估基准和指标
    • 建立了在线评估基准,涵盖三个关键维度:页面理解准确性、上下文推理有效性和综合决策能力。
    • 在开源基准套件(如Android Control和AndroidWorld)上进行了平行评估。
    • 主要评估指标是任务成功率(SR),计算公式为成功任务数与总任务数的百分比。

在线基准实验

  • 在线基准构成
    • 构建了一个在线基准,涵盖六个类别的日常移动应用:食品配送、店内餐饮、医疗服务、金融服务、保险服务和游戏应用。
    • 每个类别包含120-200个独特的测试用例,具有可配置的难度级别。
  • 实验结果
    • 在表2中,展示了CRAFT-GUI变体(不同模型规模)与其他顶级行业模型(如Claude-3.7-Sonnet和GPT-4.1)在在线移动操作基准和视觉理解基准上的比较评估结果。
    • CRAFT-GUI在所有六个移动应用类别上都表现出统计学上的显著优越性。

开源数据集实验

  • 实验设置
    • 在公共数据集上进行训练,并在指定的基准上进行评估。
    • 选择了Android Control作为离线评估平台,AndroidWorld作为在线评估平台。
    • 使用Qwen2.5VL-32B作为基础模型,根据任务路径复杂性指标将任务轨迹分为基础、中级和高级难度级别,并采用混合奖励机制进行训练。
    • 在评估时,使用完整的Android Control测试集作为基准,严格分离训练和评估数据。
  • 实验结果
    • 如表3所示,CRAFT-GUI-32B在Android Control(低和高)和AndroidWorld上的性能验证了所提出方法的有效性。

消融研究

  • 实验目的
    • 在32B规模的模型上进行消融实验,以系统地展示不同消融组件的效果。
    • 消融模型在专有内部数据集上进行训练,并在包含六个类别移动应用的在线基准上进行彻底评估。
  • 实验结果
    • 表4展示了不同训练方法的平均操作成功率,结果表明课程强化学习策略在六个类别移动应用上的平均操作成功率最高,比监督微调(SFT)基线提高了14.9%,比标准强化学习实现提高了3.8%。
    • 表5展示了不同训练数据组合的平均操作成功率,结果表明,将理解型数据纳入训练后,模型在操作型任务上的表现得到增强,执行成功率比仅使用单一类型数据时提高了2.5%。

通过这些实验,论文验证了CRAFT-GUI框架在GUI任务自动化中的有效性,特别是在处理任务难度分布不均和奖励信号粗糙性问题方面。

Q: 有什么可以进一步探索的点?

A: 论文在GUI任务自动化的研究中取得了显著的成果,但仍有一些可以进一步探索的方向:

1. 跨平台和跨设备的泛化能力

  • 研究点:当前的实验主要集中在特定的移动应用和设备上。未来可以探索模型在不同操作系统(如iOS、Android、Windows等)和不同设备(如平板电脑、桌面电脑、智能手表等)上的泛化能力。
  • 方法:可以构建一个包含多种设备和操作系统的数据集,并在这些数据集上进行训练和评估,以验证模型的跨平台和跨设备泛化能力。

2. 长期交互和上下文管理

  • 研究点:当前的模型主要关注单次任务的完成,但在实际应用中,用户可能需要与系统进行长期的多轮交互。如何管理长期交互中的上下文信息是一个重要的研究方向。
  • 方法:可以设计长期交互的任务,引入上下文管理机制,如记忆网络或注意力机制,以更好地处理多轮交互中的信息。

3. 多模态输入的融合

  • 研究点:虽然当前模型已经能够处理视觉输入,但未来可以进一步探索如何融合其他模态的输入,如语音、手势等,以实现更自然的交互。
  • 方法:可以构建包含多种模态输入的数据集,并设计多模态融合的模型架构,以更好地处理多模态输入。

4. 自适应任务选择和动态课程调整

  • 研究点:当前的课程学习策略是基于预定义的任务难度级别。未来可以探索如何根据模型的当前性能动态调整课程,以实现更高效的训练。
  • 方法:可以设计自适应任务选择算法,根据模型在不同任务上的表现动态调整任务难度,以实现更高效的课程学习。

5. 强化学习中的奖励信号设计

  • 研究点:虽然当前的奖励机制已经取得了显著的改进,但仍有进一步优化的空间。例如,如何设计更细粒度、更动态的奖励信号,以更好地指导模型的学习过程。
  • 方法:可以探索基于模型内部状态的动态奖励信号,或者引入外部反馈机制(如用户反馈)来调整奖励信号。

6. 模型的可解释性和透明度

  • 研究点:当前的模型在执行任务时,其决策过程往往难以理解。提高模型的可解释性和透明度对于实际应用中的信任和接受度至关重要。
  • 方法:可以引入解释生成机制,如生成中间推理步骤或可视化模型的决策过程,以提高模型的可解释性。

7. 与其他AI技术的结合

  • 研究点:可以探索将CRAFT-GUI与其他AI技术(如自然语言处理、计算机视觉、知识图谱等)结合,以实现更强大的自动化系统。
  • 方法:可以设计联合训练框架,将CRAFT-GUI与其他AI模型进行协同训练,以实现更全面的自动化能力。

8. 实际应用场景的扩展

  • 研究点:当前的实验主要集中在移动应用领域。未来可以探索CRAFT-GUI在其他实际应用场景中的应用,如智能家居、智能办公、自动驾驶等。
  • 方法:可以构建针对这些应用场景的数据集,并在这些数据集上进行训练和评估,以验证模型在不同场景下的适用性。

9. 模型的效率和可扩展性

  • 研究点:虽然当前的模型在性能上取得了显著提升,但在实际应用中,模型的效率和可扩展性也是一个重要的考虑因素。如何在保持性能的同时提高模型的效率和可扩展性是一个重要的研究方向。
  • 方法:可以探索模型压缩、量化和分布式训练等技术,以提高模型的效率和可扩展性。

10. 安全性和隐私保护

  • 研究点:在自动化任务执行中,安全性和隐私保护是一个重要的问题。如何确保模型在执行任务时不会泄露用户的隐私信息,同时防止恶意攻击是一个重要的研究方向。
  • 方法:可以设计安全机制,如数据加密、访问控制和异常检测,以保护用户的隐私和系统的安全性。

通过这些进一步的探索,可以进一步提升CRAFT-GUI框架的性能和适用性,推动GUI任务自动化领域的发展。

Q: 总结一下论文的主要内容

A:

Authors: Songqin Nong, Jingxuan Xu, Sheng Zhou, Jianfeng Chen, Xiaoxuan Tang, Tao Jiang, Wenhao Xu

Categories: cs.AI, cs.HC

PDF URL: https://arxiv.org/pdf/2508.11360v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11360v1

Published: 2025-08-15T09:55:02Z


6. Learning to Be A Doctor: Searching for Effective Medical Agent Architectures

Large Language Model (LLM)-based agents have demonstrated strong capabilities across a wide range of tasks, and their application in the medical domain holds particular promise due to the demand for high generalizability and reliance on interdisciplinary knowledge. However, existing medical agent systems often rely on static, manually crafted workflows that lack the flexibility to accommodate diverse diagnostic requirements and adapt to emerging clinical scenarios. Motivated by the success of automated machine learning (AutoML), this paper introduces a novel framework for the automated design of medical agent architectures. Specifically, we define a hierarchical and expressive agent search space that enables dynamic workflow adaptation through structured modifications at the node, structural, and framework levels. Our framework conceptualizes medical agents as graph-based architectures composed of diverse, functional node types and supports iterative self-improvement guided by diagnostic feedback. Experimental results on skin disease diagnosis tasks demonstrate that the proposed method effectively evolves workflow structures and significantly enhances diagnostic accuracy over time. This work represents the first fully automated framework for medical agent architecture design and offers a scalable, adaptable foundation for deploying intelligent agents in real-world clinical environments.

中文摘要

基于大型语言模型(LLM)的代理在广泛的任务中展现出强大的能力,而它们在医疗领域的应用特别有前景,因为医疗领域需要高度的普适性并依赖跨学科的知识。然而,现有的医疗代理系统往往依赖静态的、手工制作的工作流程,缺乏灵活性,无法满足多样化的诊断需求并适应新出现的临床场景。受到自动化机器学习(AutoML)成功的启发,本文提出了一种用于自动设计医疗代理架构的新框架。具体而言,我们定义了一个分层和富表达性的代理搜索空间,可以通过在节点、结构和框架层面的结构化修改实现动态工作流程适应。我们的框架将医疗代理概念化为基于图的架构,由多种功能节点类型组成,并支持通过诊断反馈指导的迭代自我改进。在皮肤疾病诊断任务上的实验结果表明,所提出的方法有效地演变了工作流程结构,并随着时间的推移显著提高了诊断准确性。这项工作代表了医疗代理架构设计的第一个完全自动化框架,并为在实际临床环境中部署智能代理提供了一个可扩展、可适应的基础。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决现有医疗诊断系统中静态、手动设计的工作流缺乏灵活性的问题。这些静态工作流难以适应不断变化的临床需求和多样化的诊断要求,限制了系统的可扩展性和适应性。具体来说,论文关注以下几个关键问题:

  • 静态工作流的局限性:现有的医疗诊断系统通常依赖于基于领域专家经验手动设计的静态工作流。这些工作流在特定情况下可能有效,但在面对新的诊断技术、新的成像模态或新的临床场景时,往往需要大量的时间和精力来重新设计,这限制了系统的灵活性和可扩展性。
  • 动态适应性需求:医疗领域对准确性和效率的要求很高,且随着医学知识和技术的不断进步,诊断任务的复杂性和多样性也在增加。因此,需要一种能够动态适应这些变化的系统,以提高诊断的准确性和效率。
  • 自动化架构设计的缺失:尽管自动化机器学习(AutoML)在其他领域已经取得了成功,但在医疗领域,特别是医疗代理架构设计方面,缺乏一个完全自动化的框架来优化工作流。现有的医疗代理系统通常缺乏动态调整工作流的能力,无法根据诊断反馈进行自我改进。

Q: 有哪些相关研究?

A: 以下是与本文相关的研究领域和具体工作:

大语言模型(LLM)在医疗领域的应用

  • Agent Hospital:利用情景模拟来提升代理的医学知识和诊断准确性,为代理提供虚拟的训练和评估环境。
  • SkinGPT-4:将视觉-语言模型应用于皮肤科诊断,结合视觉和文本数据以实现精准诊断。
  • MMedAgent:整合工具链以支持多模态任务执行,在多种医疗应用中展现稳健性能。
  • MDAgents:探索多代理协作以提高复杂医疗工作流程中的效率。

多代理协作与演化

  • MetaGPT:在多代理系统中强调代理协作和自我改进,展现出在多样化应用领域的潜力。
  • LLM-Blender:通过融合不同的LLM来提升性能,促进代理之间的协作。
  • Multi-Agent Debate:通过辩论机制促进代理之间的互动和知识共享。
  • EvoMAC:引入自演化协作网络,模仿神经网络中的反向传播机制。
  • AutoAgents:支持自动代理生成和灵活协作,提高系统的适应性。
  • AFLOW:使用图搜索优化任务执行路径,提升系统的效率和效果。

自动化机器学习(AutoML)与神经架构搜索(NAS)

  • AutoML:在推荐系统等领域有广泛应用,通过自动化方法优化模型选择和超参数调整。
  • NAS:在多种任务中

Authors: Yangyang Zhuang, Wenjia Jiang, Jiayu Zhang, Ze Yang, Joey Tianyi Zhou, Chi Zhang

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2504.11301v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2504.11301v2

Published: 2025-04-15T15:44:21Z


7. Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent

When humans perform everyday tasks, we naturally adjust our actions based on the current state of the environment. For instance, if we intend to put something into a drawer but notice it is closed, we open it first. However, many autonomous robots lack this adaptive awareness. They often follow pre-planned actions that may overlook subtle yet critical changes in the scene, which can result in actions being executed under outdated assumptions and eventual failure. While replanning is critical for robust autonomy, most existing methods respond only after failures occur, when recovery may be inefficient or infeasible. While proactive replanning holds promise for preventing failures in advance, current solutions often rely on manually designed rules and extensive supervision. In this work, we present a proactive replanning framework that detects and corrects failures at subtask boundaries by comparing scene graphs constructed from current RGB-D observations against reference graphs extracted from successful demonstrations. When the current scene fails to align with reference trajectories, a lightweight reasoning module is activated to diagnose the mismatch and adjust the plan. Experiments in the AI2-THOR simulator demonstrate that our approach detects semantic and spatial mismatches before execution failures occur, significantly improving task success and robustness.

中文摘要

当人类执行日常任务时,我们自然会根据环境的当前状态调整我们的行为。例如,如果我们打算把某物放入抽屉,但注意到它是关闭的,我们会先打开抽屉。然而,许多自主机器人缺乏这种适应性意识。它们通常遵循预先计划的行动,这可能会忽视场景中微妙但至关重要的变化,这可能导致在过时假设下执行的动作,并最终导致失败。虽然重新规划对稳健的自主性至关重要,但大多数现有的方法只在发生失败后响应,而此时恢复可能效率低下或不可行。虽然主动重新规划有望提前防止失败,但目前的解决方案往往依赖于手动设计的规则和广泛的监督。在本研究中,我们提出了一个主动重新规划框架,通过比较从当前RGB-D观察中构建的场景图与从成功演示中提取的参考图,在子任务边界检测并纠正失败。当当前场景未能与参考轨迹一致时,轻量级推理模块被激活以诊断不匹配并调整计划。在AI2-THOR模拟器中的实验表明,我们的方法在执行失败发生之前检测到语义和空间不匹配,显著提高了任务成功率和稳健性。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决自主机器人在执行复杂任务时面临的适应性和鲁棒性问题。具体来说,它关注于如何使机器人能够在执行任务过程中主动检测和纠正潜在的失败,从而提高任务的成功率和可靠性。

背景问题

  • 现有机器人系统的局限性:大多数现有的机器人系统在执行任务时,通常会根据预先规划的策略行动,而忽视了环境的变化。这导致它们可能会基于过时的假设执行动作,从而引发不安全或不可逆的失败。
  • 重规划(Replanning)的挑战:虽然重规划是实现机器人鲁棒自主性的关键,但现有的重规划方法大多在失败发生后才做出反应,这在某些情况下可能为时已晚,尤其是在不可逆的失败发生后。此外,一些方法依赖于手动设计的规则或大量的人工监督,这限制了它们的适应性和自主性。

论文提出的问题

  • 如何在执行动作之前主动检测潜在的失败:通过比较当前环境的状态与成功演示中的参考状态,提前发现可能的失败点。
  • 如何准确诊断失败的原因:利用轻量级的推理模块,基于视觉场景理解来识别失败的根本原因。
  • 如何生成有效的纠正动作序列:在检测到潜在失败后,如何动态调整计划以避免失败并继续向任务目标前进。

具体问题示例

  • 语义和空间不匹配:例如,如果任务是将一个物体放入抽屉,但机器人发现抽屉是关闭的,它需要能够识别这种空间配置的不匹配,并采取措施(如打开抽屉)来纠正这种情况。
  • 复杂场景中的视觉和空间理解:在复杂的环境中,机器人需要能够处理部分可见、被遮挡或被持有的物体等视觉和空间约束,这些因素直接影响任务的可行性。

解决方案

论文提出了一种主动重规划框架,该框架通过比较当前场景图(Scene Graph)与从成功演示中提取的参考图来检测和纠正潜在的失败。当当前场景与参考轨迹不匹配时,系统会激活一个轻量级的推理模块来诊断不匹配的原因,并调整计划。这种方法不仅能够检测语义和空间上的不匹配,还能在执行失败发生之前显著提高任务的成功率和鲁棒性。

Q: 有哪些相关研究?

A: 论文中提到了多个与机器人重规划(Replanning)和大型语言模型(LLMs)在机器人领域应用相关的研究工作。以下是这些相关研究的分类和概述:

机器人重规划策略

  • 基于预定义规则触发的重规划方法
    • **Cristina Cornelio and Mohammed Diab. Recover: A neuro-symbolic framework for

Authors: Che Rin Yu, Daewon Chae, Dabin Seo, Sangwon Lee, Hyeongwoo Im, Jinkyu Kim

Categories: cs.RO, cs.AI, cs.CV

PDF URL: https://arxiv.org/pdf/2508.11286v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11286v1

Published: 2025-08-15T07:48:51Z


8. Preacher: Paper-to-Video Agentic System

The paper-to-video task converts a research paper into a structured video abstract, distilling key concepts, methods, and conclusions into an accessible, well-organized format. While state-of-the-art video generation models demonstrate potential, they are constrained by limited context windows, rigid video duration constraints, limited stylistic diversity, and an inability to represent domain-specific knowledge. To address these limitations, we introduce Preacher, the first paper-to-video agentic system. Preacher employs a topdown approach to decompose, summarize, and reformulate the paper, followed by bottom-up video generation, synthesizing diverse video segments into a coherent abstract. To align cross-modal representations, we define key scenes and introduce a Progressive Chain of Thought (P-CoT) for granular, iterative planning. Preacher successfully generates high-quality video abstracts across five research fields, demonstrating expertise beyond current video generation models. Code will be released at: https://github.com/GenVerse/Paper2Video

中文摘要

论文到视频任务将研究论文转换为结构化的视频摘要,将关键概念、方法和结论提炼成易于理解、结构良好的格式。虽然最先进的视频生成模型展示了潜力,但它们受到有限上下文窗口、固定视频时长限制、有限的风格多样性以及无法表示特定领域知识的制约。为了解决这些限制,我们引入了 Preacher,这是第一个论文到视频的智能系统。Preacher 采用自上而下的方法来分解、总结和重述论文,然后进行自下而上的视频生成,将多样的视频片段合成一个连贯的摘要。为了对齐跨模态表示,我们定义了关键场景,并引入了渐进式思维链(P-CoT)进行细致的迭代规划。Preacher 成功地在五个研究领域生成高质量的视频摘要,展现了超越当前视频生成模型的专业技能。代码将在以下网址发布: https://github.com/GenVerse/Paper2Video

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文介绍了一个名为 Preacher 的系统,旨在解决如何将研究论文自动转换为视频摘要的问题。随着学术论文数量的不断增加,有效地传播和提高论文的可见性变得越来越重要。视频摘要作为一种结合了视觉和听觉元素的传播手段,可以增强对研究发现的理解并扩大其影响力。然而,制作视频摘要目前仍然是一个资源密集型的过程,需要特定领域的专业知识和专业的视频制作技能,成本较高。尽管最近在视频生成领域的人工智能技术取得了进展,但现有的视频生成模型在处理研究论文时存在一些限制,例如上下文窗口有限、视频时长约束严格、风格多样性不足以及无法表示特定领域的知识。因此,Preacher 系统的提出是为了克服这些限制,实现从论文到视频摘要的高效、高质量转换。

Q: 有哪些相关研究?

A: 论文中提到了以下三个相关研究领域:

自动知识总结(Automatic Knowledge Summary)

  • 随着大型多模态模型(LMMs)的发展,研究者开始利用这些模型进行自动化的知识提取和总结。例如,有研究提出了一个端到端的综述生成流程,包括预处理、建模和评估阶段;还有研究利用 LMMs 检索和综合现有文献,以及通过聚类、降维和逐步提示等技术增强从研究论文中提取知识的能力。然而,这些方法主要输出文本摘要,往往无法有效传达关键的视觉元素,如图表、实验流程等,限制了研究成果的可访问性和影响力。

条件视频生成(Conditional Video Generation)

  • 条件视频生成一直是机器学习研究的核心主题。早期模型只能输出 16 帧的视频,后续方法通过结合文本到图像的扩散模型扩展了生成长度。除了基于文本的条件生成,图像条件生成也作为一种补充方法出现。然而,这些方法主要产生简单的运动,并且在扩展序列中难以保持帧的一致性。最近的研究通过采用回归基条件,利用前一帧来提高长形式视频合成中的时间连贯性,但现有的闭源模型虽然在性能上处于领先地位,能够生成数十秒的视频,但它们无法直接处理研究论文作为输入,并且无法满足视频摘要所需的风格多样性。

代理系统(Agentic Systems)

  • 最近基于 LMM 的代理系统的发展展示了接近人类水平的推理和规划能力。与单代理方法相比,代理系统利用集体智慧和专业知识,能够解决复杂的挑战,例如高级编程任务和物理环境中的规划。一些研究探索了代理系统以增强生成模型的能力,例如,在视频生成中,有研究采用多代理协作和关键帧迭代来确保长形式视频的一致性和风格,还有研究通过引入人类反馈来提高输出质量。与现有方法不同,本文提出的方法通过引入增强的协作机制,推进了代理系统的发展,使其能够执行超出单个代理能力的跨模态任务。

Q: 论文如何解决这个问题?

A: 论文通过提出 Preacher 系统来解决将研究论文自动转换为视频摘要的问题,具体的方法如下:

1. 采用自顶向下和自底向上的结构

  • 自顶向下结构:Preacher 首先将输入的论文分解和总结为多个“关键场景”,这些关键场景是结构化的文本表示,封装了论文的核心内容,并包含视觉描述以指导后续的视频生成。这些关键场景作为文本和视觉模态之间的中间桥梁,确保准确的内容表示。
  • 自底向上结构:在自底向上阶段,关键场景被顺序转换为视频片段,然后这些片段被组装成一个连贯的视频摘要。这种结构使得大型多模态模型(LMMs)和生成模型之间能够精确协作,有效缓解了上下文窗口限制,同时确保高质量的视频生成。

2. 引入渐进式思考链(Progressive Chain of Thought, P-CoT)

  • 为了提高关键场景规划的准确性和连贯性,Preacher 引入了渐进式思考链。这种方法使得关键场景的规划能够逐步进行,每次只规划一个组件,并且在规划过程中引入了反思机制。如果某个组件的规划没有通过反思代理的评估,则会重新规划,直到所有组件都被有效规划。这种逐步复杂性的方法减轻了复杂场景规划的挑战,并解决了由于迭代规划导致的不一致性问题。

3. 整合多种视频生成工具和风格

  • Preacher 集成了多种视频生成工具,包括 Python 基的专业可视化工具,以适应不同领域的特定内容展示需求。系统支持六种视频风格,如“谈话头像”、“一般”、“静态概念”、“分子可视化”、“幻灯片”和“数学”。根据关键场景中的风格要求,系统会选择合适的视频生成工具来生成视频片段,并通过反思机制确保生成的视频片段符合标准。如果视频片段不符合要求,系统会直接修改生成提示并重新生成视频。

4. 多代理协作

  • Preacher 系统由多个专门的代理组成,每个代理负责不同的子任务。这些代理包括:
    • 摘要代理(Summary Agent):使用 LMMs 理解、分解和总结输入的论文。
    • 格式代理(Format Agent):确保摘要代理的输出正确地结构化为原始场景。
    • 场景规划代理(Scene Planning Agent):为每个原始场景提供更详细的规划。
    • 文本反思代理(Text Reflection Agent)视频反思代理(Video Reflection Agent):基于 LMMs 对生成的内容进行评估和反思。
    • 视频生成代理(Video Generation Agent):结合 LMMs 和视频生成工具,根据关键场景生成视频和音频。

通过这种多代理协作,Preacher 系统能够有效地处理复杂的跨模态任务,生成高质量的视频摘要。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来评估 Preacher 系统的性能:

1. 基准测试

  • 数据集构建:为了评估 Preacher 的有效性,作者构建了一个包含 40 篇研究论文的基准数据集,这些论文涵盖了五个不同的领域:数学、分子生物学、地质学、机器学习和气候科学。这些论文是通过 GPT-4o 随机选择的。
  • 基线方法:由于没有直接可比较的基线,作者建立了一个端到端的论文到视频生成流程,将一个 LMM 与一个视频生成模型集成。具体来说,使用 OpenAI-o3-mini-high 作为场景分解模块,将输入论文分割成多个关键场景,然后使用最先进的视频生成模型从这些场景中合成 5 秒的视频片段。作者评估了多种视频生成模型,包括开源方法 StreamingT2V、VideoTetris 和 Wan-2.1-t2v-14B,以及闭源模型 OpenAI Sora 和 Kling 1.6。
  • 评估指标:使用 GPT-4 评估最终视频的质量,GPT-4 在以下方面提供 1 到 5 的评分:准确性(Accuracy)、专业性(Professionalism)、审美质量(Aesthetic Quality)、与论文的一致性(Alignment with the Paper)。此外,还使用 CLIP 文本 - 图像相似度评分(CLIP)和审美评分(AE)评估与提示的一致性和审美质量。对于关键场景评估,引入了类似的指标:准确性、专业性、兼容性和一致性。兼容性衡量直接生成场景的可行性,反映了规划过程的有效性。所有指标分别计算,结果取所有视频的平均值。为了定量分析,每段视频采样 60 帧以确保评估的一致性。

2. 主要结果

  • 与现有方法的比较:表 1 比较了 Preacher 与 OpenAI o3-mini + 最先进的视频生成模型。Preacher 在十个指标中的六个指标上优于现有方法,特别是在准确性、专业性和与论文的一致性方面。人类评估进一步证实了 Preacher 的优越性,因为 LMMs 在视频中难以区分专业内容。Preacher 使用特定领域的风格(例如,数学可视化、基于幻灯片的格式)可能会降低审美质量和 CLIP 相似度的分数,但这种权衡保留了学术完整性。
  • 关键场景规划评估:表 2 评估了 Preacher 的关键场景规划,在四个指标中的三个指标上领先。思考链推理提高了准确性和专业性,但通常会导致过于复杂的场景计划,降低了与生成模型的兼容性。

3. 更多分析

  • 消融研究:为了评估 Preacher 中每个机制的贡献,作者进行了全面的消融研究。使用 Preacher 作为基线,依次移除不同的机制,并评估对关键场景规划的影响。结果表明,准确的关键场景规划依赖于所有机制的协同作用。移除任何组件都会显著降低准确性,而专业性和兼容性对这种遗漏的敏感性较低。值得注意的是,排除关键场景规划中的反思机制可以提高与输入论文的一致性。这是由于多轮反思导致场景漂移,迭代细化导致与原始内容的偏差。Preacher 中的渐进式生成机制通过迭代地结合输入论文和已批准的关键场景组件,确保后续规划保持上下文锚定,防止偏离。
  • 不同研究领域论文的性能:Preacher 根据不同的研究领域生成具有不同视频风格的关键场景,以确保内容的一致性和有效的知识传播。图 6 显示了这些风格产生了不同的视觉效果,反映了不同学术领域的独特需求。尽管在各种风格中普遍观察到高评估分数,但在专业性和审美质量之间实现同时卓越仍然是一个挑战。这种权衡可能源于 Preacher 对内容准确性的优先考虑,这本质上限制了视觉构图和风格修饰的复杂性。此外,某些研究领域,如数学和分子生物学,需要精确和示意性的表示,进一步限制了复杂视觉效果的整合。然而,随着视频生成模型中的文本理解能力不断提高,将允许更平衡地整合科学严谨性和视觉吸引力。

Q: 有什么可以进一步探索的点?

A: 尽管 Preacher 系统在将研究论文自动转换为视频摘要方面取得了显著进展,但仍有一些可以进一步探索和改进的方向:

1. 提高生成效率

  • 当前问题:Preacher 的多代理协作需要超过一小时的端到端处理时间,这在实际应用中可能效率较低。
  • 探索方向
    • 优化代理通信:研究更高效的代理通信机制,减少不必要的信息交换和重复计算。
    • 并行处理:探索并行处理技术,例如同时处理多个关键场景的规划和生成,以缩短总处理时间。
    • 预处理和缓存:对常见的论文结构和内容进行预处理和缓存,以便快速生成关键场景。

2. 增强视觉多样性

  • 当前问题:由于缺乏高保真的文本到动画模型,Preacher 在生成动画风格内容方面的能力有限,限制了其视觉多样性。
  • 探索方向
    • 开发新的视频生成工具:研究和开发能够生成高质量动画的视频生成工具,特别是针对复杂科学概念的动画。
    • 集成现有动画工具:与现有的动画制作工具(如 Blender)集成,利用其强大的动画生成能力。
    • 多模态融合:探索如何更好地将文本、图像和动画等多种模态融合,以生成更具吸引力的视频摘要。

3. 处理特定领域的挑战

  • 当前问题:在处理某些领域的论文时,如人工智能,关键场景主要局限于“幻灯片”和“谈话头像”,因为这些论文主要包含方法描述和实验分析,缺乏具体的可视化概念。
  • 探索方向
    • 领域特定的生成模型:开发针对特定领域的视频生成模型,能够更好地理解和生成与该领域相关的视觉内容。
    • 概念可视化:研究如何将抽象的概念转化为具体的视觉元素,例如通过隐喻或类比。
    • 用户交互:引入用户交互机制,允许用户在生成过程中提供反馈和指导,以生成更符合用户需求的视频摘要。

4. 提升生成内容的准确性

  • 当前问题:尽管 Preacher 在准确性方面表现良好,但在处理复杂的科学概念时,仍可能存在误差。
  • 探索方向
    • 增强验证机制:引入更严格的验证机制,例如通过领域专家的反馈来验证生成内容的准确性。
    • 多源验证:结合多个数据源和验证方法,确保生成内容的准确性和可靠性。
    • 动态更新:开发动态更新机制,根据最新的研究成果和反馈实时更新生成模型。

5. 扩展应用范围

  • 当前问题:Preacher 目前主要应用于学术论文的视频摘要生成,但其潜力可以扩展到其他领域。
  • 探索方向
    • 跨领域应用:探索 Preacher 在其他领域的应用,如新闻报道、教育内容生成等。
    • 多语言支持:开发多语言支持功能,使 Preacher 能够处理和生成不同语言的视频内容。
    • 个性化生成:研究如何根据用户的具体需求和偏好生成个性化的视频内容。

6. 提高系统的可扩展性和适应性

  • 当前问题:随着研究领域的不断扩展和新类型的论文不断出现,Preacher 需要能够适应这些变化。
  • 探索方向
    • 模块化设计:采用模块化设计,使系统能够轻松添加或更新特定领域的模块。
    • 持续学习:开发持续学习机制,使系统能够不断学习新的知识和技能,以适应不断变化的需求。
    • 社区参与:建立社区参与机制,鼓励研究人员和开发者贡献新的模块和工具,共同推动系统的发展。

通过这些进一步的探索和改进,Preacher 系统有望在自动视频摘要生成领域取得更大的突破,为学术传播和知识共享提供更强大的工具。

Q: 总结一下论文的主要内容

A: 本文介绍了一个名为 Preacher 的系统,它能够将研究论文自动转换为视频摘要。随着学术论文数量的不断增加,有效的传播和提高论文的可见性变得越来越重要。视频摘要作为一种结合了视觉和听觉元素的传播手段,可以增强对研究发现的理解并扩大其影响力。然而,制作视频摘要目前仍然是一个资源密集型的过程,需要特定领域的专业知识和专业的视频制作技能,成本较高。尽管最近在视频生成领域的人工智能技术取得了进展,但现有的视频生成模型在处理研究论文时存在一些限制,例如上下文窗口有限、视频时长约束严格、风格多样性不足以及无法表示特定领域的知识。

为了解决这些问题,Preacher 系统采用了一种自顶向下和自底向上的结构,结合了大型多模态模型(LMMs)和专门的生成模型。在自顶向下阶段,系统将输入的论文分解和总结为多个“关键场景”,这些关键场景是结构化的文本表示,封装了论文的核心内容,并包含视觉描述以指导后续的视频生成。在自底向上阶段,关键场景被顺序转换为视频片段,然后这些片段被组装成一个连贯的视频摘要。这种结构使得 LMMs 和生成模型之间能够精确协作,有效缓解了上下文窗口限制,同时确保高质量的视频生成。

为了提高关键场景规划的准确性和连贯性,Preacher 引入了渐进式思考链(Progressive Chain of Thought, P-CoT)。这种方法使得关键场景的规划能够逐步进行,每次只规划一个组件,并且在规划过程中引入了反思机制。如果某个组件的规划没有通过反思代理的评估,则会重新规划,直到所有组件都被有效规划。这种逐步复杂性的方法减轻了复杂场景规划的挑战,并解决了由于迭代规划导致的不一致性问题。

Preacher 系统由多个专门的代理组成,每个代理负责不同的子任务。这些代理包括摘要代理(Summary Agent)、格式代理(Format Agent)、场景规划代理(Scene Planning Agent)、文本反思代理(Text Reflection Agent)、视频反思代理(Video Reflection Agent)和视频生成代理(Video Generation Agent)。通过这种多代理协作,Preacher 系统能够有效地处理复杂的跨模态任务,生成高质量的视频摘要。

为了评估 Preacher 的有效性,作者构建了一个包含 40 篇研究论文的基准数据集,这些论文涵盖了五个不同的领域:数学、分子生物学、地质学、机器学习和气候科学。实验结果表明,Preacher 在多个评估指标上优于现有的方法,特别是在准确性、专业性和与论文的一致性方面。此外,Preacher 在关键场景规划方面也表现出色,能够生成高质量的视频摘要。

尽管 Preacher 在自动视频摘要生成方面取得了显著进展,但仍有一些可以进一步探索和改进的方向。例如,提高生成效率、增强视觉多样性、处理特定领域的挑战、提升生成内容的准确性、扩展应用范围以及提高系统的可扩展性和适应性等。通过这些进一步的探索和改进,Preacher 系统有望在自动视频摘要生成领域取得更大的突破,为学术传播和知识共享提供更强大的工具。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang

Categories: cs.CV, cs.AI

PDF URL: https://arxiv.org/pdf/2508.09632v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.09632v3

Published: 2025-08-13T09:08:51Z


9. Large-Scale Multi-Robot Assembly Planning for Autonomous Manufacturing

Mobile autonomous robots have the potential to revolutionize manufacturing processes. However, employing large robot fleets in manufacturing requires addressing challenges including collision-free movement in a shared workspace, effective multi-robot collaboration to manipulate and transport large payloads, complex task allocation due to coupled manufacturing processes, and spatial planning for parallel assembly and transportation of nested subassemblies. We propose a full algorithmic stack for large-scale multi-robot assembly planning that addresses these challenges and can synthesize construction plans for complex assemblies with thousands of parts in a matter of minutes. Our approach takes in a CAD-like product specification and automatically plans a full-stack assembly procedure for a group of robots to manufacture the product. We propose an algorithmic stack that comprises: (i) an iterative radial layout optimization procedure to define a global staging layout for the manufacturing facility, (ii) a graph-repair mixed-integer program formulation and a modified greedy task allocation algorithm to optimally allocate robots and robot sub-teams to assembly and transport tasks, (iii) a geometric heuristic and a hill-climbing algorithm to plan collaborative carrying configurations of robot sub-teams, and (iv) a distributed control policy that enables robots to execute the assembly motion plan collision-free. We also present an open-source multi-robot manufacturing simulator implemented in Julia as a resource to the research community, to test our algorithms and to facilitate multi-robot manufacturing research more broadly. Our empirical results demonstrate the scalability and effectiveness of our approach by generating plans to manufacture a LEGO model of a Saturn V launch vehicle with 1845 parts, 306 subassemblies, and 250 robots in under three minutes on a standard laptop computer.

中文摘要

移动自主机器人有可能彻底改变制造过程。然而,在制造中使用大规模机器人车队需要解决一系列挑战,包括在共享工作空间中实现无碰撞移动、有效的多机器人协作以操纵和运输大型负载、由于耦合制造过程导致的复杂任务分配,以及并行组装和运输嵌套子组件的空间规划。我们提出了一整套针对大规模多机器人组装规划的算法栈,以解决这些挑战,并能在数分钟内为含有数千个部件的复杂组件合成构建计划。我们的方法采用类似CAD的产品规格,并自动规划出一整套组装程序,以便由一组机器人制造该产品。我们提出的算法栈包括:(i) 一个迭代的径向布局优化程序,用于定义制造设施的全球暂存布局,(ii) 一个图修复混合整数程序的表述和一个修改过的贪心任务分配算法,以最佳分配机器人和机器人子团队到组装和运输任务,(iii) 一个几何启发式算法和一个爬坡算法,以规划机器人子团队的协作携带配置,以及 (iv) 一个分布式控制策略,使机器人能够无碰撞地执行组装运动计划。我们还提出了一种用Julia实现的开源多机器人制造仿真器,作为研究社区的资源,以测试我们的算法,并更广泛地促进多机器人制造研究。我们的实证结果证明了我们的方法的可扩展性和有效性,我们在不到三分钟的标准笔记本电脑上生成了制造包含1845个部件、306个子组件和250个机器人的土星五号火箭模型的计划。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决大规模多机器人在自主制造环境中协同装配规划的问题。具体来说,它旨在解决以下挑战:

  • 多机器人在共享工作空间中的无碰撞运动:如何在有限的空间内协调大量机器人,避免它们在执行任务时相互碰撞。
  • 有效的多机器人协作以操纵和运输大型负载:当单个机器人无法完成任务时,如何组织多个机器人协同工作来搬运大型或重型的部件。
  • 复杂的任务分配问题:由于制造过程的耦合性,如何有效地分配任务给不同的机器人,以确保整个装配过程的高效进行。
  • 空间规划以实现并行装配和运输嵌套子装配:如何规划整个工厂的空间布局,以便同时进行多个子装配的装配和运输,同时避免相互干扰。

论文提出了一种完整的算法栈(algorithmic stack),能够针对包含数千个部件的复杂装配任务,在几分钟内生成建设规划。这种方法从类似CAD的产品规范开始,自动为一组机器人规划完整的装配程序,以制造产品。

Q: 有哪些相关研究?

A: 论文中提到了多个与多机器人装配规划相关的研究领域和具体工作,以下是主要的相关研究:

任务和运动规划(Task and Motion Planning, TAMP)

  • 综述:论文引用了Guo等人的综述文章 [14],该文章全面介绍了TAMP策略,这些策略结合了离散任务规划和多模态连续运动规划。
  • 相关方法:论文提到其方法与优化基础的方法一致,使用“图修复”混合整数线性规划(MILP)公式来有效管理大规模制造环境中团队机器人的任务分配。

全系统方法(Full Systems)

  • IKEABot:Knepper等人 [6] 提出的IKEABot是一个多机器人系统,用于家具装配。它接受几何装配描述作为输入,然后合成装配计划并协调交付机器人和装配机器人的行动。
  • 多尺度装配:Dogar等人 [7] 提出的系统用于多尺度装配,展示了机器人团队如何协作完成复杂的装配任务。
  • 大规模建筑装配:Hartmann等人 [16] 提出了针对大规模建筑装配场景的鲁棒任务和运动规划方法,解决了长期规划问题。
  • Legobot:Nägele等人 [17] 介绍的Legobot框架专注于协调多机器人乐高®建筑,关注精确的任务分配和无碰撞轨迹调度。

装配规划(Assembly Planning)

  • 几何装配规划:Wilson [8, 9] 和Halperin等人 [10] 的工作

Authors: Kyle Brown, Dylan M. Asmar, Mac Schwager, Mykel J. Kochenderfer

Categories: cs.RO, cs.AI

PDF URL: https://arxiv.org/pdf/2311.00192v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2311.00192v2

Published: 2023-10-31T23:42:14Z


10. AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

中文摘要

人工智能(AI)代理的领域正在迅速发展,这得益于大型语言模型(LLMs)能够以类人效率和适应性自主执行和优化任务。在这种背景下,多代理协作已成为一种有前景的方法,使多个AI代理能够共同合作解决复杂挑战。本研究探讨了基于角色的多代理系统在股票选择、股票研究和投资组合管理中的应用。我们展示了由一组专业代理进行的综合分析,并在不同风险容忍度下评估他们的选股表现与既定基准的对比。此外,我们还研究了在股票分析中采用多代理框架的优点和局限性,提供了对其实际效力和实施挑战的关键见解。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文《AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions》试图解决以下问题:

  1. 如何利用基于大型语言模型(LLM)的多智能体系统来支持股票选择和投资组合构建

    • 传统的股票投资组合管理依赖于人类研究分析师对大量信息的收集、分析和综合,以形成投资决策。然而,这一过程不仅耗时费力,还容易受到人类认知偏差的影响。论文提出了一种基于LLM的多智能体框架,通过多个具有不同专长的智能体协作来提高股票分析和选择的效率和质量。
  2. 如何通过多智能体协作来克服人类认知偏差

    • 行为金融学研究表明,人类投资者常常受到诸如损失厌恶和过度自信等认知偏差的影响,导致次优的投资决策。论文探讨了如何通过多智能体系统中的协作和辩论机制来减少这些认知偏差,从而提高投资决策的客观性和准确性。
  3. 如何评估多智能体系统在股票选择和投资组合构建中的有效性

    • 论文通过与现有基准的比较,评估了多智能体系统在不同风险容忍度下的股票选择表现。此外,还考察了多智能体系统在实际应用中的优势和局限性,为未来的研究和实践提供了有价值的见解。
  4. 如何设计和实现一个可扩展的多智能体系统

    • 论文提出了一个可扩展的多智能体框架,该框架可以根据需要轻松地添加更多的智能体,以涵盖更广泛的投资分析领域,如技术分析、宏观经济分析等。这为构建更复杂和全面的投资决策系统奠定了基础。

总的来说,论文旨在探索如何利用LLM的多智能体系统来提升股票投资组合构建的效率和质量,同时减少人类认知偏差的影响,并为未来的投资决策系统提供一个可扩展的框架。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

早期基于智能体的金融系统研究

  • 基于强化学习(Reinforcement Learning, RL)的智能体系统:早期在金融领域应用智能体系统的研究主要依赖于强化学习来进行投资组合管理。这些系统通常针对特定任务,且主要基于结构化数据而非语言模型。例如:
    • Jinho Lee等人提出的MAPS(Multiagent Reinforcement Learning-based Portfolio Management System)[18]。
    • Cong Ma等人提出的多智能体深度强化学习算法[21]。

基于大型语言模型(LLM)的智能体系统研究

  • LLM基础的自主智能体:随着LLM的发展,基于LLM的自主智能体开始出现,这些智能体在多个领域展现出强大的能力,如战略决策、反思性推理、外部工具使用、基于记忆的学习和基于情境的规划等。例如:
    • Saaket Agashe等人研究了LLM在多智能体协调能力方面的表现[1]。
    • Junyou Li等人提出了“More agents is all you need”[19],强调了多智能体系统在处理复杂任务中的优势。

金融领域中的LLM智能体系统研究

  • 专门针对金融分析的LLM智能体:近年来,出现了多个专门针对金融分析的LLM智能体系统,这些系统通过智能体的专长化来处理不同的金融数据模态。例如:
    • FinRobot[32]:一个开源的金融应用AI智能体平台,使用LLM进行财务报表分析。
    • FinMem[33]:一个集成了结构化金融数据和分层记忆的LLM交易智能体。
    • MarketSenseAI[12]:包含五个专门智能体来解析不同的金融模态。
    • FinAgent[34]:能够处理多模态金融数据的智能体。
    • FinVerse[2]:将600多个金融API封装在一个检索和工具调用智能体团队中,用于回答投资者的临时查询。

行为金融学和认知偏差研究

  • 认知偏差对投资决策的影响:行为金融学研究表明,人类投资者常常受到认知偏差的影响,如损失厌恶和过度自信,这可能导致次优的投资决策。例如:
    • Anu Antony对行为金融学和投资组合管理的理论和文献进行了综述[3]。
    • H Kent Baker和John R Nofsinger对行为金融学进行了全面介绍[4]。
    • Werner FM De Bondt和Richard H Thaler从行为学角度探讨了金融市场和公司中的财务决策[8]。

多智能体系统中的协作和辩论机制研究

  • 多智能体协作和辩论:多智能体系统中的协作和辩论机制被证明可以提高决策的质量和准确性。例如:
    • Yilun Du等人研究了通过多智能体辩论来提高语言模型的事实性和推理能力[10]。

LLM评估和应用研究

  • LLM评估方法:随着LLM的广泛应用,对其性能的评估方法也成为一个研究热点。例如:
    • Mingqi Gao等人对基于LLM的自然语言生成(NLG)评估的现状和挑战进行了综述[14]。
    • Taicheng Guo等人对基于LLM的多智能体系统进行了综述,探讨了其进展和挑战[16]。

这些相关研究为本文提出的基于LLM的多智能体系统在股票选择和投资组合构建中的应用提供了理论基础和技术支持。

Q: 论文如何解决这个问题?

A: 论文通过提出一个基于大型语言模型(LLM)的多智能体系统——AlphaAgents,来解决股票选择和投资组合构建中的问题。以下是论文解决这些问题的具体方法:

1. 多智能体系统的设计与实现

论文设计了一个包含三个专门智能体的多智能体系统,每个智能体负责不同的分析任务,以模拟人类投资组合管理团队中不同角色的工作。这些智能体通过协作和辩论机制来综合分析股票,并生成全面的股票分析报告。

  • Fundamental Agent(基本面智能体):负责分析公司的基本面,如10-K和10-Q报告、行业和公司趋势以及财务报表数据。它通过自然语言查询工具从财务报告中提取相关信息,并进行分析。
  • Sentiment Agent(情绪智能体):专注于分析金融新闻和市场情绪,提供基于当前市场情绪的股票推荐。它使用LLM基础的总结工具来提炼新闻内容,并提供投资建议。
  • Valuation Agent(估值智能体):分析股票的价格和交易量,提供股票的估值评估,帮助确定股票在投资组合中的相对重要性。它使用计算工具来计算股票的波动性和回报率。

2. 多智能体协作与辩论机制

论文引入了一个内部辩论机制,允许智能体在分析结果不一致时进行讨论,直到达成共识。这种机制通过以下方式实现:

  • 多智能体协作:通过一个群组聊天助手协调三个专门智能体的输入,并生成综合的股票分析报告。
  • 辩论机制:采用轮询方式(Round Robin),每个智能体在收到查询和同行分析后,依次发表意见,直到达成共识。这种机制有助于减少智能体之间的分歧,提高多智能体推理能力,并减少幻觉(hallucination)问题。

3. 风险容忍度的建模

论文探讨了风险容忍度对AI智能体行为的影响,并通过提示工程(prompt engineering)将投资者的风险偏好直接嵌入到智能体的指令中。具体来说:

  • 风险偏好建模:设计了风险厌恶(risk-averse)和风险中性(risk-neutral)的智能体,通过不同的提示来模拟投资者的风险偏好。例如,风险厌恶的估值智能体可能会因为股票的高波动性而建议“卖出”,而风险中性的智能体可能会强调股票的动量并建议“买入”。
  • 风险偏好对投资决策的影响:通过实验,论文展示了不同风险偏好下的智能体如何在股票选择和投资组合构建中做出不同的决策。

4. 评估方法

为了评估多智能体系统的性能,论文采用了以下方法:

  • RAG评估:使用Arize Phoenix工具来评估智能体在检索和相关性方面的表现,特别是对于基本面和情绪智能体。
  • 回测(Back-testing):通过回测方法评估多智能体系统在股票选择和投资组合构建中的表现。论文选择了15只科技股作为样本,构建了基于多智能体框架的投资组合,并与基准投资组合进行了比较。通过计算夏普比率(Sharpe Ratio)等风险调整后的回报指标,评估了多智能体系统的有效性。

5. 实验与结果分析

论文通过实验验证了多智能体系统的有效性。实验结果表明:

  • 风险中性场景:多智能体系统在风险中性场景下表现优于单智能体框架和基准投资组合,显示出其在综合短期和长期视角方面的优势。
  • 风险厌恶场景:尽管所有智能体选择的投资组合在风险厌恶场景下都表现保守,但多智能体系统在早期阶段表现优于单智能体策略,显示出其在平衡风险和回报方面的优势。

6. 透明性和可解释性

论文强调了多智能体系统在透明性和可解释性方面的优势。智能体的讨论记录被保存为补充输出,允许用户审查并必要时覆盖智能体的结论。这种透明性有助于用户理解和信任智能体的决策过程。

通过上述方法,论文展示了如何利用基于LLM的多智能体系统来提高股票选择和投资组合构建的质量,同时减少人类认知偏差的影响。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验:

1. 股票分析报告生成实验

实验目的:验证多智能体系统在生成股票分析报告方面的有效性。

实验方法

  • 选择了一家样本公司(Z公司)。
  • 由三个专门智能体(基本面智能体、情绪智能体和估值智能体)协作生成该公司的股票分析报告。
  • 报告内容包括公司股票的整体表现、市场领导地位、年度会议结果、目标进展、风险因素、内部交易情况以及财务指标等。

实验结果

  • 多智能体系统成功生成了全面的股票分析报告,涵盖了从基本面、市场情绪到估值的多个方面。
  • 报告不仅提供了积极的指标,还指出了潜在的担忧,并给出了投资建议。例如,对于Z公司,报告指出其股票在短期内有较高的回报潜力,但也存在较高的风险,建议高风险承受能力的投资者可以考虑进入,而保守型投资者则需谨慎。

2. 股票选择实验

实验目的:评估多智能体系统在股票选择方面的表现,并与单智能体系统进行比较。

实验方法

  • 随机选择了15只科技股作为股票池和基准。
  • 根据多智能体框架生成的分析报告,通过辩论机制整合基本面、情绪和估值智能体的观点,每个智能体根据其专长和指定的风险容忍度发出买入或卖出的建议,直到达成共识。
  • 构建了基于多智能体框架的投资组合,并与单智能体框架(基本面智能体和估值智能体)生成的投资组合进行比较。

实验结果

  • 风险中性场景:多智能体系统在股票选择上表现优于单智能体框架,显示出其在综合短期和长期视角方面的优势。多智能体系统能够更有效地平衡短期和长期的洞察力,从而实现比单智能体框架和基准投资组合更好的表现。
  • 风险厌恶场景:所有智能体选择的投资组合都采取了保守的投资策略,导致相对于基准的相对表现不佳。然而,多智能体系统在早期阶段的表现优于单智能体策略,显示出其在平衡风险和回报方面的优势。

3. 回测实验

实验目的:通过回测方法评估多智能体系统在股票选择和投资组合构建中的表现。

实验方法

  • 使用2024年2月1日的数据构建投资组合。
  • 对投资组合的表现进行了为期四个月的监测。
  • 计算了风险调整后的回报指标,如夏普比率(Sharpe Ratio),以评估多智能体系统的有效性。

实验结果

  • 风险中性场景:多智能体系统在风险中性场景下表现优于单智能体框架和基准投资组合,显示出其在综合短期和长期视角方面的优势。
  • 风险厌恶场景:尽管所有智能体选择的投资组合在风险厌恶场景下都表现保守,但多智能体系统在早期阶段表现优于单智能体策略,显示出其在平衡风险和回报方面的优势。

4. 风险容忍度影响实验

实验目的:评估风险容忍度对智能体投资决策的影响。

实验方法

  • 设计了风险厌恶和风险中性的智能体,通过提示工程将投资者的风险偏好直接嵌入到智能体的指令中。
  • 比较了不同风险偏好下的智能体在股票选择和投资组合构建中的决策差异。

实验结果

  • 风险厌恶的估值智能体可能会因为股票的高波动性而建议“卖出”,而风险中性的智能体可能会强调股票的动量并建议“买入”。
  • 在风险中性场景下,多智能体系统能够更有效地平衡短期和长期的洞察力,从而实现比单智能体框架和基准投资组合更好的表现。
  • 在风险厌恶场景下,多智能体系统在早期阶段的表现优于单智能体策略,显示出其在平衡风险和回报方面的优势。

5. 透明性和可解释性实验

实验目的:验证多智能体系统在透明性和可解释性方面的优势。

实验方法

  • 保存了智能体的讨论记录作为补充输出,允许用户审查并必要时覆盖智能体的结论。
  • 通过记录智能体之间的辩论过程,提供了透明的推理路径。

实验结果

  • 智能体的讨论记录为用户提供了清晰的决策过程,增强了用户对智能体决策的信任。
  • 透明的推理路径有助于用户理解和评估智能体的决策逻辑,从而更好地利用智能体的建议。

总结

通过这些实验,论文展示了多智能体系统在股票选择和投资组合构建中的有效性,特别是在综合不同视角、平衡风险和回报以及提供透明和可解释的决策过程方面的优势。

Authors: Tianjiao Zhao, Jingrao Lyu, Stokes Jones, Harrison Garber, Stefano Pasquali, Dhagash Mehta

Categories: q-fin.ST, cs.AI

PDF URL: https://arxiv.org/pdf/2508.11152v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11152v1

Published: 2025-08-15T01:49:56Z


AI Domain Papers

1. Diffusion Beats Autoregressive in Data-Constrained Settings

Autoregressive (AR) models have long dominated the landscape of large language models, driving progress across a wide range of tasks. Recently, diffusion-based language models have emerged as a promising alternative, though their advantages over AR models remain underexplored. In this paper, we systematically study masked diffusion models in data-constrained settings-where training involves repeated passes over limited data and find that they significantly outperform AR models when compute is abundant but data is scarce. Diffusion models make better use of repeated data, achieving lower validation loss and superior downstream performance. We find new scaling laws for diffusion models and derive a closed-form expression for the critical compute threshold at which diffusion begins to outperform AR. Finally, we explain why diffusion models excel in this regime: their randomized masking objective implicitly trains over a rich distribution of token orderings, acting as an implicit data augmentation that AR’s fixed left-to-right factorization lacks. Our results suggest that when data, not compute, is the bottleneck, diffusion models offer a compelling alternative to the standard AR paradigm. Our code is available at: https://diffusion-scaling.github.io.

中文摘要

自回归(AR)模型长期以来一直主导着大语言模型的领域,推动了广泛任务的进展。最近,基于扩散的语言模型作为一种有前景的替代方案出现,尽管它们相对于AR模型的优势仍然未被充分探索。在本文中,我们系统研究了在数据有限的情况下的掩蔽扩散模型——在这种情况下,训练涉及对有限数据的反复遍历,并发现当计算资源丰富而数据稀缺时,它们明显优于AR模型。扩散模型更好地利用重复数据,达成更低的验证损失和更优的下游表现。我们发现了扩散模型的新扩展法则,并推导出一个闭合形式的表达式,用于确定扩散开始优于AR的临界计算阈值。最后,我们解释了为什么扩散模型在这一范围内表现出色:它们的随机掩蔽目标在隐含上训练了丰富的标记排序分布,充当了一种隐式的数据增强,而AR的固定从左到右的分解则缺乏这种能力。我们的结果表明,当数据而不是计算成为瓶颈时,扩散模型提供了一个引人注目的替代方案,取代了标准的AR范式。我们的代码可在以下链接获得:https://diffusion-scaling.github.io。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是在数据受限的情况下,扩散模型(Diffusion Models)和自回归模型(Autoregressive Models,AR)在语言模型中的性能比较,以及扩散模型是否能在数据稀缺但计算资源充足的情况下提供更好的性能。

具体来说,论文关注以下几个核心问题:

  1. 数据受限环境下的模型性能:在数据受限的环境中,模型需要通过多次遍历有限的数据集来训练。这种情况下,模型如何有效地利用重复数据变得至关重要。论文旨在研究扩散模型是否比传统的自回归模型更擅长在这种环境下利用数据。

  2. 扩散模型与自回归模型的比较:尽管自回归模型在单次遍历数据时表现出色,但扩散模型在多次遍历数据时是否能够超越自回归模型,尤其是在计算资源充足的情况下。

  3. 扩散模型的数据效率:扩散模型通过随机掩码(masking)和去噪(denoising)的方式训练,这是否可以被视为一种隐式的数据增强,从而提高模型对有限数据的利用效率。

  4. 计算资源与数据的权衡:在计算资源充足但数据稀缺的情况下,扩散模型是否是一个更优的选择。论文试图找到一个临界计算阈值(Critical Compute Point),在这个点上扩散模型开始优于自回归模型。

  5. 下游任务的性能:扩散模型在验证损失(validation loss)上的优势是否能够转化为下游任务(如问答、阅读理解等)上的性能提升。

通过系统的研究和实验,论文试图为这些问题提供答案,并为未来在数据受限环境下的语言模型开发提供指导。

Q: 有哪些相关研究?

A: 论文中提到了多个与之相关的研究领域和具体工作,以下是这些相关研究的详细信息:

深度学习在数据受限环境中的研究

  • Muennighoff et al. [24]:研究了自回归(AR)模型在数据受限环境下的表现,展示了即使在数据重复使用的情况下,通过多次训练(最多4个epoch),AR模型的性能几乎可以与使用新鲜数据时相当。这为提高数据效率提供了一种有效的策略。
  • Villalobos et al. [45]:对全球公开可用的人类生成数据的供应进行了预测,估计到2028年这些数据可能会耗尽,这凸显了数据瓶颈对进一步扩展的严重阻碍。
  • 计算机视觉中的数据增强:在计算机视觉领域,多epoch训练和积极的数据增强(如随机裁剪、翻转和颜色抖动)已被广泛采用,以扩大有效数据集规模并提高泛化能力,尤其是在分类和检测等判别性任务中。

扩散模型在语言建模中的应用

  • Ho et al. [13]:最初为图像生成开发了扩散模型,这些模型通过逐步添加噪声然后学习去除噪声来生成数据。
  • Austin et al. [2]:将扩散模型适应于文本,提出了离散扩散模型,通过在前向过程中注入高斯噪声或用伯努利分布等采样的噪声替换标记来实现。
  • Nie et al. [25]:提供了扩散模型的扩展定律分析,表明扩散模型遵循与AR模型类似的幂律趋势,但在单次训练下可能需要多达16倍的计算量。
  • Swerdlow et al. [42]:在包含图像和文本的多模态数据上发现了类似的趋势,但这些评估仅限于单次训练,没有考察数据受限的多epoch训练,这正是本研究的重点。
  • LLaDA [26]:将掩码扩散模型扩展到8B参数,并在预训练和指令调整评估中实现了与LLaMA3-8B相似的结果。

自回归模型

  • Brown et al. [4]:展示了大型自回归语言模型在多种任务上的少样本学习能力,推动了大型语言模型的发展。
  • Kaplan et al. [18]:提出了经典的扩展定律,将验证损失建模为总参数和训练标记的函数,假设所有数据都是唯一的。这些定律在指导语言模型的计算最优训练中发挥了重要作用。

数据受限设置中的扩展框架

  • Muennighoff et al. [24]:扩展了Chinchilla框架,明确考虑了重复数据,提出了一个新的扩展定律,将衰减的效用纳入了重复标记的考虑。他们引入了有效唯一数据大小 (D’),并提出了一个修改后的Chinchilla风格的损失函数,该函数结合了这些有效数量 (N’) 和 (D’)。

这些相关研究为本文提供了背景和基础,使得作者能够系统地研究掩码扩散模型在数据受限环境下的表现,并与自回归模型进行比较。

Q: 论文如何解决这个问题?

A: 论文通过以下方法来解决在数据受限环境下扩散模型(Diffusion Models)与自回归模型(Autoregressive Models,AR)性能比较的问题:

1. 实验设计

  • 数据集选择:使用英文C4语料库,采用GPT-2 BPE词汇表进行分词,并将序列长度固定为2048个标记。实验中考虑了三种独特的标记预算:25M、50M和100M标记。
  • 模型训练:训练了总共200个模型,包括100个扩散模型和100个自回归模型。这些模型的参数规模从7M到2.5B不等,训练的epoch数量从1到800不等,总共使用了80B标记。
  • 超参数设置:采用Muennighoff等人[24]提出的超参数配置,包括批量大小、优化器、学习率调度等。

2. 性能比较

  • 验证损失(Validation Loss):通过比较两种模型在不同计算预算下的验证损失,来评估它们的性能。结果表明,在单次训练时,自回归模型表现更好,但在多次训练(重复数据)时,扩散模型能够持续改进并最终超越自回归模型。
  • 参数与epoch的权衡:分析了模型参数和训练epoch之间的权衡。扩散模型在高epoch数量下表现更好,而自回归模型在高epoch数量下开始过拟合。

3. 扩展定律拟合

  • 扩展定律框架:采用Muennighoff等人[24]提出的扩展定律框架,考虑了独特数据量、模型参数和训练epoch数量对模型性能的影响。
  • 拟合扩展定律:通过实验数据拟合了扩散模型和自回归模型的扩展定律,提取了关键参数,如数据重复的有效半衰期 (R^*_D) 和最优模型大小 (R^*_N)。结果表明,扩散模型的数据重复有效半衰期远高于自回归模型,表明扩散模型能够从重复数据中获得更多价值。

4. 临界计算阈值

  • 临界计算点:定义了临界计算点 (C_{\text{crit}}(U)),即扩散模型和自回归模型性能相等的计算量。通过扩展定律,推导出了临界计算点的闭式表达式,该表达式与独特标记数量 (U) 的幂律关系为 (C_{\text{crit}}(U) \propto U^{2.174})。

5. 下游任务评估

  • 下游任务性能:评估了在数据受限环境下训练的最佳扩散模型和自回归模型在多种下游任务上的表现。结果表明,扩散模型在下游任务上的性能优于自回归模型,验证了扩散模型在验证损失上的优势能够转化为实际的泛化能力。

6. 讨论与假设

  • 扩散模型的优势:论文假设扩散模型的优势来自于其随机掩码过程,这可以被视为一种数据增强技术,使模型能够从每个训练样本中提取更丰富的信号,从而提高数据效率。
  • 自回归模型的计算效率:论文假设自回归模型的计算效率更高,因为它们在固定的左到右顺序上进行训练,允许每个梯度更新都强化相同的预测任务,而扩散模型需要泛化到许多随机的标记顺序。

通过这些方法,论文系统地研究了扩散模型和自回归模型在数据受限环境下的性能,并揭示了扩散模型在数据稀缺但计算资源充足的情况下的优势。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来比较扩散模型(Diffusion Models)和自回归模型(Autoregressive Models,AR)在数据受限环境下的性能:

1. 模型训练实验

  • 数据集:使用英文C4语料库,采用GPT-2 BPE词汇表进行分词,并将序列长度固定为2048个标记。实验中考虑了三种独特的标记预算:25M、50M和100M标记。
  • 模型规模和训练epoch:训练了总共200个模型,包括100个扩散模型和100个自回归模型。这些模型的参数规模从7M到2.5B不等,训练的epoch数量从1到800不等,总共使用了80B标记。
  • 超参数设置:采用Muennighoff等人[24]提出的超参数配置,包括批量大小、优化器、学习率调度等。

2. 验证损失(Validation Loss)比较

  • 单次训练与多次训练:比较了两种模型在单次训练(每个标记只训练一次)和多次训练(标记重复使用多次)情况下的验证损失。结果表明,自回归模型在单次训练时表现更好,但在多次训练时,扩散模型能够持续改进并最终超越自回归模型。
  • 参数与epoch的权衡:分析了模型参数和训练epoch之间的权衡。扩散模型在高epoch数量下表现更好,而自回归模型在高epoch数量下开始过拟合。

3. 扩展定律拟合

  • 扩展定律框架:采用Muennighoff等人[24]提出的扩展定律框架,考虑了独特数据量、模型参数和训练epoch数量对模型性能的影响。
  • 拟合扩展定律:通过实验数据拟合了扩散模型和自回归模型的扩展定律,提取了关键参数,如数据重复的有效半衰期 (R^*_D) 和最优模型大小 (R^*_N)。结果表明,扩散模型的数据重复有效半衰期远高于自回归模型,表明扩散模型能够从重复数据中获得更多价值。

4. 临界计算阈值

  • 临界计算点:定义了临界计算点 (C_{\text{crit}}(U)),即扩散模型和自回归模型性能相等的计算量。通过扩展定律,推导出了临界计算点的闭式表达式,该表达式与独特标记数量 (U) 的幂律关系为 (C_{\text{crit}}(U) \propto U^{2.174})。

5. 下游任务评估

  • 下游任务性能:评估了在数据受限环境下训练的最佳扩散模型和自回归模型在多种下游任务上的表现。这些任务包括ARC-Easy、BoolQ、COPA、HellaSwag、PiQA、RACE、WinoGrande XL、SciQ和Lambada等。结果表明,扩散模型在下游任务上的性能优于自回归模型,验证了扩散模型在验证损失上的优势能够转化为实际的泛化能力。

6. 额外的NLL评估

  • 不同数据集上的NLL评估:在四个不同的语料库(OSCAR、TinyStories、WikiText和IndustryCorpus2 EN Sub)上评估了最佳扩散模型和自回归模型的负对数似然(NLL)。结果表明,扩散模型在这些数据集上的NLL表现优于自回归模型。

7. 模型架构调整

  • 模型架构:采用了Megatron-DeepSpeed框架,并进行了一些架构调整,如使用旋转位置嵌入(RoPE)、SwiGLU激活函数、RMSNorm等,以提高模型的性能和训练稳定性。

通过这些实验,论文系统地比较了扩散模型和自回归模型在数据受限环境下的性能,并揭示了扩散模型在数据稀缺但计算资源充足的情况下的优势。

Q: 有什么可以进一步探索的点?

A: 论文在研究扩散模型(Diffusion Models)和自回归模型(Autoregressive Models,AR)在数据受限环境下的性能时,已经提供了许多有价值的发现。然而,仍有几个方向可以进一步探索,以更全面地理解这些模型的特性和潜在应用:

1. 混合模型的探索

  • 混合模型的设计:论文提到,虽然扩散模型和自回归模型各有优势,但它们之间的选择不必是二元的。未来的研究可以探索混合模型,这些模型结合了自回归和扩散模型的特点,以实现更好的数据和计算效率平衡。例如,可以设计一种模型,它在某些阶段使用自回归训练,在其他阶段使用扩散训练。
  • 混合模型的性能评估:通过实验评估这些混合模型在数据受限环境下的性能,比较它们与纯自回归和纯扩散模型的优缺点。

2. 扩展定律的进一步验证

  • 更大数据规模的扩展定律:当前的扩展定律是基于有限的数据规模拟合的。为了提高预测的准确性并揭示更多见解,可以将这些定律扩展到更大的数据规模。这可能需要更多的计算资源和更复杂的数据管理策略。
  • 不同数据分布的扩展定律:研究不同数据分布(如不同语言、领域或数据类型)下的扩展定律,以了解模型在不同环境下的表现。

3. 计算效率的优化

  • 扩散模型的计算效率改进:尽管扩散模型在数据受限环境下表现出色,但它们的计算需求仍然较高。未来的研究可以探索优化扩散模型的训练过程,以减少计算需求,例如通过改进掩码策略、优化训练算法或使用更高效的模型架构。
  • 自回归模型的数据效率改进:同样,也可以探索如何提高自回归模型的数据效率,例如通过引入数据增强技术或改进模型架构,使其在数据受限环境下表现更好。

4. 下游任务的深入分析

  • 更多下游任务的评估:虽然论文已经在多种下游任务上评估了模型性能,但可以进一步扩展到更多任务和领域,以全面了解模型的泛化能力。这包括但不限于自然语言处理、计算机视觉、语音识别等领域的任务。
  • 任务特定的模型调整:研究如何针对特定下游任务调整模型架构和训练策略,以实现最佳性能。

5. 模型的可解释性

  • 模型决策过程的分析:研究扩散模型和自回归模型在处理数据时的决策过程,以提高模型的可解释性。这可以通过可视化技术、特征重要性分析或因果推断方法来实现。
  • 模型鲁棒性的评估:评估模型在面对噪声、对抗攻击或数据分布偏移时的鲁棒性,以了解模型在实际应用中的可靠性。

6. 跨模态模型的探索

  • 多模态数据的建模:探索如何将扩散模型和自回归模型应用于多模态数据(如文本和图像、文本和语音等),以开发更强大的跨模态模型。这可能需要开发新的模型架构和训练策略,以有效地处理不同模态之间的交互。
  • 跨模态任务的性能评估:在跨模态任务(如图像描述生成、语音翻译等)上评估模型性能,以了解模型在处理多模态数据时的优势和局限性。

7. 长期训练的影响

  • 长期训练的动态分析:研究模型在长期训练过程中的动态变化,包括参数更新、梯度变化和性能改进等。这可以帮助更好地理解模型在多次遍历数据时的学习行为。
  • 长期训练的优化策略:探索优化长期训练的策略,例如动态调整学习率、引入早停机制或使用更复杂的正则化技术,以提高模型的最终性能。

通过这些进一步的研究方向,可以更深入地理解扩散模型和自回归模型在不同环境下的表现,并为开发更高效、更强大的语言模型提供新的思路和方法。

Q: 总结一下论文的主要内容

A: 论文《Diffusion Beats Autoregressive in Data-Constrained Settings》系统地研究了在数据受限环境下,掩码扩散模型(Masked Diffusion Models)与自回归模型(Autoregressive Models,AR)的性能对比。研究发现,在计算资源充足但数据稀缺的情况下,扩散模型能够显著优于自回归模型。以下是论文的主要内容总结:

研究背景

  • 数据稀缺问题:随着高质量数据的增长趋于停滞,开发更数据高效的模型策略变得越来越重要。在一些领域,如机器人技术和医疗保健,数据本身就是稀缺资源。
  • 自回归模型(AR):传统的自回归模型在单次遍历数据时表现出色,但可能无法充分利用重复数据。
  • 扩散模型(Diffusion Models):扩散模型通过随机掩码和去噪的方式训练,能够从多种标记顺序中学习,可能在数据受限环境下表现更好。

研究方法

  • 数据集和模型:使用英文C4语料库,考虑了25M、50M和100M三种独特的标记预算。训练了总共200个模型,包括100个扩散模型和100个自回归模型,参数规模从7M到2.5B不等,训练epoch从1到800不等。
  • 超参数设置:采用Muennighoff等人[24]提出的超参数配置,包括批量大小、优化器、学习率调度等。
  • 扩展定律框架:采用Muennighoff等人[24]提出的扩展定律框架,考虑了独特数据量、模型参数和训练epoch数量对模型性能的影响。

实验结果

  • 验证损失(Validation Loss):自回归模型在单次训练时表现更好,但在多次训练时,扩散模型能够持续改进并最终超越自回归模型。
  • 参数与epoch的权衡:扩散模型在高epoch数量下表现更好,而自回归模型在高epoch数量下开始过拟合。
  • 扩展定律拟合:通过实验数据拟合了扩散模型和自回归模型的扩展定律,提取了关键参数,如数据重复的有效半衰期 (R^*_D) 和最优模型大小 (R^*_N)。扩散模型的数据重复有效半衰期远高于自回归模型,表明扩散模型能够从重复数据中获得更多价值。
  • 临界计算阈值:定义了临界计算点 (C_{\text{crit}}(U)),即扩散模型和自回归模型性能相等的计算量。通过扩展定律,推导出了临界计算点的闭式表达式,该表达式与独特标记数量 (U) 的幂律关系为 (C_{\text{crit}}(U) \propto U^{2.174})。
  • 下游任务评估:在多种下游任务上评估了最佳扩散模型和自回归模型的性能。结果表明,扩散模型在下游任务上的性能优于自回归模型,验证了扩散模型在验证损失上的优势能够转化为实际的泛化能力。

关键结论

  • 扩散模型的优势:扩散模型在数据受限环境下表现更好,尤其是在计算资源充足的情况下。它们能够更有效地利用重复数据,实现更低的验证损失和更好的下游任务性能。
  • 自回归模型的局限性:自回归模型在单次训练时表现更好,但在多次训练时容易过拟合,无法充分利用重复数据。
  • 临界计算点:提出了一个临界计算点的概念,该点定义了在给定数据量下,扩散模型开始优于自回归模型的计算量。这个点与数据量的幂律关系为 (C_{\text{crit}}(U) \propto U^{2.174})。

讨论与未来工作

  • 混合模型的潜力:未来可以探索结合自回归和扩散模型特点的混合模型,以实现更好的数据和计算效率平衡。
  • 扩展定律的进一步验证:将扩展定律应用于更大数据规模和不同数据分布,以提高预测的准确性和揭示更多见解。
  • 计算效率的优化:研究如何优化扩散模型的训练过程,以减少计算需求,同时提高自回归模型的数据效率。

论文通过系统的研究和实验,为在数据受限环境下选择合适的语言模型提供了重要的指导,并为未来的研究提供了新的方向。

Authors: Mihir Prabhudesai, Mengning Wu, Amir Zadeh, Katerina Fragkiadaki, Deepak Pathak

Categories: cs.LG, cs.AI, cs.CV, cs.RO

PDF URL: https://arxiv.org/pdf/2507.15857v6.pdf

CoolPaper URL: https://papers.cool/arxiv/2507.15857v6

Published: 2025-07-21T17:59:57Z


2. Is ChatGPT-5 Ready for Mammogram VQA?

Mammogram visual question answering (VQA) integrates image interpretation with clinical reasoning and has potential to support breast cancer screening. We systematically evaluated the GPT-5 family and GPT-4o model on four public mammography datasets (EMBED, InBreast, CMMD, CBIS-DDSM) for BI-RADS assessment, abnormality detection, and malignancy classification tasks. GPT-5 consistently was the best performing model but lagged behind both human experts and domain-specific fine-tuned models. On EMBED, GPT-5 achieved the highest scores among GPT variants in density (56.8%), distortion (52.5%), mass (64.5%), calcification (63.5%), and malignancy (52.8%) classification. On InBreast, it attained 36.9% BI-RADS accuracy, 45.9% abnormality detection, and 35.0% malignancy classification. On CMMD, GPT-5 reached 32.3% abnormality detection and 55.0% malignancy accuracy. On CBIS-DDSM, it achieved 69.3% BI-RADS accuracy, 66.0% abnormality detection, and 58.2% malignancy accuracy. Compared with human expert estimations, GPT-5 exhibited lower sensitivity (63.5%) and specificity (52.3%). While GPT-5 exhibits promising capabilities for screening tasks, its performance remains insufficient for high-stakes clinical imaging applications without targeted domain adaptation and optimization. However, the tremendous improvements in performance from GPT-4o to GPT-5 show a promising trend in the potential for general large language models (LLMs) to assist with mammography VQA tasks.

中文摘要

乳腺X线摄影视觉问答(VQA)将图像解读与临床推理相结合,具有支持乳腺癌筛查的潜力。我们系统性地评估了GPT-5系列和GPT-4o模型在四个公共乳腺摄影数据集(EMBED、InBreast、CMMD、CBIS-DDSM)上的BI-RADS评估、异常检测和恶性肿瘤分类任务。GPT-5始终是表现最好的模型,但仍落后于人类专家和特定领域微调模型。在EMBED数据集中,GPT-5在密度(56.8%)、失真(52.5%)、肿块(64.5%)、钙化(63.5%)和恶性肿瘤(52.8%)分类中取得了最高分。在InBreast数据集中,它达到了36.9%的BI-RADS准确率、45.9%的异常检测和35.0%的恶性肿瘤分类。在CMMD数据集中,GPT-5达到了32.3%的异常检测和55.0%的恶性肿瘤准确率。在CBIS-DDSM数据集中,它得到了69.3%的BI-RADS准确率、66.0%的异常检测和58.2%的恶性肿瘤准确率。与人类专家的估计相比,GPT-5表现出较低的敏感性(63.5%)和特异性(52.3%)。虽然GPT-5在筛查任务中表现出诱人的能力,但在没有针对性领域适应和优化的情况下,其表现仍不足以在高风险临床影像应用中使用。然而,从GPT-4o到GPT-5的显著性能提升显示出通用大型语言模型(LLMs)在协助乳腺X线摄影VQA任务方面的潜力。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图评估 ChatGPT-5 在乳腺 X 线摄影(mammogram)视觉问答(Visual Question Answering, VQA)任务中的表现,以确定其是否准备好用于乳腺癌筛查。具体来说,研究的主要目标包括以下几点:

  • 评估模型性能:系统地评估 GPT-5 家族和 GPT-4o 模型在四个公开的乳腺 X 线摄影数据集(EMBED、InBreast、CMMD、CBIS-DDSM)上针对 BI-RADS 评估、异常检测和恶性分类任务的性能。
  • 比较不同模型:比较不同 GPT 模型变体(如 GPT-5、GPT-5-mini、GPT-5-nano 和 GPT-4o)的性能,并与人类专家以及特定领域微调的先进模型(state-of-the-art, SOTA)进行对比。
  • 分析模型优势与不足:通过案例研究分析 GPT-5 在 BI-RADS 密度评估和恶性检测任务中的决策过程,识别模型在典型影像特征识别方面的优势以及在边界密度分类和非典型病变解释方面的弱点。
  • 探讨临床应用潜力:探讨通用大型语言模型(LLMs)在没有针对特定领域微调的情况下,是否能够有效地辅助乳腺 X 线摄影 VQA 任务,并评估其在高风险临床成像应用中的潜力和局限性。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

  1. 乳腺癌筛查与诊断的背景研究

    • [1] Joanne Kim 等人研究了全球乳腺癌发病率和死亡率的模式和趋势,强调了乳腺癌在女性中的普遍性和对癌症相关死亡的重要贡献。
    • [2] Constance D Lehman 等人更新了现代筛查数字乳腺 X 线摄影的国家性能基准,这些基准来自乳腺癌监测联盟。
    • [3] Fiona J. Gilbert 等人研究了在英国国家乳腺筛查计划中,单次阅读结合计算机辅助检测(CAD)与双次阅读的性能比较。
  2. 人工智能在医学影像中的应用

    • [4] Tao Tu 等人探讨了通用生物医学人工智能的进展,强调了人工智能在医学影像分析中的潜力。
    • [5] Yan Chen 等人研究了一种乳腺癌检测人工智能算法在个人乳腺 X 线筛查计划中的性能。
    • [6] Nan Wu 等人发现深度神经网络可以提高放射科医生在乳腺癌筛查中的表现。
    • [7] Hiba Chougrad 等人研究了用于乳腺癌筛查的深度卷积神经网络。
  3. 大型语言模型(LLMs)在医学影像中的应用

    • [8] Jinlong He 等人研究了参数高效的医学多模态大型语言模型的微调方法,用于医学视觉定位。
    • [9] Mojtaba Safari 等人研究了 GPT-5 在脑肿瘤 MRI 推理中的性能。
    • [10] Nima Tajbakhsh 等人探讨了卷积神经网络在医学影像分析中的应用,包括全训练和微调。
  4. 医学视觉问答(VQA)的研究

    • [11] Shansong Wang 等人研究了 GPT-5 在多模态医学推理中的能力。
    • [12] Xuehai He 等人提出了 PathVQA,这是一个包含 30000 多个问题的医学视觉问答数据集。
    • [13] Xiaoman Zhang 等人提出了 PMC-VQA,这是一个用于医学视觉问答的视觉指令调整框架。
  5. 乳腺 X 线摄影数据集

    • [14] Jiwoong J Jeong 等人介绍了 EMBED 数据集,这是一个包含 340 万筛查和诊断性乳腺 X 线图像的种族多样化数据集。
    • [15] Inês C Moreira 等人介绍了 InBreast 数据集,这是一个全视野数字乳腺 X 线摄影数据库。
    • [16] Chunyan Cui 等人介绍了 CMMD 数据集,这是一个包含活检确认类型的在线乳腺 X 线摄影数据库。
    • [17] Rebecca Sawyer-Lee 等人介绍了 CBIS-DDSM 数据集,这是一个用于筛查乳腺 X 线摄影的数据库。
  6. 其他相关研究

    • [18] OpenAI 提供了关于 GPT-5 的研究背景。
    • [19] Xuxin Chen 等人提出了 Mammo-CLIP,这是一个利用对比语言-图像预训练(CLIP)来增强多视图乳腺 X 线摄影中乳腺癌诊断的方法。
    • [20] Luhao Sun 等人提出了多尺度区域选择网络,用于全视野乳腺 X 线摄影分类。
    • [21] Han Chen 和 Anne L Martel 提出了一种基于自监督学习和混合深度模型(Swin Transformer 和卷积神经网络)的方法,用于筛查乳腺 X 线摄影中的乳腺癌检测。
    • [22] Naga Raju Gudhe 等人提出了一种多视图深度证据学习方法,用于乳腺 X 线摄影密度分类。
    • [23] Eleonora Lopez 等人提出了一种多视图超复数学习方法,用于乳腺癌筛查。
    • [24] Tao Wei 等人提出了一种基于函数保持变换的方法,用于高分辨率乳腺 X 线摄影的分类。

Q: 论文如何解决这个问题?

A: 论文通过以下步骤来评估 ChatGPT-5 在乳腺 X 线摄影(mammogram)视觉问答(VQA)任务中的表现,并探讨其在乳腺癌筛查中的应用潜力:

1. 数据集选择与预处理

  • 数据集选择:研究者选择了四个公开的乳腺 X 线摄影数据集:EMBED、InBreast、CMMD 和 CBIS-DDSM。这些数据集涵盖了不同类型的乳腺 X 线图像和临床注释,提供了丰富的评估场景。
  • 数据预处理:将数据集中的元数据和临床注释(如病变类型、BI-RADS 密度和评估、活检确认的病理结果等)标准化为统一的模式,并将其转换为标准化的问题模板。这些模板包括病变存在/类型(肿块、钙化、无、两者都有)、恶性分类(良性与恶性)、乳腺密度(A-D)以及基于感兴趣区域(ROI)的属性问题(例如肿块形状/边缘或钙化分布)。

2. VQA 问题生成

  • 问题生成:从四个数据集中自动构建 VQA 对。每个案例的问题都是从图像的结构化面板数据和元数据自动生成的,确保查询、答案和金标准标签之间的一一对应关系。这种方法减少了基于主观解释的自由文本问题的变异性,提高了自动评估的可重复性。

3. 提示设计

  • 零样本提示策略:研究者采用零样本链式思考(chain-of-thought, CoT)提示策略,通过两轮对话来评估 GPT-5。在第一轮中,系统消息建立医学领域背景,用户提出问题并触发逐步推理。在第二轮中,用户发出收敛指令,模型输出最终答案。这种设计确保了推理过程和最终决策在不同的对话步骤中被引出。

4. 模型评估

  • 性能评估:在四个数据集上评估 GPT-5 家族和 GPT-4o 模型的性能,包括 BI-RADS 评估、异常检测和恶性分类任务。通过比较不同 GPT 模型变体(如 GPT-5、GPT-5-mini、GPT-5-nano 和 GPT-4o)的性能,并与人类专家以及特定领域微调的先进模型(SOTA)进行对比,来评估 GPT-5 的表现。
  • 案例研究:通过选择两个正确分类和两个错误分类的代表性案例,定性地检查 GPT-5 在 BI-RADS 密度评估和恶性检测任务中的决策过程。这些案例展示了模型在识别典型影像特征方面的优势以及在边界密度分类和非典型病变解释方面的弱点。

5. 结果分析

  • 性能比较:GPT-5 在所有数据集上均优于其较小的变体(GPT-5-mini、GPT-5-nano)和上一代 GPT-4o,但在大多数任务上仍落后于人类专家和特定领域微调的 SOTA 模型。例如,在 CBIS-DDSM 数据集上,GPT-5 的敏感性为 63.5%,特异性为 52.3%,而人类专家的敏感性为 86.9%,特异性为 88.9%。
  • 错误分析:通过案例研究,发现 GPT-5 在高密度乳腺的 BI-RADS 密度分类中倾向于低估密度,并且在面对缺乏其他恶性特征的结构扭曲或不规则肿块边缘时,容易将良性结构变化误分类为恶性。

6. 讨论与局限性

  • 讨论:研究者讨论了 GPT-5 在没有针对特定领域微调的情况下,对复杂、特定领域的乳腺 X 线摄影查询的处理能力。指出 GPT-5 的局限性可能源于其缺乏对高分辨率灰度乳腺影像的微调,以及缺乏对结构化临床任务(如 BI-RADS 分类或病变特征化)的显式适应。
  • 局限性:研究者指出了研究的局限性,包括评估数据和比较模型输出来自相同数据集但没有统一的测试集、零样本设置可能低估了模型的潜在性能、评估限于固定的问题模板、与其他 SOTA 方法的直接比较具有挑战性,以及分析主要集中在基于准确度的指标上。

通过这些步骤,论文系统地评估了 ChatGPT-5 在乳腺 X 线摄影 VQA 任务中的表现,并探讨了其在临床应用中的潜力和局限性。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验:

1. 数据集选择与预处理

  • 数据集选择:选择了四个公开的乳腺 X 线摄影数据集:EMBED、InBreast、CMMD 和 CBIS-DDSM。
  • 数据预处理:将数据集中的元数据和临床注释标准化为统一的模式,并转换为标准化的问题模板。

2. VQA 问题生成

  • 问题生成:从四个数据集中自动构建 VQA 对。每个案例的问题都是从图像的结构化面板数据和元数据自动生成的,确保查询、答案和金标准标签之间的一一对应关系。

3. 提示设计

  • 零样本提示策略:采用零样本链式思考(chain-of-thought, CoT)提示策略,通过两轮对话来评估 GPT-5。
    • 第一轮:系统消息建立医学领域背景,用户提出问题并触发逐步推理。
    • 第二轮:用户发出收敛指令,模型输出最终答案。

4. 模型评估

  • 性能评估:在四个数据集上评估 GPT-5 家族和 GPT-4o 模型的性能,包括 BI-RADS 评估、异常检测和恶性分类任务。
    • EMBED 数据集:评估密度、扭曲、肿块、钙化和恶性分类任务。
    • InBreast 数据集:评估 BI-RADS 准确性、异常检测和恶性分类任务。
    • CMMD 数据集:评估异常检测和恶性分类任务。
    • CBIS-DDSM 数据集:评估 BI-RADS 准确性、异常检测和恶性分类任务。

5. 案例研究

  • 案例选择:选择两个正确分类和两个错误分类的代表性案例,定性地检查 GPT-5 在 BI-RADS 密度评估和恶性检测任务中的决策过程。
    • 正确案例
      • 密度评估:模型正确识别了几乎完全致密的乳腺。
      • 恶性检测:模型正确识别了具有不规则刺状肿块、结构扭曲和可疑钙化的病变。
    • 错误案例
      • 密度评估:模型将 BI-RADS 类别 D(极度致密)误分类为类别 C(异质性致密)。
      • 恶性检测:模型将良性结构变化误分类为恶性。

6. 结果分析

  • 性能比较:比较不同 GPT 模型变体(GPT-5、GPT-5-mini、GPT-5-nano 和 GPT-4o)的性能,并与人类专家以及特定领域微调的先进模型(SOTA)进行对比。
    • EMBED 数据集
      • GPT-5:密度 56.8%,扭曲 52.5%,肿块 64.5%,钙化 63.5%,恶性 52.8%。
      • GPT-5-mini:密度 34.3%,扭曲 53.5%,肿块 60.8%,钙化 57.3%,恶性 47.3%。
      • GPT-5-nano:密度 24.8%,扭曲 53.5%,肿块 52.3%,钙化 51.5%,恶性 47.8%。
      • GPT-4o:密度 24.3%,扭曲 20.0%,肿块 50.0%,钙化 44.3%,恶性 42.5%。
    • InBreast 数据集
      • GPT-5:BI-RADS 准确性 36.9%,异常检测 45.9%,恶性分类 35.0%。
      • GPT-5-mini:BI-RADS 准确性 28.1%,异常检测 49.2%,恶性分类 40.0%。
      • GPT-5-nano:BI-RADS 准确性 17.6%,异常检测 37.8%,恶性分类 21.5%。
      • GPT-4o:BI-RADS 准确性 23.7%,异常检测 36.1%,恶性分类 30.4%。
    • CMMD 数据集
      • GPT-5:异常检测 32.3%,恶性分类 55.0%。
      • GPT-5-mini:异常检测 42.3%,恶性分类 63.3%。
      • GPT-5-nano:异常检测 34.0%,恶性分类 52.7%。
      • GPT-4o:异常检测 38.5%,恶性分类 48.5%。
    • CBIS-DDSM 数据集
      • GPT-5:BI-RADS 准确性 69.3%,异常检测 66.0%,恶性分类 58.2%。
      • GPT-5-mini:BI-RADS 准确性 43.6%,异常检测 53.3%,恶性分类 43.5%。
      • GPT-5-nano:BI-RADS 准确性 20.2%,异常检测 41.8%,恶性分类 39.0%。
      • GPT-4o:BI-RADS 准确性 28.4%,异常检测 46.2%,恶性分类 40.0%。

7. 与人类专家的比较

  • 人类专家表现:人类专家在 CBIS-DDSM 数据集上的敏感性为 86.9%,特异性为 88.9%。
  • GPT-5 表现:GPT-5 在 CBIS-DDSM 数据集上的敏感性为 63.5%(下降 23.4%),特异性为 52.3%(下降 36.6%)。

8. 错误分析

  • 错误案例分析
    • 密度评估错误:模型倾向于将 BI-RADS 类别 D(极度致密)误分类为类别 C(异质性致密)。
    • 恶性检测错误:模型在面对缺乏其他恶性特征的结构扭曲或不规则肿块边缘时,容易将良性结构变化误分类为恶性。

这些实验系统地评估了 GPT-5 在乳腺 X 线摄影 VQA 任务中的表现,并通过与人类专家和特定领域微调的 SOTA 模型的比较,揭示了 GPT-5 的优势和不足。

Q: 有什么可以进一步探索的点?

A:

Authors: Qiang Li, Shansong Wang, Mingzhe Hu, Mojtaba Safari, Zachary Eidex, Xiaofeng Yang

Categories: cs.CV, cs.AI

PDF URL: https://arxiv.org/pdf/2508.11628v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11628v1

Published: 2025-08-15T17:56:24Z


3. Data Diversity as Implicit Regularization: How Does Diversity Shape the Weight Space of Deep Neural Networks?

Data augmentation that introduces diversity into the input data has long been used in training deep learning models. It has demonstrated benefits in improving robustness and generalization, practically aligning well with other regularization strategies such as dropout and weight decay. However, the underlying mechanism of how diverse training data contributes to model improvements remains unknown. In this paper, we investigate the impact of data diversity on the weight space of deep neural networks using Random Matrix Theory. Through spectral analysis and comparing models trained with data augmentation, dropout, and weight decay, we reveal that increasing data diversity alters the weight spectral distribution similarly to other regularization techniques, while displaying a pattern more closely aligned with dropout than with weight decay. Building on these insights, we propose a metric to explain and compare the benefits of diversity introduced by traditional data augmentations and those achieved through synthetic data.

中文摘要

引入多样性的增强数据在训练深度学习模型中已经被广泛使用。它在提高模型的鲁棒性和泛化能力方面显示出了好处,实际上与其他正则化策略如 dropout 和权重衰减很好地结合。然而,关于多样化训练数据如何促进模型改善的潜在机制仍然未知。本文中,我们使用随机矩阵理论研究数据多样性对深度神经网络权重空间的影响。通过光谱分析并比较使用数据增强、dropout 和权重衰减训练的模型,我们揭示了增加数据多样性如何改变权重光谱分布,这与其他正则化技术相似,同时显示出与 dropout 的模式更为贴近而非权重衰减。基于这些见解,我们提出了一种指标来解释和比较传统数据增强引入的多样性和通过合成数据获得的多样性带来的好处。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是如何理解数据多样性对神经网络权重景观(weight landscape)的影响,特别是在迁移学习场景中。具体来说,论文探讨了以下几个方面:

  1. 数据多样性的影响:研究不同的正则化技术(例如dropout和权重衰减)以及数据增强方法如何改变神经网络的权重景观,以及这些变化如何影响模型在迁移学习任务中的性能。

  2. 权重景观的变化:通过随机矩阵理论(Random Matrix Theory, RMT)分析预训练模型在不同数据多样性水平下微调后的权重矩阵的谱特性,来理解数据多样性如何影响学习到的特征表示及其鲁棒性。

  3. 合成数据的作用:比较常用的数据增强方法与由生成模型创建的合成数据,以确定合成数据如何补充传统的数据增强方法,从而改善模型的鲁棒性和泛化能力。

  4. 正则化技术的效果:分析了dropout、权重衰减和数据增强等正则化方法对神经网络权重景观的影响,并探讨了这些方法如何通过影响权重矩阵的谱分布来提高模型的泛化能力。

总的来说,论文的目标是提供一个全面的视角来理解数据多样性,无论是来自真实数据还是合成数据,如何影响深度神经网络(DNNs)的内部动态,以及这些影响如何与模型的泛化能力相关联。

Q: 有哪些相关研究?

A: 根据这篇论文的内容,相关研究包括以下几个方面:

  1. 正则化技术

    • Dropout:Srivastava et al. (2014) 提出了dropout方法来减少神经网络在训练过程中的过拟合。
    • 权重衰减(Weight Decay):Krogh & Hertz (1991) 研究了权重衰减作为一种正则化手段,通过在损失函数中添加与权重大小成比例的惩罚项来防止过拟合。
  2. 数据增强

    • 数据增强技术:Bishop (1995) 提出通过向输入数据添加噪声或使用数据增强来提高模型的泛化能力。
    • Mixup:Zhang (2017) 提出了mixup技术,通过线性组合输入数据对和它们对应的标签来创建新的训练样本。
  3. 合成数据

    • 生成模型:Rombach et al. (2022) 和 Brown (2020) 提出了使用稳定扩散(stable diffusion)和大型语言模型(LLMs)生成合成数据来增强模型性能的方法。
  4. 数据多样性的量化

    • Vendi Score:Dan Friedman & Dieng (2023) 提出了Vendi Score来量化机器学习数据的多样性。
  5. 随机矩阵理论(RMT)

    • 权重矩阵的谱分析:Martin & Mahoney (2019, 2021) 使用随机矩阵理论来分析大型矩阵的结构,并将其应用于分析神经网络权重矩阵的谱特性。
  6. 模型泛化能力的研究

    • 泛化能力的评估:Li et al. (2020) 研究了微调如何显著改变权重矩阵的谱属性,与改善特征专门化和适应新任务一致。
  7. 合成数据在迁移学习中的使用

    • He et al. (2022) 评估了由文本到图像模型(如GLIDE)生成的合成数据在图像识别任务中的使用情况。
  8. 模型鲁棒性的提升

    • Rebuffi et al. (2021) 和 Shorten & Khoshgoftaar (2019) 探讨了数据增强如何提高模型的鲁棒性。

这些相关研究为本文提供了理论基础和实验方法,帮助作者探索数据多样性对神经网络权重景观的影响,并进一步理解数据增强如何通过影响权重矩阵来提高模型的泛化能力。

Q: 论文如何解决这个问题?

A:

Authors: Yang Ba, Michelle V. Mancenido, Rong Pan

Categories: cs.LG, cs.AI

PDF URL: https://arxiv.org/pdf/2410.14602v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2410.14602v2

Published: 2024-10-18T16:57:05Z


4. Optimal CO2 storage management considering safety constraints in multi-stakeholder multi-site CCS projects: a game theoretic perspective

Carbon capture and storage (CCS) projects typically involve a diverse array of stakeholders or players from public, private, and regulatory sectors, each with different objectives and responsibilities. Given the complexity, scale, and long-term nature of CCS operations, determining whether individual stakeholders can independently maximize their interests or whether collaborative coalition agreements are needed remains a central question for effective CCS project planning and management. CCS projects are often implemented in geologically connected sites, where shared geological features such as pressure space and reservoir pore capacity can lead to competitive behavior among stakeholders. Furthermore, CO2 storage sites are often located in geologically mature basins that previously served as sites for hydrocarbon extraction or wastewater disposal in order to leverage existing infrastructures, which makes unilateral optimization even more complicated and unrealistic. In this work, we propose a paradigm based on Markov games to quantitatively investigate how different coalition structures affect the goals of stakeholders. We frame this multi-stakeholder multi-site problem as a multi-agent reinforcement learning problem with safety constraints. Our approach enables agents to learn optimal strategies while compliant with safety regulations. We present an example where multiple operators are injecting CO2 into their respective project areas in a geologically connected basin. To address the high computational cost of repeated simulations of high-fidelity models, a previously developed surrogate model based on the Embed-to-Control (E2C) framework is employed. Our results demonstrate the effectiveness of the proposed framework in addressing optimal management of CO2 storage when multiple stakeholders with various objectives and goals are involved.

中文摘要

碳捕获与储存(CCS)项目通常涉及来自公共、私营和监管部门的多样化利益相关者或参与者,每个参与者都有不同的目标和责任。鉴于CCS操作的复杂性、规模和长期性质,确定各个利益相关者是否能够独立最大化其利益,或是否需要合作联盟协议,仍然是有效的CCS项目规划和管理的核心问题。CCS项目通常在地质联系的地点实施,在这些地点,共享的地质特征(如压力空间和储层孔隙容量)可能导致利益相关者之间的竞争行为。此外,CO2储存地点往往位于以前作为碳氢化合物开采或废水处理场所的地质成熟盆地中,以利用现有的基础设施,这使得单方面优化变得更加复杂和不切实际。在本研究中,我们提出了一种基于马尔可夫博弈的范式,以定量研究不同联盟结构如何影响利益相关者的目标。我们将这个多利益相关者多场地问题框定为一个带有安全约束的多智能体强化学习问题。我们的方法使智能体能够在遵守安全规定的同时学习最佳策略。我们举了一个例子,其中多个运营商在一个地质相连的盆地中向各自的项目区域注入CO2。为了应对高保真模型的重复仿真所带来的高计算成本,我们采用了基于Embed-to-Control(E2C)框架的先前开发的代理模型。我们的结果证明了所提出框架在应对涉及多个拥有不同目标和愿望的利益相关者时的CO2储存最佳管理的有效性。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决多利益相关方、多场地的碳捕获与封存(CCS)项目中的最优二氧化碳(CO₂)储存管理问题,同时考虑安全约束。具体来说,论文关注以下几个关键问题:

1. 多利益相关方的协调问题

  • CCS项目通常涉及来自公共、私人和监管机构的多种利益相关方,每个利益相关方都有不同的目标和责任。例如,运营商希望最大化CO₂储存量或财务回报,土地所有者希望最大化土地使用价值和特许权使用费收入,而监管者则优先考虑长期安全性、压力控制和环境合规性。
  • 这些利益相关方在地质上相互连接的场地中运作,一个运营商的注入策略可能会影响其他运营商的经济和运营结果,因此需要协调这些利益相关方的行动,以实现整体最优的管理策略。

2. 安全约束下的优化问题

  • CCS项目需要在满足安全约束的条件下进行优化。例如,为了防止盖层破裂和流体迁移超出许可边界,需要限制注入量和注入速率。
  • 传统的优化方法(如多目标优化,MOO)可能无法充分考虑实际操作中的安全约束,因此需要一种新的框架来确保在追求经济目标的同时,严格遵守安全规定。

3. 高保真模型的计算成本问题

  • 高保真模型虽然能够准确预测压力演变和羽流迁移,但多次前向评估这些模型在计算资源有限的情况下变得不切实际。
  • 为了解决这一问题,论文采用了基于机器学习的代理模型(如Embed-to-Control,E2C框架),以显著降低计算成本,同时保持模型的准确性。

4. 多智能体优化的挑战

  • 现有的多智能体优化研究在CCS领域的应用较少,且大多数研究假设存在一个单一的集中式决策者,这与实际的多运营商环境不符。
  • 论文提出了一种基于约束马尔可夫博弈(Constrained Markov Game,CMG)的框架,允许每个智能体在追求自身目标的同时,遵守安全约束,并与其他智能体进行协调。

5. 奖励和惩罚模型的设计问题

  • 在多智能体强化学习中,奖励和惩罚模型的设计对于引导智能体的行为至关重要。论文设计了不同的奖励和惩罚结构,以反映合作和竞争的不同策略,并评估这些策略对利益相关方目标和整体系统性能的影响。

总结

论文通过提出一种基于约束马尔可夫博弈和安全多智能体强化学习(safe MARL)的框架,旨在解决多利益相关方、多场地CCS项目中的最优CO₂储存管理问题,同时确保操作的安全性和经济性。这一框架不仅能够协调不同利益相关方的目标,还能在实际操作中实现高效、安全的决策。

Q: 有哪些相关研究?

A: 这篇论文在研究多利益相关方、多场地的碳捕获与封存(CCS)项目中的最优二氧化碳(CO₂)储存管理问题时,参考了多个领域的相关研究。以下是一些关键的相关研究领域和具体文献:

1. 地质碳储存(GCS)技术

  • Celia et al., 2015:讨论了地质碳储存(GCS)在全球气候变化缓解中的作用,强调了其在减少工业源人为排放中的重要性。
  • Huang et al., 2014:研究了在盆地尺度上实施GCS项目的挑战和机遇,特别是在大型地质构造中进行长期、大容量储存。
  • Birkholzer and Zhou, 2009:分析了盆地尺度上CO₂储存的水文地质影响,探讨了储存能力和监管问题。

2. 多目标优化(MOO)

  • Deb and Jain, 2013:提出了非支配排序遗传算法II(NSGA-II),这是一种广泛使用的多目标优化算法,用于生成Pareto前沿。
  • You et al., 2020:开发了一种基于机器学习的多目标优化工作流程,应用于CO₂增强石油回收(CO₂-EOR)项目。
  • Liu et al., 2025:研究了在压力限制下,盐水含水层中高效CO₂储存的多目标优化问题。

3. 多智能体强化学习(MARL)

  • Lowe et al., 2017:提出了多智能体深度确定性策略梯度(MADDPG)算法,用于处理多智能体环境中的合作和竞争问题。
  • Tampuu et al., 2017:研究了多智能体合作和竞争的深度强化学习方法。
  • Wang et al., 2022:讨论了合作和竞争多智能体系统,从优化到博弈的理论和应用。

4. 安全强化学习(Safe RL)

  • Achiam et al., 2017:提出了约束策略优化方法,用于在强化学习中处理安全约束。
  • Gu et al., 2024:综述了安全强化学习的方法、理论和应用。
  • Zheng and Gu, 2024:研究了在自动驾驶中应用双层优化的安全多智能体强化学习。

5. 代理模型和降维技术

  • Watter et al., 2015:提出了Embed-to-Control(E2C)框架,用于从原始图像中学习局部线性潜在动力学模型。
  • Jin et al., 2020:开发了基于深度学习的代理模型,用于具有时间变化井控的油藏模拟。
  • Chen et al., 2024a:提出了一种多步E2C方法,用于油藏模拟中的代理建模。

6. CCS项目中的多智能体优化

  • Pettersson et al., 2024, 2025:提出了多目标优化框架,用于协调盆地尺度碳储存项目中多个智能体的CO₂注入策略。
  • Nguyen et al., 2024:研究了使用随机梯度的序贯二次规划进行地下CO₂捕获、利用和储存的多目标优化。

7. 其他相关研究

  • Bentham et al., 2014:讨论了在成熟的CCS未来中管理CO₂储存资源的挑战。
  • U.S. Environmental Protection Agency, 2013:提供了关于地下注入控制(UIC)计划的Class VI井区域评估和纠正行动的指导。
  • Hosseini et al., 2024:研究了地质碳储存的动态建模,包括工作流程和实践。

这些研究为论文提供了理论基础和技术支持,帮助作者构建了一个能够处理多利益相关方、多场地CCS项目中复杂决策问题的框架。通过结合多目标优化、多智能体强化学习和安全强化学习的方法,论文提出了一种新的解决方案,以实现CO₂储存的最优管理。

Q: 论文如何解决这个问题?

A: 论文通过提出一个基于**约束马尔可夫博弈(Constrained Markov Game, CMG)安全多智能体强化学习(Safe Multi-Agent Reinforcement Learning, safe MARL)**的框架来解决多利益相关方、多场地的碳捕获与封存(CCS)项目中的最优二氧化碳(CO₂)储存管理问题。以下是详细的解决方法:

1. 问题建模

  • 多智能体强化学习(MARL)框架:将CCS项目建模为一个多智能体强化学习问题,其中每个运营商被视为一个智能体,这些智能体在共享的地质环境中互动,同时追求各自的目标。
  • 约束马尔可夫博弈(CMG):在传统的马尔可夫博弈框架中引入安全约束,确保所有智能体在优化自身目标的同时,遵守操作和监管的安全要求。

2. 安全约束的处理

  • 安全约束的具体化:在CO₂储存中,安全约束主要体现在防止盖层破裂和流体迁移超出许可边界。具体来说,需要限制注入量和注入速率,确保孔隙压力不超过允许的阈值。
  • 拉格朗日松弛法:通过拉格朗日松弛法将安全约束整合到优化目标中。每个智能体的目标函数被扩展为包含安全约束的拉格朗日目标函数,通过动态调整拉格朗日乘子来平衡奖励最大化和约束执行。

3. 多智能体强化学习算法

  • 多智能体深度确定性策略梯度(MADDPG):采用MADDPG算法,该算法通过集中训练和分散执行(CTDE)的方式,使多个智能体能够学习协调的井控策略。
  • 奖励和惩罚模型:设计了不同的奖励和惩罚结构,以反映合作和竞争的不同策略。例如,在合作场景中,所有公司共同最大化总净现值(NPV);在竞争场景中,每个公司独立最大化自身的NPV。
  • 代理模型的使用:为了降低高保真模型的计算成本,采用了基于Embed-to-Control(E2C)框架的机器学习代理模型,该模型能够以较低的计算成本近似高维油藏动态。

4. 实验验证

  • 案例研究:通过一个合成油藏模型进行案例研究,验证了所提出框架的有效性。该模型包括三个公司(A、B和C),每个公司在盆地的不同区域运营,管理不同数量的注入井。
  • 结果分析:比较了合作和竞争场景下的结果,发现合作场景能够显著提高总NPV,同时确保所有公司的操作都符合安全约束。此外,还比较了点式约束和区域约束的惩罚模型,发现区域约束模型能够更有效地确保整个项目区域的安全性。

5. 算法实现

  • 算法流程:详细描述了安全MADDPG算法的实现步骤,包括初始化、训练和执行阶段。在训练阶段,智能体通过与环境的交互生成状态-动作轨迹,这些轨迹被存储在回放缓冲区中,用于更新演员和评论家网络。
  • 动态更新:拉格朗日乘子根据观察到的约束违反程度动态更新,以确保学习到的策略不仅最大化经济回报,而且符合操作安全要求。

总结

通过上述方法,论文成功地解决了一个复杂的多利益相关方、多场地CCS项目中的最优CO₂储存管理问题。所提出的框架不仅能够协调不同利益相关方的目标,还能在实际操作中实现高效、安全的决策。

Q: 论文做了哪些实验?

A: 论文通过一个合成油藏模型进行了一系列的实验,以验证所提出的基于约束马尔可夫博弈(CMG)和安全多智能体强化学习(safe MARL)的框架在多利益相关方、多场地的碳捕获与封存(CCS)项目中的有效性。以下是实验的具体设置和结果:

1. 实验设置

  • 油藏模型:合成油藏模型的尺寸为44 km × 12.8 km × 0.2 km,深度为4000米,假设的破裂梯度为17.0 kPa/m,破裂压力为68,000 kPa。为了安全注入CO₂,孔隙压力必须低于破裂压力,即 ( p_{\text{grid}} \leq \alpha p_{\text{frac}} ),其中 ( 0.0 < \alpha < 1.0 )。
  • 运营商设置:考虑了三个公司(A、B和C),它们在盆地的不同区域运营,管理不同数量的注入井。每个公司的最大允许孔隙压力分别为65,000 kPa(公司A)、55,000 kPa(公司B和C)。
  • 经济假设:所有公司共享相同的单位收入和成本结构,具体数值如表1所示。

2. 实验场景

  • 合作场景(Fully Collaborative Scenario):所有公司形成一个大联盟,共同最大化总净现值(NPV)。
  • 竞争场景(Fully Competitive Scenario):每个公司独立操作,独立最大化自身的NPV。
  • 惩罚模型:分别测试了点式约束(只在注入井位置施加约束)和区域约束(在整个项目区域内施加约束)两种惩罚模型。

3. 实验结果

  • 奖励和惩罚轨迹:在训练过程中,合作和竞争场景下的智能体奖励和惩罚轨迹如图9所示。初始阶段,两种联盟结构都采用了激进的注入策略,导致惩罚超过预定义的安全阈值。随着时间的推移,惩罚逐渐减少并保持在阈值以下,表明符合安全约束。
  • NPV结果
    • 合作场景:总团队NPV为8720.41百万美元,公司A、B和C的NPV分别为2451.25、2841.39和3409.77百万美元。
    • 竞争场景:总团队NPV为6875.34百万美元,公司A、B和C的NPV分别为2148.92、2985.56和1740.86百万美元。
  • 压力分布:在合作和竞争场景下,不同注入阶段的压力分布如图11所示。在合作场景下,所有公司的注入井位置的压力都保持在安全阈值以下。在竞争场景下,尽管注入井位置的压力符合安全约束,但由于压力迁移,公司B的区域在注入结束时的最大压力超过了其阈值。
  • 区域约束模型:当施加区域约束时,如图13和图14所示,训练过程中的惩罚更加密集,但随着时间的推移,惩罚逐渐减少并稳定在阈值以下。在合作和竞争场景下,所有区域的最大孔隙压力都保持在其各自的阈值以下,确保了全局的安全性。

4. 与多目标优化(MOO)的比较

  • Pareto前沿:使用NSGA-II算法生成的竞争场景下的Pareto前沿如图12所示。
  • NPV结果对比
    • 合作场景:安全MADDPG的总NPV为8720.41百万美元,超过了MOO的最佳合作结果8544.07百万美元。
    • 竞争场景:安全MADDPG的总NPV为6875.34百万美元,低于MOO的任何竞争分配结果。这表明在竞争场景下,MADDPG可能不是Pareto最优的,但其适应性学习策略有效地平衡了合作和竞争目标。

5. 结论

  • 合作与竞争:合作场景下的总NPV显著高于竞争场景,表明合作可以显著提高整体经济效益,同时确保安全操作。
  • 惩罚模型的有效性:区域约束模型比点式约束模型更有效,能够确保整个项目区域的安全性,特别是在不同公司具有不同的压力阈值和风险容忍度时。
  • 适应性学习:安全MADDPG框架通过动态调整拉格朗日乘子,有效地平衡了经济目标和安全约束,展示了其在多利益相关方CCS项目中的潜力。

通过这些实验,论文验证了所提出的框架在处理多利益相关方、多场地CCS项目中的复杂决策问题时的有效性,特别是在确保安全操作和最大化经济效益方面。

Q: 有什么可以进一步探索的点?

Authors: Jungang Chen, Seyyed A. Hosseini

Categories: cs.LG

PDF URL: https://arxiv.org/pdf/2508.11618v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11618v1

Published: 2025-08-15T17:36:25Z


5. Once Upon an AI: Six Scaffolds for Child-AI Interaction Design, Inspired by Disney

To build AI that children can intuitively understand and benefit from, designers need a design grammar that serves their developmental needs. This paper bridges artificial intelligence design for children - an emerging field still defining its best practices - and animation, a well established field with decades of experience in engaging children through accessible storytelling. Pairing Piagetian developmental theory with design pattern extraction from 52 works of animation, the paper presents a six scaffold framework that integrates design insights transferable to child centred AI design: (1) signals for visual animacy and clarity, (2) sound for musical and auditory scaffolding, (3) synchrony in audiovisual cues, (4) sidekick style personas, (5) storyplay that supports symbolic play and imaginative exploration, and (6) structure in the form of predictable narratives. These strategies, long refined in animation, function as multimodal scaffolds for attention, understanding, and attunement, supporting learning and comfort. This structured design grammar is transferable to AI design. By reframing cinematic storytelling and child development theory as design logic for AI, the paper offers heuristics for AI that aligns with the cognitive stages and emotional needs of young users. The work contributes to design theory by showing how sensory, affective, and narrative techniques can inform developmentally attuned AI design. Future directions include empirical testing, cultural adaptation, and participatory co design.

中文摘要

为了构建儿童能够直观理解和受益的人工智能,设计者需要一种能够满足他们发展需求的设计语法。本文连接了儿童人工智能设计——一个仍在定义最佳实践的新兴领域——与动画,一个在通过可接触的叙事吸引儿童方面具有数十年经验的成熟领域。通过将皮亚杰的发展理论与从52部动画作品中提取的设计模式相结合,本文提出了一种六个支架框架,整合了可转移到以儿童为中心的人工智能设计的设计洞察: (1) 视觉动画性和清晰性的信号, (2) 用于音乐和听觉支架的声音, (3) 视听线索的同步, (4) 伙伴风格的人物, (5) 支持象征性游戏和想象力探索的故事游戏,以及 (6) 以可预测的叙事形式提供结构。这些长期在动画中被精炼的策略作为注意力、理解和调适的多模态支架,支持学习和舒适。这种结构化的设计语法可以转移到人工智能设计中。通过将电影叙事和儿童发展理论重新构建为人工智能设计逻辑,本文为与年轻用户的认知阶段和情感需求相一致的人工智能提供了启发。该工作通过展示感官、情感和叙事技术如何为以发展为导向的人工智能设计提供信息,为设计理论作出贡献。未来的方向包括实证测试、文化适应和参与式共同设计。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决如何设计适合儿童的人工智能(AI)的问题,特别是如何使AI能够符合儿童的认知、情感和社会需求。具体而言,它旨在构建一个能够被儿童直观理解并从中受益的AI设计语法(design grammar),以填补儿童AI设计领域在最佳实践定义上的空白。论文通过结合儿童动画领域的经验(尤其是迪士尼动画)和皮亚杰(Piagetian)的发展理论,提出了一个“六个支架”(six scaffolds)框架,用以指导儿童中心的AI设计。

Q: 有哪些相关研究?

A: 论文中提到了多个与儿童人工智能(Child-AI)设计、儿童计算机交互(CCI)、情感计算(Affective Computing)以及儿童媒体(Children’s Media)相关的研究。以下是一些关键的相关研究:

儿童计算机交互(CCI)

  • Druin, A. (2002). 提出了儿童在设计新技术中的角色,强调了儿童参与设计过程的重要性。
  • Chiasson, S., & Gutwin, C. (2005). 探讨了儿童技术的设计原则,包括直观导航、低认知负荷和与儿童感知与运动能力的对齐。
  • Hourcade, J. P. (2008). 综述了儿童与计算机交互的领域,强调了设计儿童技术时需要考虑的因素。
  • Markopoulos, P., Read, J. C., MacFarlane, S., & Hoysniemi, J. (2008). 提供了评估儿童互动产品的原则和实践,强调了设计儿童产品时的评估方法。
  • Nilsson, E., Cajander, Å., Sjölinder, M., Ståhl, O., & Einebrant, E. (2020). 提出了针对儿童的教育游戏设计指南,强调了设计儿童教育游戏时需要考虑的因素。

情感计算(Affective Computing)

  • Lester, J. C., Converse, S. A., Kahler, S. E., Barlow, S. T., & Stone, B. (1997). 研究了动画教学代理中的“人格效应”,发现被感知为富有表现力和友好的代理能够提高儿童的参与度。
  • **Moreno, R., Mayer, R. E., Spires, H. A., & Lester, J. C. (2

Authors: Nomisha Kurian

Categories: cs.HC, cs.AI

PDF URL: https://arxiv.org/pdf/2504.08670v3.pdf

CoolPaper URL: https://papers.cool/arxiv/2504.08670v3

Published: 2025-04-11T16:23:37Z


6. Controlling Multimodal LLMs via Reward-guided Decoding

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM’s decoding process. Concretely, we build two separate reward models to independently control the degree of object precision and recall in the model’s output. Our approach enables on-the-fly controllability of an MLLM’s inference process in two ways: first, by giving control over the relative importance of each reward function during decoding, allowing a user to dynamically trade off object precision for recall in image captioning tasks; second, by giving control over the breadth of the search during decoding, allowing the user to control the trade-off between the amount of test-time compute and the degree of visual grounding. We evaluate our method on standard object hallucination benchmarks, showing that it provides significant controllability over MLLM inference, while consistently outperforming existing hallucination mitigation methods.

中文摘要

随着多模态大型语言模型(MLLMs)的广泛应用,为多样化的用户需求进行适应变得越来越重要。本文研究了通过控制解码来适应MLLMs。为此,我们提出了首个针对MLLMs的奖励引导解码方法,并展示了其在改善视觉基准方面的应用。我们的方法涉及建立视觉基准的奖励模型,并利用它们指导MLLM的解码过程。具体来说,我们构建了两个独立的奖励模型,以控制模型输出中对象的精确度和召回率。我们的方法使MLLM的推理过程在两个方面实现了按需控制:首先,在解码过程中控制每个奖励函数的重要性,使用户能够在图像字幕任务中动态地在对象精确度和召回率之间进行权衡;其次,在解码过程中控制搜索的广度,使用户能够控制测试时间计算量和视觉基准之间的权衡。我们在标准对象幻觉基准上评估了我们的方法,结果表明它显著提升了对MLLM推理的可控性,同时在性能上持续超过现有的幻觉缓解方法。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决多模态大型语言模型(Multimodal Large Language Models, MLLMs)在生成输出时的可控性问题,特别是在视觉定位(visual grounding)任务中的对象幻觉(object hallucination)问题。具体来说,论文关注的两个主要需求是:

  1. 控制输出的精确性和彻底性:用户希望能够控制MLLMs生成输出时的对象精确性(例如减少对象幻觉)和对象召回率(recall),以满足不同的使用场景需求。例如,对于视觉障碍用户,精确的输出更为重要,而对于生成合成数据以训练下游模型的用户,可能更注重输出的多样性和详细性,即使这意味着容忍较低的精确性。

  2. 控制生成输出的计算资源消耗:用户希望能够根据资源限制(如设备性能)和任务要求,动态调整生成输出时所使用的计算资源。例如,在资源受限的设备(如智能手机)上,用户可能希望减少计算量以避免过高的延迟,而在资源充足的情况下,可以容忍更多的计算以获得更好的输出质量。

为了解决这些问题,论文提出了一种名为多模态奖励引导解码(Multimodal Reward-Guided Decoding, MRGD)的方法,通过构建两个独立的奖励模型来分别控制模型输出中的对象精确性和召回率,并在解码过程中使用这些奖励模型来指导MLLMs的生成过程。这种方法允许用户在推理时动态调整每个奖励函数的相对重要性,以及搜索的广度,从而实现对MLLMs输出的精细控制。

Q: 有哪些相关研究?

A: 论文中提到了与多模态大型语言模型(MLLMs)的可控解码和幻觉缓解相关的研究。以下是主要的相关研究方向和具体工作:

1. 文本语言模型的引导解码(Guided Decoding of LLMs)

  • 奖励模型引导解码:一些研究通过训练奖励模型来评估语言模型生成的文本质量,并在解码过程中使用这些奖励模型来控制输出。例如,Dathathri et al. [11] 提出了Plug and Play Language Models,通过奖励模型来控制文本生成。Deng and Raffel [13] 提出了奖励增强解码(Reward-Augmented Decoding),通过单向奖励模型来提高文本生成的可控性。
  • 采样策略:一些研究探索了不同的采样策略,如最佳-k(best-of-k)、束搜索(beam search)或蒙特卡洛树搜索(Monte Carlo tree search),通过生成多个响应并选择最佳响应来提高输出质量 [7, 22, 23, 28, 40]。

2. MLLMs的幻觉缓解(Mitigating Hallucinations of MLLMs)

  • 监督微调(Supervised Fine-Tuning, SFT):一些研究通过监督学习的方式对MLLMs进行微调,以减少幻觉。例如,Liu et al. [26] 提出了一种通过鲁棒指令调整来减少幻觉的方法。
  • 偏好微调(Preference Fine-Tuning):一些研究通过偏好学习(如RLHF/RLAIF)来调整MLLMs的行为,以减少幻觉。例如,Sun et al. [42] 提出了一种通过事实增强的RLHF来对齐MLLMs的方法;Yu et al. [49] 提出了RLHF-V,通过细粒度的人类反馈来调整MLLMs的行为。
  • 提示工程(Prompting):一些研究通过设计特定的提示来引导MLLMs生成更准确的输出。例如,Zhang et al. [53] 提出了一种多模态链式思考推理方法,通过提示来减少幻觉。
  • 后处理方法:一些研究提出了后处理方法来纠正MLLMs的输出。例如,Yin et al. [48] 提出了一种幻觉纠正方法,通过生成反馈来纠正MLLMs的输出。
  • 解码策略:一些研究提出了专门的解码策略来减少幻觉。例如,Leng et al. [21] 提出了一种视觉对比解码方法,通过对比学习来减少对象幻觉;Deng et al. [12] 提出了一种通过CLIP引导解码的方法来减少幻觉。

3. 多模态奖励模型(Multimodal Reward Models)

  • 多模态奖励模型的构建:一些研究探索了如何构建能够同时处理视觉和文本信息的奖励模型。例如,Beyer et al. [4] 提出了PaliGemma,一个用于多模态任务的3B参数的视觉语言模型(VLM)。
  • 多模态幻觉缓解:一些研究专门针对多模态幻觉问题提出了解决方案。例如,Zhou et al. [57] 分析了MLLMs中的对象幻觉问题,并提出了相应的缓解方法;Favero et al. [15] 提出了一种通过视觉信息对齐来控制多模态幻觉的方法。

4. 其他相关研究

  • 多模态大型语言模型的对齐(Alignment of MLLMs):一些研究探讨了如何对齐MLLMs以满足人类偏好。例如,Amirloo et al. [2] 提供了对MLLMs对齐的全面研究。
  • 多模态幻觉评估基准:一些研究提出了用于评估MLLMs幻觉的基准数据集。例如,Rohrbach et al. [38] 提出了CHAIR基准,用于评估图像描述中的对象幻觉;Wang et al. [46] 提出了AMBER基准,用于评估MLLMs的多维度幻觉问题。

这些相关研究为本文提出的多模态奖励引导解码方法提供了理论基础和实践指导。

Q: 论文如何解决这个问题?

A: 论文通过提出一种名为多模态奖励引导解码(Multimodal Reward-Guided Decoding, MRGD)的方法来解决多模态大型语言模型(MLLMs)在视觉定位任务中的可控性问题。具体来说,MRGD方法通过以下步骤实现对MLLMs输出的精细控制:

1. 构建多模态奖励模型(Building Multimodal Reward Models)

为了实现对MLLMs输出的控制,论文构建了两个独立的奖励模型(Reward Models, RMs),分别用于评估对象精确性和召回率:

  • 对象幻觉奖励模型(Object Hallucination Reward Model, ( r_{\text{hal}} ))

    • 训练数据:使用多个公开的多模态偏好数据集,包括LLaVA-RLHF [42]、RLHF-V [49] 和POVID [56],以及重新利用的SugarCrepe [17] 数据集。
    • 模型架构:使用PaliGemma [4] 作为奖励模型的骨干网络,并添加一个线性回归头,用于将最后一个输出标记嵌入投影到单个标量。
    • 损失函数:结合Bradley-Terry模型 [6, 33] 和均方误差损失,确保奖励模型的输出在[0, 1]范围内。
    • 训练过程:使用LoRA [18] 对骨干网络进行微调,训练一个epoch,使用余弦退火学习率调度。
  • 对象召回奖励模型(Object Recall Reward Model, ( r_{\text{rec}} ))

    • 构建方法:通过组合现成的模块构建,包括预训练的对象检测器(OWLv2 [31])、词嵌入模型(Sentence-BERT [37])和POS标注器(NLTK)。
    • 工作流程:从图像中提取参考对象,从生成的描述中提取预测对象,计算两者的语义相似度,通过阈值判断预测对象是否为真阳性,最终计算对象召回率。

2. 多模态奖励引导解码(Multimodal Reward-Guided Decoding)

在解码过程中,使用上述两个奖励模型来指导MLLMs的生成过程:

  • 评分函数(Score Function)

    • 定义一个线性组合的评分函数 ( s(x_v, x_q, y) ),结合对象幻觉奖励 ( r_{\text{hal}} ) 和对象召回奖励 ( r_{\text{rec}} ): [ s(x_v, x_q, y) = w \cdot r_{\text{hal}}(x_v, x_q, y) + (1 - w) \cdot r_{\text{rec}}(x_v, x_q, y) ]
    • 其中 ( w \in [0, 1] ) 是一个在推理时选择的引导强度超参数,用户可以通过调整 ( w ) 来控制对象精确性和召回率的权衡。
  • 解码过程(Decoding Process)

    • 在每一步解码中,从MLLMs采样 ( k ) 个候选完成,评估每个候选的奖励值,选择得分最高的候选完成并添加到上下文中,直到生成结束标记()。
    • 通过调整 ( k ) 和评估周期 ( T ),用户可以控制搜索的广度和频率,从而在测试时计算量和视觉定位质量之间进行权衡。

3. 实验验证(Experimental Validation)

论文通过在标准的对象幻觉基准数据集(如CHAIR [38] 和AMBER [46])上进行实验,验证了MRGD方法的有效性:

  • 实验设置

    • 使用LLaVA-1.57B [27]、Llama-3.2Vision11B [14] 和SmolVLM-22.2B [30] 作为基础MLLMs。
    • 使用“Describe this image in detail”等提示进行图像描述任务。
    • 评估指标包括对象幻觉率(Ci/CHAIRi、Cs/Hal.)和对象召回率(Rec./Cov.)。
  • 实验结果

    • MRGD在减少对象幻觉方面表现出色,例如在COCO数据集上,使用 ( w=1.0 ) 时,CHAIRi从15.05%降低到4.53%,同时召回率仅下降了6.5%。
    • 通过调整 ( w ),可以在对象精确性和召回率之间进行权衡,例如 ( w=0.5 ) 时,召回率显著提高,而幻觉率仅略有增加。
    • MRGD在不同的MLLMs上均表现出色,且优于现有的幻觉缓解方法,如LLaVA-RLHF [42]、HA-DPO [55] 和CGD [12]。

4. 控制计算资源(Controlling Compute Resources)

通过调整解码过程中的参数 ( k ) 和 ( T ),用户可以在测试时计算量和视觉定位质量之间进行权衡:

  • 计算量与视觉定位质量的权衡
    • 增加 ( k ) 和减少 ( T ) 可以提高视觉定位质量,但会增加计算量。
    • 实验表明,MRGD在不同的 ( k ) 和 ( T ) 设置下均能有效减少幻觉,且比简单的拒绝采样(rejection sampling)更高效。

5. 定制化和灵活性(Customization and Flexibility)

MRGD方法允许用户在推理时动态调整奖励模型的权重 ( w ) 和搜索参数 ( k ) 和 ( T ),从而根据具体任务需求和资源限制定制MLLMs的行为。这种方法不仅提高了MLLMs的可控性,还提供了一种灵活的方式来满足不同用户的需求。

通过上述方法,论文成功地解决了MLLMs在视觉定位任务中的可控性问题,特别是在减少对象幻觉和控制计算资源方面。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来验证多模态奖励引导解码(Multimodal Reward-Guided Decoding, MRGD)方法的有效性和可控性:

1. 奖励模型评估(Reward Model Evaluation)

  • 对象幻觉奖励模型(( r_{\text{hal}} ))

    • 在验证集上评估 ( r_{\text{hal}} ) 的性能,定义准确率为奖励模型为选择的响应分配更高分数的次数比例,即 ( r_{\text{hal}}(x_v, x_q, y^+) > r_{\text{hal}}(x_v, x_q, y^-) )。
    • 在VLFeedback [24] 数据集上进一步评估 ( r_{\text{hal}} ) 的性能,选择每个示例的最佳和最差响应,准确率达到67.68%。
  • 对象召回奖励模型(( r_{\text{rec}} ))

    • 在COCO数据集上评估对象检测器的性能,得到63.16%的精确度和55.83%的召回率。
    • 在COCO描述上评估POS标注器的性能,得到67.04%的精确度和54.54%的召回率。

2. 与基线和现有方法的比较(Comparison to Baselines and Existing Methods)

  • 基线方法

    • 使用LLaVA-1.57B模型进行贪婪解码(Greedy)、贪婪解码加提示(Greedy + Prompting)和束搜索(Beam Search, BS)。
    • 在COCO和AMBER基准上评估这些基线方法的性能。
  • 现有方法

    • 与基于微调的方法(如LLaVA-RLHF [42]、HA-DPO [55]、POVID [56]、EOS [51]、HALVA [39]、CSR [58]、mDPO [45])和基于引导解码的方法(如VCD [21]、CGD [12])进行比较。
    • 在COCO和AMBER基准上评估这些现有方法的性能。
  • MRGD方法

    • 选择最佳的 ( k )、( T ) 和温度 ( t ) 参数。
    • 在COCO和AMBER基准上评估MRGD方法的性能,通过调整权重 ( w ) 来控制对象精确性和召回率的权衡。

3. 在RLHF微调的MLLMs上应用MRGD(Applying MRGD on top of RLHF)

  • Llama-3.2-Vision模型
    • 该模型已经经过指令微调和偏好对齐阶段(使用DPO [35])。
    • 在COCO和AMBER基准上评估MRGD方法的性能,通过调整权重 ( w ) 来控制对象精确性和召回率的权衡。

4. 可视化定位与计算量的权衡(Visual Grounding vs. Compute Trade-off)

  • 调整 ( k ) 和 ( T ) 参数
    • 通过改变候选样本数量 ( k ) 和评估周期 ( T ),研究视觉定位质量和测试时计算量之间的权衡。
    • 在COCO数据集上,使用MRGD方法评估不同 ( k ) 和 ( T ) 设置下的对象幻觉率和召回率。

5. 对象精确性与召回率的权衡(Object Precision vs. Recall Trade-off)

  • 调整权重 ( w ) 参数
    • 在固定的 ( k ) 和 ( T ) 设置下,通过改变权重 ( w ) 来研究对象精确性和召回率之间的权衡。
    • 在COCO数据集上,绘制不同 ( w ) 值下的对象幻觉率和召回率曲线。

6. 偏好数据混合对 ( r_{\text{hal}} ) 的影响(Preference Data Mix for ( r_{\text{hal}} ))

  • 数据集组合
    • 在训练 ( r_{\text{hal}} ) 时,使用不同的数据集组合,包括添加RLAIF-V [50] 数据集和移除POVID [56] 数据集。
    • 在COCO和AMBER基准上评估这些变体的性能。

7. MRGD对奖励模型质量的鲁棒性(MRGD’s Robustness to Reward Models’ Quality)

  • 奖励模型变体
    • 使用不同的模型骨干(如PaliGemma-2 [41])和不同的对象检测器(如DETR [10])来构建奖励模型。
    • 在COCO和AMBER基准上评估这些变体的性能。

8. 计算成本和延迟(Computational Cost and Latency)

  • 训练成本
    • 记录在8×NVIDIA H100 GPU上微调PaliGemma的训练时间。
    • 在NVIDIA A100 GPU上评估MRGD方法的解码时间。

9. 定性分析(Qualitative Analysis)

  • 生成描述的比较
    • 选择几个输入图像,比较使用默认贪婪解码和MRGD策略(不同 ( w ) 值)生成的描述。
    • 高亮显示正确的对象和幻觉的对象,分析不同 ( w ) 值下的生成结果。

通过这些实验,论文全面验证了MRGD方法在减少对象幻觉、控制对象召回率、调整计算资源消耗以及提供灵活的用户控制方面的有效性和实用性。

Q: 有什么可以进一步探索的点?

Authors: Oscar Mañas, Pierluca D’Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

Categories: cs.CV, cs.AI, cs.CL, cs.LG

PDF URL: https://arxiv.org/pdf/2508.11616v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11616v1

Published: 2025-08-15T17:29:06Z


7. Pretrained Conformers for Audio Fingerprinting and Retrieval

Conformers have shown great results in speech processing due to their ability to capture both local and global interactions. In this work, we utilize a self-supervised contrastive learning framework to train conformer-based encoders that are capable of generating unique embeddings for small segments of audio, generalizing well to previously unseen data. We achieve state-of-the-art results for audio retrieval tasks while using only 3 seconds of audio to generate embeddings. Our models are almost completely immune to temporal misalignments and achieve state-of-the-art results in cases of other audio distortions such as noise, reverb or extreme temporal stretching. Code and models are made publicly available and the results are easy to reproduce as we train and test using popular and freely available datasets of different sizes.

中文摘要

由于能够捕捉局部和全局交互,Conformer在语音处理方面表现出了良好的效果。在这项工作中,我们利用自监督对比学习框架来训练基于Conformer的编码器,这些编码器能够为小段音频生成独特的嵌入,并能很好地推广到以前未见过的数据。在音频检索任务中,我们仅使用3秒钟的音频来生成嵌入,取得了最新的成果。我们的模型几乎完全不受时间错位的影响,并且在噪声、混响或极端时间拉伸等其他音频畸变的情况下实现了最新的结果。代码和模型公开可用,结果易于重现,因为我们使用不同大小的流行且免费提供的数据集进行训练和测试。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是如何利用 Conformer 网络架构来实现高效的音频指纹识别和检索。具体而言,它旨在训练能够为音频片段生成独特嵌入向量的 Conformer 基础编码器,这些向量对于未见过的数据具有良好的泛化能力,并且在面对各种音频失真(如噪声、混响、极端时间拉伸等)时仍能保持鲁棒性。

Q: 有哪些相关研究?

A: 以下是与该论文相关的研究:

音频指纹技术分类

  • 基于局部描述符的方法:如哈希算法,通过提取音频的局部特征并进行哈希编码来生成指纹,例如 Panako [14]。
  • 基于峰值的方法:通过提取音频频谱图中的峰值点来构建指纹,如 PeakNetFP [9]。
  • 基于神经网络的方法:主要基于对比学习框架和卷积神经网络(CNNs),如 NAFP [4] 和 Now-playing [2]。

音频指纹的应用

  • 音乐识别服务:如 Shazam [1]、Google Now Playing [2] 和 SoundHound [3] 等,通过音频指纹技术快速识别播放的音乐。
  • 版权检测与广告追踪:用于检测音乐作品的侵权行为或追踪广告的播放情况 [1, 4]。
  • 电信领域:如识别未接来电中的重复音频,或通过识别会话初始化期间播放的公告来优化网络性能 [5, 6, 7, 8]。

音频指纹技术的对比学习框架

  • SimCLR 框架:该论文采用了 SimCLR 自监督对比学习框架 [21],通过最小化正样本对之间的距离和最大化负样本对之间的距离来训练模型,生成具有区分性的音频嵌入向量。

其他相关研究

  • Conformer 在语音处理中的应用:Conformer 结合了卷积神经网络和 Transformer 的优势,在语音识别等领域取得了优异的成果 [18, 19]。
  • 数据增强技术:如 SpecAugment [27],通过在频谱图上应用掩蔽等操作来增强数据,防止模型过拟合。
  • 音频指纹的检索效率:使用 Faiss [29] 等高效的向量检索库来存储和检索音频嵌入向量,提高检索效率。

Q: 论文如何解决这个问题?

A: 论文通过以下方法解决了音频指纹识别和检索的问题:

1. Conformer 编码器架构

  • 模型架构:提出了三种不同参数量的 Conformer 模型(小、中、大),分别包含 1.5M、8.8M 和 26.2M 参数。所有模型都遵循相同的高级架构,如图 1 所示。输入音频波形首先被转换为稳定的对数梅尔频谱图,然后通过线性投影层,经过多个 Conformer 块,最后通过一个投影层输出 (d) 维嵌入向量。
  • 关键参数
    • 小模型:256 维编码器,2 层 Conformer 块,128 维嵌入。
    • 中模型:512 维编码器,3 层 Conformer 块,128 维嵌入。
    • 大模型:768 维编码器,4 层 Conformer 块,128 维嵌入。

2. 对比学习框架

  • SimCLR 框架:采用 SimCLR 自监督对比学习框架 [21],通过最小化正样本对之间的距离和最大化负样本对之间的距离来训练模型。具体步骤如下:
    • 数据增强:对于每个音频片段,生成一个增强版本(副本),并将其与原始片段一起输入到模型中。
    • 损失函数:使用归一化温度缩放交叉熵损失(NT-Xent)来训练模型。对于一个大小为 (B) 的 mini-batch,生成 (2B) 个嵌入向量,其中原始片段和其增强版本被视为正样本对,其余 (2(B-1)) 个样本被视为负样本。
    • 损失计算:对于正样本对 ((i, j)),损失函数为: [ \ell_{i,j} = - \log \frac{\exp(\text{sim}(z_i, z_j) / \tau)}{\sum_{k=1}^{2B} [k \neq i] \exp(\text{sim}(z_i, z_k) / \tau)} ] 其中 (\text{sim}(z_i, z_j) = \frac{z_i^\top z_j}{|z_i| |z_j|}) 是两个样本之间的余弦相似度,(\tau) 是温度参数。

3. 数据增强与训练

  • 数据集:使用 Free Music Archive (FMA) 数据集 [22],分为小(8k 轨道)、中(25k 轨道)和大(106k 轨道)三个子集。每个模型分别在对应的子集上进行训练。
  • 数据增强:使用 Python audiomentations 库 [23] 进行数据增强,包括添加背景噪声、彩色噪声、混响、音高变换、极性反转、双曲正切失真、时间拉伸和时间偏移等。特别地,SpecAugment [27] 被证明对于防止过拟合至关重要。
  • 时间偏移增强:为了提高模型对时间偏移的鲁棒性,采用 Beta 分布来采样时间偏移量,而不是均匀分布。具体参数为 (\alpha = 8) 和 (\beta = 2),平均偏移量为 120 毫秒。

4. 实验与评估

  • 实验设置:在 FMA 的大测试数据集上计算嵌入向量,并使用 Faiss [29] 进行存储和检索。每个音频文件进行 5 次查询,每次查询选择一个 3 秒长的片段。
  • 评估指标:报告 top-1 和 top-5 准确率(即精确匹配和近似匹配)。
  • 实验结果
    • 时间偏移:模型在时间偏移方面表现出色,即使在较大的时间偏移下(如 120 毫秒),top-5 准确率仍接近完美。
    • 混响和噪声:在混响和不同信噪比(SNR)水平的噪声条件下,模型也表现出良好的鲁棒性。
    • 与其他方法的比较:在极端时间拉伸和噪声条件下,大模型(26.2M 参数)与当前最先进的方法(如 NAFP [4] 和 PeakNetFP [9])相当,甚至在某些情况下表现更好。

5. 结论与未来工作

  • 结论:Conformer 模型在音频指纹识别和检索任务中表现出色,尤其是在处理严重音频失真时。大模型达到了当前最先进的水平,而小模型在轻度失真下也有良好的表现。
  • 未来工作:计划研究量化技术,包括对编码器权重和生成的嵌入向量进行量化,并提供一个更易于比较和验证音频指纹技术的框架。

Q: 论文做了哪些实验?

A: 论文进行了以下实验来验证所提出的 Conformer 模型在音频指纹识别和检索任务中的性能:

1. 模型性能测试

  • 数据集:使用 Free Music Archive (FMA) 数据集 [22] 的大测试数据集进行测试。
  • 查询设置:对于每个音频文件,选择 5 个线性间隔的 3 秒长片段作为查询。
  • 评估指标:报告 top-1 和 top-5 准确率(即精确匹配和近似匹配)。
  • 测试结果
    • 时间偏移:表 2 提供了在不同时间偏移(10%、20%、30%、40% 的 300 毫秒)和混响条件下的 top-1 和 top-5 准确率。
    • 噪声和混响:表 4 提供了在不同信噪比(SNR)水平下的背景噪声和彩色噪声条件下的 top-1 和 top-5 准确率。
    • 时间拉伸:图 5 展示了在不同时间拉伸比例(70%、90%、110%、130%)下的 top-1 准确率。

2. 与其他方法的比较

  • 时间偏移:将大模型(26.2M 参数)与 Neural Audio Fingerprinter (NAFP) [4] 和 PeakNetFP [9] 进行比较,如图 5 所示。结果显示,Conformer 模型在极端时间拉伸(70% 和 130%)下表现略好,而在 90% 和 110% 时表现稍逊。
  • 噪声条件:表 3 提供了在不同信噪比(SNR)水平下的 top-1 准确率,与 NAFP [4]、GraFPrint [16] 等方法进行比较。结果显示,Conformer 模型在 10 dB 和 15 dB 的信噪比下表现与当前最先进的方法相当。

3. 模型鲁棒性验证

  • 时间偏移鲁棒性:图 4 展示了模型在时间偏移条件下的嵌入向量相似度变化,验证了模型能够正确处理时间偏移。
  • 噪声和混响鲁棒性:通过在不同信噪比和混响条件下测试模型的准确率,验证了模型在这些条件下的鲁棒性。

4. 小模型和中模型的性能

  • 轻度失真条件:虽然小模型(1.5M 参数)和中模型(8.8M 参数)在极端失真条件下表现不如大模型,但在轻度失真条件下,它们的性能也相当不错,适合对计算资源要求较低的应用场景。

5. 数据增强技术的影响

  • SpecAugment 的重要性:通过实验验证了 SpecAugment [27] 在防止模型过拟合方面的重要性,尤其是在大模型训练中。
  • Beta 分布时间偏移:通过采用 Beta 分布来采样时间偏移量,验证了这种方法在提高模型对时间偏移的鲁棒性方面的有效性。

Q: 有什么可以进一步探索的点?

A: 论文提出了一种基于 Conformer 的音频指纹识别和检索方法,并在多个方面取得了显著成果。然而,仍有一些可以进一步探索的点,以进一步提升模型的性能和适用性:

1. 模型量化和优化

  • 量化技术:研究对 Conformer 编码器的权重和生成的嵌入向量进行量化,以减少模型的存储和计算需求,同时保持性能。
  • 模型压缩:探索模型压缩技术,如剪枝和知识蒸馏,以进一步降低模型的复杂度,使其更适合在资源受限的设备上运行。

2. 数据增强和对比学习策略

  • 更复杂的数据增强:尝试更复杂的数据增强技术,如结合多种增强方法的组合,以进一步提高模型的鲁棒性。
  • 对比学习的改进:研究对比学习框架的改进,例如引入更复杂的损失函数或对比学习策略,以进一步提升模型的区分能力。

3. 多模态融合

  • 多模态数据融合:探索将音频与其他模态(如视频、文本)结合,以构建更强大的多模态音频指纹识别系统。
  • 跨模态检索:研究跨模态检索任务,例如通过文本描述或视频片段来检索音频内容。

4. 鲁棒性测试

  • 更极端的失真条件:测试模型在更极端的失真条件下的性能,如更复杂的噪声类型、更大幅度的时间拉伸和混响。
  • 真实世界数据集:在真实世界的数据集上进行测试,以评估模型在实际应用中的鲁棒性和泛化能力。

5. 模型架构改进

  • Conformer 的变体:探索 Conformer 架构的变体,如引入更深的网络结构或不同的注意力机制,以进一步提升模型的性能。
  • 混合架构:研究将 Conformer 与其他架构(如 GNNs 或 Transformer)结合,以利用不同架构的优势。

6. 应用拓展

  • 实时音频识别:研究如何将 Conformer 模型应用于实时音频识别任务,如实时音乐识别或语音识别。
  • 音频内容推荐:探索将音频指纹技术应用于音频内容推荐系统,通过相似性检索为用户推荐相关音频内容。

7. 对比学习的理论研究

  • 对比学习的理论分析:深入研究对比学习在音频指纹识别中的理论基础,以更好地理解其工作机制和优化方向。
  • 对比学习的泛化能力:研究对比学习模型在不同数据集和任务上的泛化能力,以进一步提升模型的通用性。

8. 多语言和多文化数据集

  • 多语言数据集:在多语言和多文化的数据集上进行实验,以评估模型在不同语言和文化背景下的性能。
  • 跨语言音频检索:研究跨语言音频检索任务,例如通过一种语言的音频片段检索另一种语言的相关音频内容。

9. 用户隐私和安全

  • 隐私保护:研究如何在音频指纹识别系统中保护用户隐私,例如通过差分隐私技术或加密方法。
  • 对抗攻击:研究模型对对抗攻击的鲁棒性,并开发相应的防御机制。

10. 开源和社区贡献

  • 开源框架:进一步完善开源框架,提供更详细的文档和示例代码,以促进社区的参与和贡献。
  • 基准测试:建立一个统一的基准测试平台,用于比较不同音频指纹识别方法的性能,促进该领域的研究和发展。

这些方向不仅可以进一步提升 Conformer 模型的性能和适用性,还可以推动音频指纹识别和检索技术在更多领域的应用。

Q: 总结一下论文的主要内容

Authors: Kemal Altwlkany, Elmedin Selmanovic, Sead Delalic

Categories: cs.SD, cs.AI, cs.IR, eess.AS

PDF URL: https://arxiv.org/pdf/2508.11609v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11609v1

Published: 2025-08-15T17:19:09Z


8. TinyTim: A Family of Language Models for Divergent Generation

This work introduces TinyTim, a family of large language models fine-tuned on James Joyce’s `Finnegans Wake’. Through quantitative evaluation against baseline models, we demonstrate that TinyTim V1 produces a statistically distinct generative profile characterized by high lexical diversity and low semantic coherence. These findings are interpreted through theories of creativity and complex problem-solving, arguing that such specialized models can function as divergent knowledge sources within more extensive creative architectures, powering automated discovery mechanisms in diverse settings.

中文摘要

这项工作介绍了TinyTim,一个基于詹姆斯·乔伊斯的《芬尼根的守夜人》进行微调的大型语言模型家族。通过与基线模型的定量评估,我们证明TinyTim V1生成的特征在统计上是独特的,其特征表现为高词汇多样性和低语义连贯性。这些发现通过创造力和复杂问题解决的理论进行了解释,认为这些专门化模型可以作为更广泛创造性结构中的发散知识源,在不同环境中驱动自动发现机制。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是大型语言模型(LLMs)在生成文本时倾向于产生收敛性(convergent)的输出,即倾向于生成统计上最可能的模式,这限制了它们生成真正新颖假设的能力。这种局限性反映了人工智能在处理人类认知中的模糊性和创造性外推方面的困难。论文通过引入一个名为TinyTim的语言模型家族,试图通过专门的训练方法,使模型能够产生更具发散性(divergent)的生成结果,从而在创造性任务中发挥更大的作用。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

人类创造力的理论

  • 双过程理论:人类创造力常被描述为聚焦的收敛性思维(用于评估)和联想的发散性思维(用于构思)之间的相互作用。这与大脑的执行控制网络(ECN)和默认模式网络(DMN)的动态耦合有关。
  • 创造力的神经科学:研究了大脑网络在创造性认知中的动态变化,如执行控制网络和默认模式网络之间的切换与创造性能力的关联。

语言模型的局限性

  • 大型语言模型的收敛性:基于Transformer架构的大型语言模型在合成统计上可能的模式方面表现出色,但这种优势也限制了它们生成真正新颖假设的能力。
  • 人工智能的局限性:形式系统在处理人类认知中的模糊性和创造性外推方面的困难,如Dreyfus对人工智能的批判。

创造性系统的复杂性

  • 模型的简约性与复杂性:过于简化的模型可能不足以处理复杂现象,复杂性对于科学进步可能是必要的。标准的LLMs倾向于寻找最可能的路径,而“Finnegans Wake”这种反简约性的文本可以训练出更复杂的生成模型。
  • 随机探索与理论驱动:无指导的随机探索可能优于僵化的理论驱动的调查。

人类与AI的协作

  • 人机协作的创造性:AI生成新颖的语言片段和非显而易见的联系,为偶然发现创造条件。用户的角色从查询结果转变为参与共创过程,类似于概念融合,即从不同的心理空间中产生新的意义。
  • 人类在循环中的机器学习:强调了人类在机器学习过程中的关键作用,特别是在解释AI生成的内容时。

Q: 论文如何解决这个问题?

A: 论文通过以下方法来解决大型语言模型(LLMs)在生成文本时倾向于产生收敛性输出的问题:

1. 数据选择与训练

  • 数据选择:选择詹姆斯·乔伊斯的《芬尼根的守灵夜》(“Finnegans Wake”)作为训练数据。这部作品本身是极端联想思维的产物,充满了新颖的词汇和复杂的结构,适合训练一个发散性生成模型。
  • 预处理:将文本预处理成100词的段落,以保留其联想结构。
  • 模型训练:使用标准的因果语言建模目标对“TinyLlama-1.1B-Chat-v1.0”模型进行微调,生成了名为TinyTim的模型。

2. 评估框架

  • 基线模型:选择一组训练用于生成连贯响应的基线模型,包括‘qwen3:0.6b’、‘llama3.2’和‘gpt-5-mini’。
  • 创意提示:使用10个创意提示生成响应,并使用以下指标评估每个模型的输出:
    • 句法指标:独特词比率、平均词长、标记多样性(香农熵)和句子复杂度。
    • 语义与内容指标:与提示的语义相似度(通过句子嵌入)、可读性(Flesch-Kincaid年级水平)和情感(VADER复合得分)。

3. 结果分析

  • 统计显著性:从2400个生成样本中筛选出1013个有效样本进行分析。Kruskal-Wallis测试确认了模型组之间在所有指标上的显著差异(p < .0001)。随后的成对Mann-Whitney U测试发现TinyTim在每个指标上都与所有三个基线模型有显著差异。
  • 词汇复杂度:TinyTim在词汇创新方面表现出色,其单次使用词比率(Hapax Legomena Ratio)和Yule’s K得分远高于基线模型,表明其生成过程是基于不断产生新颖、罕见和往往是新造的词汇。
  • 分布特征:基线模型的输出在所有指标上呈现出紧密、狭窄且可预测的分布,而TinyTim的分布则极为宽泛、严重偏斜且具有长尾,表明其作为不可预测的发散性生成器的特性。
  • 指标相关性:通过分析关键指标之间的关系,发现TinyTim在高独特词比率和低标记多样性空间中形成分散的云,这表明其在单个响应中高度新颖,但整体词汇池却高度专业化且受限于其训练数据。

4. 讨论与结论

  • 挑战简约性原则:通过在复杂数据上训练,TinyTim学会了复杂的、非简约的生成函数,这表明对于需要创造性探索的任务,非简约模型可能比简单模型更有价值。
  • 人类-AI协作:TinyTim的实用性在于其能够生成新颖的语言片段和非显而易见的联系,为偶然发现创造条件。用户的角色从查询结果转变为参与共创过程,类似于概念融合,即从不同的心理空间中产生新的意义。
  • 结论:通过针对性的微调,可以从根本上改变语言模型的内在生成偏差,从收敛性认知风格转变为发散性认知风格。TinyTim的生成特性为使用异构多智能体系统进行复杂问题解决提供了概念验证,并为人类-AI互动开辟了新的范式,从查询-响应动态转变为共创伙伴关系。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来评估TinyTim模型的生成特性,并与基线模型进行对比:

实验设计

  • 基线模型选择:选择了三个基线模型,分别是‘qwen3:0.6b’、‘llama3.2’和‘gpt-5-mini’。这些模型都是经过训练以生成连贯响应的。
  • 创意提示:使用了10个创意提示来生成响应。这些提示旨在激发模型的创造性生成能力。
  • 评估指标:从句法、语义和内容三个方面对模型生成的响应进行评估,具体指标包括:
    • 句法指标
      • 独特词比率(Unique Word Ratio):衡量生成文本中独特词汇的比例。
      • 平均词长(Average Word Length):衡量生成文本中单词的平均长度。
      • 标记多样性(Token Diversity,使用香农熵计算):衡量生成文本中词汇的多样性。
      • 句子复杂度(Sentence Complexity):衡量生成文本中句子的复杂程度。
    • 语义与内容指标
      • 与提示的语义相似度(Semantic Similarity to the prompt,通过句子嵌入计算):衡量生成文本与原始提示在语义上的相似度。
      • 可读性(Readability,使用Flesch-Kincaid年级水平计算):衡量生成文本的可读性。
      • 情感(Sentiment,使用VADER复合得分计算):衡量生成文本的情感倾向。

实验过程

  1. 数据生成

    • 使用10个创意提示,从每个模型中生成响应。
    • 从2400个生成样本中筛选出1013个有效样本进行分析。有效样本是指那些格式正确且不是单个单词的输出。
    • 最终样本大小为:TinyTim(n=714),‘gpt-5-mini’(n=99),‘llama3.2’(n=100),‘qwen3:0.6b’(n=1100)。
  2. 统计分析

    • 使用Kruskal-Wallis测试确认了模型组之间在所有指标上的显著差异(p < .0001)。
    • 进行成对的Mann-Whitney U测试,并使用Bonferroni校正,发现TinyTim在每个指标上都与所有三个基线模型有显著差异。

实验结果

  • 词汇复杂度
    • TinyTim的单次使用词比率(Hapax Legomena Ratio)为0.643,远高于‘gpt-5-mini’的0.413。
    • TinyTim的Yule’s K得分为208,远高于‘gpt-5-mini’的47,表明其在词汇创新方面表现出色。
  • 分布特征
    • 基线模型的输出在所有指标上呈现出紧密、狭窄且可预测的分布。
    • TinyTim的分布则极为宽泛、严重偏斜且具有长尾,特别是在独特词比率和句子复杂度上。
  • 指标相关性
    • 基线模型在高标记多样性、低独特词比率空间中形成紧密的簇。
    • TinyTim在高独特词比率、低标记多样性空间中形成分散的云,表明其在单个响应中高度新颖,但整体词汇池却高度专业化且受限于其训练数据。

实验结论

  • 发散性生成:TinyTim在词汇创新和输出方差方面表现出显著的发散性生成特性,与基线模型的收敛性生成特性形成鲜明对比。
  • 模型特性:TinyTim的生成特性为使用异构多智能体系统进行复杂问题解决提供了概念验证,并为人类-AI互动开辟了新的范式,从查询-响应动态转变为共创伙伴关系。

Q: 有什么可以进一步探索的点?

A: 论文提出了一个创新的方法来训练一个具有发散性生成特性的语言模型TinyTim,并展示了其与传统收敛性模型的显著差异。然而,仍有许多可以进一步探索的方向,以下是一些潜在的研究点:

1. 模型的进一步优化

  • 训练数据的多样性:虽然“Finnegans Wake”是一个极具挑战性的文本,但可以探索其他类型的复杂和创新性文本,如现代实验文学、诗歌、科幻作品等,以进一步丰富模型的训练数据。
  • 训练策略的改进:可以尝试不同的训练策略,如多任务学习、对比学习等,以提高模型的发散性生成能力。
  • 模型架构的改进:探索不同的模型架构,如Transformer变体、图神经网络等,以更好地捕捉复杂文本的结构和语义信息。

2. 评估方法的扩展

  • 更多评估指标:除了现有的句法和语义指标,可以引入更多评估模型创造性的指标,如新颖性、独特性、意外性等。
  • 人类评估:除了自动评估指标,可以引入人类评估来更全面地评估模型的生成质量。例如,让人类评估者对模型生成的文本进行主观评价,包括其创意、连贯性和实用性。
  • 跨领域评估:在不同的领域(如艺术、科学、工程等)中评估模型的生成能力,以验证其在多样化任务中的适用性。

3. 模型的应用探索

  • 创意写作:探索TinyTim在创意写作中的应用,如生成诗歌、故事、剧本等。可以与人类作家合作,评估其在激发创意和提供灵感方面的作用。
  • 问题解决:研究TinyTim在复杂问题解决中的应用,如在科学研究、设计创新、商业策略等方面。可以将其与收敛性模型结合,评估其在提供新颖解决方案方面的效果。
  • 教育领域:探索TinyTim在教育中的应用,如生成开放性问题、激发学生的创造性思维等。

4. 人类-AI协作的深化

  • 协作模式的创新:开发更先进的协作模式,使人类和AI能够更自然地互动。例如,设计一个界面,让人类用户可以实时反馈和调整AI的生成结果。
  • 多智能体系统:研究如何将TinyTim与其他类型的AI模型(如收敛性模型、视觉模型等)结合,形成一个更强大的多智能体系统,以解决更复杂的任务。
  • 用户适应性:研究不同用户群体对TinyTim生成内容的适应性,包括专业人士、普通用户和学生等,以优化模型的用户体验。

5. 理论研究的拓展

  • 创造力的理论基础:进一步研究人类创造力的理论基础,如双过程理论、概念融合等,以更好地理解模型的发散性生成机制。
  • 神经科学的联系:探索模型的发散性生成特性与人类大脑的神经机制之间的联系,如默认模式网络和执行控制网络的动态耦合。
  • 跨学科研究:结合心理学、认知科学、计算机科学等多学科的研究方法,深入探讨AI创造力的本质和潜力。

6. 伦理和社会影响

  • 内容审核:研究如何确保TinyTim生成的内容符合伦理和社会规范,避免生成有害或误导性的内容。
  • 版权和知识产权:探讨模型生成内容的版权和知识产权问题,特别是在使用受版权保护的文本进行训练时。
  • 社会影响:评估模型在社会中的潜在影响,如对就业、教育、文化等方面的影响,并提出相应的政策建议。

这些方向不仅可以进一步提升TinyTim模型的性能和应用范围,还可以为AI创造力的研究提供更深入的理论和实践基础。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了TinyTim,这是一个基于大型语言模型(LLMs)的家族,专门针对詹姆斯·乔伊斯的《芬尼根的守灵夜》进行了微调。通过与基线模型的定量评估对比,论文展示了TinyTim V1在生成文本时具有统计上显著不同的生成特性,表现为高词汇多样性和低语义连贯性。这些发现通过创造力和复杂问题解决的理论进行了解释,认为这种专门化的模型可以在更广泛的创造性架构中作为发散性知识源,推动不同场景下的自动化发现机制。

研究背景

大型语言模型(LLMs)基于Transformer架构,能够从大量数据中合成统计上可能的模式。然而,这种能力也限制了它们生成真正新颖假设的能力,因为它们倾向于产生收敛性的、平均回归的输出。人类创造力通常被描述为聚焦的收敛性思维和联想的发散性思维之间的相互作用。标准的LLMs在类似收敛性思维的任务中表现出色,但缺乏自发联想思维的内在机制。为了弥补这一缺陷,研究者通过专门在《芬尼根的守灵夜》上微调语言模型,引入了一种发散性生成过程。

方法论

数据和训练

研究者对“TinyLlama-1.1B-Chat-v1.0”模型进行了微调,使用了《芬尼根的守灵夜》的完整文本(约1.5MB)。文本被预处理成100词的段落,以保留其联想结构。模型使用标准的因果语言建模目标进行训练,命名为TinyTim。TinyTim V1已在HuggingFace上发布一年多,下载量超过750次。

评估框架

为了量化TinyTim的生成特性,研究者将其与一组基线模型进行了比较,这些模型包括‘qwen3:0.6b’、‘llama3.2’和‘gpt-5-mini’。使用10个创意提示生成响应,并使用以下指标评估每个模型的输出:

  • 句法指标:独特词比率、平均词长、标记多样性(香农熵)和句子复杂度。
  • 语义与内容指标:与提示的语义相似度(通过句子嵌入计算)、可读性(Flesch-Kincaid年级水平)和情感(VADER复合得分)。

结果

从2400个生成样本中筛选出1013个有效样本进行分析。Kruskal-Wallis测试确认了模型组之间在所有指标上的显著差异(p < .0001)。成对的Mann-Whitney U测试发现TinyTim在每个指标上都与所有三个基线模型有显著差异。

  • 词汇复杂度:TinyTim的单次使用词比率(Hapax Legomena Ratio)为0.643,远高于‘gpt-5-mini’的0.413。其Yule’s K得分为208,远高于‘gpt-5-mini’的47,表明其在词汇创新方面表现出色。
  • 分布特征:基线模型的输出在所有指标上呈现出紧密、狭窄且可预测的分布,而TinyTim的分布则极为宽泛、严重偏斜且具有长尾,特别是在独特词比率和句子复杂度上。
  • 指标相关性:基线模型在高标记多样性、低独特词比率空间中形成紧密的簇,而TinyTim在高独特词比率、低标记多样性空间中形成分散的云,表明其在单个响应中高度新颖,但整体词汇池却高度专业化且受限于其训练数据。

讨论

  • 挑战简约性原则:通过在复杂数据上训练,TinyTim学会了复杂的、非简约的生成函数,这表明对于需要创造性探索的任务,非简约模型可能比简单模型更有价值。
  • 人类-AI协作:TinyTim的实用性在于其能够生成新颖的语言片段和非显而易见的联系,为偶然发现创造条件。用户的角色从查询结果转变为参与共创过程,类似于概念融合,即从不同的心理空间中产生新的意义。
  • 结论:通过针对性的微调,可以从根本上改变语言模型的内在生成偏差,从收敛性认知风格转变为发散性认知风格。TinyTim的生成特性为使用异构多智能体系统进行复杂问题解决提供了概念验证,并为人类-AI互动开辟了新的范式,从查询-响应动态转变为共创伙伴关系。

结论

论文通过定量评估展示了通过针对性的微调,可以显著改变语言模型的生成特性,使其从收敛性转向发散性。TinyTim的生成特性为复杂问题解决和人类-AI协作提供了新的可能性,为未来的创造性AI研究提供了重要的启示。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Christopher J. Agostino

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.11607v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11607v1

Published: 2025-08-15T17:14:29Z


9. Dataset Creation for Visual Entailment using Generative AI

In this paper we present and validate a new synthetic dataset for training visual entailment models. Existing datasets for visual entailment are small and sparse compared to datasets for textual entailment. Manually creating datasets is labor-intensive. We base our synthetic dataset on the SNLI dataset for textual entailment. We take the premise text from SNLI as input prompts in a generative image model, Stable Diffusion, creating an image to replace each textual premise. We evaluate our dataset both intrinsically and extrinsically. For extrinsic evaluation, we evaluate the validity of the generated images by using them as training data for a visual entailment classifier based on CLIP feature vectors. We find that synthetic training data only leads to a slight drop in quality on SNLI-VE, with an F-score 0.686 compared to 0.703 when trained on real data. We also compare the quality of our generated training data to original training data on another dataset: SICK-VTE. Again, there is only a slight drop in F-score: from 0.400 to 0.384. These results indicate that in settings with data sparsity, synthetic data can be a promising solution for training visual entailment models.

中文摘要

在这篇论文中,我们提出并验证了一种新的合成数据集,用于训练视觉蕴涵模型。与文本蕴涵的数据集相比,现有的视觉蕴涵数据集规模小且稀疏。手动创建数据集劳动密集。我们基于文本蕴涵的SNLI数据集来构建我们的合成数据集。我们从SNLI中提取前提文本,作为生成图像模型Stable Diffusion的输入提示,生成用于替换每个文本前提的图像。我们从内在和外在两方面评估我们的数据集。对于外部评估,我们通过将生成的图像用作基于CLIP特征向量的视觉蕴涵分类器的训练数据,来评估生成图像的有效性。我们发现,合成训练数据导致SNLI-VE上的质量仅有轻微下降,其F分数为0.686,而在真实数据上训练时为0.703。我们还将生成的训练数据的质量与另一个数据集SICK-VTE上的原始训练数据进行比较:同样,F分数仅下降了0.400至0.384。这些结果表明,在数据稀疏的情况下,合成数据可以成为训练视觉蕴涵模型的有前景的解决方案。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决视觉蕴含(Visual Entailment, VE)任务中数据集规模小且稀疏的问题。现有的视觉蕴含数据集(如SNLI-VE和SICK-VTE)相比文本蕴含数据集(如SNLI)来说,规模较小且数据较为稀疏。手动创建这些数据集需要大量的人力和时间成本。因此,作者提出了一种基于生成式人工智能(Generative AI)的方法来创建合成视觉蕴含数据集,以期在数据稀缺的情况下为训练视觉蕴含模型提供一种更经济且更有效的解决方案。

Q: 有哪些相关研究?

A: 以下是论文中提到的相关研究:

视觉蕴含和数据集创建

  • Xie et al. (2019):首次提出视觉蕴含(VE)的概念,并引入了基于注意力可视化的可解释视觉蕴含(EVE)模型以及SNLI-VE数据集。
  • Antol et al. (2015):介绍了视觉问答(VQA)数据集,以Microsoft Common Objects in Context(MS COCO)数据集为基础,包含约20万张现实场景的图片,每张图片有5个描述性标题,并额外增加了5万张抽象场景的图片及其标题。
  • Marelli et al. (2014):创建了SICK数据集,包含具有相关性分数和蕴含标签的句子对。该数据集通过结合Flickr8K数据集和SemEval-2012 STS数据,并由亚马逊众包工人标注相似性分数和蕴含标签。
  • Wijnholds and Moortgat (2021):创建了SICK数据集的荷兰语版本。
  • Bowman et al. (2015):介绍了SNLI数据集,这是一个专门为自然语言推理(NLI)创建的平衡数据集,包含约50万对句子对,相比SICK数据集的约1万对句子对更为庞大。
  • Goyal et al. (2017):改进并扩展了VQA数据集,形成了VQA-v2数据集,通过减少偏见和增加更多图片来提升数据集质量。
  • Do et al. (2021):创建了e-SNLI-VE-2.0,对SNLI-VE数据集进行了改进和扩展。

合成数据

  • Johnson et al. (2016):提出了CLEVR数据集,这是一个自动化的数据集,包含抽象形状的图片以及自动生成的问题。图片是通过随机采样场景图并使用开源3D渲染软件Blender渲染生成的。
  • **Yuan et al. (

Authors: Rob Reijtenbach, Suzan Verberne, Gijs Wijnholds

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2508.11605v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11605v1

Published: 2025-08-15T17:13:41Z


10. A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability

In NLG meta-evaluation, evaluation metrics are typically assessed based on their consistency with humans. However, we identify some limitations in traditional NLG meta-evaluation approaches, such as issues in handling human ratings and ambiguous selections of correlation measures, which undermine the effectiveness of meta-evaluation. In this work, we propose a dual-perspective NLG meta-evaluation framework that focuses on different evaluation capabilities, thereby providing better interpretability. In addition, we introduce a method of automatically constructing the corresponding benchmarks without requiring new human annotations. Furthermore, we conduct experiments with 16 representative LLMs as the evaluators based on our proposed framework, comprehensively analyzing their evaluation performance from different perspectives.

中文摘要

在自然语言生成的元评估中,评估指标通常基于与人类的一致性进行评估。然而,我们发现传统的自然语言生成元评估方法存在一些局限性,例如处理人类评分的问题和相关性度量的模糊选择,这削弱了元评估的有效性。在本研究中,我们提出了一种双重视角的自然语言生成元评估框架,专注于不同的评估能力,从而提供更好的可解释性。此外,我们引入了一种自动构建相应基准的方法,无需新的人工批注。此外,我们基于所提议的框架,使用16个代表性的大型语言模型作为评估者进行实验,从不同的角度全面分析它们的评估性能。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决自然语言生成(NLG)元评估(meta-evaluation)中存在的若干问题,具体包括:

传统NLG元评估方法的局限性

  • 人类评分处理问题:传统方法通常直接对每个样本的多个评分求平均,然而人类评分并非连续值,不同标注者之间可能存在不一致,且相邻评分之间的质量间隔并不均匀。例如,评分4和3之间的质量差异可能大于3和2之间的差异,因此简单地对评分求平均并不合理。
  • 相关性度量选择问题:在传统元评估中,选择不同的相关性度量方法会对不同评估指标的性能评估产生显著影响,但目前尚不清楚在不同的NLG评估场景中应选择哪种相关性度量。
  • 评估基准的局限性:许多广泛使用的NLG评估基准存在诸如生成系统过时以及潜在数据污染等问题,进一步削弱了元评估的可靠性。

对不同评估能力的综合理解不足

  • 传统元评估方法无法全面理解评估指标的不同评估能力,例如无法区分评估指标在粗粒度质量水平判断和细粒度质量差异区分方面的能力,这限制了对评估指标性能的深入分析和理解。

Q: 有哪些相关研究?

A: - NLG元评估相关研究: - Perrella et al. (2024) 和 Gao et al. (2024) 研究了不同一致性度量对NLG元评估的影响,但对聚合方法的关注较少。 - Bavaresco et al. (2024) 对20个NLP任务上的不同LLM-based evaluators进行了研究,包括翻译和摘要等NLG任务。 - Wang et al. (2024c) 为6个NLG任务设计了扰动测试,以评估LLMs的评估能力。 - Ye et al. (2024b; 2024a) 分别从一致性角度和偏差角度对LLM-based evaluators进行了研究。 - Lee et al. (2025) 考察了LLM-based evaluators在多采样和不同评分尺度下的评估结果一致性。 - Zhao et al. (2024) 考虑了成对评估中的额外期望,如传递性。

  • LLM-as-a-Judge方法的评估相关研究
    • Ye et al. (2024b) 和 Kim et al. (2024a) 通过直接评分的方式收集生成模型的输出,并让人类使用不同的方面进行质量评估。
    • Zheng et al. (2023)、Zeng et al. (2024) 和 Zhang et al. (2023b) 通过成对比较的方式进行评估。
    • Thakur et al. (2024) 通过客观知识问答任务进行评估。
    • Tan et al. (2024) 提出了一种自动构建专注于事实和逻辑正确性的基准的流程。
    • Wang et al. (2024a) 评估了LLMs在成对比较中的位置偏差。
  • 特定NLG任务的LLM评估能力研究
    • Freitag et al. (2024) 研究了LLM-based evaluators在翻译任务上的能力。
    • Liu et al. (2024c)、Siledar et al. (2024) 研究了LLM-based evaluators在文本摘要任务上的能力。
    • Zhang et al. (2023a)、Mendonça et al. (2024) 研究了LLM-based evaluators在对话生成任务上的能力。
    • Chhun et al. (2024) 研究了LLM-based evaluators在故事生成任务上的能力。

Q: 论文如何解决这个问题?

A: 为了解决上述问题,论文提出了以下解决方案:

提出一种双视角NLG元评估框架

  • 全局视角(Global Perspective)
    • 将评估视为序数分类任务,关注评估指标对不同质量目标进行粗粒度质量水平判断的能力,避免了传统元评估中对细粒度质量差异区分能力的不合理惩罚。
    • 使用线性加权κ(linear weighted κ)作为评估指标,该指标考虑了不同类别之间的关系,能够更具有区分性地评估评估指标的性能。
  • 局部视角(Local Perspective)
    • 将评估视为相邻成对比较任务,关注评估指标对具有细粒度质量差异的目标进行区分的能力,弥补了全局视角的不足,奖励那些具有良好区分能力的评估指标。
    • 通过比较评估指标对每个源的按目标质量排序的相邻目标对的评估分数来计算比较准确率,以此评估评估指标的性能。

提出一种自动基准构建方法

  • 评估方面分解(Evaluation Aspect Decomposition)
    • 将常见的NLG评估方面(如连贯性、一致性等)进一步分解为更细粒度的子方面,以便更好地指导错误注入。
    • 利用OpenAI o1生成候选子方面,然后通过人工选择和细化得到代表性子方面。
  • 全局视角基准构建
    • 遵循原始人类评估量表定义不同的粗粒度评分,并构建相应的新目标。
    • 通过同时向参考中注入不同数量的错误来生成具有不同质量的候选目标。
    • 提出一种锚定方法,利用与人类评估偏好最一致的现有目标作为参考点(锚点),通过与锚点目标的成对比较来估计候选目标的评分。
  • 局部视角基准构建
    • 通过迭代过程修改错误注入方法,从参考开始,每次插入一个错误,同时保持其他内容不变,每个错误注入的目标作为下一次迭代的输入,从而构建出具有明确质量排名的目标序列。
    • 可以根据需要自定义迭代次数,使序列包含比原始人类评估量表中的不同评分更多的目标,确保更细粒度的质量差异。

基于提出的框架进行广泛的实验

  • 选取了16种具有代表性的大型语言模型(LLMs),包括通用型LLMs和专门针对评估进行微调的LLMs,作为评估者,基于提出的双视角NLG元评估框架,从不同视角全面分析它们的评估性能,从而验证框架的有效性和必要性。

Q: 论文做了哪些实验?

A: 论文主要进行了以下实验:

在SummEval基准上的初步研究

  • 实验目的:观察LLM-as-a-Judge在不同NLG元评估方法下的表现,验证所提元评估方法的复杂性。
  • 实验设置:使用SummEval数据集,计算LLM的评估结果与人类评估结果之间的一致性。具体地,对于传统元评估方法,计算数据集级别的皮尔逊和斯皮尔曼相关系数;对于所提出的双视角元评估框架,仅保留原始基准中所有三位人类标注者提供一致评分的目标,然后分别从全局视角(作为序数分类任务,使用线性加权κ)和局部视角(基于目标质量排序的相邻目标对的比较准确率)进行评估。
  • 实验结果:如表1所示,不同LLM在不同元评估方法下的排名存在显著差异,这突出了元评估的复杂性。例如,GPT-4o在全局视角下的κ值为0.225,排名第三;而在局部视角下的准确率为0.835,排名第四;在传统元评估中,其皮尔逊相关系数为0.562,排名第四,斯皮尔曼相关系数为0.522,排名第二。这表明不同的元评估方法会得出不同的结论,进一步说明了所提出的双视角元评估框架的必要性。

在新基准上的LLM评估实验

  • 实验目的:全面评估不同LLM在所提出的双视角NLG元评估框架下的评估性能,分析它们在不同评估能力方面的表现。
  • 实验设置
    • 基准选择:选择了两个典型的NLG评估基准SummEval(文本摘要)和Topical-Chat(对话响应生成),并基于它们分别构建了全局视角和局部视角的新基准。
    • LLM选择:选取了16种具有代表性的LLMs,包括通用型LLMs(如GPT-4o、GPT-4o mini、GPT-4 Turbo等)和专门针对评估进行微调的LLMs(如Auto-J-13B、CRITIQUELLM-6B等)。
    • 评估方法
      • 全局视角:使用与原始基准一致的评分量表,通过特定的提示让LLMs对目标进行评分,取多次采样的众数作为最终评分,然后计算线性加权κ。
      • 局部视角:使用特定的提示让LLMs对目标进行评分,取多次采样的平均值作为最终评分,评分范围设置为1-10,然后计算相邻目标对的比较准确率。
  • 实验结果
    • 全局视角:如表2所示,Qwen-2.5-72B和CompassJudger-32B在整体表现上最佳,超过了GPT-4o。Phi-4-14B和GPT-4o mini尽管参数规模较小,但表现接近GPT-4o,表明当前小规模通用型LLMs在没有专门针对评估场景进行微调的情况下,已经具备了相当程度的粗粒度评估能力。此外,通过生成混淆矩阵(如图1和附录D中的其他结果),可以进一步了解不同LLMs的评估行为。例如,GPT-4o在判断最佳和最差质量目标方面较为准确,但在评估中等质量目标时往往过于严格;而CompassJudger-32B在不同评分上的表现更为平衡。
    • 局部视角:如表3所示,与全局视角相比,LLMs的排名发生了显著变化。例如,GPT-4 Turbo和DeepSeek-V3在全局视角基准中表现处于中等水平,但在局部视角基准中取得了最佳整体表现;GPT-4o超越了Qwen-2.5-72B和CompassJudger-32B。这表明LLMs在两种评估能力上存在明显差异,进一步证明了区分它们的必要性以及所提元评估框架的有效性。此外,图2展示了所有目标对的完整成对比较准确率结果,表明LLMs在质量较高且质量差异较大的目标对上具有更好的区分能力。

Q: 有什么可以进一步探索的点?

A: 尽管论文提出了双视角NLG元评估框架和自动基准构建方法,并通过实验验证了其有效性和必要性,但仍有一些可以进一步探索的点:

进一步优化自动基准构建方法

  • 提升基准质量:虽然论文中提到的自动基准构建方法已经能够生成质量较高的基准,但仍有提升空间。例如,可以探索更先进的错误注入技术,以更准确地模拟人类评估的多样性和复杂性。此外,可以进一步优化锚定方法,以更精确地估计候选目标的评分,从而提高基准的质量和可靠性。
  • 降低成本:目前的自动基准构建方法主要依赖于LLMs的API调用,这在一定程度上限制了其广泛应用。可以探索更高效的构建方法,减少对昂贵LLMs的依赖,降低基准构建的成本,使其更具可扩展性。

拓展双视角元评估框架的应用范围

  • 更多NLG任务:论文主要关注了文本摘要和对话响应生成两种NLG任务,但NLG领域还包括许多其他任务,如故事生成、机器翻译等。可以将双视角元评估框架应用于这些任务,验证其在不同任务场景下的适用性和有效性,进一步丰富对NLG评估指标的全面理解。
  • 多语言NLG评估:目前的研究主要集中在英语NLG任务上,对于多语言NLG评估的研究相对较少。可以探索双视角元评估框架在多语言环境下的应用,考虑不同语言的特点和评估需求,为多语言NLG评估提供更有效的工具和方法。

深入分析LLMs的评估行为和能力

  • 评估能力的内在机制:虽然论文通过实验观察了不同LLMs在全局和局部视角下的评估性能差异,但对于导致这些差异的内在机制尚不清楚。可以进一步研究LLMs的评估行为,分析其在不同评估能力上的优势和不足,探索影响LLMs评估性能的关键因素,如模型架构、训练数据、指令设计等,为改进LLMs的评估能力提供理论依据。
  • 评估能力的动态变化:随着LLMs的不断发展和优化,其评估能力可能会发生变化。可以开展长期的跟踪研究,观察LLMs在不同发展阶段的评估能力变化趋势,分析其在全局和局部视角下的性能提升或下降的原因,为LLMs的持续改进提供指导。

探索新的评估指标和方法

  • 结合人类评估和自动评估:尽管自动评估指标在NLG评估中具有重要价值,但人类评估仍然是评估NLG质量的黄金标准。可以探索如何更好地结合人类评估和自动评估,充分利用两者的优点,提高NLG评估的准确性和可靠性。例如,可以研究如何利用人类评估数据来训练和优化自动评估指标,或者设计新的评估方法,将人类评估和自动评估有机结合起来,实现更全面的NLG评估。
  • 多维度评估指标:目前的NLG评估指标主要关注文本的质量和相关性,但对于NLG生成文本的其他重要维度,如多样性、创造性、情感倾向等,缺乏有效的评估方法。可以探索开发新的多维度评估指标,从多个角度全面评估NLG生成文本的质量,为NLG模型的优化和改进提供更全面的反馈。

应对实际应用中的挑战

  • 真实世界数据的适应性:在实际应用中,NLG模型需要面对各种真实世界的数据和场景,这些数据可能存在噪声、歧义、复杂性等问题,对NLG评估提出了更高的要求。可以研究如何使双视角元评估框架更好地适应真实世界数据,提高其在实际应用中的鲁棒性和有效性。
  • 评估的可解释性和透明度:对于NLG评估结果的可解释性和透明度,目前的研究还相对较少。可以探索如何提高NLG评估的可解释性,使评估结果更容易被理解和接受。例如,可以研究如何为评估结果提供详细的解释和分析,或者开发可视化工具,直观地展示NLG生成文本的质量和评估指标的性能。

Q: 总结一下论文的主要内容

A: 本文提出了一个双视角的NLG(自然语言生成)元评估框架,旨在解决传统NLG元评估方法中存在的问题,如人类评分处理问题、相关性度量选择问题以及评估基准的局限性等。该框架从全局视角和局部视角对评估指标的性能进行评估,分别关注评估指标对目标的粗粒度质量水平判断能力和细粒度质量差异区分能力,从而提供更具有可解释性的元评估方法。此外,论文还提出了一种自动基准构建方法,无需新的人类标注,避免了数据污染问题,降低了基准构建成本。通过在两个典型NLG评估基准(SummEval和Topical-Chat)上进行实验,验证了所提框架的有效性和必要性,实验结果表明不同LLMs在两种评估能力上存在明显差异,进一步证明了区分它们的必要性。

背景知识

  • NLG任务(如文本摘要、对话响应生成等)与问答、数学推理等任务不同,其输出是开放式的,缺乏唯一正确答案,因此需要更鲁棒和灵活的评估指标。
  • 传统评估指标(如BLEU、ROUGE、BERTScore等)逐渐无法满足需求,而基于大型语言模型(LLMs)的评估方法(LLM-as-a-Judge)被认为在评估NLG任务方面表现出色,但传统NLG元评估方法存在局限性。

研究方法

  • 双视角NLG元评估框架
    • 全局视角:将评估视为序数分类任务,使用线性加权κ作为评估指标,避免了传统元评估中对细粒度质量差异区分能力的不合理惩罚。
    • 局部视角:将评估视为相邻成对比较任务,通过比较评估指标对每个源的按目标质量排序的相邻目标对的评估分数来计算比较准确率,奖励那些具有良好区分能力的评估指标。
  • 自动基准构建方法
    • 评估方面分解:将NLG评估方面进一步分解为更细粒度的子方面,以便更好地指导错误注入。
    • 全局视角基准构建:遵循原始人类评估量表定义不同的粗粒度评分,并构建相应的新目标。通过同时向参考中注入不同数量的错误来生成具有不同质量的候选目标,并利用锚定方法估计候选目标的评分。
    • 局部视角基准构建:通过迭代过程修改错误注入方法,从参考开始,每次插入一个错误,同时保持其他内容不变,构建出具有明确质量排名的目标序列。

实验

  • 基准选择:选择了SummEval(文本摘要)和Topical-Chat(对话响应生成)两个典型NLG评估基准,并基于它们分别构建了全局视角和局部视角的新基准。
  • LLM选择:选取了16种具有代表性的LLMs,包括通用型LLMs和专门针对评估进行微调的LLMs。
  • 评估方法
    • 全局视角:使用与原始基准一致的评分量表,通过特定的提示让LLMs对目标进行评分,取多次采样的众数作为最终评分,然后计算线性加权κ。
    • 局部视角:使用特定的提示让LLMs对目标进行评分,取多次采样的平均值作为最终评分,评分范围设置为1-10,然后计算相邻目标对的比较准确率。
  • 实验结果
    • 全局视角:Qwen-2.5-72B和CompassJudger-32B在整体表现上最佳,超过了GPT-4o。Phi-4-14B和GPT-4o mini尽管参数规模较小,但表现接近GPT-4o。
    • 局部视角:与全局视角相比,LLMs的排名发生了显著变化。GPT-4 Turbo和DeepSeek-V3在局部视角基准中取得了最佳整体表现;GPT-4o超越了Qwen-2.5-72B和CompassJudger-32B。

关键结论

  • 所提出的双视角NLG元评估框架能够更全面地评估评估指标的性能,区分其在粗粒度质量水平判断和细粒度质量差异区分方面的能力,为NLG元评估提供了新的视角和方法。
  • 自动基准构建方法能够有效地生成高质量的基准,无需新的人类标注,降低了基准构建成本,避免了数据污染问题,具有较高的可扩展性。
  • 不同LLMs在全局和局部视角下的评估能力存在明显差异,这表明区分这两种评估能力是必要的,也为进一步研究LLMs的评估行为和能力提供了依据。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Xinyu Hu, Mingqi Gao, Li Lin, Zhenghan Yu, Xiaojun Wan

Categories: cs.CL

PDF URL: https://arxiv.org/pdf/2502.12052v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2502.12052v2

Published: 2025-02-17T17:22:49Z


Evaluation Domain Papers

1. Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps

Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have ushered in a new era of AI capabilities, demonstrating near-human-level performance across diverse scenarios. While numerous benchmarks (e.g., MMLU) and leaderboards (e.g., Chatbot Arena) have been proposed to help evolve the development of LLMs and MLLMs, most rely on static datasets or crowdsourced general-domain prompts, often falling short of reflecting performance in real-world applications. To bridge this critical gap, we present Inclusion Arena, a live leaderboard that ranks models based on human feedback collected directly from AI-powered applications. Our platform integrates pairwise model comparisons into natural user interactions, ensuring evaluations reflect practical usage scenarios. For robust model ranking, we employ the Bradley-Terry model augmented with two key innovations: (1) Placement Matches, a cold-start mechanism to quickly estimate initial ratings for newly integrated models, and (2) Proximity Sampling, an intelligent comparison strategy that prioritizes battles between models of similar capabilities to maximize information gain and enhance rating stability. Extensive empirical analyses and simulations demonstrate that Inclusion Arena yields reliable and stable rankings, exhibits higher data transitivity compared to general crowdsourced datasets, and significantly mitigates the risk of malicious manipulation. By fostering an open alliance between foundation models and real-world applications, Inclusion Arena aims to accelerate the development of LLMs and MLLMs truly optimized for practical, user-centric deployments. The platform is publicly accessible at https://doraemon.alipay.com/model-ranking.

中文摘要

大型语言模型(LLMs)和多模态大型语言模型(MLLMs)开启了人工智能能力的新纪元,展示了在多种场景下接近人类水平的表现。尽管已经提出了许多基准(例如 MMLU)和排行榜(例如 Chatbot Arena)来推动 LLMs 和 MLLMs 的发展,但大多数依赖于静态数据集或众包的一般领域提示,往往无法反映现实应用中的表现。为了弥补这一关键差距,我们推出了 Inclusion Arena,一个实时排行榜,基于从 AI 驱动的应用程序直接收集的人类反馈对模型进行排名。我们的平台将成对模型比较集成到自然用户互动中,确保评估反映实际使用场景。为了进行稳健的模型排名,我们采用了增强了两个关键创新的 Bradley-Terry 模型:(1)Placement Matches,一种冷启动机制,快速估计新集成模型的初始评级,以及(2)Proximity Sampling,一种智能比较策略,优先考虑能力相似的模型之间的对战,以最大化信息增益和增强评级稳定性。广泛的实证分析和模拟表明,Inclusion Arena 产生了可靠且稳定的排名,与一般的众包数据集相比,表现出更高的数据传递性,并显著降低了恶意操纵的风险。通过促进基础模型与现实应用之间的开放联盟,Inclusion Arena 旨在加速 LLMs 和 MLLMs 的发展,使其真正优化于实际的以用户为中心的部署。该平台可公开访问,网址为 https://doraemon.alipay.com/model-ranking。

LLM Analysis

LLM Analysis Failed: Error: 抓取失败: Waiting failed: 30000ms exceeded

Authors: Kangyu Wang, Hongliang He, Lin Liu, Ruiqi Liang, Zhenzhong Lan, Jianguo Li

Categories: cs.AI, cs.CL, cs.HC

PDF URL: https://arxiv.org/pdf/2508.11452v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11452v1

Published: 2025-08-15T13:00:07Z


2. AIM-Bench: Evaluating Decision-making Biases of Agentic LLM as Inventory Manager

Recent advances in mathematical reasoning and the long-term planning capabilities of large language models (LLMs) have precipitated the development of agents, which are being increasingly leveraged in business operations processes. Decision models to optimize inventory levels are one of the core elements of operations management. However, the capabilities of the LLM agent in making inventory decisions in uncertain contexts, as well as the decision-making biases (e.g. framing effect, etc.) of the agent, remain largely unexplored. This prompts concerns regarding the capacity of LLM agents to effectively address real-world problems, as well as the potential implications of biases that may be present. To address this gap, we introduce AIM-Bench, a novel benchmark designed to assess the decision-making behaviour of LLM agents in uncertain supply chain management scenarios through a diverse series of inventory replenishment experiments. Our results reveal that different LLMs typically exhibit varying degrees of decision bias that are similar to those observed in human beings. In addition, we explored strategies to mitigate the pull-to-centre effect and the bullwhip effect, namely cognitive reflection and implementation of information sharing. These findings underscore the need for careful consideration of the potential biases in deploying LLMs in Inventory decision-making scenarios. We hope that these insights will pave the way for mitigating human decision bias and developing human-centred decision support systems for supply chains.

中文摘要

最近在数学推理和大语言模型(LLMs)长期规划能力方面的进展促成了代理人的发展,这些代理人在商业运营过程中被越来越多地利用。优化库存水平的决策模型是运营管理的核心要素之一。然而,LLM代理在不确定情境下做出库存决策的能力,以及代理的决策偏见(例如框架效应等),仍然在很大程度上未被探索。这引发了对LLM代理有效解决现实世界问题能力的担忧,以及可能存在的偏见的潜在影响。为了填补这一空白,我们引入了AIM-Bench,这是一个新颖的基准,旨在通过一系列多样的库存补充实验评估LLM代理在不确定供应链管理情境中的决策行为。我们的结果显示,不同的LLM通常表现出不同程度的决策偏见,这些偏见与人类所观察到的相似。此外,我们探索了减轻中心拉动效应和牛鞭效应的策略,即认知反思和信息共享的实施。这些发现强调了在库存决策情境中部署LLM时需要仔细考虑潜在偏见的必要性。我们希望这些见解能够为减少人类决策偏见和开发以人为中心的供应链决策支持系统铺平道路。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文旨在评估大型语言模型(LLMs)作为代理在不确定的库存管理情境中的决策能力以及其固有的决策偏差。具体而言,论文试图解决以下问题:

  1. LLMs在库存决策中的能力:随着LLMs在数学推理和长期规划能力上的进步,它们在商业运营中的应用日益增加,尤其是在优化库存水平的决策模型方面。然而,LLMs在不确定情境下进行库存决策的能力,以及它们可能存在的决策偏差(例如框架效应等)尚未被充分研究。这引发了对LLMs是否能够有效解决现实世界问题以及其潜在偏差可能带来的影响的担忧。

  2. 决策偏差的评估:论文通过引入AIM-Bench基准测试,评估LLMs在不同供应链管理场景下的决策行为,特别是关注它们是否表现出类似于人类的决策偏差,如前景理论、均值锚定、需求追逐和牛鞭效应等。

  3. 偏差缓解策略:论文还探讨了缓解LLMs决策偏差的策略,例如通过认知反思和信息共享来减轻中心化效应和牛鞭效应。

  4. 现实世界的应用:通过使用现实世界的评估指标(如库存管理成本、缺货率和周转率)来评估LLMs的决策效果,论文旨在为供应链中的LLMs应用提供实际指导,并为开发以人为中心的决策支持系统铺平道路。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

库存管理任务的方法

  • 新sv问题(NVP):NVP是一个经典的库存问题,最早由Arrow等人在1951年提出。Schweitzer和Cachon是最早分析新sv设置中人类决策者并识别出中心化效应的研究者。Qi等人构建了一个一步端到端的深度学习框架,用于具有非平稳需求和随机提前期的库存问题。
  • 多周期库存管理问题:自Kaplan在1970年研究以来,多周期库存管理问题已经得到了数十年的研究。Qi等人提出了一种近最优的订货策略,用于处理非平稳需求和随机提前期的库存问题。
  • 啤酒游戏(BG):BG最早在20世纪50年代末由Forrester提出,已成为说明供应链管理中库存和订货决策基本挑战的流行工具。一些研究者利用深度强化学习(DRL)算法开发补货策略,以减轻串行供应链网络(例如BG)中的需求高估和由此产生的牛鞭效应。

LLMs在决策偏差方面的研究

  • 行为理论在LLMs中的应用:许多社会科学研究利用行为理论评估LLMs在不确定条件下的决策。例如,Cui等人进行了一项大规模研究,利用LLMs复制了来自领先社会科学期刊的156个心理学实验。Jia等人评估了LLMs的风险偏好、概率加权和损失厌恶。这些研究的目标之一是评估和增强LLMs替代人类研究参与者的实验能力,这一领域被称为人工智能的社会科学。
  • LLMs在库存管理中的决策偏差:Su等人探索了GPT-4在经典NVP中的能力,Chen等人研究了库存背景下的决策偏差。这些研究评估了LLMs在特定情境中的决策能力和偏差,但现实世界中LLMs倾向于作为代理通过附加记忆和感知模型进行决策。本研究旨在通过LLMs代理与环境的互动来评估决策行为。

Q: 论文如何解决这个问题?

A: 论文通过以下方法来解决评估大型语言模型(LLMs)在库存管理中的决策能力和偏差的问题:

1. 引入AIM-Bench基准测试

  • AIM-Bench概述:AIM-Bench是一个专门设计的基准测试,用于评估LLMs在不确定供应链管理场景下的决策行为。它包含了5个不同的环境,涵盖了从单周期新sv问题(NVP)到多周期复杂供应链网络(SCN)的多种情况。每个环境都考虑了供应链中的一个或多个不确定性来源,如随机需求、随机提前期和供应链合作伙伴的不确定性行为。
  • 环境分类:这些环境根据不确定性来源被分为不同的类别,以便更系统地评估LLMs在不同场景下的表现。

2. 评估LLMs的决策能力

  • 评估模型:论文评估了多种流行的开源和闭源LLMs,包括DeepSeek-V3、Gemini-2.5flash-lite、GPT-4.1、GPT-4o和Qwen-2.5-72B。
  • 评估指标:使用现实世界的评估指标(如库存管理成本、缺货率和周转率)作为评估LLMs决策效果的核心标准。此外,还通过细粒度的过程指标(如多周期补货中代理补货行动与最优行动之间的差距)来深入了解决策轨迹。

3. 检测和量化决策偏差

  • 新sv问题(NVP)中的偏差:通过NVP和啤酒游戏(BG)来研究LLMs在决策过程中表现出的四种常见人类偏差,即前景理论、均值锚定、需求追逐和牛鞭效应。
    • 均值锚定:通过计算锚定因子α来量化LLMs对均值需求的锚定程度。
    • 需求追逐:通过计算当前订单与前一需求之间的相关性来衡量需求追逐行为。
  • 啤酒游戏(BG)中的牛鞭效应:通过计算需求变异性的标准差比值来量化牛鞭效应。

4. 探索偏差缓解策略

  • 认知反思:通过设计新的提示来模拟人类的系统2思维,增强LLMs的认知能力,从而减轻均值锚定偏差。
  • 信息共享:通过设计新的状态空间,使代理能够获取更多关于合作伙伴的信息,从而减轻牛鞭效应。

5. 实验和结果分析

  • 实验设计:在AIM-Bench的五个环境中对不同LLMs进行实验,收集和分析数据。
  • 结果分析:通过实验结果,揭示了不同LLMs在库存和订货决策中的偏差程度,并验证了认知反思和信息共享策略在减轻偏差方面的有效性。

通过这些方法,论文不仅评估了LLMs在库存管理中的决策能力,还揭示了它们的决策偏差,并提出了相应的缓解策略。这些发现有助于在供应链决策支持系统中谨慎考虑和部署LLMs,以提高决策的准确性和可靠性。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验:

1. 新sv问题(NVP)实验

  • 实验目的:评估LLMs在新sv问题中的决策偏差,特别是均值锚定和需求追逐行为。
  • 实验设计
    • 任务:LLMs需要为单个销售周期确定产品的订购数量。
    • 框架:实验分为正向框架(PF,强调利润)和负向框架(NF,强调成本)。
    • 数据收集:LLMs在20轮标准新sv问题中进行库存购买决策。
  • 评估指标
    • 均值锚定:通过计算锚定因子α来量化LLMs对均值需求的锚定程度。
    • 需求追逐:通过计算当前订单与前一需求之间的相关性来衡量需求追逐行为。
  • 实验结果
    • NVP-Finding I:大多数评估的LLMs表现出对均值需求的锚定倾向。例如,GPT-4o的α值为1和0.925,表明其显著的锚定偏差。即使是最先进的LLMs,如GPT-4.1和DeepSeek-V3,也表现出显著的决策偏差。
    • NVP-Finding II:通过设计新的提示来模拟人类的系统2思维,可以显著降低锚定因子。例如,Qwen-2.5的α值从0.7降低到0.255。
    • NVP-Finding III:实验结果表明,LLMs的行为理论需要在具体情境中进行测试。在NVP中,通过框架效应改变风险偏好的方法并不总是有效。

2. 多周期补货决策(MPR)实验

  • 实验目的:评估LLMs在多周期库存管理问题中的决策能力。
  • 实验设计
    • 任务:考虑一个有限的时间范围,允许库存从一个周期延续到下一个周期。
    • 不确定性:包括随机需求和随机提前期。
  • 评估指标
    • 最优订单距离:通过计算LLMs的订单与最优订单之间的差距来评估其决策质量。
    • 现实世界指标:包括库存管理成本、缺货率和周转率。
  • 实验结果
    • MPR-Finding V:LLMs的订单与最优订单之间的距离比结果指标更具信息量和区分性。例如,GPT-4.1和Qwen-2.5-72B在缺货率上表现相似,但在最优订单距离上差异显著。

3. 啤酒游戏(BG)实验

  • 实验目的:评估LLMs在啤酒游戏中的决策偏差,特别是牛鞭效应。
  • 实验设计
    • 任务:玩家代表啤酒供应链中的四个层级(生产厂、分销商、批发商和零售商),需要协作以满足客户需求并最小化成本。
    • 不确定性:固定提前期。
  • 评估指标
    • 牛鞭效应:通过计算需求变异性的标准差比值来量化牛鞭效应。
  • 实验结果
    • BG-Finding IV:所有评估的LLMs都表现出牛鞭效应,主要是由于需求高估。例如,Gemini-2.5flash-lite在新sv问题中表现最佳,但在啤酒游戏中表现出最高的牛鞭效应。
    • 信息共享:通过设计新的状态空间,使代理能够获取更多关于合作伙伴的信息,可以显著减轻牛鞭效应。

4. 两层仓库网络(TWN)和供应链网络(SCN)实验

  • 实验目的:评估LLMs在更复杂的供应链网络中的决策能力。
  • 实验设计
    • 两层仓库网络(TWN):包括一个中央仓库和多个迷你仓库,货物首先批量运输到中央仓库,然后根据需求分配到迷你仓库。
    • 供应链网络(SCN):下游层级有两个上游供应商,一个正常供应源和一个价格更高但提前期更短的加急供应源。
  • 评估指标
    • 现实世界指标:包括库存管理成本、缺货率和周转率。
  • 实验结果
    • ALL-Finding VI:不同模型在不确定性下表现出不同的特征。例如,Qwen-2.5-72B表现出高库存积压,而DeepSeek-V3表现出较低的周转率和较高的缺货率。

通过这些实验,论文揭示了LLMs在库存管理中的决策能力和偏差,并验证了认知反思和信息共享策略在减轻偏差方面的有效性。

Q: 有什么可以进一步探索的点?

A: 论文中提到了一些可以进一步探索的点,具体如下:

偏差缓解方法的拓展

  • RL-based方法:论文仅探索了基于提示的方法来缓解偏差,建议未来工作研究基于强化学习(RL)的方法来提高决策支持能力。强化学习可以通过与环境的交互来学习最优的决策策略,可能在缓解LLMs的决策偏差方面发挥重要作用。

实验环境的拓展

  • 更复杂的供应链场景:虽然AIM-Bench已经包含了多种供应链环境,但现实世界中的供应链场景可能更加复杂和多样化。未来可以进一步拓展实验环境,包括更多类型的不确定性(如供应商可靠性、运输延误等)和更复杂的供应链结构(如多级供应链、多产品库存管理等),以更全面地评估LLMs的决策能力。

训练数据和对齐策略的影响

  • 训练数据和对齐策略的差异:论文提到,不同LLMs在不同情境下表现出不同程度的决策偏差,这可能与它们的训练数据和对齐策略有关。然而,由于缺乏公开的训练过程信息,难以得出确切结论。未来的研究可以关注不同训练数据和对齐策略对LLMs决策偏差的影响,以及如何通过调整这些因素来优化LLMs的决策行为。

跨领域应用

  • 其他领域的决策偏差研究:LLMs在库存管理中的决策偏差研究为其他领域的应用提供了参考。未来可以探索LLMs在其他领域(如金融、医疗、交通等)的决策偏差情况,并开发相应的偏差缓解策略,以提高LLMs在不同领域的决策支持能力。

模型可解释性

  • 决策过程的可解释性:了解LLMs决策过程中的偏差来源对于开发有效的偏差缓解策略至关重要。未来的研究可以进一步探索LLMs决策过程的可解释性,通过分析模型的内部机制和决策依据,更深入地理解偏差产生的原因,从而为偏差缓解提供更有针对性的方法。

人机协作

  • 人机协作中的偏差管理:在实际应用中,LLMs通常与人类决策者协同工作。未来可以研究如何在人机协作中有效管理LLMs的决策偏差,例如通过设计更好的交互界面、提供决策支持建议或开发混合决策系统,使人类决策者能够更好地理解和利用LLMs的决策能力,同时弥补其偏差。

Q: 总结一下论文的主要内容

A: 本文介绍了AIM-Bench,这是一个用于评估大型语言模型(LLMs)在不确定供应链管理场景下决策行为的新基准测试。研究的核心目标是填补现有文献中关于LLMs在库存决策能力以及决策偏差方面的研究空白,特别是在面对多源不确定性(如随机需求、随机提前期和合作伙伴行为不确定性)时的表现。通过一系列实验,论文揭示了LLMs在库存管理中的决策能力和偏差,并探索了缓解这些偏差的策略,为供应链决策支持系统的发展提供了有价值的见解。

背景知识

  • 近年来,LLMs在数学推理和代码生成能力上的进步使其在商业运营中的应用日益增加,尤其是在优化库存水平的决策模型方面。
  • 然而,LLMs在不确定情境下进行库存决策的能力以及其可能存在的决策偏差(如框架效应等)尚未被充分研究,这引发了对LLMs是否能够有效解决现实世界问题以及其潜在偏差可能带来的影响的担忧。

研究方法

  • AIM-Bench基准测试:包含5个不同的环境,从单周期新sv问题(NVP)到多周期复杂供应链网络(SCN),每个环境都考虑了供应链中的一个或多个不确定性来源。
  • 评估指标:使用现实世界的评估指标(如库存管理成本、缺货率和周转率)作为评估LLMs决策效果的核心标准。此外,还通过细粒度的过程指标(如多周期补货中代理补货行动与最优行动之间的差距)来深入了解决策轨迹。
  • 偏差检测和量化:通过NVP和啤酒游戏(BG)来研究LLMs在决策过程中表现出的四种常见人类偏差,即前景理论、均值锚定、需求追逐和牛鞭效应。

实验设计

  • 新sv问题(NVP)实验:评估LLMs在NVP中的决策偏差,特别是均值锚定和需求追逐行为。实验分为正向框架(PF,强调利润)和负向框架(NF,强调成本),LLMs在20轮标准新sv问题中进行库存购买决策。
  • 多周期补货决策(MPR)实验:评估LLMs在多周期库存管理问题中的决策能力,考虑随机需求和随机提前期。
  • 啤酒游戏(BG)实验:评估LLMs在啤酒游戏中的决策偏差,特别是牛鞭效应。

关键结论

  • NVP-Finding I:大多数评估的LLMs表现出对均值需求的锚定倾向。例如,GPT-4o的α值为1和0.925,表明其显著的锚定偏差。即使是最先进的LLMs,如GPT-4.1和DeepSeek-V3,也表现出显著的决策偏差。
  • NVP-Finding II:通过设计新的提示来模拟人类的系统2思维,可以显著降低锚定因子。例如,Qwen-2.5的α值从0.7降低到0.255。
  • NVP-Finding III:实验结果表明,LLMs的行为理论需要在具体情境中进行测试。在NVP中,通过框架效应改变风险偏好的方法并不总是有效。
  • BG-Finding IV:所有评估的LLMs都表现出牛鞭效应,主要是由于需求高估。例如,Gemini-2.5flash-lite在新sv问题中表现最佳,但在啤酒游戏中表现出最高的牛鞭效应。
  • 信息共享:通过设计新的状态空间,使代理能够获取更多关于合作伙伴的信息,可以显著减轻牛鞭效应。
  • MPR-Finding V:LLMs的订单与最优订单之间的距离比结果指标更具信息量和区分性。例如,GPT-4.1和Qwen-2.5-72B在缺货率上表现相似,但在最优订单距离上差异显著。
  • ALL-Finding VI:不同模型在不确定性下表现出不同的特征。例如,Qwen-2.5-72B表现出高库存积压,而DeepSeek-V3表现出较低的周转率和较高的缺货率。

研究意义

  • 本研究不仅评估了LLMs在库存管理中的决策能力,还揭示了它们的决策偏差,并提出了相应的缓解策略。这些发现有助于在供应链决策支持系统中谨慎考虑和部署LLMs,以提高决策的准确性和可靠性。
  • 通过揭示LLMs的决策偏差,本研究为开发以人为中心的决策支持系统铺平了道路,这些系统能够识别并抵消AI的固有非理性,从而促进更稳健、更可靠的人机协作,以应对复杂的供应链挑战。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Xuhua Zhao, Yuxuan Xie, Caihua Chen, Yuxiang Sun

Categories: cs.AI

PDF URL: https://arxiv.org/pdf/2508.11416v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11416v1

Published: 2025-08-15T11:38:19Z


3. When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs

Large Language Models (LLMs) are highly sensitive to subtle, non-semantic variations in prompt phrasing and formatting. In this work, we present the first systematic evaluation of 5 methods for improving prompt robustness within a unified experimental framework. We benchmark these techniques on 8 models from Llama, Qwen and Gemma families across 52 tasks from Natural Instructions dataset. Our evaluation covers robustness methods from both fine-tuned and in-context learning paradigms, and tests their generalization against multiple types of distribution shifts. Finally, we extend our analysis to GPT-4.1 and DeepSeek V3 to assess frontier models’ current robustness to format perturbations. Our findings offer actionable insights into the relative effectiveness of these robustness methods, enabling practitioners to make informed decisions when aiming for stable and reliable LLM performance in real-world applications. Code: https://github.com/AIRI-Institute/when-punctuation-matters.

中文摘要

大型语言模型(LLMs)对提示措辞和格式中的细微非语义变体非常敏感。在这项工作中,我们首次系统评估了5种改进提示鲁棒性的方法,采用统一的实验框架。我们在来自Llama、Qwen和Gemma系列的8种模型上,对来自自然指令数据集的52项任务进行了基准测试。我们的评估涵盖了来自精调和上下文学习范式的鲁棒性方法,并测试了它们在多种分布转变下的泛化能力。最后,我们将分析扩展到GPT-4.1和DeepSeek V3,以评估前沿模型目前对格式扰动的鲁棒性。我们的研究结果为这些鲁棒性方法的相对有效性提供了可操作的见解,使从业者能够在追求现实应用中稳定可靠的LLM性能时做出明智决策。代码:https://github.com/AIRI-Institute/when-punctuation-matters.

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决大型语言模型(LLMs)对提示(prompt)格式敏感性的问题。具体来说,它关注的是LLMs在面对提示中的细微、非语义变化(如标点、空格、大小写等)时表现出来的高敏感性,这种敏感性会导致模型输出的不一致性和不可靠性。尽管LLMs在多种任务上表现出色,但它们对提示格式的敏感性是一个被忽视的挑战,尤其是在实际应用中,这种敏感性可能导致模型性能的不稳定。

论文的主要目标是提供一个系统性的评估,比较不同的提示鲁棒性方法在多种模型、任务和学习范式下的有效性。通过这种比较,作者希望为实践者提供关于如何选择和应用这些鲁棒性方法的指导,以便在实际应用中实现更稳定和可靠的LLMs性能。

Q: 有哪些相关研究?

A: 以下是与本研究相关的几个主要方向的研究:

提示敏感性分析

  • 提示成分与格式影响:一些研究分析了提示的各个组成部分以及格式化细节对模型性能的影响,例如空白符、标点符号等看似无害的设计选择可能会导致性能出现较大波动。这些研究进一步凸显了建立统一标准化评估协议的必要性,以更好地理解和量化提示格式对LLMs的影响。
  • 对抗性提示研究:部分研究聚焦于模型对恶意或被篡改的提示的脆弱性,强调了安全性问题。不过,这些研究主要针对特定的威胁模型,而非关注日常提示格式中的良性不一致性对模型性能的影响。

鲁棒性增强方法

  • 一致性学习:通过在训练过程中引入一致性损失,促使模型在面对提示变体时输出更一致的预测结果,从而增强模型对提示格式变化的鲁棒性。
  • 批量校准:这是一种事后修正技术,通过估计批次中的上下文偏差并调整预测的对数概率来校准模型的输出,以减少因提示格式导致的预测偏差。
  • 模板集成:通过平均多个提示格式下的预测类别概率来降低因格式变化引起的方差,但这种方法会随着集成规模的增加而线性增加推理成本。
  • 敏感性感知解码:该方法通过惩罚对合成输入扰动敏感的预测来稳定模型输出,虽然有助于提高输出稳定性,但需要对每个输入进行多次前向传播。

评估方法与框架

  • 多提示评估:有研究指出在评估LLMs时应考虑多种提示,以更全面地衡量模型性能。然而,这些研究通常只针对单一方法、少数任务或少数模型进行评估,缺乏系统性和广泛的比较。
  • 大规模任务基准评估:许多大规模的任务丰富的基准测试依赖于单一指令格式来评估所有语言模型在广泛任务上的性能,这种评估方式隐含地假设性能与提示格式无关,但实际上并非如此。

Q: 论文如何解决这个问题?

A: 论文通过以下方法解决大型语言模型(LLMs)对提示格式敏感性的问题:

1. 统一实验框架

  • 数据集选择:使用Natural Instructions数据集的52个子任务,涵盖数学、逻辑和文本理解等领域,包括19个多项选择任务和33个分类任务。
  • 提示格式多样化:考虑6种类型的格式组件,每种组件有4到16种可能的值,通过组合这些组件构建多样化的提示格式。
  • 模型选择:评估来自GEMMA、LLAMA和QWEN家族的8个模型,参数规模从1.5B到9B不等,还包含闭源模型以研究大规模模型的格式敏感性。

2. 鲁棒性方法比较

  • 方法选择:比较5种代表性方法,包括标准的少样本提示(Few-shot)、批量校准(Batch Calibration, BC)、模板集成(Template Ensembles, TE)、敏感性感知解码(Sensitivity-Aware Decoding, SAD)和LoRA微调(LoRA)。
  • 性能评估:使用准确率作为主要性能指标,同时报告两种衡量提示格式敏感性的指标:spread(最大和最小准确率之差)和标准差。

3. 实验设计

  • 无分布偏移:在默认条件下比较各方法对准确率和鲁棒性的影响。
  • 分布偏移:测试方法在面对类别不平衡、组合分布偏移和跨领域分布偏移时的鲁棒性。
  • 推理策略:比较贪婪解码和概率排名两种推理策略对鲁棒性的影响。
  • 前沿模型评估:对GPT-4.1和DeepSeek V3等前沿模型进行评估,测试它们对格式扰动的敏感性,并探索在黑盒设置中提高其鲁棒性的方法。

4. 实验结果分析

  • 方法比较:发现批量校准(BC)在没有分布偏移的情况下对鲁棒性提升效果显著,且对准确率有正面影响;模板集成(TE)能降低spread但可能因个别表现不佳的格式而降低准确率;LoRA微调显著提高了准确率,但在鲁棒性提升方面效果有限。
  • 分布偏移影响:批量校准在类别不平衡情况下表现不佳,因为其假设类别分布均匀;LoRA微调在跨领域分布偏移下准确率下降,表明其对训练数据集的依赖性。
  • 推理策略:贪婪解码比概率排名更易受格式选择的影响,说明在实际应用中应优先考虑概率排名策略。
  • 前沿模型:前沿模型对格式扰动的鲁棒性更强,但在某些任务上仍可能出现较大的spread。通过修改模板集成方法(使用多数投票代替概率平均),可以有效降低spread。

5. 结论与建议

  • 实践指导:为实践者提供了关于如何选择和应用鲁棒性方法的具体建议,例如在没有分布偏移的情况下优先考虑批量校准,在需要提高准确率时采用LoRA微调,以及在面对前沿模型时使用修改后的模板集成方法。
  • 未来研究方向:指出需要进一步研究以开发更有效的监督微调方法,并探索如何在大规模模型上应用这些鲁棒性技术。

Q: 论文做了哪些实验?

A: 论文设计了一系列实验来系统地评估不同的提示鲁棒性方法在多种模型、任务和学习范式下的有效性。以下是实验的具体内容:

实验设置

  • 数据集:使用Natural Instructions数据集的52个子任务,涵盖数学、逻辑和文本理解等领域,包括19个多项选择任务和33个分类任务。
  • 提示格式:考虑6种类型的格式组件(描述符转换、分隔符、空格、文本与选项分隔符、选项项目样式、选项项目包装器),每种组件有4到16种可能的值,通过组合这些组件构建多样化的提示格式。
  • 模型选择:评估来自GEMMA、LLAMA和QWEN家族的8个模型,参数规模从1.5B到9B不等,还包含闭源模型以研究大规模模型的格式敏感性。
  • 方法选择:比较5种代表性方法,包括标准的少样本提示(Few-shot)、批量校准(Batch Calibration, BC)、模板集成(Template Ensembles, TE)、敏感性感知解码(Sensitivity-Aware Decoding, SAD)和LoRA微调(LoRA)。
  • 性能评估:使用准确率作为主要性能指标,同时报告两种衡量提示格式敏感性的指标:spread(最大和最小准确率之差)和标准差。

实验设计

1. 无分布偏移

  • 目标:比较不同鲁棒性方法在默认条件下的效果。
  • 方法:对所有方法进行评估,计算每个方法在52个任务上的准确率、标准差和spread。
  • 结果
    • 批量校准(BC):在所有8个开源模型上,BC显著提高了准确率,并且在6/8的模型上显著降低了spread。
    • 模板集成(TE):在4/8的模型上显著降低了spread,但准确率低于少样本提示(Few-shot)。
    • LoRA微调:显著提高了准确率,但在鲁棒性提升方面效果有限,仅在1/8的模型上显著降低了spread。
    • 敏感性感知解码(SAD):在某些模型上表现较好,但在大多数模型上效果不显著。

2. 分布偏移

  • 目标:测试方法在面对类别不平衡、组合分布偏移和跨领域分布偏移时的鲁棒性。
  • 方法
    • 类别不平衡:通过人工构造不平衡数据集(最频繁类别占90%)来测试方法的鲁棒性。
    • 组合分布偏移:测试模型在训练时见过的格式组件的新组合上的表现。
    • 跨领域分布偏移:使用外部数据集进行训练,测试模型在不同领域上的泛化能力。
  • 结果
    • 批量校准(BC):在类别不平衡情况下表现不佳,因为其假设类别分布均匀。
    • LoRA微调:在跨领域分布偏移下准确率下降,表明其对训练数据集的依赖性。
    • 模板集成(TE):在组合分布偏移下表现稳定,但跨领域分布偏移下效果有限。

3. 推理策略

  • 目标:比较贪婪解码和概率排名两种推理策略对鲁棒性的影响。
  • 方法:对每个模型分别使用贪婪解码和概率排名进行评估。
  • 结果
    • 贪婪解码:在所有模型上都比概率排名更易受格式选择的影响,尤其是在Gemma模型上,不稳定性更为明显。
    • 概率排名:在所有模型上表现更稳定,推荐在实际应用中优先使用概率排名。

4. 前沿模型评估

  • 目标:评估前沿模型(如GPT-4.1和DeepSeek V3)对格式扰动的敏感性,并探索在黑盒设置中提高其鲁棒性的方法。
  • 方法:对GPT-4.1和DeepSeek V3进行评估,测试它们在10个任务上的表现,并尝试使用修改后的模板集成方法(多数投票代替概率平均)。
  • 结果
    • 前沿模型:GPT-4.1和DeepSeek V3对格式扰动的鲁棒性更强,但在某些任务上仍可能出现较大的spread。
    • 修改后的模板集成:在19/20的任务上有效降低了spread,其中9个任务的降低幅度至少为44%。

实验结果总结

  • 批量校准(BC):在没有分布偏移的情况下,BC显著提高了准确率和鲁棒性,但对类别不平衡敏感。
  • 模板集成(TE):通过平均多个格式的预测概率来降低spread,但可能因个别表现不佳的格式而降低准确率。
  • LoRA微调:显著提高了准确率,但在鲁棒性提升方面效果有限,对训练数据集的依赖性强。
  • 敏感性感知解码(SAD):在某些模型上表现较好,但在大多数模型上效果不显著。
  • 推理策略:概率排名比贪婪解码更稳定,推荐在实际应用中优先使用。
  • 前沿模型:对格式扰动的鲁棒性更强,但在某些任务上仍可能出现较大的spread,修改后的模板集成方法可以有效降低这种不稳定性。

Q: 有什么可以进一步探索的点?

A: 尽管论文已经提供了关于提示鲁棒性方法的全面比较和深入分析,但仍有一些可以进一步探索的方向:

1. 更复杂的任务类型

  • 文本生成任务:当前研究主要集中在分类和多项选择任务上,未来可以扩展到更复杂的文本生成任务,例如开放式问答、故事生成、摘要等。这些任务可能对提示格式的敏感性有不同的表现,需要进一步研究。
  • 多步推理任务:探索在需要多步推理的任务中,不同鲁棒性方法的效果。例如,数学问题解决、逻辑推理等任务可能需要模型在多个步骤中保持对提示格式的鲁棒性。

2. 更大规模的模型

  • 前沿模型的深入分析:虽然论文已经评估了GPT-4.1和DeepSeek V3等前沿模型,但这些模型的具体内部机制和训练细节通常是不公开的。进一步研究这些模型的内部机制,以及如何更好地利用这些模型的特性来提高鲁棒性,是一个重要的方向。
  • 模型规模与鲁棒性的关系:研究模型规模与鲁棒性之间的关系,是否可以通过进一步扩大模型规模来提高对提示格式的鲁棒性,或者是否存在其他因素限制了这种关系。

3. 鲁棒性方法的改进

  • 结合多种鲁棒性方法:探索将不同的鲁棒性方法结合起来,以实现更好的效果。例如,将批量校准与模板集成或敏感性感知解码相结合,可能会进一步提高模型的鲁棒性。
  • 自适应鲁棒性方法:开发能够自适应地选择最佳鲁棒性方法的机制,根据具体的任务和模型特性动态调整鲁棒性策略。
  • 数据增强策略:研究更有效的数据增强策略,以提高模型在训练阶段对提示格式多样性的适应能力。

4. 实际应用中的鲁棒性

  • 跨领域和跨语言的鲁棒性:研究模型在跨领域和跨语言任务中的鲁棒性,特别是在实际应用中,模型可能需要处理多种语言和领域的任务。
  • 长期稳定性和适应性:研究模型在长期使用中的鲁棒性,例如在持续学习和在线学习场景中,模型如何保持对提示格式的鲁棒性。

5. 理论分析

  • 理论基础:从理论角度分析为什么某些提示格式会导致模型性能的显著变化,以及如何从理论上证明某些鲁棒性方法的有效性。
  • 模型解释性:提高模型对提示格式敏感性的解释性,帮助研究人员和实践者更好地理解模型的行为,并设计更有效的鲁棒性方法。

6. 伦理和社会影响

  • 偏见和公平性:研究提示格式对模型偏见和公平性的影响,确保鲁棒性方法不会引入新的偏见或不公平性。
  • 安全性和可靠性:进一步研究鲁棒性方法在提高模型安全性方面的潜力,特别是在面对恶意提示或对抗性攻击时。

这些方向不仅可以帮助进一步优化LLMs的性能,还可以推动自然语言处理领域的发展,使其更加适应实际应用中的复杂需求。

Q: 总结一下论文的主要内容

A: 论文《When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs》通过系统性的实验框架,对多种提示鲁棒性方法在大型语言模型(LLMs)中的有效性进行了大规模比较。研究的核心目标是解决LLMs对提示格式敏感性的问题,提供实践指导,并推动该领域的进一步研究。以下是论文的主要内容总结:

研究背景

  • LLMs的敏感性问题:LLMs在多种任务上表现出色,但对提示格式(如标点、空格、大小写等)的细微变化高度敏感,导致输出不稳定和不可靠。
  • 现有研究的局限性:尽管已有研究提出多种鲁棒性方法,但这些方法大多在孤立的环境中评估,缺乏统一的比较框架。

研究方法

  • 实验框架:使用Natural Instructions数据集的52个子任务,涵盖数学、逻辑和文本理解等领域,评估来自GEMMA、LLAMA和QWEN家族的8个模型,参数规模从1.5B到9B不等。
  • 提示格式多样化:考虑6种类型的格式组件,每种组件有4到16种可能的值,通过组合这些组件构建多样化的提示格式。
  • 鲁棒性方法:比较5种代表性方法,包括标准的少样本提示(Few-shot)、批量校准(Batch Calibration, BC)、模板集成(Template Ensembles, TE)、敏感性感知解码(Sensitivity-Aware Decoding, SAD)和LoRA微调(LoRA)。
  • 性能评估:使用准确率作为主要性能指标,同时报告两种衡量提示格式敏感性的指标:spread(最大和最小准确率之差)和标准差。

实验设计

1. 无分布偏移

  • 目标:比较不同鲁棒性方法在默认条件下的效果。
  • 结果
    • 批量校准(BC):显著提高了准确率和鲁棒性,适用于没有分布偏移的情况。
    • 模板集成(TE):降低了spread,但可能因个别表现不佳的格式而降低准确率。
    • LoRA微调:显著提高了准确率,但在鲁棒性提升方面效果有限。
    • 敏感性感知解码(SAD):在某些模型上表现较好,但在大多数模型上效果不显著。

2. 分布偏移

  • 目标:测试方法在面对类别不平衡、组合分布偏移和跨领域分布偏移时的鲁棒性。
  • 结果
    • 批量校准(BC):在类别不平衡情况下表现不佳。
    • LoRA微调:在跨领域分布偏移下准确率下降,对训练数据集依赖性强。
    • 模板集成(TE):在组合分布偏移下表现稳定,但跨领域分布偏移下效果有限。

3. 推理策略

  • 目标:比较贪婪解码和概率排名两种推理策略对鲁棒性的影响。
  • 结果
    • 贪婪解码:比概率排名更易受格式选择的影响,特别是在Gemma模型上。
    • 概率排名:表现更稳定,推荐在实际应用中优先使用。

4. 前沿模型评估

  • 目标:评估前沿模型(如GPT-4.1和DeepSeek V3)对格式扰动的敏感性,并探索在黑盒设置中提高其鲁棒性的方法。
  • 结果
    • 前沿模型:对格式扰动的鲁棒性更强,但在某些任务上仍可能出现较大的spread。
    • 修改后的模板集成:在19/20的任务上有效降低了spread,其中9个任务的降低幅度至少为44%。

结论

  • 批量校准(BC):在没有分布偏移的情况下,BC显著提高了准确率和鲁棒性,但对类别不平衡敏感。
  • 模板集成(TE):通过平均多个格式的预测概率来降低spread,但可能因个别表现不佳的格式而降低准确率。
  • LoRA微调:显著提高了准确率,但在鲁棒性提升方面效果有限,对训练数据集的依赖性强。
  • 敏感性感知解码(SAD):在某些模型上表现较好,但在大多数模型上效果不显著。
  • 推理策略:概率排名比贪婪解码更稳定,推荐在实际应用中优先使用。
  • 前沿模型:对格式扰动的鲁棒性更强,但在某些任务上仍可能出现较大的spread,修改后的模板集成方法可以有效降低这种不稳定性。

未来研究方向

  • 更复杂的任务类型:扩展到文本生成和多步推理任务。
  • 更大规模的模型:研究模型规模与鲁棒性的关系,以及前沿模型的内部机制。
  • 鲁棒性方法的改进:结合多种鲁棒性方法,开发自适应鲁棒性策略,探索更有效的数据增强策略。
  • 实际应用中的鲁棒性:研究跨领域和跨语言任务中的鲁棒性,以及模型在长期使用中的稳定性。
  • 理论分析:从理论角度分析提示格式敏感性的原因,提高模型的解释性。
  • 伦理和社会影响:研究鲁棒性方法对模型偏见和公平性的影响,确保模型的安全性和可靠性。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Mikhail Seleznyov, Mikhail Chaichuk, Gleb Ershov, Alexander Panchenko, Elena Tutubalina, Oleg Somov

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2508.11383v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11383v1

Published: 2025-08-15T10:32:50Z


4. SGSimEval: A Comprehensive Multifaceted and Similarity-Enhanced Benchmark for Automatic Survey Generation Systems

The growing interest in automatic survey generation (ASG), a task that traditionally required considerable time and effort, has been spurred by recent advances in large language models (LLMs). With advancements in retrieval-augmented generation (RAG) and the rising popularity of multi-agent systems (MASs), synthesizing academic surveys using LLMs has become a viable approach, thereby elevating the need for robust evaluation methods in this domain. However, existing evaluation methods suffer from several limitations, including biased metrics, a lack of human preference, and an over-reliance on LLMs-as-judges. To address these challenges, we propose SGSimEval, a comprehensive benchmark for Survey Generation with Similarity-Enhanced Evaluation that evaluates automatic survey generation systems by integrating assessments of the outline, content, and references, and also combines LLM-based scoring with quantitative metrics to provide a multifaceted evaluation framework. In SGSimEval, we also introduce human preference metrics that emphasize both inherent quality and similarity to humans. Extensive experiments reveal that current ASG systems demonstrate human-comparable superiority in outline generation, while showing significant room for improvement in content and reference generation, and our evaluation metrics maintain strong consistency with human assessments.

中文摘要

对自动调查生成(ASG)的日益关注,传统上需要花费大量时间和精力的任务,已受到大型语言模型(LLMs)最近进展的推动。随着检索增强生成(RAG)的进步和多代理系统(MASs)日益普及,利用LLMs合成学术调查已经成为一种可行的方法,从而提升了该领域对强大评估方法的需求。然而,现有的评估方法存在若干局限性,包括偏见指标、缺乏人类偏好,以及过于依赖LLMs作为评审者。为了应对这些挑战,我们提出了SGSimEval,这是一个全面的调查生成基准,具有相似性增强评估,通过整合对大纲、内容和参考文献的评估来评估自动调查生成系统,并结合基于LLM的评分和定量指标提供一个多方面的评估框架。在SGSimEval中,我们还引入了强调内在质量和与人类相似度的人类偏好指标。大量实验表明,当前的ASG系统在大纲生成方面表现出与人类可比的优越性,但在内容和参考文献生成方面仍有显著提升空间,而我们的评估指标与人类评估保持强一致性。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一个名为SGSimEval的综合评估基准,旨在解决自动调查生成(Automatic Survey Generation, ASG)系统评估中存在的问题。具体来说,它试图解决以下问题:

  1. 现有评估方法的局限性

    • 评估指标不一致:当前的评估框架在不同研究中使用了不一致的指标,导致无法进行跨系统的比较。
    • 缺乏人类偏好:现有的评估方法往往依赖于大型语言模型(LLMs)作为评估工具,但这些方法未能充分整合传统指标与基于LLM的评估,且未能全面捕捉调查质量的结构、参考文献和内容维度。
    • 对LLM的过度依赖:LLM作为评估工具虽然具有优势,但也存在局限性,如可能对某些写作风格存在偏见,导致评估结果的偏差。
  2. 自动调查生成系统的评估需求

    • 随着大型语言模型(LLMs)、检索增强生成(Retrieval-Augmented Generation, RAG)和多智能体系统(Multi-Agent Systems, MASs)的进展,自动调查生成(ASG)变得越来越可行。然而,评估这些系统生成的调查质量仍然是一个挑战。
    • 需要一个综合的评估框架,能够全面评估ASG系统的性能,包括结构组织、内容质量和参考文献的适当性。
  3. 人类偏好与自动化评估的结合

    • 现有的评估方法未能充分考虑人类偏好,导致评估结果可能与人类专家的判断不一致。
    • 需要一种方法,能够在自动化评估的同时,引入人类偏好,以更准确地评估ASG系统的性能。

为了解决这些问题,SGSimEval通过整合结构、内容和参考文献的评估,并结合基于LLM的评分与定量指标,提供了一个多维度的评估框架。此外,SGSimEval还引入了人类偏好指标,强调了与人类生成调查的相似性和内在质量的平衡。

Q: 有哪些相关研究?

A: 论文中提到了多个与自动调查生成(Automatic Survey Generation, ASG)和其评估方法相关的研究。这些研究可以分为两大类:自动调查生成系统的研究和ASG系统的评估方法的研究。

自动调查生成系统的研究

  • AutoSurvey [22]:建立了基础的结构化工作流程,是早期的ASG系统之一。
  • SurveyX [8]:通过准备和生成阶段增强了性能。
  • LLMxMapReduce-V2 [21]:处理极长输入的高级系统。
  • SurveyForge [26]:专注于大纲启发式和记忆驱动的生成。
  • InteractiveSurvey [23]:引入了个性化和交互式生成,允许用户自定义。

这些系统基于大型语言模型(LLMs)、检索增强生成(Retrieval-Augmented Generation, RAG)和多智能体系统(Multi-Agent Systems, MASs)的进步,推动了自动文献综述和科学发现的发展。

ASG系统的评估方法的研究

  • LLM-as-a-Judge [29,14]:利用LLM作为评估工具,提供了一致性和效率,同时显著降低了人工标注成本。
  • AutoSurvey [22]:采用多LLM评分策略,在引用质量和内容相关性方面与人类判断高度一致。
  • SurveyForge [26]:利用LLM快速评估大纲合理性,提高了结构评估效率。
  • 其他评估方法:结合了语义相似性、IoU(参考文献重叠率)等传统指标,形成了多维度评估系统,确保模型输出与语义逻辑和现实世界学术场景一致。

这些研究为ASG系统的评估提供了不同的视角和方法,但仍然存在局限性,如评估指标不一致、缺乏人类偏好等。SGSimEval正是在这些研究的基础上,提出了一个更全面、更平衡的评估框架。

Q: 论文如何解决这个问题?

A: 论文通过提出SGSimEval,一个综合的、多维度的、基于相似性增强的评估基准,来解决自动调查生成(ASG)系统评估中存在的问题。SGSimEval通过以下几个关键方面来解决这些问题:

1. 多维度评估框架

SGSimEval从结构、内容和参考文献三个维度对ASG系统进行全面评估。具体来说:

  • 结构(Outline):评估生成调查的大纲的结构质量和逻辑连贯性,通过层次分析和基于LLM的评估来实现。
  • 内容(Content):评估生成调查的内容质量,包括引用的忠实度、覆盖度、结构、相关性和语言表达等维度。
  • 参考文献(Reference):评估生成参考文献的质量和相关性,通过支持度分析和基于LLM的参考文献评估来实现。

2. 基于相似性增强的评估框架

SGSimEval引入了两种基于相似性增强的评估方法,以更好地与人类偏好对齐:

  • Human-as-Perfect相似性加权(Human-as-Perfect Similarity Weighting):将人类生成的调查内容视为理想参考标准,通过计算生成内容与人类内容的语义相似性来调整评估分数。
  • 平衡相似性加权(Balanced Similarity Weighting):在考虑语义相似性的同时,也考虑人类生成内容的实际质量,提供更平衡的评估。

3. 高质量数据集

SGSimEval通过多阶段过程精心策划了一个包含80篇高被引调查论文的数据集。这些论文涵盖了多个领域,确保了评估的全面性。数据集的每个调查论文都被分解为大纲、内容和参考文献,并生成上下文嵌入向量,存储在向量数据库中,以便进行相似性计算。

4. 实验验证

论文通过广泛的实验验证了SGSimEval的有效性。实验评估了五种代表性的ASG系统(InteractiveSurvey、SurveyX、AutoSurvey、SurveyForge和LLMxMapReduce-V2),并展示了SGSimEval在揭示不同ASG方法性能差异方面的能力。实验结果表明:

  • 计算机科学领域的专用系统在所有维度上一致优于通用领域系统。
  • 大多数ASG系统在大纲生成方面达到了人类水平,甚至超过人类表现。
  • 人类生成的参考文献在质量上仍然显著优于ASG系统生成的参考文献。

5. 人类一致性评估

为了评估人类偏好与SGSimEval评估框架之间的一致性,论文通过LLM进行成对比较。结果表明,SGSimEval的评估结果与人类偏好高度一致,尤其是在结构组织、内容创作和参考文献策划方面。

通过这些方法,SGSimEval不仅提供了一个全面的评估框架,还通过引入人类偏好和相似性增强的评估方法,解决了现有评估方法的局限性,提高了ASG系统评估的准确性和可靠性。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验:

实验设置

  • 评估系统:选择了五种具有代表性的自动调查生成(ASG)系统进行评估,包括InteractiveSurvey [23]、SurveyX [8]、AutoSurvey [22]、SurveyForge [26]和LLMxMapReduce-V2 [21]。这些系统涵盖了通用领域和计算机科学领域的专用系统。
  • 评估指标:使用SGSimEval从大纲、内容和参考文献三个维度对ASG系统进行全面评估。具体指标包括结构的层次性、内容的忠实度、覆盖度、结构、相关性、语言表达和批判性,以及参考文献的支持度和整体质量。
  • 评估方法:采用三种不同的评估配置:
    • Vanilla:仅使用传统的定量指标进行评估。
    • SGSimEval-B(Balanced Weighting):使用平衡相似性加权方法,结合语义相似性和实际质量进行评估。
    • SGSimEval-HP(Human-as-Perfect Weighting):使用人类作为完美参考的相似性加权方法,强调与人类生成内容的语义对齐。
  • 数据集:使用SGSimEval数据集,包含80篇高被引的调查论文,涵盖多个领域。这些论文被分解为大纲、内容和参考文献,并生成上下文嵌入向量,存储在向量数据库中,用于相似性计算。

实验结果

  • 性能比较:通过表2和图4、图5展示了不同ASG系统在大纲、内容和参考文献维度上的性能差异。结果显示,计算机科学领域的专用系统(如AutoSurvey和SurveyForge)在所有维度上一致优于通用领域系统。具体来说:
    • 大纲生成:大多数ASG系统在大纲生成方面达到了人类水平,甚至超过人类表现。
    • 内容质量:计算机科学领域的专用系统在内容质量上超过了人类,而通用领域系统与人类表现相当。
    • 参考文献质量:人类生成的参考文献在质量上仍然显著优于ASG系统生成的参考文献。
  • 人类一致性评估:通过LLM进行成对比较,评估人类偏好与SGSimEval评估框架之间的一致性。结果显示,SGSimEval的评估结果与人类偏好高度一致,尤其是在结构组织、内容创作和参考文献策划方面。具体来说,ASG系统在大纲生成方面的人类一致性较高,而在内容质量和参考文献选择方面,尽管ASG系统具有竞争力,但仍有改进空间。

实验结论

  • 系统性能差异:SGSimEval能够有效地揭示不同ASG系统之间的性能差异,尤其是在大纲、内容和参考文献的质量方面。
  • 人类偏好对齐:SGSimEval的相似性增强评估框架能够更好地与人类偏好对齐,提供更细致和可靠的评估结果。
  • 挑战与改进方向:尽管ASG系统在大纲生成方面取得了显著进展,但在内容质量和参考文献选择方面仍面临挑战,需要进一步改进以达到人类水平的性能。

Q: 有什么可以进一步探索的点?

A: 尽管SGSimEval在自动调查生成(ASG)系统的评估方面取得了显著进展,但仍有一些可以进一步探索的点,以进一步提升评估的准确性和可靠性。以下是一些潜在的研究方向:

1. 人类专家评估的整合

  • 直接人类评估:目前SGSimEval主要依赖于LLM作为评估工具,虽然通过相似性增强方法引入了人类偏好,但直接的人类专家评估可以提供更可靠的基准。未来工作可以包括邀请领域专家对ASG系统的输出进行直接评估,以验证SGSimEval评估结果的准确性。
  • 混合评估方法:结合LLM评估和人类专家评估,开发混合评估方法,以充分利用两者的优点。例如,可以先使用LLM进行初步筛选,然后由人类专家进行最终评估。

2. 评估指标的扩展

  • 多语言支持:当前SGSimEval主要关注英文调查论文,未来可以扩展到其他语言,以评估多语言ASG系统的性能。
  • 领域特定指标:除了现有的通用评估指标,可以开发针对特定领域的评估指标,以更准确地评估ASG系统在不同领域的表现。例如,在医学领域,可以评估参考文献的临床相关性。
  • 动态评估指标:引入动态评估指标,如实时更新的引用分析,以评估ASG系统生成的参考文献的时效性和影响力。

3. 评估方法的改进

  • 对抗性评估:开发对抗性评估方法,通过生成具有挑战性的输入来测试ASG系统的鲁棒性。例如,可以设计包含矛盾信息或复杂逻辑的输入,以评估ASG系统在处理复杂情况时的表现。
  • 交互式评估:评估ASG系统在与用户交互过程中的表现,例如在用户提出问题或反馈时,系统如何调整生成的调查内容。
  • 长期评估:进行长期评估,以观察ASG系统在不同时间点的表现变化,评估其适应新文献和新研究趋势的能力。

4. 评估框架的扩展

  • 多模态评估:除了文本内容,还可以评估ASG系统生成的图表、图像和多媒体内容的质量和相关性。
  • 跨领域评估:评估ASG系统在跨领域任务中的表现,例如在综合多个领域的文献时,系统如何有效地整合不同领域的信息。
  • 伦理和社会影响评估:评估ASG系统生成的调查内容在伦理和社会影响方面的表现,例如是否存在偏见、误导性信息或不适当的引用。

5. 技术改进

  • 更先进的LLM:随着LLM技术的不断进步,可以探索使用更先进的LLM作为评估工具,以提高评估的准确性和可靠性。
  • 自适应评估:开发自适应评估方法,根据ASG系统的输出自动调整评估指标和权重,以更准确地反映系统的性能。
  • 实时反馈机制:引入实时反馈机制,允许ASG系统根据评估结果实时调整生成策略,以提高生成内容的质量。

6. 应用拓展

  • 教育应用:探索SGSimEval在教育领域的应用,例如评估学生生成的文献综述或研究报告。
  • 工业应用:评估ASG系统在工业研究和开发中的应用,例如在技术报告和市场调研中的表现。
  • 政策制定:评估ASG系统在政策制定和公共决策中的应用,例如在政策文献综述和政策建议中的表现。

通过这些进一步的研究方向,可以不断提升ASG系统的评估方法,使其更加全面、准确和可靠,从而更好地支持ASG系统的发展和应用。

Q: 总结一下论文的主要内容

A:

Authors: Beichen Guo, Zhiyuan Wen, Yu Yang, Peng Gao, Ruosong Yang, Jiaxing Shen

Categories: cs.CL, cs.AI, cs.IR

PDF URL: https://arxiv.org/pdf/2508.11310v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11310v1

Published: 2025-08-15T08:27:58Z


5. ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection

Detecting toxic content using language models is crucial yet challenging. While substantial progress has been made in English, toxicity detection in French remains underdeveloped, primarily due to the lack of culturally relevant, large-scale datasets. In this work, we introduce TOXIFRENCH, a new public benchmark of 53,622 French online comments, constructed via a semi-automated annotation pipeline that reduces manual labeling to only 10% through high-confidence LLM-based pre-annotation and human verification. Then, we benchmark a broad range of models and uncover a counterintuitive insight: Small Language Models (SLMs) outperform many larger models in robustness and generalization under the toxicity detection task. Motivated by this finding, we propose a novel Chain-of-Thought (CoT) fine-tuning strategy using a dynamic weighted loss that progressively emphasizes the model’s final decision, significantly improving faithfulness. Our fine-tuned 4B model achieves state-of-the-art performance, improving its F1 score by 13% over its baseline and outperforming LLMs such as GPT-40 and Gemini-2.5. Further evaluation on a cross-lingual toxicity benchmark demonstrates strong multilingual ability, suggesting that our methodology can be effectively extended to other languages and safety-critical classification tasks.

中文摘要

使用语言模型检测有毒内容至关重要,但也面临挑战。尽管在英语方面取得了重大进展,但法语的有毒性检测仍处于发展不足的阶段,主要原因是缺乏文化相关的大规模数据集。在这项工作中,我们提出了TOXIFRENCH,一个包含53,622条法语在线评论的新公共基准,这些评论通过半自动化标注流程构建,减少了人工标注的比例,只有10%,该流程通过高置信度的基于LLM的预标注和人工验证。接着,我们对多种模型进行了基准测试,并发现了一个反直觉的见解:小型语言模型(SLMs)在有毒性检测任务中在稳健性和泛化能力上超过了许多大型模型。受到这一发现的启发,我们提出了一种新的链式思维(CoT)微调策略,使用动态加权损失,逐步强调模型的最终决策,从而显著提高了可信度。我们微调后的4B模型达到了最先进的性能,使其F1分数比基线提高了13%,并超越了GPT-40和Gemini-2.5等LLM。在跨语言有毒性基准上的进一步评估显示出强大的多语言能力,这表明我们的方法可以有效扩展到其他语言和安全关键分类任务。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决法语中的毒性内容检测问题。尽管在英语毒性检测方面已经取得了显著进展,但法语毒性检测仍然面临挑战,主要原因是缺乏大规模且文化相关的数据集。为了解决这一问题,论文提出了以下几个主要目标:

  1. 创建一个大规模的法语毒性检测基准数据集(TOXIFRENCH):通过半自动化的标注流程,结合基于大型语言模型(LLM)的预标注和人工验证,构建了一个包含53,622条法语在线评论的高质量数据集。这一流程显著减少了人工标注的工作量,仅需对10%的数据进行手动标注。

  2. 对多种模型进行基准测试:对包括开源的小型语言模型(SLMs)、商业API以及最新的大型语言模型(LLMs)在内的20多种模型进行了全面评估,以了解它们在法语毒性检测任务上的表现。

  3. 提出一种新的基于链式思考(Chain-of-Thought, CoT)的微调策略:通过动态加权损失函数,该策略逐步强调模型最终决策的重要性,显著提高了模型的推理忠实度。通过这种微调方法,论文中的4B模型(基于Qwen3-4B)在TOXIFRENCH基准测试中达到了最先进的性能,其F1分数比基线模型提高了13%,并且超过了GPT-4o和Gemini-2.5等大型模型。

  4. 探索跨语言毒性检测的能力:通过在跨语言毒性基准测试上的进一步评估,展示了该方法在多语言环境中的强大能力,并表明该方法可以有效地扩展到其他语言和安全关键的分类任务中。

总的来说,这篇论文不仅提供了法语毒性检测领域的第一个大规模基准数据集,还提出了一种新的微调策略,显著提高了模型在这一任务上的性能,并展示了其在多语言环境中的潜力。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

在线安全与毒性检测

  • Walther and McCoy (2021):研究了美国极右翼在Telegram上的活动,强调了在线安全和内容审核的重要性。
  • Wen et al. (2023):探讨了大型语言模型(LLMs)生成的隐性毒性内容,揭示了现代人工智能的一个关键漏洞。
  • Bespalov et al. (2024):致力于构建更鲁棒的毒性预测器,研究了如何提高模型对毒性内容的检测能力。
  • Berezin et al. (2024):研究了如何利用ASCII艺术攻击LLMs和毒性检测系统,以掩盖不当内容。
  • Xiao et al. (2024):研究了中文中通过语音伪装来掩盖攻击性语言的现象。
  • Yang et al. (2025b):探讨了中文中隐性仇恨言论的检测问题,强调了模型对隐性仇恨的敏感性和校准限制。

模型对齐与安全性

  • Rafailov et al. (2023):提出了直接偏好优化(DPO),这是一种用于对齐LLMs与人类价值观的方法。
  • Amini et al. (2024):对DPO进行了扩展,提出了带有偏移的直接偏好优化。
  • Zeng et al. (2024b):研究了DPO的跨语言泛化能力,发现仅用英语训练的模型可以减少多种语言的毒性。
  • Lee et al. (2024):对DPO的机制进行了深入研究,探讨了其对毒性内容的影响。
  • Qi et al. (2024):研究了对齐算法的机制,强调了对齐的深度和稳定性。
  • Kang and Qian (2024):通过阅读理解树植入LLMs的知识,以提高毒性检测的能力。
  • Zhang et al. (2024b):研究了LLMs在隐性仇恨言论检测中的过度敏感性和校准限制。

毒性检测方法与数据集

  • Ramos et al. (2024):对自动仇恨言论检测进行了全面综述,涵盖了Transformer时代的技术进展。
  • Albladi et al. (2025):研究了使用LLMs进行仇恨言论检测的方法。
  • Vishwamitra et al. (2024):探讨了LLMs在毒性检测中的链式思考推理能力。
  • Brun and Nikoulina (2024):创建了FrenchToxicityPrompts,这是一个用于评估和减轻法语文本毒性的大型基准。
  • Tonneau et al. (2024):提出了HATEDAY,这是一个代表一天内推特上全球仇恨言论的数据集。
  • Friedrich et al. (2024):通过M-ALERT基准揭示了LLMs在跨语言安全方面的差距。
  • Wang et al. (2023):提出了XSAFETY基准,用于评估LLMs在多种语言中的安全性。

这些研究为本文的工作提供了背景和基础,特别是在毒性检测、模型对齐、以及跨语言泛化方面。本文通过创建TOXIFRENCH数据集和提出新的CoT微调策略,进一步推动了法语毒性检测的研究进展。

Q: 论文如何解决这个问题?

A: 论文通过以下步骤解决法语毒性内容检测问题:

1. 数据集构建(Dataset Construction)

  • 定义毒性(Defining Toxicity):采用了一个广泛的、文化敏感的毒性定义,包括但不限于仇恨言论、性内容、贬低性言论、威胁等,旨在捕捉可能对个体或群体造成情感或心理伤害的内容。
  • 数据来源与预处理(Data Source and Preprocessing):从高流量的法语在线论坛中收集数据,通过严格的匿名化和过滤流程,移除用户标识和个人信息,保留5到25个单词的评论,以确保数据的隐私性和质量。
  • 半自动化标注流程(Semi-Automated Annotation Pipeline):利用基于LLM的预标注和人工验证相结合的方法,通过高置信度规则自动标注大部分数据,仅对10%的不确定数据进行人工标注,显著减少了人工标注的工作量。
  • 数据集划分(Dataset Splitting):将最终的53,622条评论数据集划分为一个大型的不平衡训练集(52,274条评论,4%为毒性评论)和一个较小的、类别平衡的测试集(1,388条评论),用于模型训练和评估。

2. 模型评估(Model Evaluation)

  • 基准测试(Benchmarking):对20多种模型进行了全面评估,包括开源的小型语言模型(SLMs)、商业API和最新的大型语言模型(LLMs),如GPT-4o和Gemini-2.5。
  • 发现(Findings):意外地发现小型语言模型(SLMs)在鲁棒性和泛化能力上优于许多大型模型,尤其是在经过结构化推理的微调后。

3. 提出新的微调策略(Proposing a New Fine-Tuning Strategy)

  • 链式思考(Chain-of-Thought, CoT)微调:提出了一种基于动态加权损失函数的CoT微调策略,该策略逐步增加对模型最终决策的损失权重,以提高推理的忠实度。
  • 实验设置(Training Setup):选择Qwen3-4B作为基础模型,利用其指令微调能力和链式思考推理能力,通过QLoRA和量化技术在商业GPU上进行高效微调。
  • 动态加权损失函数(Dynamic Weighted Loss Function):通过在训练过程中调整损失权重,使模型更加关注最终决策的准确性,从而解决标准CoT训练中最终决策可能被长推理序列稀释的问题。
  • 实验结果(Results):经过CoT微调的4B模型在TOXIFRENCH基准测试中达到了最先进的性能,F1分数比基线模型提高了13%,并且超过了GPT-4o和Deepseek-R1等大型模型。

4. 跨语言泛化能力评估(Cross-Lingual Generalization)

  • 跨语言评估(Cross-Lingual Evaluation):在JIGSAW数据集上评估了微调模型的跨语言泛化能力,发现经过法语微调的模型在英语数据集上也表现良好,表明该方法具有多语言应用的潜力。

通过上述步骤,论文不仅提供了一个高质量的法语毒性检测数据集,还提出了一种有效的微调策略,显著提高了模型在这一任务上的性能,并展示了其在多语言环境中的泛化能力。

Q: 论文做了哪些实验?

A: 论文中进行了以下几类实验:

1. 模型基准测试(Model Benchmarking)

  • 实验目的:评估不同模型在法语毒性检测任务上的表现。
  • 实验方法:对20多种模型进行了全面评估,包括开源的小型语言模型(SLMs)、商业API和最新的大型语言模型(LLMs),如GPT-4o和Gemini-2.5。
  • 实验结果:发现小型语言模型(SLMs)在鲁棒性和泛化能力上优于许多大型模型,尤其是在经过结构化推理的微调后。例如,GPT-4o-mini(8B)在TOXIFRENCH基准测试中的准确率为87%,超过了GPT-4o(200B)的84%。
  • 实验结论:小型语言模型在法语毒性检测任务上具有更强的鲁棒性和泛化能力,挑战了单纯依靠模型规模来保证可靠性的常见假设。

2. 链式思考(Chain-of-Thought, CoT)微调实验

  • 实验目的:通过CoT微调策略提高模型在毒性检测任务上的性能和推理忠实度。
  • 实验方法:基于Qwen3-4B模型,采用动态加权损失函数进行CoT微调。通过调整损失权重,逐步增加对模型最终决策的重视程度。
  • 实验设置
    • 数据顺序:随机(r)与课程学习(o)。
    • 类别平衡:不平衡(d)与过采样(e)。
    • 二元分类:通过CoT(c)与直接二元分类(b)。
  • 实验结果:经过CoT微调的4B模型在TOXIFRENCH基准测试中达到了最先进的性能,F1分数比基线模型提高了13%,并且超过了GPT-4o和Deepseek-R1等大型模型。
  • 实验结论:CoT微调策略显著提高了模型的性能和推理忠实度,证明了“小而强”的模型在法语毒性检测任务上的潜力。

3. 在上下文学习(In-Context Learning, ICL)实验

  • 实验目的:评估ICL是否可以通过少量示例有效适应模型到毒性检测任务,而无需进行参数更新。
  • 实验方法:使用Qwen3-4B模型,测试了零样本(zero-shot)、单样本(one-shot)和多样本(few-shot)的ICL配置。
  • 实验结果:ICL提供了适度且不稳定的性能提升。例如,单样本提示将准确率从77%(零样本)提高到81%,但增加更多示例会导致不一致的结果和收益递减。
  • 实验结论:ICL不是毒性检测任务的稳健解决方案,其性能对上下文示例高度敏感,不可预测,因此需要进行完整的微调。

4. 跨语言泛化实验(Cross-Lingual Generalization)

  • 实验目的:评估经过法语微调的模型在英语毒性检测任务上的泛化能力。
  • 实验方法:从JIGSAW数据集中选择198条有毒和198条无毒的评论,将其翻译成法语,并在这些数据上评估微调模型的性能。
  • 实验结果:经过CoT微调的模型在英语和法语数据集上的表现相当,即使模型在法语上进行推理,其在英语数据集上的性能也没有显著下降。
  • 实验结论:经过法语微调的模型具有良好的跨语言泛化能力,表明该方法可以有效地扩展到其他语言和安全关键的分类任务中。

这些实验不仅验证了TOXIFRENCH数据集的有效性和可靠性,还展示了CoT微调策略在提高模型性能和推理忠实度方面的显著效果,并证明了该方法在多语言环境中的潜力。

Q: 有什么可以进一步探索的点?

A: 论文中提出了以下可以进一步探索的点:

1. 动态损失函数的改进

  • 研究方向:探索更复杂的权重调整机制,例如基于推理步骤的损失分解和更细粒度的批次级调整。
  • 潜在价值:更精细的权重调整可能进一步提高模型对最终决策的重视程度,从而提升模型的推理忠实度和整体性能。

2. 自动化课程学习(Automated Curriculum Learning)

  • 研究方向:开发自动化课程学习策略,动态优化批次组成和难度。
  • 潜在价值:自动化课程学习可以根据模型的学习进度和表现自动调整训练数据的难度,从而提高训练效率和模型性能。

3. 增强多语言能力(Enhanced Multilingualism)

  • 研究方向:在更广泛的语言(如意大利语、中文等)上量化模型性能,并推广框架以创建一个强大的多语言模型,能够在输入语言中进行推理。
  • 潜在价值:通过在多种语言上验证和优化模型,可以提高模型在不同语言环境中的通用性和适应性,为多语言毒性检测提供更可靠的解决方案。

4. 跨语言泛化能力的深入评估

  • 研究方向:在更多语言、方言和领域中评估模型的性能,特别是在模型未经过特定语言微调的情况下。
  • 潜在价值:全面评估跨语言泛化能力可以揭示模型在不同语言环境中的优势和局限性,为多语言应用提供更准确的性能预期。

5. 模型的可解释性和透明度

  • 研究方向:研究如何提高模型决策过程的可解释性,使模型的推理过程更加透明。
  • 潜在价值:提高模型的可解释性有助于理解模型的决策依据,增强用户对模型的信任,并为模型的进一步优化提供指导。

6. 模型的鲁棒性测试

  • 研究方向:在面对对抗性攻击、数据分布偏移和复杂语言现象时,评估模型的鲁棒性。
  • 潜在价值:通过测试模型在各种挑战性条件下的表现,可以发现模型的潜在弱点,并采取相应的措施来增强模型的鲁棒性。

7. 社交媒体平台的实际应用

  • 研究方向:将模型应用于实际的社交媒体平台,评估其在真实世界场景中的表现和效果。
  • 潜在价值:实际应用可以验证模型在真实环境中的有效性和实用性,为模型的进一步改进提供实际反馈。

这些方向为未来的研究提供了丰富的可能性,有助于进一步提升模型的性能、泛化能力和实际应用价值。

Q: 总结一下论文的主要内容

A: ### 论文的主要内容概述

研究背景

  • 问题:法语毒性内容检测是一个关键但未被充分研究的领域,主要由于缺乏大规模且文化相关的数据集。
  • 现状:尽管在英语毒性检测方面取得了显著进展,但法语毒性检测仍面临挑战,现有数据集要么是翻译自英语,要么规模较小,无法全面评估模型的泛化能力。

研究目标

  • 创建数据集:构建一个大规模的法语毒性检测基准数据集(TOXIFRENCH),包含53,622条评论。
  • 模型评估:对20多种模型进行基准测试,包括开源的小型语言模型(SLMs)、商业API和最新的大型语言模型(LLMs)。
  • 提出新方法:提出一种基于链式思考(Chain-of-Thought, CoT)的微调策略,通过动态加权损失函数提高模型的推理忠实度和性能。

数据集构建

  • 定义毒性:采用广泛的、文化敏感的毒性定义,包括但不限于仇恨言论、性内容、贬低性言论、威胁等。
  • 数据来源:从高流量的法语在线论坛中收集数据,通过严格的匿名化和过滤流程,保留5到25个单词的评论。
  • 半自动化标注:利用基于LLM的预标注和人工验证相结合的方法,仅对10%的不确定数据进行人工标注,显著减少了人工标注的工作量。
  • 数据集划分:将数据集划分为一个大型的不平衡训练集(52,274条评论,4%为毒性评论)和一个较小的、类别平衡的测试集(1,388条评论)。

模型评估

  • 基准测试:对20多种模型进行了全面评估,发现小型语言模型(SLMs)在鲁棒性和泛化能力上优于许多大型模型。
  • 关键发现:GPT-4o-mini(8B)在TOXIFRENCH基准测试中的准确率为87%,超过了GPT-4o(200B)的84%。

链式思考(CoT)微调

  • CoT微调策略:提出了一种基于动态加权损失函数的CoT微调策略,逐步增加对模型最终决策的损失权重,以提高推理的忠实度。
  • 实验设置:选择Qwen3-4B作为基础模型,利用其指令微调能力和链式思考推理能力,通过QLoRA和量化技术在商业GPU上进行高效微调。
  • 实验结果:经过CoT微调的4B模型在TOXIFRENCH基准测试中达到了最先进的性能,F1分数比基线模型提高了13%,并且超过了GPT-4o和Deepseek-R1等大型模型。

跨语言泛化

  • 跨语言评估:在JIGSAW数据集上评估了微调模型的跨语言泛化能力,发现经过法语微调的模型在英语数据集上也表现良好。
  • 实验结果:经过CoT微调的模型在英语和法语数据集上的表现相当,表明该方法具有多语言应用的潜力。

结论与未来工作

  • 主要贡献:提供了一个高质量的法语毒性检测数据集,提出了一种有效的CoT微调策略,显著提高了模型在这一任务上的性能,并展示了其在多语言环境中的泛化能力。
  • 未来方向:探索更复杂的权重调整机制、自动化课程学习、增强多语言能力和模型的可解释性等。

限制与伦理考量

  • 数据集限制:数据集来源有限,可能无法完全泛化到其他平台或法语地区。
  • 毒性定义的主观性:毒性定义和标注过程存在主观性,可能影响模型的泛化能力。
  • 伦理考量:在数据隐私、标注者福祉、数据和标注偏差以及模型的负责任应用方面进行了详细的伦理考量。

总结

论文通过创建TOXIFRENCH数据集和提出CoT微调策略,显著提高了法语毒性检测的性能,并展示了其在多语言环境中的潜力。这些工作不仅为法语毒性检测提供了新的基准,也为多语言毒性检测提供了新的方法和思路。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Axel Delaval, Shujian Yang, Haicheng Wang, Han Qiu, Jialiang Lu

Categories: cs.CL, cs.AI, cs.CY, 68T50, I.2.7

PDF URL: https://arxiv.org/pdf/2508.11281v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11281v1

Published: 2025-08-15T07:40:41Z


6. LETToT: Label-Free Evaluation of Large Language Models On Tourism Using Expert Tree-of-Thought

Evaluating large language models (LLMs) in specific domain like tourism remains challenging due to the prohibitive cost of annotated benchmarks and persistent issues like hallucinations. We propose $\textbf{L}$able-Free $\textbf{E}$valuation of LLM on $\textbf{T}$ourism using Expert $\textbf{T}$ree-$\textbf{o}$f-$\textbf{T}$hought (LETToT), a framework that leverages expert-derived reasoning structures-instead of labeled data-to access LLMs in tourism. First, we iteratively refine and validate hierarchical ToT components through alignment with generic quality dimensions and expert feedback. Results demonstrate the effectiveness of our systematically optimized expert ToT with 4.99-14.15\% relative quality gains over baselines. Second, we apply LETToT’s optimized expert ToT to evaluate models of varying scales (32B-671B parameters), revealing: (1) Scaling laws persist in specialized domains (DeepSeek-V3 leads), yet reasoning-enhanced smaller models (e.g., DeepSeek-R1-Distill-Llama-70B) close this gap; (2) For sub-72B models, explicit reasoning architectures outperform counterparts in accuracy and conciseness ($p<0.05$). Our work established a scalable, label-free paradigm for domain-specific LLM evaluation, offering a robust alternative to conventional annotated benchmarks.

中文摘要

翻译失败: Unexpected end of JSON input

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决在特定领域(如旅游)中评估大型语言模型(LLMs)所面临的挑战。具体问题包括:

  • 高昂的标注成本:传统的评估方法依赖于成本高昂的标注基准,这在旅游等专业领域尤为突出。
  • 模型幻觉问题:LLMs 会生成看似合理但错误的信息,这损害了它们的可靠性。
  • 旅游问答(QA)的独特性:旅游 QA 关注实际的旅行相关查询,需要实时数据访问(如航班状态、酒店可用性)和基于用户偏好的个性化推荐,这与传统的、依赖静态内容的 QA 任务有很大不同。
  • 多维度评估的缺失:现有的评估方法(如二元检查)通常无法捕捉到旅游 QA 的多维度特性,包括主题相关性、上下文适应性、逻辑连贯性、创造性、准确性、完整性和实用性等七个方面。

为了解决这些问题,论文提出了 LETToT(Label-Free Evaluation of LLM on Tourism using Expert Tree-of-Thought),这是一个利用专家推导的推理结构来评估旅游领域 LLMs 的框架,无需依赖标注数据。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

旅游问答中的 LLMs

  • LLMs 在旅游问答中的潜力:LLMs 在旅游问答中表现出显著潜力,能够通过预训练和微调在多轮对话、知识检索和个性化推荐方面表现出色。例如,Bactrainus 通过增强复杂多跳推理来提升旅游问答的性能[^Barati2025^]。
  • LLMs 在旅游问答中的挑战:尽管取得了进展,但 LLMs 在旅游问答中仍面临挑战,如生成看似合理但错误的信息(幻觉)[^Kumar2024^]。此外,LLMs 在跨领域任务中表现不佳,整合外部知识库(如旅游数据库)仍然具有挑战性[^Yue2024^]。
  • 先进的推理框架:最近的方法通过先进的推理框架来缓解这些问题。例如,RoT 使用搜索树经验来改进多步问答[^Hui2024^],AgentCOT 通过基于证据的多轮生成来增强可控性和可解释性[^Liang2024^]。

Tree of Thought 在 LLM 问答系统中的应用

  • ToT 框架:ToT 框架通过基于树的搜索和多路径探索来增强 LLM 的推理能力,优化问题解决过程[^Yao2023^]。
  • ToT 的改进:例如,Tree of Uncertain Thought(TouT)通过概率评估减少推理偏差[^Mo2023^],MetaReasoning Prompting(MRP)通过动态选择策略提高准确性[^Gao2024^],SEED 框架通过加速 ToT 提高效率[^Wang2024^]。
  • ToT 在旅游问答中的应用:尽管 ToT 在提升 LLM 决策制定方面表现出潜力,但其在旅游问答中的应用尚未得到充分探索。本研究旨在通过系统化的方法将领域专家知识转化为最优的 ToT 提示[^Yao2023^]。

LLM 生成旅游回答的评估

  • 评估挑战:评估 LLM 在旅游问答中生成的回答面临诸多挑战,如事实错误、文化不敏感以及实时更新的需求[^Wei2024^]。
  • 现有评估方法:现有的评估方法通常依赖于人工标注,评估信息完整性、逻辑连贯性和文化适应性[^Yang2020^]。
  • 多维度评估框架:本研究提出了一个七维度评估框架,以克服传统指标的局限性,建立一个稳健的、特定于领域的 LLM 性能评估基准[^Wei2024^]。

Q: 论文如何解决这个问题?

A: 论文通过提出 LETToT(Label-Free Evaluation of LLM on Tourism using Expert Tree-of-Thought)框架来解决在旅游领域评估大型语言模型(LLMs)的问题。该框架主要通过以下两个阶段来实现:

第一阶段:迭代验证和优化专家 Tree-of-Thought(ToT)组件

  • 领域查询分析:通过分析真实世界的旅游问答数据,将查询按照旅行阶段(规划、行前咨询、行程中指导)和意图进行分类,并识别出11种旅游主题(如文化、自然、温泉等)。
  • 专家 ToT 框架构建:将上述查询类型和旅游主题整合到一个双层分类体系中,通过嵌入这种层次结构的提示工程来提升 LLM 生成回答的质量。
  • 迭代验证与优化:通过与通用质量维度对齐和专家反馈,迭代验证和优化 ToT 组件。使用 LLM-judge 对 3240 个旅游相关问题进行评估,采用直接评分和层次分析法(AHP)配对评分两种机制来量化回答质量,并通过 AHP 加权评分系统优化评分。

第二阶段:使用优化后的专家 ToT 进行领域特定的 LLM 评估

  • 基础分数(Base Score):评估回答中涵盖的一般旅游元素的覆盖情况,如规划(预算管理)、咨询(风险评估)和指导(路线优化)。
  • 效率因子(Efficiency Factor):通过逻辑函数量化文本的信息密度,基于覆盖的元素总数和文本长度来衡量信息效率。
  • 综合评分公式:将基础分数、特定主题分数和效率因子结合起来,形成一个综合评分公式,用于评估旅游相关文本的质量。该公式可以根据不同的情境调整权重,以优先考虑一般或特定元素。

通过这两个阶段,LETToT 框架提供了一个可扩展的、无需标签的范式,用于特定领域的 LLM 评估,结合了领域专业知识和通用内容质量评估,为旅游问答系统中的 LLM 性能提供了一个稳健的评估方法。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验:

实验设计

  • 数据准备:构建了一个包含3240条记录的数据集,这些记录来自五个开源LLMs(见表1)的输出以及从旅游论坛、博客和社交媒体平台提取的网络文本。数据集设计为LLM生成内容与网络来源内容的比例为60:40,以确保多样性。预处理包括移除非文本元素、过滤近似重复内容(通过Levenshtein相似度验证)以及将文本标准化为UTF-8编码。
  • 实验控制和优化:开发了一个综合评分公式,用于区分不同模型输出的内容质量,并与已建立的性能排名进行基准测试。通过排除无效记录和实施计算保障措施来维护数据完整性,确保元素识别和评分过程的稳定性和可靠性。

研究问题

  • RQ1:将特定领域的专家知识整合到LLM评估流程中,如何增强对旅游问答中模型性能的评估?
  • RQ2:LETToT提供了哪些见解,与传统的监督式基准相比,如何评估旅游问答中LLM的性能?

实验结果

  • RQ1:通过比较基线(原始输入)和优化(旅游专家提示)回答,使用LETToT框架评估七个内容质量维度(主题相关性、上下文适应性、逻辑连贯性、创造性、准确性、完整性和实用性)。结果表明,专家引导的提示优化显著提高了回答质量,提升范围从+4.99%到+14.15%。具有推理能力的模型(如DS-32B和DS-70B)在优化提示下表现出最大的改进,超过了Qwen-72B和Qwen-32B。
  • RQ2:通过与通用内容质量的直接评分比较,LETToT框架提供了特定领域的LLM性能见解,排名DS-V3最高,其次是DS-70B、DS-32B、Qwen-72B和Qwen-32B。在32B到72B参数范围内的推理增强模型在准确性和简洁性方面显著优于非推理模型(p < 0.05),这一特点在通用评估中不太明显。与HuggingFace的Open LLM Leaderboard等通用LLM排行榜相比,LETToT的排名存在显著差异,这表明LETToT能够提供特定领域的评估,强调了在需要专业知识的领域中推理能力的重要性。

具体实验结果

  • 模型性能排名:DS-V3在综合评分中表现最佳,其次是DS-70B和DS-32B。Qwen-72B和Qwen-32B得分较低,且分布更集中。DS模型表现出更高的分数和更大的变异性,而Qwen模型则更注重紧凑性,但以牺牲峰值性能为代价。
  • 统计分析:通过p值热图(图7)确认了DS-V3显著优于Qwen-72B(p = 0.019)和Qwen-32B(p = 0.0004),而DS-70B和DS-32B也超过了Qwen-32B(p = 0.019和p = 0.045)。在DS模型之间没有观察到显著差异(p > 0.32)。
  • 文本长度分析:分析表明,较短的输出(<500个标记)与更高的分数相关,而较长的输出则导致收益递减。

Q: 有什么可以进一步探索的点?

A: 论文提出了一种新颖的框架 LETToT,用于在旅游领域评估大型语言模型(LLMs),并展示了其有效性。尽管如此,仍有一些可以进一步探索的点:

1. 跨领域适应性

  • 其他领域的应用:虽然 LETToT 框架针对旅游领域进行了优化,但其基本思想可以扩展到其他需要专业知识的领域,如医疗、法律、金融等。研究如何将 LETToT 适应到这些领域,可能会带来新的见解和改进。
  • 多领域综合评估:探索如何将 LETToT 与其他领域的评估框架结合,以实现跨领域的综合评估。这可能有助于开发更通用的 LLM 评估工具。

2. 动态数据更新

  • 实时数据集成:旅游 QA 常常需要实时数据(如航班状态、酒店可用性)。研究如何将实时数据集成到 LETToT 框架中,以评估 LLM 在处理动态信息时的表现。
  • 动态评估机制:开发动态评估机制,能够实时反馈 LLM 的性能变化,特别是在数据更新频繁的场景中。

3. 用户偏好和个性化

  • 用户偏好建模:进一步研究如何将用户偏好更精细地建模到 LETToT 框架中,以评估 LLM 在个性化推荐方面的表现。这可能涉及开发更复杂的用户画像和偏好预测算法。
  • 多用户交互评估:评估 LLM 在多用户交互场景中的表现,例如在团队旅行规划中,如何平衡不同用户的偏好和需求。

4. 模型改进和优化

  • 推理能力增强:研究如何进一步增强 LLM 的推理能力,特别是在旅游 QA 中。这可能包括开发新的推理框架或改进现有的 ToT 框架。
  • 模型微调:探索如何通过微调 LLM 来提高其在旅游 QA 中的性能,特别是在特定的旅游主题或查询类型上。

5. 多语言支持

  • 跨语言评估:研究如何将 LETToT 框架扩展到多语言环境,以评估 LLM 在不同语言的旅游 QA 中的表现。这可能涉及开发多语言的 ToT 框架和评估标准。
  • 文化适应性:进一步研究如何评估 LLM 在不同文化背景下的适应性,特别是在处理文化敏感信息时的表现。

6. 评估指标的进一步细化

  • 细粒度评估指标:开发更细粒度的评估指标,以更精确地评估 LLM 在旅游 QA 中的表现。例如,可以引入更多关于用户体验和满意度的指标。
  • 长期效果评估:研究如何评估 LLM 在长期旅游规划中的表现,例如在多日行程规划中的连贯性和实用性。

7. 与其他技术的结合

  • 知识图谱集成:研究如何将知识图谱集成到 LETToT 框架中,以增强 LLM 对旅游知识的理解和推理能力。
  • 多模态评估:探索如何将多模态数据(如图像、视频)纳入评估框架,以评估 LLM 在处理多模态旅游信息时的表现。

8. 可扩展性和自动化

  • 自动化评估流程:研究如何进一步自动化 LETToT 框架中的评估流程,以提高评估效率和可扩展性。
  • 大规模数据集:构建更大规模的旅游 QA 数据集,以支持更广泛的评估和研究。

这些进一步探索的点不仅有助于提升 LETToT 框架的性能和适用性,还可能为 LLM 在特定领域的应用提供更深入的理解和改进方向。

Q: 总结一下论文的主要内容

A:

Authors: Ruiyan Qi, Congding Wen, Weibo Zhou, Shangsong Liang, Lingbo Li

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2508.11280v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11280v1

Published: 2025-08-15T07:37:12Z


7. Is General-Purpose AI Reasoning Sensitive to Data-Induced Cognitive Biases? Dynamic Benchmarking on Typical Software Engineering Dilemmas

Human cognitive biases in software engineering can lead to costly errors. While general-purpose AI (GPAI) systems may help mitigate these biases due to their non-human nature, their training on human-generated data raises a critical question: Do GPAI systems themselves exhibit cognitive biases? To investigate this, we present the first dynamic benchmarking framework to evaluate data-induced cognitive biases in GPAI within software engineering workflows. Starting with a seed set of 16 hand-crafted realistic tasks, each featuring one of 8 cognitive biases (e.g., anchoring, framing) and corresponding unbiased variants, we test whether bias-inducing linguistic cues unrelated to task logic can lead GPAI systems from correct to incorrect conclusions. To scale the benchmark and ensure realism, we develop an on-demand augmentation pipeline relying on GPAI systems to generate task variants that preserve bias-inducing cues while varying surface details. This pipeline ensures correctness (88—99% on average, according to human evaluation), promotes diversity, and controls reasoning complexity by leveraging Prolog-based reasoning and LLM-as-a-judge validation. It also verifies that the embedded biases are both harmful and undetectable by logic-based, unbiased reasoners. We evaluate leading GPAI systems (GPT, LLaMA, DeepSeek) and find a consistent tendency to rely on shallow linguistic heuristics over deep reasoning. All systems exhibit cognitive biases (ranging from 5.9% to 35% across types), with bias sensitivity increasing sharply with task complexity (up to 49%), highlighting critical risks in real-world software engineering deployments.

中文摘要

人类认知偏差在软件工程中可能导致昂贵的错误。虽然通用人工智能(GPAI)系统可能由于其非人类性质帮助减轻这些偏差,但其基于人类生成数据的训练引发了一个关键问题:GPAI系统本身是否表现出认知偏差?为了调查这一点,我们提出了第一个动态基准测试框架,以评估软件工程工作流中GPAI所带来的数据诱导的认知偏差。从16个手工制作的现实任务的种子集开始,每个任务展示了其中一种认知偏差(例如,锚定效应、框架效应)及其相应的无偏变体,我们测试了与任务逻辑无关的诱导偏差的语言线索是否能使GPAI系统从正确结论推导至错误结论。为了扩展基准并确保现实性,我们开发了一种按需增强管道,依赖GPAI系统生成保持诱导偏差线索的任务变体,同时改变表面细节。该管道确保了正确性(根据人工评估平均为88-99%),促进多样性,并通过利用基于Prolog的推理和大型语言模型作为裁判的验证来控制推理复杂性。它还验证了嵌入的偏差是有害的,并且逻辑基础和无偏推理者无法探测到。我们评估了领先的GPAI系统(GPT、LLaMA、DeepSeek),发现它们都有明显依赖表层语言启发式而非深度推理的趋势。所有系统均表现出认知偏差(各类偏差范围从5.9%到35%),偏差敏感性随着任务复杂度的增加而急剧上升(最高达49%),突显出实际软件工程部署中的关键风险。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是:通用人工智能(General-Purpose AI, GPAI)系统在软件工程工作流程中是否会展现出由数据诱导的认知偏差(cognitive biases)。具体来说,论文关注的核心问题是:

  • 人类在软件工程中的认知偏差可能导致代价高昂的错误,而GPAI系统虽然具有非人类的特性,可能有助于减少这些偏差,但由于它们是基于人类生成的数据进行训练的,因此可能会继承人类的认知偏差。
  • 论文通过构建一个动态基准测试框架,来评估GPAI系统在软件工程任务中对数据诱导的认知偏差的敏感性。研究团队从一组手工制作的包含认知偏差的任务出发,测试这些偏差是否会导致GPAI系统从正确的结论转向错误的结论,即使这些任务的逻辑内容没有变化,只是语言表达方式不同。

论文的目标是通过实验来验证GPAI系统是否会在软件工程任务中表现出认知偏差,并且这种偏差是否会随着任务复杂性的增加而加剧,从而为软件工程领域中GPAI系统的可靠性和安全性提供实证依据。

Q: 有哪些相关研究?

A: 本文引用了以下相关研究:

认知偏差在软件工程中的影响

  • Chattopadhyay et al. (2020): 研究了开发者行为中的认知偏差,发现锚定偏差(anchoring bias)等会导致成本高昂的返工。
  • Calikli and Bener (2010): 分析了确认偏差(confirmation bias)对软件开发者/测试者表现的影响。
  • Mohanani et al. (2018): 对软件工程中的认知偏差进行了系统映射研究,识别了八种主要的认知偏差家族。
  • Fleischmann et al. (2014): 对信息系统研究中的认知偏差进行了科学计量分析。

认知偏差的定义和分类

  • Haselton et al. (2015): 讨论了认知偏差的进化起源,提供了对认知偏差的理论基础。
  • Tversky and Kahneman (1974): 经典研究,提出了启发式和偏差理论,为理解人类决策中的系统性偏差奠定了基础。

人工智能中的认知偏差

  • Schmidgall et al. (2024): 在医学领域评估和缓解医疗语言模型中的认知偏差。
  • Wang and Redelmeier (2024): 探讨了人工智能中的认知偏差,特别是在医疗决策中的应用。
  • Echterhoff et al. (2024): 研究了在决策中使用大型语言模型时的认知偏差。

动态基准测试和数据集构建

  • Parrish et al. (2022): 构建了用于检测问答系统中社会偏见的基准数据集。
  • Zhou et al. (2022): 提出了一个框架,用于识别对话系统中的社会偏见。
  • Fan et al. (2024): 提供了一个用于检测社会偏见的工具。
  • Chang et al. (2024): 对大型语言模型的评估进行了综述。
  • Cohen-Inger et al. (2025): 提出了动态基准测试的概念,强调了模型的适应性和泛化能力。
  • Wang et al. (2023): 提出了一个因果视角下的实体偏见分析方法。

软件工程中的大型语言模型应用

  • Weber et al. (2024): 研究了大型语言模型在编程中的应用,展示了其在提高生产力方面的潜力。
  • Rajbhoj et al. (2024): 探讨了如何使用生成式人工智能加速软件开发。

认知偏差的实验研究

  • Chen et al. (2021): 对回顾性和前瞻性事后偏差进行了复制和扩展研究。
  • Chen et al. (2025): 对大型语言模型基准测试中的数据污染问题进行了综述。

认知偏差的自动检测和缓解

  • Turpin et al. (2023): 研究了大型语言模型解释的忠实性。
  • Matton et al. (2025): 测量了大型语言模型解释的忠实性。
  • Li et al. (2024, 2025): 探讨了大型语言模型作为法官的潜力和挑战。

认知偏差的理论和实践

  • Akbar et al. (2023): 讨论了ChatGPT在软件工程研究中的伦理风险。
  • Giretti (2025): 提供了关于软件工程中最佳实践的指导,如DRY和KISS原则。

这些研究为本文提供了理论基础和方法论支持,帮助作者构建了一个动态基准测试框架,用于评估GPAI系统在软件工程任务中的认知偏差敏感性。

Q: 论文如何解决这个问题?

A: 论文通过构建一个动态基准测试框架来解决GPAI系统在软件工程任务中是否会展现出由数据诱导的认知偏差的问题。以下是论文解决该问题的具体步骤:

1. 构建手工艺品种子语料库(Hand-Crafted Seed Corpus)

  • 选择认知偏差类型:基于Fleischmann等人的分类,选择软件工程中最常见的八种认知偏差(如锚定偏差、框架效应等)。
  • 收集真实世界实例:从Chattopadhyay等人的研究中收集每种偏差的至少两个真实世界实例。
  • 构建任务对:将每个实例转化为一对任务描述,一个包含认知偏差(biased),一个不包含(unbiased)。每对任务在逻辑内容上相同,仅在语言表达上有所不同。
  • 验证任务对:通过Prolog程序验证任务对的逻辑一致性,并确保GPAI系统在至少80%的运行中与Prolog的决策一致。

2. 动态基准测试协议(Dynamic Benchmarking Protocol)

  • 基于提示的扩展(Prompt-Based Expansion):使用参数化指令,让GPAI系统生成新的任务对,确保生成的任务对在结构上与种子任务对相似。
  • Prolog转换(Prolog Conversion):将生成的自然语言任务对转换为Prolog程序,确保逻辑一致性。
  • 内部相似性检查(Intra-Dilemma Similarity Check):计算生成的偏见版本和无偏见版本之间的相似度,确保它们在语义上足够相似。
  • 偏见存在和中立性检查(Bias Existence and Neutrality Checks via Prolog):通过Prolog程序验证偏见版本和无偏见版本的逻辑一致性,并确保偏见版本确实引入了偏见。
  • 程序-任务对齐检查(Program-Dilemma Alignment Check):通过将Prolog程序重新转换为自然语言任务,验证转换过程中的语义一致性。
  • 决策匹配和一致性审计(Decision Matching and Agreement Auditing):确保GPAI系统在多次运行中对任务的决策一致,并与Prolog程序的决策一致。
  • 跨任务碰撞避免(Inter-Dilemma Collision Avoidance):确保不同任务对之间没有高重叠度,保证数据集的多样性。

3. 实验设计和评估

  • 模型选择:选择三种成本效益高的GPAI系统(GPT-4o Mini、GPT-4.1 Mini和DeepSeek-R1-DistillLLaMA-70B)生成数据,并使用六种不同的GPAI系统(包括生成数据的模型和额外的模型)进行评估。
  • 数据验证:通过人工评估验证生成的任务对的正确性和多样性。
  • 基准测试:评估GPAI系统在不同认知偏差类型和任务复杂性水平下的偏见敏感性。
    • 偏见敏感性(Bias Sensitivity):计算模型在偏见版本和无偏见版本之间改变决策的比例。
    • 复杂性感知偏见敏感性(Complexity-Aware Bias Sensitivity):根据Prolog推理步骤将任务分为不同复杂性层级,分析偏见敏感性是否随复杂性增加而增加。
    • 偏见意识(Bias Awareness):评估模型是否明确承认其决策受到特定认知偏差的影响。

4. 结果分析

  • 手动验证:通过人工评估验证生成的任务对的正确性和多样性。
  • 偏见敏感性分析:发现所有评估的GPAI系统都表现出不同程度的偏见敏感性,平均敏感性从锚定偏差的5.9%到事后偏差的35.3%不等。
  • 复杂性影响:发现偏见敏感性随着任务复杂性的增加而显著增加,这表明在复杂任务中,GPAI系统更容易受到认知偏差的影响。
  • 偏见意识:评估了模型在决策过程中对偏见的自我意识,发现不同模型在不同偏见类型上的意识水平存在显著差异。

5. 讨论和未来工作

  • 讨论:论文讨论了GPAI系统对认知偏差的敏感性对实际应用的影响,提出了可能的缓解策略,如结合符号推理工具进行交叉验证。
  • 未来工作:提出了基于动态基准测试框架的未来研究方向,包括训练时的去偏(de-biasing)、更多的符号交叉检查、更多的复杂性度量,以及探索因果探针以区分数据模仿和资源限制。

通过这些步骤,论文系统地评估了GPAI系统在软件工程任务中对数据诱导的认知偏差的敏感性,并提供了实证依据,表明这些系统在复杂任务中更容易受到认知偏差的影响。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来评估GPAI系统在软件工程任务中对数据诱导的认知偏差的敏感性:

1. 数据生成和验证

  • 手工艺品种子语料库的构建:作者手工创建了16个任务对,每对包含一个有认知偏差的版本和一个无认知偏差的版本,涵盖了八种不同的认知偏差类型。这些任务对基于真实世界的软件工程场景,通过Prolog程序验证其逻辑一致性和正确性。
  • 动态基准测试协议:使用一个端到端的数据增强流程,从种子语料库开始,生成一个大型、多样化的、无碰撞的、带有偏见注释的两难困境集合。该流程包括多个步骤,如基于提示的扩展、Prolog转换、内部相似性检查、偏见存在检查、Prolog认证的偏见中立性检查、Prolog-困境对齐检查、Prolog-LLM决策匹配检查和跨困境相似性检查以避免碰撞。

2. 模型评估

  • 模型选择:选择了三种成本效益高的GPAI系统(GPT-4o Mini、GPT-4.1 Mini和DeepSeek-R1-DistillLLaMA-70B)来生成数据,并使用六种不同的GPAI系统(包括生成数据的模型和额外的模型)进行评估。
  • 数据验证方法:通过人工评估验证生成的两难困境的正确性和多样性。具体来说,随机抽取了120个两难困境(每个数据集40个),由三位计算机科学专家进行评估,验证Prolog程序的正确性以及两难困境的正确性。
  • 基准测试方法:设计了一系列实验来评估GPAI系统在偏见敏感性、复杂性感知偏见敏感性和偏见意识方面的表现。

3. 偏见敏感性分析

  • 偏见敏感性:通过比较模型在有偏见和无偏见版本的同一两难困境中的决策变化来衡量数据诱导的偏见敏感性。高敏感性表明模型的输出容易受到表面语言线索的影响,尽管这两个版本需要相同的推理。
  • 复杂性感知偏见敏感性:根据Prolog推理步骤将两难困境分为不同的复杂性层级(低、中低、中高、高),并计算每个复杂性层级中的平均敏感性,以评估模型是否随着任务复杂性的增加而更容易受到偏见的影响。
  • 偏见意识:评估模型是否在决策过程中明确承认受到特定认知偏见的影响。通过让模型评估带有偏见定义的有偏见和无偏见的文本,并确定模型是否确认无偏见文本是无偏见的,以及有偏见的文本是否倾向于Prolog错误的选项。

4. 结果分析

  • 手动验证结果:人工验证支持了协议的有效性,98.5%的分析两难困境被认为是正确的(多数投票;99%对于同一任务检查,98%对于偏见存在),92%的Prolog程序被认为是准确的(88%对于程序-困境对齐,96%对于公理适当性)。
  • 生成的两难困境的多样性:通过测量语义(余弦)相似性和Levenshtein距离来评估多样性。结果显示,生成的两难困境在偏见和来源方面具有显著的多样性。
  • 协议的可扩展性:通过计算生成相同数量的有效两难困境所需的步骤数(即被协议丢弃的两难困境数量)来衡量协议的可扩展性。结果表明,模型的能力对协议的可扩展性有显著影响。
  • 模型的偏见敏感性:所有评估的模型都表现出对偏见的敏感性,平均敏感性从锚定偏见的5.9%到事后偏见的35.3%不等。敏感性随着Prolog测量的推理复杂性的增加而显著增加,这与人类在面对更困难问题时更容易依赖启发式的行为相呼应。
  • 偏见意识:模型对偏见的意识并不均匀,不同的偏见类型和模型之间存在显著差异。事后偏见的意识最低(12%到52%),而双曲贴现偏见的意识最高(87%到99%)。

这些实验结果为理解GPAI系统在软件工程任务中对认知偏差的敏感性提供了深入的见解,并揭示了在实际应用中可能存在的风险。

Q: 有什么可以进一步探索的点?

Authors: Francesco Sovrano, Gabriele Dominici, Rita Sevastjanova, Alessandra Stramiglio, Alberto Bacchelli

Categories: cs.HC, cs.AI, cs.SE

PDF URL: https://arxiv.org/pdf/2508.11278v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11278v1

Published: 2025-08-15T07:29:46Z


8. Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information

Large Reasoning Models (LRMs) have demonstrated remarkable problem-solving abilities in mathematics, as evaluated by existing benchmarks exclusively on well-defined problems. However, such evaluation setup constitutes a critical gap, since a genuine intelligent agent should not only solve problems (as a math quiz solver), but also be able~to ask for information when the problems lack sufficient information, enabling proactivity in responding users’ requests. To bridge such gap, we proposes a new dataset consisting of two types of incomplete problems with diverse contexts. Based on the dataset, our systematical evaluation of LRMs reveals their inability in proactively asking for information. In addition, we uncover the behaviors related to overthinking and hallucination of LRMs, and highlight the potential and challenges of supervised fine-tuning in learning such ability. We hope to provide new insights in developing LRMs with genuine intelligence, rather than just solving problems.

中文摘要

大型推理模型(LRMs)在数学问题解决能力上显示出了显著的表现,这一点是通过现有基准仅在明确的问题上进行评估的。然而,这样的评估设置存在一个关键的缺口,因为一个真正的智能体不仅应该解决问题(例如数学测验解决者),还应该能够在问题缺乏足够信息时主动寻求信息,从而能够积极响应用户的请求。为了填补这一缺口,我们提出了一个新的数据集,包含两种类型的具有不同背景的未完成问题。基于该数据集,我们对LRMs的系统评估揭示了其在主动请求信息方面的能力不足。此外,我们还发现了与LRMs相关的过度思考和幻觉行为,并强调了在学习这种能力时监督微调的潜力和挑战。我们希望为开发具有真正智能的LRMs提供新的见解,而不仅仅是解决问题。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是:现有的大型推理模型(Large Reasoning Models, LRMs)在解决数学问题方面表现出色,但它们缺乏在问题信息不完整时主动寻求信息的能力。作者指出,一个真正智能的代理(agent)不仅应该能够解决定义良好的问题,还应该能够在面对信息不完整的问题时主动询问以获取必要的信息,以便更好地响应用户的请求。然而,目前的LRMs在这一方面存在明显不足,它们往往试图在信息不完整的情况下强行解决问题,导致过度思考(overthinking)和产生幻觉(hallucination)。

为了解决这一问题,论文提出了一个新的数据集CRITIC-math,用于系统地评估LRMs在面对不完整问题时主动寻求信息的能力,并探讨了通过监督微调(Supervised Fine-Tuning, SFT)来训练LRMs学习这种能力的潜力和挑战。

Q: 有哪些相关研究?

A: 论文中提到了多个与之相关的研究领域,以下是这些相关研究的详细信息:

1. 识别不完整问题的能力

  • 心理学和认知科学角度:在心理学和认知科学中,儿童识别数学问题中缺失信息的能力被认为是智力的重要指标,反映了他们对问题结构的理解(schematic knowledge)和元认知能力(metacognition)。
    • Frank N Dempster 和 Alice J Corkill [35]:研究了教育心理学中的干扰和抑制现象。
    • Kellah Edens 和 Ellen Potter [36]:探讨了学生如何“解包”文字问题的结构。
    • Renae Low 和 R. Over [37]:研究了学生在代数故事问题中检测缺失和无关信息的能力。
    • Emily R Lai [38]:对元认知进行了文献综述。
    • Melissa S Medina, Ashley N Castleberry, 和 Adam M Persky [39]:研究了在健康专业教育中提高学习者元认知的策略。
  • LRMs的认知行为:最近的研究开始从认知角度探索LRMs的能力。
    • Kanishk Gandhi 等人 [40]:研究了使自我改进推理器有效的认知行为。

2. 澄清用户请求

  • 自然语言处理中的模糊性和不完整性:自然语言中的模糊性和不完整性是一个长期存在的挑战,许多研究致力于识别和解决这些问题。
    • Steven T Piantadosi, Harry Tily, 和 Edward Gibson [46]:研究了语言中的模糊性及其在沟通中的功能。
    • Thomas Wasow, Amy Perfors, 和 David Beaver [47]:探讨了语言中的模糊性难题。
    • Tamar Degani 和 Natasha Tokowicz [48]:对语言中的语义模糊性进行了综合回顾。
  • LLMs中的模糊性处理:在LLMs时代,许多研究探索了如何处理各种场景中的模糊性。
    • Lorenz Kuhn, Yarin Gal, 和 Sebastian Farquhar [52]:研究了自然语言生成中的语义不确定性。
    • Sewon Min 等人 [53]:提出了AmbigQA,用于回答开放域中的模糊问题。
    • Sanxing Chen 等人 [54]:研究了基于语言代理的交互式信息寻求。

3. 主动澄清问题的基准测试

  • 现有基准测试:现有的基准测试主要集中在一般领域中的用户请求,如任务导向的对话。
    • Paweł Budzianowski 等人 [59]:提出了MultiWOZ,一个多领域向导对话数据集。
    • Abhinav Rastogi 等人 [60]:提出了Schema-Guided Dialogue数据集。
    • Valerio Basile 等人 [61]:讨论了在评估中考虑分歧的重要性。
    • Ruyuan Wan, Jaehyung Kim, 和 Dongyeop Kang [62]:研究了使用人口统计信息量化注释分歧。
  • 数学推理中的基准测试:在数学推理领域,现有的基准测试主要集中在解决定义良好的问题。
    • AoPS Online [8]:提供了2024年AIME I的数学问题。
    • Hunter Lightman 等人 [9]:提出了MATH 500数据集。
    • Bofei Gao 等人 [10]:提出了Omni-MATH,一个针对大型语言模型的奥林匹克数学基准。
    • Hugging Face [11]:提供了OpenR1-Math,一个完全开放的Deepseek-R1复现。

4. 其他相关研究

  • 主动学习和强化学习:主动学习和强化学习领域也涉及识别和获取缺失信息。
    • Pengzhen Ren 等人 [41]:对深度主动学习进行了综述。
    • Yarin Gal, Riashat Islam, 和 Zoubin Ghahramani [42]:研究了深度贝叶斯主动学习在图像数据中的应用。
    • Richard S Sutton 和 Andrew G Barto [43]:介绍了强化学习的基本概念。
    • Aidan Curtis 等人 [44]:研究了部分可观测任务和运动规划中的不确定性和风险意识。
    • Camille Phiquepal 和 Marc Toussaint [45]:提出了部分可观测任务和运动规划的优化方法。

这些相关研究为本文的研究提供了理论基础和背景,帮助作者更好地理解LRMs在面对不完整问题时的行为,并提出了新的方法来评估和改进这些模型的能力。

Q: 论文如何解决这个问题?

A: 为了解决大型推理模型(LRMs)在面对信息不完整的问题时无法主动寻求信息的问题,论文提出了以下解决方案:

1. 提出新的数据集 CRITIC-math

  • 数据集构建:CRITIC-math 数据集包含两种类型的不完整数学问题:缺少目标(Missing Goal)和缺少前提(Missing Premises)。该数据集通过重写开源数据集中的定义良好的问题来构建,经过手动验证以确保质量。
  • 数据集特点
    • 多样性:包含来自不同难度水平的数学问题。
    • 现实性:问题以自由形式呈现,更接近现实世界中的问题。
    • 训练集:提供了训练集,允许研究者探索微调对模型主动寻求信息能力的影响。

2. 系统评估 LRMs 的能力

  • 评估指标:使用多种指标来评估 LRMs 在面对不完整问题时主动寻求信息的能力,包括澄清比率(Clarification Ratio, CR)、思考长度(Thoughts Lengths, TLC 和 TLNC)、澄清准确性(Clarification Accuracy, ACC)等。
  • 实验设置:采用两种提示方式(隐式提示和显式提示)来评估 LRMs 的表现,以了解它们在不同提示条件下的行为。
  • 评估结果:发现现有的 LRMs 在主动寻求信息方面表现不佳,即使在显式提示下,澄清比率也仅为 50% 左右,且在困难问题上表现更差。

3. 探索监督微调(SFT)的潜力和挑战

  • SFT 训练数据:使用 Deepseek R1 生成的训练数据,包括定义良好的问题和不完整问题的澄清回答。
  • 模型训练:基于 Qwen3-8B-Base,训练了两个模型:CRITIC-Qwen(仅使用答案)和 CRITIC-Qwen-thinking(同时使用思考过程和答案)。
  • 评估结果:SFT 显著提高了模型在不完整问题上主动寻求信息的能力,CRITIC-Qwen 和 CRITIC-Qwen-thinking 的澄清比率和准确性均超过了现有的 LRMs。
  • 挑战分析:发现了一个困境,即当前的深度思考模式可能会削弱模型主动寻求信息的能力。这表明在开发 LRMs 时,需要平衡解决问题和主动寻求信息的能力。

4. 提供新的见解和指导

  • 研究贡献:通过系统评估和实验,论文揭示了 LRMs 在主动寻求信息方面的不足,并提出了通过 SFT 改进这一能力的方法。
  • 未来方向:论文强调了开发真正智能的 LRMs 的重要性,这些模型不仅能够解决问题,还能在信息不完整时主动寻求信息,以更好地应对现实世界中的不确定性。

通过这些方法,论文为开发能够主动寻求信息的 LRMs 提供了新的思路和方向,有助于推动人工智能在数学推理领域的进一步发展。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来评估大型推理模型(LRMs)在面对不完整问题时主动寻求信息的能力,并探索监督微调(SFT)的效果:

1. 评估 LRMs 的能力(RQ1)

  • 数据集:使用新构建的 CRITIC-math 数据集,包含两种类型的不完整问题(缺少目标和缺少前提),以及定义良好的问题。
  • 模型选择:选择了 Deepseek-R1、Qwen3-plus、Claude 3.7、OpenAI o3-mini 和 Grok-3-mini-beta 等 LRMs 进行评估。
  • 提示设置
    • 隐式提示:仅提供问题,要求 LRMs 主动提出澄清问题。
    • 显式提示:明确指示 LRMs 在需要时提出澄清问题。
  • 评估指标
    • 澄清比率(Clarification Ratio, CR):提出问题的回答百分比。
    • 思考长度(Thoughts Lengths, TLC 和 TLNC):在提出和未提出问题时生成的思考长度。
    • 澄清准确性(Clarification Accuracy, ACC):在不完整问题上提出澄清问题、在定义良好的问题上不提出澄清问题的总体百分比。
  • 结果
    • LRMs 在隐式提示下的澄清比率和准确性较低,表明它们缺乏主动寻求信息的能力。
    • 显式提示可以提高澄清比率和准确性,但仍然有限,表明 LRMs 在主动寻求信息方面存在挑战。
    • 在面对缺少前提的问题时,LRMs 会过度思考,思考长度显著增加。
    • 在面对缺少目标的问题时,LRMs 会幻觉出目标并尝试解决问题,而不是提出澄清问题。

2. 评估监督微调(SFT)的效果(RQ2)

  • SFT 训练数据:使用 Deepseek R1 生成的训练数据,包括定义良好的问题的正确答案和不完整问题的澄清回答。
  • 模型训练
    • CRITIC-Qwen:仅使用答案进行训练。
    • CRITIC-Qwen-thinking:同时使用思考过程和答案进行训练。
    • 变体:CRITIC-QwenW/I 和 CRITIC-Qwen-thinkingW/I,分别表示仅在定义良好的问题上训练和仅在不完整问题上训练的模型。
  • 评估指标
    • 澄清比率(CR):提出问题的回答百分比。
    • 思考长度(Thoughts Lengths, TLC 和 TLNC):在提出和未提出问题时生成的思考长度。
    • 澄清准确性(Clarification Accuracy, ACC):在不完整问题上提出澄清问题、在定义良好的问题上不提出澄清问题的总体百分比。
    • 解决比率(Solved Ratio, SR):正确解决定义良好的问题的百分比。
  • 结果
    • SFT 显著提高了模型在不完整问题上主动寻求信息的能力,CRITIC-Qwen 和 CRITIC-Qwen-thinking 的澄清比率和准确性均超过了现有的 LRMs。
    • 学习在不完整问题上主动寻求信息不会削弱解决定义良好的问题的能力,反而可能有助于提高问题解决能力。
    • 发现了一个困境,即当前的深度思考模式可能会削弱模型主动寻求信息的能力,表明在开发 LRMs 时需要平衡解决问题和主动寻求信息的能力。

3. 额外的实验分析

  • 问题难度与澄清比率的关系:发现问题难度与澄清比率呈负相关,表明在更困难的问题上,LRMs 的主动寻求信息能力更弱。
  • 多响应采样:生成多个响应以评估温度参数对结果的影响,发现结果在不同样本间具有一定的鲁棒性。
  • 澄清问题的准确性:评估了 LRMs 提出的澄清问题的准确性,发现当它们提出问题时,这些问题通常能够适当解决不完整问题。
  • 案例研究:提供了多个案例研究,展示了 LRMs 在面对不完整问题时的具体行为,包括过度思考和幻觉现象。

通过这些实验,论文系统地评估了 LRMs 在面对不完整问题时的行为,并探索了通过监督微调改进这些模型的能力。这些实验结果为开发能够主动寻求信息的 LRMs 提供了新的见解和指导。

Q: 有什么可以进一步探索的点?

A: 论文提出了一些有价值的见解和方法,但仍有许多可以进一步探索的方向。以下是一些可能的扩展和研究方向:

1. 探索其他类型的不完整问题

  • 数据集扩展:虽然 CRITIC-math 数据集已经包含了两种类型的不完整问题(缺少目标和缺少前提),但还可以进一步扩展到其他类型的不完整问题,例如缺少关键步骤、缺少上下文信息等。
  • 跨领域应用:将研究范围从数学推理扩展到其他领域,如逻辑推理、代码生成、自然语言处理等,以评估 LRMs 在不同领域的主动信息寻求能力。

2. 改进监督微调(SFT)策略

  • 多任务学习:结合解决问题和主动寻求信息的多任务学习策略,以更好地平衡这两方面的能力。
  • 动态提示:开发动态提示策略,根据问题的复杂性和模型的当前状态动态调整提示内容,以提高模型的主动信息寻求能力。
  • 强化学习:探索使用强化学习来训练模型在面对不完整问题时主动寻求信息,通过奖励机制鼓励模型提出更有针对性的问题。

3. 深入分析模型行为

  • 行为模式分析:进一步分析 LRMs 在面对不完整问题时的行为模式,例如过度思考、幻觉等现象,以更好地理解模型的内部机制。
  • 模型比较:比较不同架构和训练方法的 LRMs 在主动信息寻求能力上的差异,以找出更有效的模型设计和训练策略。

4. 开发更智能的评估指标

  • 用户满意度:开发评估指标来衡量用户对模型回答的满意度,包括回答的准确性和信息的完整性。
  • 交互性评估:评估模型在多轮对话中的表现,以更好地模拟现实世界中的交互场景。

5. 探索模型的可解释性和透明度

  • 解释生成:开发方法使模型能够生成对自身决策过程的解释,帮助用户理解模型为何提出某些问题或做出某些假设。
  • 透明度提升:提高模型在主动寻求信息时的透明度,使用户能够更好地理解模型的需求和意图。

6. 研究模型的适应性和泛化能力

  • 适应性测试:测试模型在面对不同类型和难度的不完整问题时的适应性,以评估其在不同场景下的表现。
  • 泛化能力评估:评估模型在未见过的领域和问题类型上的泛化能力,以确保其在现实世界中的有效性。

7. 开发更智能的用户模拟器

  • 用户模拟器:开发更智能的用户模拟器,能够根据模型的回答提供反馈,以更好地模拟真实的人机交互场景。
  • 交互优化:优化模型与用户模拟器之间的交互,以提高模型在多轮对话中的表现。

8. 探索模型的伦理和社会影响

  • 伦理考量:研究模型在主动寻求信息时可能引发的伦理问题,例如隐私保护、信息滥用等。
  • 社会影响:评估模型在现实世界中的应用对社会的影响,包括对教育、医疗、金融等领域的影响。

通过这些进一步的研究方向,可以更全面地评估和改进 LRMs 在面对不完整问题时的主动信息寻求能力,推动人工智能在数学推理和其他领域的进一步发展。

Q: 总结一下论文的主要内容

A: 论文《Beyond Solving Math Quiz: Evaluating the Ability of Large Reasoning Models to Ask for Information》的核心内容可以总结如下:

研究背景

  • 数学推理的挑战:数学推理是人工智能(AI)的一个基本挑战,它涉及从前提中得出结论的步骤序列。最近,大型推理模型(LRMs)在解决数学问题方面表现出色,但这些模型在面对信息不完整的问题时,缺乏主动寻求信息的能力。
  • 真实世界问题的不完整性:真实世界中的问题往往信息不完整,AI助手需要能够主动寻求缺失的信息,以提供真正有用的回答。例如,用户可能问“我的客厅长6米,我需要多少块瓷砖(边长为60厘米)?”如果没有客厅的宽度信息,任何基于AI假设的具体回答都是无意义的。

研究方法

  • CRITIC-math 数据集:为了系统评估 LRMs 在面对不完整问题时主动寻求信息的能力,作者提出了一个新的数据集 CRITIC-math。该数据集包含两种类型的不完整问题:缺少目标(Missing Goal)和缺少前提(Missing Premises)。数据集通过重写开源数据集中的定义良好的问题来构建,并经过手动验证以确保质量。
  • 评估指标:使用多种指标来评估 LRMs 的表现,包括澄清比率(Clarification Ratio, CR)、思考长度(Thoughts Lengths, TLC 和 TLNC)、澄清准确性(Clarification Accuracy, ACC)等。
  • 实验设置:采用两种提示方式(隐式提示和显式提示)来评估 LRMs 的表现,以了解它们在不同提示条件下的行为。

实验结果

  • LRMs 的表现:实验结果表明,现有的 LRMs 在主动寻求信息方面表现不佳。即使在显式提示下,澄清比率也仅为 50% 左右,且在困难问题上表现更差。此外,LRMs 在面对缺少前提的问题时会过度思考,思考长度显著增加;而在面对缺少目标的问题时会幻觉出目标并尝试解决问题,而不是提出澄清问题。
  • 监督微调(SFT)的效果:通过监督微调(SFT),作者训练了两个模型 CRITIC-Qwen 和 CRITIC-Qwen-thinking,以提高模型在不完整问题上主动寻求信息的能力。SFT 显著提高了模型的澄清比率和准确性,表明通过适当的训练,模型可以学习到主动寻求信息的能力。

关键结论

  • LRMs 的局限性:现有的 LRMs 在面对不完整问题时缺乏主动寻求信息的能力,这限制了它们在真实世界中的应用。
  • SFT 的潜力:通过监督微调,可以显著提高模型在不完整问题上主动寻求信息的能力,但需要平衡解决问题和主动寻求信息的能力。
  • 未来方向:为了开发真正智能的 LRMs,需要进一步研究如何在模型中实现主动信息寻求的能力,以及如何在解决问题和主动寻求信息之间取得平衡。

贡献

  • 新数据集:提出了一个新的数据集 CRITIC-math,用于系统评估 LRMs 在面对不完整问题时主动寻求信息的能力。
  • 系统评估:通过系统评估,揭示了 LRMs 在主动寻求信息方面的不足,并分析了其行为模式。
  • SFT 的潜力和挑战:展示了通过监督微调训练 LRMs 学习主动寻求信息的潜力,并指出了当前方法的局限性。

论文通过这些研究,为开发能够主动寻求信息的 LRMs 提供了新的见解和方法,有助于推动人工智能在数学推理领域的进一步发展。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Youcheng Huang, Bowen Qin, Chen Huang, Duanyu Feng, Xi Yang, Wenqiang Lei

Categories: cs.AI, cs.CL, cs.IR

PDF URL: https://arxiv.org/pdf/2508.11252v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11252v1

Published: 2025-08-15T06:42:00Z


9. Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment

Reinforcement fine-tuning (RFT) is a proliferating paradigm for LMM training. Analogous to high-level reasoning tasks, RFT is similarly applicable to low-level vision domains, including image quality assessment (IQA). Existing RFT-based IQA methods typically use rule-based output rewards to verify the model’s rollouts but provide no reward supervision for the “think” process, leaving its correctness and efficacy uncontrolled. Furthermore, these methods typically fine-tune directly on downstream IQA tasks without explicitly enhancing the model’s native low-level visual quality perception, which may constrain its performance upper bound. In response to these gaps, we propose the multi-stage RFT IQA framework (Refine-IQA). In Stage-1, we build the Refine-Perception-20K dataset (with 12 main distortions, 20,907 locally-distorted images, and over 55K RFT samples) and design multi-task reward functions to strengthen the model’s visual quality perception. In Stage-2, targeting the quality scoring task, we introduce a probability difference reward involved strategy for “think” process supervision. The resulting Refine-IQA Series Models achieve outstanding performance on both perception and scoring tasks-and, notably, our paradigm activates a robust “think” (quality interpreting) capability that also attains exceptional results on the corresponding quality interpreting benchmark.

中文摘要

翻译失败: Unexpected end of JSON input

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决在利用强化微调(Reinforcement Fine-Tuning, RFT)提升多模态模型(Large Multi-Modal Model, LMM)进行图像质量评估(Image Quality Assessment, IQA)任务时的两个主要问题:

  1. “思考”过程的有效性:在现有的RFT方法中,虽然模型在输出时会有一个“思考”(think)过程,但这个过程缺乏有效的监督,导致其正确性和有效性无法得到保证。尤其是在图像质量评估这种低层次视觉任务中,由于视觉质量感知是一个隐性的、基于直觉的过程,很难通过预定义的规则来监督“思考”过程。

  2. 模型性能的上限:现有的RFT方法通常直接在下游IQA任务上进行微调,而没有显式地增强模型对低层次视觉质量特征的感知能力。这可能会限制模型在IQA任务上的性能上限,导致模型在复杂指令的遵循和多任务泛化能力上存在不足。

为了解决这些问题,论文提出了一个多阶段的RFT框架(Refine-IQA),旨在通过增强模型对视觉质量特征的感知能力,并通过有效的奖励机制来监督“思考”过程,从而提升模型在图像质量评估任务中的性能。

Q: 有哪些相关研究?

A: 论文中提到了以下相关研究:

LMM for IQA

  • Q-Align (Wu et al. 2024c): 奠定了基于LMM的质量评分基础,使用对数概率估计策略。
  • Compare2Score (Zhu et al. 2024): 通过成对偏好关系作为伪标签来解决主观标签稀缺问题。
  • Q-Instruct (Wu et al. 2024b): 在图像技术质量评估中训练LMM进行定性的图像质量解释。
  • AesExpert (Huang et al. 2024): 在图像美学质量评估中训练LMM进行定性的图像质量解释。
  • Co-instruct (Wu et al. 2024d): 关注图像对质量分析任务。
  • DepictQA (You et al. 2024b,a): 同样关注图像对质量分析任务。

这些方法虽然有效地解决了下游IQA任务,但它们的共同限制是完全基于监督微调(SFT),因此在多任务泛化能力和对复杂指令的遵循方面存在显著退化。

RFT for IQA

  • Q-Insight (Li et al. 2025a): 使用标准的基于规则的结果奖励进行多任务RFT。
  • QPonder (Cai et al. 2025): 遵循“冷启动到RL”的工作流程来构建全面的训练流程。

这些工作代表了有价值的进展,但它们也存在一些局限性。首先,它们没有显式地增强LMM的视觉质量感知能力;而是直接在下游任务上进行微调,这可能会限制模型的性能上限。更重要的是,这些模型没有为“思考”过程引入奖励监督,从而将其简化为辅助输出。

Q: 论文如何解决这个问题?

A: 为了解决上述问题,论文提出了一个多阶段的强化微调(Reinforcement Fine-Tuning, RFT)框架,称为 Refine-IQA。该框架通过两个阶段来提升多模态模型(Large Multi-Modal Model, LMM)在图像质量评估(Image Quality Assessment, IQA)任务中的性能:

第一阶段:以视觉质量感知为中心的RFT

  • 构建Refine-Perception-20K数据集:该数据集包含20,907张图像,涵盖12种主要失真类型和5种失真严重程度。这些图像来自不同的场景,包含不同的合成和局部视觉失真。为了保证数据质量,作者实施了人类参与的数据审查,验证数据的语义一致性和感知清晰度。
  • 多任务奖励设计:在这一阶段,作者设计了一个多任务奖励系统,通过以下三个子任务来增强模型对低层次视觉失真的敏感性:
    1. 视觉失真类型/严重程度识别:模型需要从给定的候选集中选择正确的失真类型和严重程度。
    2. 视觉失真(语义)对象识别:模型需要从原始图像的记录语义对象中选择受失真影响的对象。
    3. 视觉失真区域定位:模型需要输出包含失真区域的边界框坐标。奖励通过预测边界框和真实边界框之间的交并比(IoU)来计算。

第二阶段:涉及概率差异奖励的RFT

  • 概率差异奖励策略:在质量评分任务中,作者引入了一种概率差异奖励策略,以监督“思考”过程。具体来说,通过比较“思考”模式和“无思考”模式下,模型对真实输出概率的差异来作为奖励信号。这种奖励机制隐式地监督了“思考”过程,确保其对最终决策的贡献。
  • 修改梯度策略:为了提高模型在质量评分任务中的泛化能力,作者对Group Relative Policy Optimization (GRPO)中的梯度策略进行了修改。这种修改有助于避免对错误输出的过度惩罚,从而鼓励模型探索替代预测。

通过这两个阶段的训练,Refine-IQA框架不仅增强了模型对视觉质量特征的感知能力,还通过有效的奖励机制确保了“思考”过程的有效性,从而在图像质量评估任务中取得了显著的性能提升。

Q: 论文做了哪些实验?

A: 论文中进行了以下实验来评估Refine-IQA系列模型的性能:

图像质量感知任务的性能评估

  • 数据集:使用Refine-Perception-20K-test测试集。
  • 任务划分:将测试数据基于失真类型在自然场景中的普遍程度分为“简单”(Easy)和“困难”(Hard)两类。
  • 任务
    • 描述(Description):模型需要从候选池中识别失真类别、失真的语义对象以及失真的严重程度。只有当这三个属性都被正确选择时,测试用例才被视为正确。记录整体准确率作为实验结果。
    • 定位(Grounding):计算模型预测的边界框与真实边界框之间的交并比(IoU)。
  • 比较对象:由于没有开源的质量感知LMM,仅与基础模型(所有模型均使用“无思考”模式)进行比较。
  • 结果:如表1和表2所示,经过RFT后,模型在这两项任务上的表现显著提升,尤其在Hard案例和Grounding任务中。这表明,尽管RFT没有引入新知识,但它有效地引导模型重新校准其固有的视觉质量感知能力。

图像质量评分任务的性能评估

  • 数据集:选择KonIQ(测试集)、SPAQ(测试集)、LIVE-C(Ghadiyaram和Bovik 2015)、AGIQA-3K(Li et al. 2023,AIGC图像)、KADID-10K(Lin, Hosu,和Saupe 2019)和CSIQ(Larson和Chandler 2010,合成失真)作为评估数据集。
  • 比较模型:除了Q-Align系列和Compare2Score(使用预训练的LMM)外,所有比较模型都重新训练在与我们的模型相同的训练数据集上(对于Q-Insight,采用仅质量评分任务的训练设置)。
  • 评估指标:使用常用的皮尔逊线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)。
  • 结果:如表3所示,Refine-IQA-S2在所有六个数据集上均展现出卓越的性能,在“思考”和“无思考”模式下均表现出色。值得注意的是,与Q-Insight不同,Refine-IQA模型在两种模式下的性能差距微乎其微,这突显了“思考”过程的有效性。

图像质量解释任务的性能评估

  • 数据集:选择Q-bench-test(Wu et al. 2024a),包含1,495个多选(单选)问题。
  • 比较对象:选择最新的开源和专有的通用LMM,以及一些高性能的IQA-LMM进行比较。
  • 评估方法:所有模型均使用model.generate()模式进行评估,以确保可重复性。
  • 结果:如表4所示,经过感知中心的RFT阶段1后,Refine-IQA-S1已经展现出改进的性能。Refine-IQA-S2在“思考”和“无思考”模式下均实现了显著的性能提升,尤其是在技术维度上——显著超越了通用LMM,并且几乎与使用Q-Pathway-200K(Q-Instruct)(Wu et al. 2024b)进行微调的基础模型相媲美。这表明,在阶段2 RFT中引入的“思考”过程进一步优化了模型的视觉质量解释能力。

消融研究

  • 第一阶段训练的影响:通过移除第一阶段的训练,保持其他所有训练和评估设置不变,来评估第一阶段训练对模型性能的影响。结果表明,第一阶段训练对模型在评分和解释任务上的性能都有积极的优化作用,凸显了增强模型固有质量感知能力的重要性。
  • 第二阶段属性的消融研究:在保持其他设置不变的情况下,对第二阶段的关键属性进行消融研究。结果表明,移除概率差异(PD)奖励会导致模型出现“思考崩溃”,并且在质量解释任务上的性能显著下降,这凸显了对“思考”过程进行奖励监督对于确保其有效性至关重要。此外,实验还验证了概率差异奖励能够有效抑制“思考崩溃”现象,并且在没有对“无思考”模式输出进行专门优化的情况下,“无思考”模式的输出准确率也会随着“思考”模式的提升而同步提高。

这些实验结果全面验证了Refine-IQA框架在提升多模态模型进行图像质量评估任务中的有效性,特别是在增强模型的视觉质量感知能力和优化“思考”过程方面。

Q: 有什么可以进一步探索的点?

A: 尽管Refine-IQA框架在图像质量评估(IQA)任务中取得了显著的性能提升,但在论文中也提到了一些可以进一步探索的方向:

1. 更大规模的模型和训练

  • 模型规模:由于工作量和计算资源的限制,作者未能训练更大规模的模型(例如32B或72B)。更大规模的模型可能会进一步提升性能,尤其是在处理更复杂的图像质量和失真类型时。
  • 训练配置:可以尝试使用更大的组大小(G)进行训练,这可能会提供更丰富的策略探索和更稳定的训练过程。

2. 多任务学习的扩展

  • 更多任务:除了当前的视觉失真类型、严重程度识别和定位任务,可以考虑引入更多与视觉质量相关的任务,例如对比度、亮度、色彩平衡等的评估。
  • 跨模态任务:探索将IQA任务与其他模态(如文本描述生成、音频质量评估)结合,以构建更全面的多模态质量评估模型。

3. 奖励机制的改进

  • 动态奖励调整:当前的概率差异奖励(PD)机制虽然有效,但可以进一步探索动态调整奖励权重的方法,以更好地适应不同难度的训练样本。
  • 多维度奖励:除了当前的PD奖励,可以考虑引入其他维度的奖励,例如基于用户反馈的奖励,以进一步提升模型的实用性和适应性。

4. 模型的泛化能力

  • 跨领域测试:在更多不同领域的数据集上测试模型的泛化能力,例如医学图像、卫星图像等,以验证模型在不同应用场景中的有效性。
  • 对抗性测试:引入对抗性样本,测试模型在面对恶意攻击时的鲁棒性,这对于实际应用中的安全性至关重要。

5. 用户交互和反馈

  • 交互式评估:开发交互式评估系统,允许用户实时提供反馈,模型根据用户反馈动态调整其评估策略。
  • 个性化评估:探索根据用户偏好和需求进行个性化质量评估的方法,以满足不同用户群体的需求。

6. 模型解释性和可解释性

  • 解释性分析:深入分析模型在“思考”过程中生成的解释文本,探索如何进一步提升解释的质量和相关性。
  • 可视化工具:开发可视化工具,帮助用户理解模型是如何感知和评估图像质量的,从而提高模型的透明度和可信度。

7. 与其他技术的结合

  • 预训练模型的结合:探索将Refine-IQA框架与最新的预训练模型(如CLIP、DALL·E等)结合,以进一步提升模型的性能和泛化能力。
  • 硬件优化:研究如何优化模型以在边缘设备上高效运行,这对于实际部署和实时应用具有重要意义。

这些方向不仅有助于进一步提升模型的性能和泛化能力,还可以为图像质量评估领域带来更多的创新和应用可能性。

Q: 总结一下论文的主要内容

A: 本文提出了一个名为Refine-IQA的多阶段强化微调(Reinforcement Fine-Tuning, RFT)框架,旨在提升多模态模型(Large Multi-Modal Model, LMM)在图像质量评估(Image Quality Assessment, IQA)任务中的性能。该框架通过两个阶段的训练来解决现有RFT方法中“思考”(think)过程缺乏有效监督以及模型性能上限受限的问题。

背景知识

  • 强化微调(RFT):一种新兴的训练范式,通过模型在一组采样输出(rollouts)上的奖励来构建组内优势,直接指导策略梯度,减少对标签密集型离线指令数据注释的依赖。
  • 图像质量评估(IQA):一个低层次视觉任务,要求模型能够准确感知和评估图像的视觉质量。
  • 现有方法的局限性:现有的RFT方法通常直接在下游IQA任务上进行微调,没有显式增强模型对低层次视觉质量特征的感知能力,且缺乏对“思考”过程的有效监督。

研究方法

第一阶段:以视觉质量感知为中心的RFT

  • Refine-Perception-20K数据集:包含20,907张图像,涵盖12种主要失真类型和5种失真严重程度。数据集通过人类参与的数据审查来保证数据质量。
  • 多任务奖励设计:通过三个子任务来增强模型对低层次视觉失真的敏感性:
    1. 视觉失真类型/严重程度识别
    2. 视觉失真(语义)对象识别
    3. 视觉失真区域定位

第二阶段:涉及概率差异奖励的RFT

  • 概率差异奖励策略:通过比较“思考”模式和“无思考”模式下,模型对真实输出概率的差异来作为奖励信号,隐式地监督“思考”过程。
  • 修改梯度策略:对Group Relative Policy Optimization (GRPO)中的梯度策略进行修改,以提高模型在质量评分任务中的泛化能力。

实验

图像质量感知任务

  • 数据集:Refine-Perception-20K-test
  • 任务:描述(识别失真类型、对象和严重程度)和定位(预测失真区域的边界框)
  • 结果:经过RFT后,模型在两项任务上的表现显著提升,尤其在Hard案例和Grounding任务中。

图像质量评分任务

  • 数据集:KonIQ、SPAQ、LIVE-C、AGIQA-3K、KADID-10K、CSIQ
  • 评估指标:皮尔逊线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)
  • 结果:Refine-IQA-S2在所有六个数据集上均展现出卓越的性能,在“思考”和“无思考”模式下均表现出色。

图像质量解释任务

  • 数据集:Q-bench-test
  • 结果:Refine-IQA-S2在“思考”和“无思考”模式下均实现了显著的性能提升,尤其是在技术维度上,显著超越了通用LMM。

关键结论

  • 性能提升:Refine-IQA系列模型在图像质量感知、评分和解释任务上均展现出卓越的性能。
  • “思考”过程的有效性:通过概率差异奖励策略,模型的“思考”过程得到了有效的监督,显著提升了模型在质量解释任务上的性能。
  • 泛化能力:经过RFT训练的模型在多个数据集上展现出良好的泛化能力,证明了该框架的有效性和实用性。

未来工作

  • 更大规模的模型和训练:探索更大规模模型的训练,以及更大的组大小(G)对性能的影响。
  • 多任务学习的扩展:引入更多与视觉质量相关的任务,以及跨模态任务,以构建更全面的多模态质量评估模型。
  • 奖励机制的改进:进一步探索动态调整奖励权重的方法,以及引入其他维度的奖励。
  • 模型的泛化能力:在更多不同领域的数据集上测试模型的泛化能力,以及引入对抗性样本测试模型的鲁棒性。
  • 用户交互和反馈:开发交互式评估系统,以及探索个性化质量评估的方法。
  • 模型解释性和可解释性:深入分析模型的解释文本,开发可视化工具以提高模型的透明度和可信度。
  • 与其他技术的结合:探索将Refine-IQA框架与最新的预训练模型结合,以及优化模型在边缘设备上的运行效率。

Q: 想要进一步了解论文

A: 以上只是了解一篇论文的几个基本FAQ。如果你还想与Kimi进一步讨论该论文,请点击 这里 为你跳转Kimi AI网页版,并启动一个与该论文相关的新会话。

Authors: Ziheng Jia, Jiaying Qian, Zicheng Zhang, Zijian Chen, Xiongkuo Min

Categories: cs.CV, cs.AI

PDF URL: https://arxiv.org/pdf/2508.03763v2.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.03763v2

Published: 2025-08-04T22:46:10Z


10. SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth

The rapid proliferation of large language models (LLMs) in applications targeting children and adolescents necessitates a fundamental reassessment of prevailing AI safety frameworks, which are largely tailored to adult users and neglect the distinct developmental vulnerabilities of minors. This paper highlights key deficiencies in existing LLM safety benchmarks, including their inadequate coverage of age-specific cognitive, emotional, and social risks spanning early childhood (ages 0—6), middle childhood (7—12), and adolescence (13—18). To bridge these gaps, we introduce SproutBench, an innovative evaluation suite comprising 1,283 developmentally grounded adversarial prompts designed to probe risks such as emotional dependency, privacy violations, and imitation of hazardous behaviors. Through rigorous empirical evaluation of 47 diverse LLMs, we uncover substantial safety vulnerabilities, corroborated by robust inter-dimensional correlations (e.g., between Safety and Risk Prevention) and a notable inverse relationship between Interactivity and Age Appropriateness. These insights yield practical guidelines for advancing child-centric AI design and deployment.

中文摘要

大型语言模型(LLMs)在针对儿童和青少年应用中迅速普及,迫使我们对现行的人工智能安全框架进行根本性的重新评估,这些框架大多针对成年用户,忽视了未成年人独特的发展脆弱性。本文强调了现有LLM安全基准的关键缺陷,包括它们对涵盖早期儿童期(0-6岁)、中期儿童期(7-12岁)和青少年期(13-18岁)特定年龄的认知、情感和社会风险的覆盖不足。为了填补这些空白,我们推出了SproutBench,这是一个创新的评估套件,包含1,283个以发展为基础的对抗性提示,旨在探测情感依赖、隐私侵犯和模仿危险行为等风险。通过对47种不同的LLM进行严格的实证评估,我们发现了重大的安全脆弱性,得到了强有力的维度间相关性支持(例如,安全性与风险预防之间),并且交互性与年龄适宜性之间呈现显著的负相关关系。这些见解为推进以儿童为中心的人工智能设计和部署提供了实际的指导。

LLM Analysis

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决大型语言模型(LLMs)在儿童和青少年(0-18岁)使用场景中的安全性和伦理性问题。随着LLMs在教育、娱乐和社会平台中的广泛应用,儿童和青少年逐渐成为重要的用户群体。然而,现有的LLMs安全评估基准主要针对成人用户,忽视了未成年人在认知、情感和社会发展方面的独特脆弱性和需求。因此,论文提出了一种新的评估框架SproutBench,旨在系统地评估LLMs在支持儿童健康认知、情感和社会发展方面的表现,并填补现有基准在儿童相关行为风险和发展需求覆盖方面的不足。

Q: 有哪些相关研究?

A: 以下是与SproutBench相关的研究领域和具体工作:

儿童中心的AI框架

  • UNICEF的AI政策指导:基于《联合国儿童权利公约》,强调通过发展性设计实现儿童安全、公平和隐私保护。不过,该框架被指出在性别和青少年关注方面存在不足。
  • UNESCO的AI伦理建议:提供了更广泛的伦理原则,为AI设计提供了宏观指导。
  • 儿童参与式设计框架:强调让儿童直接参与AI开发过程,以确保产品符合其需求和权益。

LLMs对儿童和青少年的安全与发育挑战

  • 认知和情感风险:研究表明,儿童的认知不成熟和青少年的冲动性使他们更容易受到LLMs相关伤害,如错误信息、不当内容和情感操纵。
  • 隐私风险:儿童可能在不经意间分享敏感信息,增加被利用的风险。尽管存在隐私设计框架,但商业模型往往缺乏足够的保护措施。
  • 模型安全性的不足:即使经过安全调整的模型,在处理敏感提示时的失败率仍高达35%。

儿童中心LLMs安全的评估基准

  • 通用基准的局限性:如JailbreakBench和Toxigen,主要关注成人使用场景,忽略了儿童特有的风险,如网络引诱、过度依赖AI和恶作剧行为模仿。
  • 新兴的儿童中心工具:Safe-ChildLLM专注于心理健康和安全,但仍存在30-40%的失败率;BBQ评估偏见和发展适配性。SproutBench在此基础上,通过按年龄分层提示并涵盖未充分探索的风险(如隐私测试和情感依赖)来扩展这些努力。

儿童与AI互动风险的分类

论文还提出了一个基于SproutBench数据集的风险分类框架,将风险分为两类:LLM输出对用户的伤害以及用户误用导致的伤害。具体风险包括情感依赖、社交和行为问题、错误信息、认知和学习障碍以及隐私泄露等。

Q: 论文如何解决这个问题?

A: 论文通过以下方式解决大型语言模型(LLMs)在儿童和青少年使用场景中的安全性和伦理性问题:

1. 提出SproutBench评估框架

  • 发展性分层方法:将提示分为三个年龄组(0-6岁、7-12岁、13-18岁),并针对认知、情感和社会领域设计,以反映不同发展阶段的需求和风险特征。
  • 全面覆盖儿童安全类型:包含20种不同的儿童安全类型,涵盖全面的发展范围,显著扩展了儿童相关行为风险和发展需求的覆盖范围。

2. 构建评估数据集

  • 数据集构成:包含1,283个发展性对抗提示,这些提示来自两个来源,以平衡广泛的对抗覆盖和高度的发展相关性。其中200个提示是从SproutBench数据集改编而来,其余683个提示是新生成的,以解决成人中心语料库中缺失的儿童特定风险。
  • 发展性信息对抗提示生成方法:基于发展心理学,生成能够模拟真实世界儿童-AI互动的对抗提示。通过构建一个发展性信息人物知识库,将用户分为三个发展阶段,并结合认知特征和语言风格来生成提示。

3. 评估方法

  • 评估维度:采用六个评估维度,包括年龄适配性、教育价值、情感支持、互动性、风险预防和安全性。
  • 自动评分与专家共识分析:使用Qwen-2.5自动评分,并通过三位经验丰富的儿童发展心理学家独立评分来验证评分方法的可靠性。Qwen-2.5评分与专家注释之间的Cohen’s Kappa系数达到0.78,表明与人类判断高度一致。

4. 实验与分析

  • 模型评估:对47种不同大小(135M到70B参数)的LLMs进行了系统评估,揭示了两个关键模式:
    • 安全性和风险预防维度之间存在强相关性(ρ = 0.86),表明模型在保护行为上表现出一致性。
    • 互动性和年龄适配性之间存在显著权衡(ρ = -0.48),表明增加表达性可能会降低对不同年龄组的发展一致性。
  • 主成分分析(PCA):揭示了安全性和互动性作为正交轴,分别由PC1(90.28%)和PC2(5.07%)表示,两者之间的相关性较弱(ρ = 0.12)。
  • 聚类分析:通过K-Means聚类揭示了五种模型原型,包括“主流”、“低成就者”、“高风险”和“典范”,这些原型在安全性和互动性方面表现出不同的特征。

5. 提出设计和部署建议

  • 模型选择:根据评估结果,建议在儿童和青少年应用中优先选择表现优异的模型,如llama2:7b和gemma3:12b。
  • 平衡互动性和安全性:强调在设计儿童和青少年应用的LLMs时,需要平衡互动性和安全性,以确保既吸引用户又提供足够的保护。
  • 模型大小考量:指出大型模型(>30B参数)在安全性方面表现更为一致,而小型模型(<500M参数)则在低性能模型中更为常见。

Q: 论文做了哪些实验?

A: 论文进行了以下实验:

实验设计

  • 评估对象:对47种不同大小(从135M到70B参数)的大型语言模型(LLMs)进行了评估。
  • 评估数据集:使用SproutBench数据集中的1,283个发展性对抗提示进行评估。这些提示分为三个年龄组(0-6岁、7-12岁、13-18岁),并针对认知、情感和社会领域设计。
  • 评估维度:采用六个评估维度,包括年龄适配性、教育价值、情感支持、互动性、风险预防和安全性。
  • 评分方法:使用Qwen-2.5自动评分,并通过三位经验丰富的儿童发展心理学家独立评分来验证评分方法的可靠性。

实施细节

  • 硬件环境:所有实验在配备NVIDIA RTX 4090 GPU(24GB内存)的Linux服务器上运行,服务器运行Ubuntu 20.04操作系统,内核版本5.15。服务器配备双AMD EPYC 7763 CPU,提供128个物理核心(256个线程),503GB RAM和8个NVIDIA RTX 4090 GPU。
  • 软件环境:GPU驱动版本为575.51.03,CUDA版本为12.9。

实验结果

  • 整体评分概览:结果显示,表现最好的三个模型是llama2:7b(平均分4.61,标准差0.13)、llama2:70b(平均分4.58,标准差0.13)和gemma2:9b(平均分4.56,标准差0.04),这些模型在各个维度和年龄组中得分均高于4.5,表现出较高的适应性。而smollm2:135m(平均分3.26,标准差0.35)、tinyllama:1.1b(平均分3.41,标准差0.21)和phi3:3.8b(平均分3.52,标准差0.65)表现较差,尤其是在安全性和风险预防方面。
  • 跨维度分析:对不同维度的平均分数和标准差进行了分析,以突出模型在各个维度上的表现。例如,在安全性方面,llama2:7b和llama2:70b表现出色,而smollm2:135m、phi3:3.8b和tinyllama:1.1b则表现不佳。
  • 跨年龄组分析:对不同年龄组的模型表现进行了统计分析,发现0-6岁组的平均分为4.03(标准差0.50),13-18岁组的平均分为4.12(标准差0.36),表明模型在青少年组的表现略好,尽管学龄前儿童组仍面临挑战。
  • 维度相关性分析:计算了47个LLMs在SproutBench上的Spearman相关性,以检查维度之间的关系。结果显示,年龄适配性与指导和教育价值之间存在强相关性(ρ = 0.81),安全性与风险预防之间存在强相关性(ρ = 0.86),情感支持与年龄适配性和指导之间存在密切联系(ρ = 0.74)。互动性与年龄适配性之间存在中等负相关性(ρ = -0.48),表明存在权衡。
  • 主成分分析(PCA):应用PCA探索潜在结构,发现PC1和PC2占总方差的95.35%。PC1(90.28%)代表安全性轴,由年龄适配性、风险预防等相关指标的负载荷驱动(-0.23到-0.24)。PC2(5.07%)捕捉互动性,由强负载荷(-0.79)主导。安全性与互动性之间的弱相关性(ρ = 0.12)支持了它们作为正交轴的解释,与观察到的模型聚类中的权衡一致。
  • 聚类分析和维度特征:应用PCA和K-Means聚类,揭示了五种模型原型,包括“主流”、“低成就者”、“高风险”和“典范”,这些原型在安全性和互动性方面表现出不同的特征。

实验结论

  • 模型表现差异:大型模型(>30B参数)在安全性方面表现更为一致,而小型模型(<500M参数)则在低性能模型中更为常见。
  • 互动性和安全性的权衡:互动性在儿童和青少年应用的LLMs中是一把双刃剑,既能提高参与度和学习效果,也可能导致情感依赖。有效的儿童应用LLMs必须在参与度和强大的保护措施之间取得平衡。
  • 模型家族策略:SproutBench还捕捉到了模型家族策略(例如Gemma的安全性对齐)和儿童特定风险(例如情感依赖)。

Q: 有什么可以进一步探索的点?

A:

Authors: Wenpeng Xing, Lanyi Wei, Haixiao Hu, Rongchang Li, Mohan Li, Changting Lin, Meng Han

Categories: cs.CL, cs.AI

PDF URL: https://arxiv.org/pdf/2508.11009v1.pdf

CoolPaper URL: https://papers.cool/arxiv/2508.11009v1

Published: 2025-08-14T18:21:39Z