HuggingFace Papers 2026-06-08

数据来源：HuggingFace Papers

Latest Papers

1. dots.tts Technical Report

Abstract:We present this http URL, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, this http URL achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, this http URL also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.

中文摘要

摘要：我们在此介绍该 http URL，这是一个具有 2B 参数的连续自回归文本到语音（TTS）基础模型，在连续潜在空间中对语音进行建模。相比现有的连续自回归模型，我们的关键创新有三方面。首先，我们使用多重目标训练 AudioVAE，以构建语义结构化且预测友好的连续语音空间。其次，我们在流匹配头中使用全历史条件，以保持长程一致性并在生成过程中减少漂移。第三，我们将无奖励自我纠正后训练应用于流匹配头，以进一步提高鲁棒性和声学质量。在经过大规模多语言语料训练后，该 http URL 在 Seed-TTS-Eval 上取得了最佳平均性能，在 zh/en/zh-hard 测试集上的 WER 分别为 0.94%/1.30%/6.60%，SIM 分数分别为 81.0/77.1/79.5。在其他基准测试中，该 http URL 也始终表现出开源的最新水平性能，展现了强大的生成稳定性、语音克隆能力和情感表现力。为了实现高效推理，我们进一步应用了 CFG 感知的 MeanFlow 蒸馏，使低延迟语音生成成为可能，其中输出流和双流模式下的首包延迟分别为 85/54 毫秒。为了促进可重复研究和实际部署，我们在 Apache 2.0 许可下发布了训练和推理代码，以及预训练、后训练和 MeanFlow 蒸馏的检查点。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文针对连续自回归（continuous autoregressive）文本转语音（TTS）范式中的核心瓶颈——长程误差累积（long-range error accumulation）——提出了系统性的解决方案。

具体而言，论文识别并试图解决以下三个层面的问题：

1. 连续潜空间的预测稳定性问题

与离散token系统不同，连续自回归模型在生成过程中缺乏”量化缓冲区”（quantization buffer）。离散codec会将不完美的样本映射回有效的声学配置，而连续潜空间中的每个微小预测误差都会被解码器忠实重建，并反馈为下一步生成的条件，导致误差在长序列生成中快速累积（drift）。这使得连续AR生成在长时间语音合成中难以保持稳定性。

2. 语义与声学建模的耦合冲突

在连续AR架构中，语言模型（LLM）需要同时处理高层语义推理和低层声学细节。论文指出，将这两种不同时间尺度和性质的任务压缩到单一模块会导致优化冲突，加剧生成过程中的不稳定性。

3. 后训练（post-training）技术栈的不成熟

相比离散token TTS系统已成熟的监督微调（SFT）和偏好优化流程，连续AR模型的后训练方法相对滞后，缺乏有效的机制来纠正模型自身在推理时产生的累积误差。

解决方案概述

为应对上述挑战，论文提出了 dots.tts 系统，通过三项关键技术实现突破：

语义结构化的AudioVAE：通过多任务训练（包括WavLM表示对齐和下游分类任务）构建既高保真又易于LLM学习的连续潜空间；
全历史条件AR-FM头：采用自回归流匹配（autoregressive flow-matching）头，通过块因果注意力（block-causal attention）机制在训练时并行处理，在推理时保持完整的自回归历史条件，减少漂移；
无奖励自校正后训练（SOAR）：针对流匹配头设计奖励无关的自校正机制，让模型学习从自身的推理偏差中恢复，无需外部奖励模型或教师模型。

最终目标是实现一个完全连续、端到端的TTS系统，在保持连续表示的高感知上限（支持语音、副语言、歌唱和一般音频的统一分布）的同时，达到离散token系统的生成稳定性和生产就绪成熟度。

Q: 有哪些相关研究？

根据论文内容，相关研究主要分布于以下四个技术路线：

1. 非自回归（NAR）生成路线

这类方法基于流匹配（Flow Matching）或扩散（Diffusion）模型，通过单次并行生成或少量步骤

Authors: Shi Lian,Changtao Li,Bohan Li,Hankun Wang,Da Zheng,Junfeng Tian,Yufeng Ma,Colin Zhang,Kai Yu

PDF URL: https://arxiv.org/pdf/2606.07080.pdf

Arxiv URL: https://arxiv.org/abs/2606.07080

Arxiv ID: 2606.07080

CoolPaper URL: https://papers.cool/arxiv/2606.07080

Published: 2026-06-08T01:58:36.148Z

Updated: 2026-06-08T01:58:36.148Z

2. Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills

Abstract:LLM-driven software engineering agents have become a central testbed for real-world language-model capability, yet their training remains limited by the availability of high-quality SWE tasks. Existing synthetic data methods typically create tasks through fixed mutation or bug-injection procedures, making the resulting distributions largely independent of the agent’s own weaknesses and training progress. We introduce Socratic-SWE, a closed-loop self-evolution framework that reuses the agent’s historical solving traces as a source of training signal. Rather than treating traces only as evidence for reward computation, Socratic-SWE distills them into structured agent skills that summarize recurring failures and effective repair patterns. These skills then guide the generation of targeted repair tasks in real repositories. Candidate tasks are checked through execution-based validation and scored with a solver-gradient alignment reward, so that the retained tasks are both verifiable and useful for improving the Solver. The updated Solver produces new traces, enabling the task curriculum to adapt over successive rounds. Across SWE-bench Verified, SWE-bench Lite, SWE-bench Pro, and Terminal-Bench 2.0, Socratic-SWE consistently improves over self-evolving baselines under the same compute budget, reaching 50.40% on SWE-bench Verified after three iterations. These results suggest that solving traces can serve as a scalable substrate for self-evolving SWE agents.

中文摘要

摘要：由大型语言模型（LLM）驱动的软件工程（SWE）代理已成为检验现实世界语言模型能力的核心测试平台，但其训练仍受限于高质量SWE任务的可用性。现有的合成数据方法通常通过固定的变异或缺陷注入程序来创建任务，使得生成的分布在很大程度上与代理自身的弱点和训练进度无关。我们提出了Socratic-SWE，这是一个闭环自我进化框架，将代理的历史求解轨迹重新用作训练信号的来源。Socratic-SWE并不仅仅将轨迹视为奖励计算的证据，而是将其提炼成结构化的代理技能，总结反复出现的失败和有效的修复模式。随后，这些技能指导在真实代码库中生成针对性的修复任务。候选任务通过基于执行的验证进行检查，并使用求解器梯度一致性奖励进行评分，从而确保保留的任务既可验证又有助于改进求解器。更新后的求解器生成新的轨迹，使任务课程能够在连续迭代中自适应调整。在SWE-bench Verified、SWE-bench Lite、SWE-bench Pro和Terminal-Bench 2.0中，Socratic-SWE在相同计算预算下始终优于自我进化的基线模型，经过三次迭代在SWE-bench Verified上达到了50.40%。这些结果表明，求解轨迹可作为自我进化SWE代理的可扩展基础。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文试图解决LLM驱动的软件工程(SWE)智能体在训练过程中面临的高质量任务数据稀缺问题，以及现有合成数据方法与智能体实际能力边界脱节的问题。

具体而言，论文针对以下核心挑战：

高质量SWE训练数据的稀缺性

强化学习(RL)训练 fundamentally 依赖于大量高质量任务，但此类数据在SWE领域仍然稀缺。
现有的合成数据管道（如AST级变异、LM引导重写或学习的错误注入）虽试图缓解瓶颈，但操作独立于智能体自身的训练经验，产生的静态任务分布可能与模型实际能力差距 poorly aligned。

解决轨迹的浪费与训练信号稀疏化

每轮RL训练产生的解决轨迹(solving traces)记录了智能体在仓库交互中的行为（代码搜索、文件编辑、命令执行、测试运行等），包含重复失败、修复策略和无效探索模式的宝贵信息。
然而，现有方法仅将轨迹用于奖励提取或信用分配（如GRPO将其简化为标量奖励），之后即丢弃。
随着模型改进，固定分布中仍能提供有用训练信号的任务比例日益稀疏，导致学习最终停滞。

任务分布与智能体能力边界的错位

传统方法创建的任务分布 largely independent of the agent’s own weaknesses and training progress，无法针对智能体当前的能力边界动态调整课程。

为此，论文提出 Socratic-SWE，一个闭环自进化框架，通过以下机制解决上述问题：

轨迹再利用：将历史解决轨迹蒸馏为结构化的智能体技能注册表(Agent Skill Registry)，总结重复失败模式和有效修复策略。
技能引导的任务生成：利用这些技能作为约束，在真实代码仓库中构建针对能力差距的修复任务。
执行验证与梯度对齐：通过基于执行的验证管道筛选候选任务，并使用求解器-梯度对齐奖励(solver-gradient alignment reward)确保保留的任务既可验证又有助于改进求解器。
闭环进化：更新后的求解器产生新轨迹，使任务课程能够在连续轮次中适应，形成”轨迹-技能-任务”的自进化循环。

该框架旨在实现无需外部标注的自我进化，使SWE智能体能够利用自身历史行为作为可扩展的训练基质，持续突破能力边界。

Q: 有哪些相关研究？

根据论文第2节（Related Work）及引言部分的综述，相关研究主要分布在以下三个

Authors: Chuan Xiao,Zhengbo Jiao,Shaobo Wang,Wei Wang,Bing Zhao,Hu Wei,Linfeng Zhang,Lin Qu

PDF URL: https://arxiv.org/pdf/2606.07412.pdf

Arxiv URL: https://arxiv.org/abs/2606.07412

Arxiv ID: 2606.07412

CoolPaper URL: https://papers.cool/arxiv/2606.07412

Published: 2026-06-08T01:59:19.815Z

Updated: 2026-06-08T01:59:19.815Z

3. OpenSkill: Open-World Self-Evolution for LLM Agents

Abstract:Self-evolving agents requires adaptation after deployment, but existing approaches assume a usable learning loop, such as curated skills, successful trajectories, or verifier signals. Real open-world deployments may provide none of these, offering only a task prompt. In this work, we study open-world self-evolution, where an agent must build both its skills and its own verification signals from scratch, using open-world resources but no target-task supervision. We propose OpenSkill, a framework that bootstraps this loop: it acquires grounded knowledge and verification anchors from documentation, repositories, and the web, synthesizes them into transferable skills, and refines those skills against self-built virtual tasks grounded in the anchors rather than in target answers. The open world thus supplies both the knowledge to be learned and a supervision-independent practice environment, with target-task supervision reserved for final evaluation. Across three benchmarks and two target agents, OpenSkill attains the best automated pass rate while satisfying the no-supervision constraint. Analysis shows its skills transfer across models without model-specific adaptation, and its self-built verifier aligns with ground-truth outcomes despite never accessing them.

中文摘要

摘要：自我进化的智能体在部署后需要适应，但现有方法假设存在可用的学习循环，例如精选技能、成功轨迹或验证信号。真实的开放世界部署可能都不提供这些，仅提供任务提示。在本工作中，我们研究开放世界自我进化，其中智能体必须从零开始构建自己的技能和验证信号，利用开放世界资源，但不依赖目标任务的监督。我们提出 OpenSkill，这是一个引导该循环的框架：它从文档、资源库和网络中获取有根据的知识和验证锚点，将其综合为可迁移技能，并在基于锚点而非目标答案的自建虚拟任务中精炼这些技能。因此，开放世界既提供了待学习的知识，也提供了独立于监督的练习环境，而目标任务的监督仅用于最终评估。在三个基准测试和两个目标智能体上，OpenSkill 在满足无监督约束的同时，获得了最佳自动通过率。分析显示，其技能可以在不同模型间迁移而无需特定模型的适应，其自建验证器与真实结果一致，即使从未访问过这些结果。

LLM Analysis

Q: 这篇论文试图解决什么问题？

这篇论文致力于解决开放世界自我进化（Open-World Self-Evolution）问题，即大型语言模型（LLM）代理在部署后如何在没有人工监督、没有预设技能库、也没有ground-truth验证信号的情况下，仅依靠任务提示和开放世界资源（如文档、代码仓库、网页等）自主构建并改进自身技能。

具体而言，论文针对现有自我进化方法的两个关键局限性提出了解决方案：

1. 技能构建的局限性 现有方法通常依赖以下任一来源：

人工策划的技能库（成本高昂且覆盖有限）
模型参数知识（受限于训练数据的时效性和领域覆盖）
从成功轨迹中提炼的技能（在任务尚未成功执行前无法获得）

在开放世界设置中，代理必须能够从零开始推断需要学习的内容，主动获取外部证据，并将其转化为可复用的技能。

2. 验证信号构建的局限性 现有自我改进循环通常依赖：

任务级反馈或奖励信号
自我反馈
Ground-truth验证器输出

但在真实开放世界部署中，这些监督信号在训练阶段往往是不可用的。代理必须自主构建一个练习环境，其监督信号来源于开放世界知识而非隐藏的目标任务答案。

核心研究问题 论文提出的中心问题是：LLM代理能否在开放世界中实现自我进化？

为解决这一问题，论文提出了OpenSkill框架，通过三阶段流程实现无监督的自我进化：

开放世界知识获取：从外部文档、仓库和网页检索基础知识和验证锚点
无泄漏技能进化：基于自我构建的虚拟任务（而非目标答案）迭代优化技能
零样本目标评估：将优化后的技能部署到目标代理进行最终评估

该方法确保目标任务监督（ T^(GT)_i ）仅在最终评估阶段被使用，而在技能构建过程中完全隔离，从而实现了真正意义上的开放世界自我进化。

Q: 有哪些相关研究？

论文在第5节（Related Work）中系统梳理了三个相关研究方向，并阐明了OpenSkill与现有工作的核心差异：

1. 自我进化代理与代理技能（Self-Evolving Agents and Agent Skills）

相关研究包括：

推理与行动交错：ReAct（Yao et al., 2022）、Tree of Thoughts（Yao et al., 2023）等框架通过结构化思考改进规划
工具学习与技能积累：Toolformer（Schick et al., 2023）教模型自学使用工具；Voyager（Wang et al., 2023）通过探索学习

Authors: Zhiling Yan,Dingjie Song,Hanrong Zhang,Wei Liang,Yuxuan Zhang,Yutong Dai,Lifang He,Philip S. Yu,Ran Xu,Xiang Li,Lichao Sun

PDF URL: https://arxiv.org/pdf/2606.06741.pdf

Arxiv URL: https://arxiv.org/abs/2606.06741

Arxiv ID: 2606.06741

CoolPaper URL: https://papers.cool/arxiv/2606.06741

Published: 2026-06-08T02:00:34.851Z

Updated: 2026-06-08T02:00:34.851Z