HuggingFace Papers 2026-06-11
数据来源:HuggingFace Papers
Latest Papers
1. ICA Lens: Interpreting Language Models Without Training Another Dictionary
Abstract:Finding interpretable directions in language-model representations is critical for understanding and controlling model behavior. Sparse autoencoders (SAEs) have become the standard tool for this purpose, but using them as the default first lens often requires training, storing, and evaluating large overcomplete dictionaries. This bottleneck limits rapid exploration and raises a fundamental question: how much interpretable structure is already visible from activation geometry before training another neural dictionary? Our intuition is simple: many interpretable directions are selective on tokens, and these directions should look less Gaussian than random directions. We therefore revisit independent component analysis (ICA), a classical method for finding non-Gaussian directions, as a compact lens for language-model interpretability. We find that ICA has been underestimated for LLM interpretability, because prior uses often relied on off-the-shelf ICA implementations that are brittle on LLM activations and lacked systematic tools for inspecting and evaluating the recovered directions. To bridge these gaps, we introduce ICALens, the first practical workflow for stable, efficient, and auditable ICA analysis of LLM representations. It combines an optimized GPU-parallel FastICA pipeline with LLM-specific stability recipes and better fitting diagnostics, enabling efficient and reliable layer-wise analysis. Across GPT-2 Small, Gemma 2 2B, and Qwen 3.5 2B Base, ICALens efficiently recovers compact, human-interpretable directions without per-layer gradient-based dictionary training. On SAEBench, ICA is competitive with public SAEs in sparse probing and outperforms them in targeted probe perturbation under small-to-medium budgets. These results suggest that ICA should not be viewed as a weak baseline, but as an efficient and complementary first lens for exploring language-model representations.
中文摘要
摘要:在语言模型表示中找到可解释的方向对于理解和控制模型行为至关重要。稀疏自编码器(SAEs)已成为这一目的的标准工具,但将其作为默认的首选工具通常需要训练、存储和评估大型过完备字典。这一瓶颈限制了快速探索,并提出了一个基本问题:在训练另一个神经字典之前,从激活几何结构中已经能看到多少可解释的结构?我们的直觉很简单:许多可解释方向对词元有选择性,这些方向应比随机方向更不呈高斯分布。因此,我们重新审视独立成分分析(ICA),这是一种寻找非高斯方向的经典方法,作为语言模型可解释性的紧凑工具。我们发现,ICA在大型语言模型可解释性方面被低估了,因为之前的使用通常依赖于现成的ICA实现,这些实现对大型语言模型的激活表现不稳定,并且缺乏检查和评估恢复方向的系统工具。为弥补这些不足,我们引入了ICALens,这是首个用于大型语言模型表示稳定、高效和可审计的ICA分析的实际工作流程。它结合了优化的GPU并行FastICA管道、针对大型语言模型的稳定性策略以及更好的拟合诊断,从而实现高效可靠的逐层分析。在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base上,ICALens无需每层基于梯度的字典训练即可高效地恢复紧凑、可供人理解的方向。在SAEBench上,ICA在稀疏探测中与公共SAEs具有竞争力,并在小到中等预算下的目标探测扰动中表现优于它们。这些结果表明,ICA不应被视为弱基线,而应被视为探索语言模型表示的高效且互补的首选工具。
LLM Analysis
Q: 这篇论文试图解决什么问题?
这篇论文试图解决稀疏自编码器(SAEs)在语言模型可解释性研究中计算成本过高的问题,并提出了一种轻量级的替代方案。
具体而言,论文针对以下核心问题展开:
1. 计算瓶颈问题
稀疏自编码器已成为解释语言模型内部表示的标准工具,但将其作为默认的”第一透镜”存在显著的实用成本:
- 需要为每一层、每个激活位置、每个稀疏度设置训练、调优、存储和评估大型过完备字典
- 以Gemma Scope为例,需要训练数百个SAE、数千万个学习潜在变量、每SAE 40-160亿训练token、约20 PiB的存储空间,以及超过GPT-3训练计算量的20%
2. 核心研究问题
论文提出了一个根本性问题:在训练另一个神经字典之前,从激活几何(activation geometry)中已经可以看到多少可解释的结构?
基于观察(许多可解释方向对token具有选择性,因此应该比典型随机方向看起来更少高斯分布),论文假设:通过直接搜索高度非高斯方向,可以恢复SAE通过昂贵字典训练隐含学习到的部分结构。
3. 方法学缺口
论文指出ICA(独立成分分析)在LLM可解释性中被低估的两个实用原因:
- 稳定性问题:标准ICA在现代LLM激活上直接应用时不可靠(高维、大范数token异常值、慢收敛成分主导)
- 评估缺口:缺乏系统性工具来检查、注释和评估恢复方向的实用性
解决方案:ICALens
论文提出的解决方案是ICALens——第一个用于稳定、高效、可审计地分析LLM表示的ICA实用工作流程:
- 结合优化的GPU并行FastICA管道
- 引入LLM特定的稳定性配方(行归一化、p95-LIM鲁棒收敛接受准则、自适应重拟合)
- 提供交互式探索器和人工注释协议
验证结果
论文证明ICA可以作为SAE的互补性第一透镜:
- 在GPT-2 Small、Gemma 2 2B和Qwen 3.5 2B Base上高效恢复紧凑、人类可解释的方向
- 在SAEBench上,ICA在稀疏探测方面与公共SAE具有竞争力,在小到中等组件预算下的目标探测扰动(TPP)方面优于SAE
- 非高斯性最大化与稀疏重建恢复相关但非冗余的方向
简言之,这篇论文试图证明:通过ICA这种无需训练的经典方法,可以在不支付SAE高昂计算成本的前提下,有效发现语言模型激活中的可解释结构,从而为快速探索模型内部提供实用的”轻量级第一透镜”。
Authors: Sida Liu,Feijiang Han
PDF URL: https://arxiv.org/pdf/2606.11722.pdf
Arxiv URL: https://arxiv.org/abs/2606.11722
Arxiv ID: 2606.11722
CoolPaper URL: https://papers.cool/arxiv/2606.11722
Published: 2026-06-11T02:03:52.051Z
Updated: 2026-06-11T02:03:52.051Z