- 机制可解释性研究权重、激活和内部回路,以解释神经网络和 LLM 如何执行其计算。
- 模型将意义组织成高维概念空间,概念以向量中的线性方向表示。
- 特征“显微镜”和稀疏自编码器等工具可以让你提取、分析甚至操纵模型的内部特征。
- 地理空间可解释性等应用展示了 LLM 如何构建地理信息,使人工智能更接近于认知和安全方面的辩论。
机制可解释性正成为现代人工智能领域最令人兴奋和最重要的研究方向之一。随着深度神经网络和大规模语言模型(LLM)开始影响几乎所有领域的决策,这一点尤为重要。这种方法并非仅仅关注模型的最终性能,而是探究:当人工智能进行预测、撰写文本或解决复杂问题时,其内部(权重和激活值)究竟发生了什么?
“黑匣子”这个词从未像现在这样贴切。数亿人每天使用聊天机器人,但即使是开发这些系统的团队也无法完全理解它们如何得出某些答案,为什么会“臆造”事实,或者在哪些情况下会表现出欺骗性。机制可解释性应运而生,正是为了打开这个黑匣子,绘制其内部机制图,并将神经元、资源和回路与我们能够理解的概念联系起来。
机制可解释性究竟是什么?
机制可解释性是对人工智能模型内部结构进行系统研究,重点关注权重、激活和中间“计算”。为了理解它们如何执行任务,该领域不再将神经网络视为一个将输入转换为输出的不透明模块,而是尝试将模型分解为更小的组成部分——神经元、注意力头、层、线性特征——并将每个部分与可观察的行为联系起来。
中心目标不仅仅是“稍后解释”某个孤立的决策,而是构建模型内部计算的详细图谱。这包括识别哪些神经元或神经元组合代表某些模式(例如专有名词、代码结构、情感基调、恶意指令),这些表征如何在各层之间组合,以及所有这些如何产生特定的输出。
这种观点在科学界迅速发展。随着专门的研讨会(例如在主要机器学习会议上举办的首个关于机制可解释性的重要研讨会)、数十家专注于该主题的初创公司以及越来越多的分析工具的出现,提交给专业研讨会的论文数量每届轻松超过一百篇,这表明该领域已不再是小众领域,而是一个正在全面发展的成熟领域。
最大的挑战在于缩小模型令人印象深刻的性能与我们对它们的理解之间的差距。只要我们继续将 LLM 和神经网络视为统计谜题,就很难预测边缘行为、识别复杂的漏洞、检测操纵行为,以及在关键场景中可靠地部署这些系统。

概念空间与线性表征假设
理解机制可解释性的最有力见解之一是神经网络构建高维“概念空间”的想法。与其将含义视为字典中的定义,不如将它们视为网络中隐含的巨大向量空间中的点,该向量空间由各层的权重和激活值构成。
这个空间并非物理空间;它是网络处理信号的一种副作用。每个输入(例如单词、像素、声音、地名、代码片段等文本概念)都被映射到多维空间中的一个向量。该向量根据模型的训练情况,捕捉了模型认为与该输入相关的所有信息,并且可以编码语义细微差别、风格、上下文、意图等等。
所谓的线性表示假设认为,这些内部概念中的许多都可以被视为该空间中的线性方向。换句话说,有一个方向对应于“赞扬”,另一个方向对应于“编码错误”,另一个方向对应于“数字后门”,以此类推。通过组合几个这样的基本方向,可以形成更复杂的概念。
这意味着任何类型的信息——语言、视觉、听觉、运动——都可以表示为同一概念空间中的向量。例如,当 LLM 处理一个句子时,它基本上是在该空间中追踪一条路径,用每个标记更新上下文向量,以捕获到该点为止累积的含义。
这种观点也解释了为什么可以在概念之间“导航”,将它们组合或相减。通过将向量沿特定方向从一点移动到另一点,我们可以从“猫”变成“胖猫”、“聪明的猫”、“懒猫”;甚至可以在语言之间转换,保持相同的底层概念,而表面(词语)则发生变化。
概念由差异定义:任何事物都不存在孤立存在。
该模型的一个迷人之处在于,对于网络而言,没有任何事物具有绝对意义;一切都由其与空间其他部分的关系来定义。“猫”的概念并非来自文本内部的定义,而是来自它与“大象”、“桌子”、“狗”、“红色”、“毛茸茸的”、“轻的”、“重的”等等事物之间的关系。
如果你知道大象比猫更大更重,毛发更少,质地也不同,并且知道桌子比它们都更亮,没有毛发,比猫大,比大象小。然后,一种结构开始显现:“大小”、“重量”、“质地”、“毛发”、“光泽”。这些维度不必与我们日常使用的概念直接对应,但它们作为坐标轴,以一种对模型有用的方式组织概念。
随着空间被各种概念填满,这些相互关系既完善了概念本身,也完善了“潜在维度”。从实际角度来看,模型学习和调整权重越多,其内部表征就越丰富,从而能够做出越来越微妙和符合上下文的预测。
需要记住的是,“大小”、“重量”或“毛发浓密”都是方便的比喻。实际上,人工智能使用的维度可以捕捉到极其复杂的模式,这些模式对人类来说无法简单地归类。它们可能是句法、语义、视觉、空间、风格和其他方面的复杂组合。
从某种意义上说,这个向量空间构成了一个内部的“世界模型”。这并非抽象概念,而是如今在神经网络和逻辑线性模型中切实存在的现象。当我们说一个模型“理解”了某些事物时,我们实际上看到的是将向量定位并关联到那个隐含的概念空间的过程的结果。
从资源显微镜到大型人工智能公司
近年来,由于出现了新的工具,机械可解释性取得了飞跃式发展,这些工具的作用就像语言模型的显微镜一样。研究人员不再仅仅观察输入和输出,而是开始直接检查内部激活以及向量空间中某些概念所在的特定区域。
Anthropic、OpenAI、Google DeepMind 等公司以及 Neuronpedia 等项目一直在引领这项工作。例如,Anthropic 公司宣布了一项名为“显微镜”的技术,用于观察其 Claude 模型内部,并识别与可识别概念相对应的内部特征,例如迈克尔·乔丹、金门大桥,甚至是“奉承”和“数字后门”等抽象概念。
随后,研究进展到追踪整个资源链。这不仅表明神经元或向量与某个概念相关联,还表明该概念如何从初始指令到最终响应,在各个层级间被激活、转换和组合。例如,这使我们能够理解模型的哪些部分参与了特定的欺骗行为或幻觉。
OpenAI 和 Google DeepMind 的团队已经开始使用类似的技术来调查异常行为。这包括在受控测试中模型似乎试图欺骗用户的情况。通过将内部资源与这些行为模式关联起来,就可以监控模型,并在某些情况下修改模型以降低风险。
另一种很有前景的方法是所谓的“思维链监控”。在“推理”模型中,会生成明确的中间步骤(例如理由或部分计算),研究人员会分析这种“内部独白”来检测不良策略——例如,某个模型会找到一种方法,利用应该被阻止的训练知识来“作弊”编程测试。
重叠的稀疏自编码器和单语义特征
机制可解释性的主要障碍之一是所谓的叠加假设。在大型神经网络中,单个神经元或维度很难代表一个“清晰”的概念;相反,多个概念被压缩到少数几个维度中,相互重叠,就像多个图像投影到同一平面上一样。
这种重叠使得很难指出某个神经元并说,“这就是概念 X”。看似无关的行为可能会激活相同的内部组件,从而干扰分析。为了解决这个问题,一种强大的工具应运而生:稀疏自编码器,它被应用于模型的内部激活。
稀疏自编码器是辅助网络,经过训练可以将这些混乱的激活重新格式化为一组更清晰的特征。其思路是先压缩激活值,然后再进行重构,从而鼓励辅助模型每次只使用少量资源(稀疏性)。最终得到一组更接近单语义表示的“特征”:每个资源都倾向于对应于更具体、更易于理解的模式。
最近的研究表明,通过将稀疏自编码器应用于生产中的 LLM,可以提取与人类概念一致的特征。……包括多种语言,以及诸如“编码错误”、“强加赞扬”、“数字脆弱性”等抽象概念。这强化了线性表示假设:许多此类概念实际上表现为向量空间中可合理分离的方向。
下一步是操控这些资源,看看模型的行为会发生怎样的变化。通过放大或抑制某些内部向量,研究人员可以使模型更有可能遵循安全指令,更不可能提供危险内容,或在给定领域做出更准确的反应——所有这些都无需改变原始权重,只需调节激活即可。
地理空间机制可解释性
一个特别有趣的应用是地理空间机制可解释性,它试图了解 LLM 如何在内部表示地理信息。在地理学领域,已经有大量研究评估模型是否“知道”地点的位置,是否能够进行空间推理,或者回答有关位置的问题。
当时人们仍然不太了解的是,这些能力是如何在模型中产生的。内部概念空间是如何组织城市、国家、地区、河流或景点名称的?与地名相关的向量中呈现出什么样的隐藏空间结构?
最近的研究提出了一种新的方法论框架:使用经典的空间分析技术作为逆向工程工具。首先,针对大量地名获取内部向量(或由稀疏自编码器提取的特征)。然后,利用空间自相关性和其他指标来检验特定特征是否表现出一致的地理模式。
研究结果表明,与地名相关的某些特征表现出很强的空间结构。换句话说,地理位置相近的点往往具有相似的激活模式,这使得我们可以用地理空间术语来解释这些资源:例如,作为区域、气候带、沿海地区、城市化或其他潜在模式。
这种分析有助于理解“模型如何处理地理信息”。 (注意避免拟人化)。我们不仅知道模型能够正确回答有关地图的问题,还可以看到向量空间中存在反映真实地理关系的结构化聚类。
与哲学、认知和意识的关系。
很难审视这些高度维度的概念空间而不将其与关于心灵、意义和意识的哲学讨论联系起来。几十年来,像彼得·加登福斯这样的哲学家一直将“概念空间”作为一种通过连续维度来捕捉相似性,从而对心理概念进行建模的方法。
改变的是,随着现代神经网络的发展,类似的事情不再仅仅是哲学上的隐喻,而已经成为生产系统中的具体机制。今天,我们可以在语言学习模型中指出向量、方向和距离,并证明它们对应于意义关系、语言之间的翻译、抽象概念,甚至是微妙的行为模式。
有些人认为这或许能揭示人类大脑如何表征概念。鉴于神经科学中有一种强有力的观点,认为大脑是一台预测机器,它不断地根据感觉信号和积累的经验来预测接下来会发生什么。在一些辩论中,这与……形成对比。 刺激反应理论这为我们理解行为和表征之间的关系提供了另一个视角。
如果我们一直在预测世界,那么可以合理地想象,某种向量表示(或等效物)正在持续处理中。大脑中并非存在某个特定点的“物理向量”,而是一种动态的活动模式,从功能上讲,它表现得像概念空间中的一种状态。
一些作者认为这可能与感觉性质和主观体验有关。当你看到红色时,你不仅仅是在处理光的波长;你的脑海中还存在着“红色”的概念,它与记忆、情感和文化背景紧密相连。这种表征对你而言是独一无二的,尽管它与其他人有一些共同的结构。
可解释性在这一切中扮演着怎样的角色?
机制可解释性并不旨在证明人工智能具有意识或感知能力。大多数严肃的研究都明确指出,重点在于技术:理解计算机制以提高安全性、可靠性、故障诊断、鲁棒性和监督能力。
然而,通过展示复杂概念如何从高维空间中的向量和关系中涌现出来,我们可以发现这一领域为关于心理表征、意义乃至意识的理论提供了立足点。如果一个模型能够充分表征“红色”,使其能够在各种语境中运用这一概念,这并不意味着红色本身就是意识,但它迫使我们去厘清究竟哪些要素对于主观体验的产生至关重要。
从实际角度来看,机制可解释性的最大前景是为我们提供工具,让我们看到目前不可见的事物。当模型出现幻觉、执行危险指令、表现出偏见或看似“计划”欺骗性反应时,模型的哪些部分参与其中?
借助这种内部映射,可以实时监控模型,设计更精细的控制机制,并且在某些情况下,可以直接编辑内部资源来改变行为。在金融、医疗保健、安全和公共政策等敏感领域部署 LLM 和其他人工智能系统的情况下,所有这些都至关重要。
归根结底,理解机制可解释性意味着理解人工智能模型如何构建和使用其内部的“世界模型”。无论是理解日常概念、处理复杂的地理信息,还是回答对话中看似简单的问题,我们越能阐明这些机制,就越不会对那些尽管功能强大,但仍然是数学、数据和训练的产物,而不是某种神秘意识形式的产物的系统的奇怪行为感到惊讶。