什么是Circuit Tracer
Circuit Tracer是Anthropic推出的开源工具,用于研究大语言模型的内部工作机制。该工具通过生成归因图来揭示模型在产生特定输出时经历的内部步骤。这些归因图可帮助研究者追踪模型的决策过程、可视化特征间关联性,并通过干预特征来验证不同假设。Circuit Tracer支持Gemma、Llama等主流开源模型,并通过Neuronpedia提供交互式可视化界面,便于用户探索分析模型行为。
Circuit Tracer核心功能
- 生成归因图:揭示模型决策路径,展现特征与节点间的相互影响关系
- 可视化交互:通过交互界面直观查看和操作归因图,便于理解与分享
- 模型干预:修改特征值观察输出变化,验证模型行为
- 多模型支持:兼容Gemma、Llama等主流模型,支持对比研究
Circuit Tracer技术原理
- 转码器技术:使用预训练转码器生成归因图。转码器是将模型内部特征转换为更易理解形式的神经网络组件,通过它捕捉模型内部特征与节点的关联关系
- 直接影响计算:计算每个非零转码器特征、转码器误差节点及输入token对其他非零转码器特征和输出logits的直接影响
- 图形剪枝:对生成图形进行剪枝处理。剪枝过程会移除影响力微弱的节点和边,仅保留对模型决策有显著影响的部分。剪枝参数(如节点/边阈值)可由用户自定义,控制图形复杂度与清晰度
- 交互式可视化界面:提供基于网页的交互可视化界面,用户可直接在浏览器中查看和操作归因图。界面支持节点标记、分组和注释功能,使用户能更直观地理解和分析模型内部机制
Circuit Tracer项目地址
- 项目官网:https://www.anthropic.com/research/open-source-circuit-tracing
- GitHub仓库:https://github.com/safety-research/circuit-tracer
Circuit Tracer应用场景
- 模型行为研究:通过归因图分析模型决策过程,理解特定输出背后的内部逻辑
- 多语言模型分析:研究Llama等多语言模型的内部表征,探索跨语言处理机制
- 多步推理研究:分析模型在多步推理任务中的行为,揭示逐步推理的过程与逻辑
- 模型优化改进:通过干预特征测试不同假设,验证某些模型行为是否符合预期,优化模型结构
- 教育分享:利用交互可视化界面向他人清晰展现复杂模型决策过程,便于教学交流