中科大提出可解释性驱动的多模态 Token 压缩新方法

论文信息

• 论文题目：Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective

• 论文地址：https://arxiv.org/pdf/2506.01097

• 研究团队：中国科学技术大学、Rightly Robotics

• 核心作者：Lei Lei、Jie Gu、Xiaokang Ma、Chu Tang、Jingmin Chen、Tong Xu

核心创新点

传统方法普遍认为浅层LLM仍需保留全部视觉token，压缩通常发生在中间层。本研究通过可解释性方法证明，在输入LLM前安全筛除大量视觉token，性能损失极小，打破“浅层必须全保留”的固有假设。

提出梯度加权的多头注意力相关性图（explainability-based relevance map），直接量化每个视觉token对当前指令的贡献，再按此排序剪枝。该指标与模型无关、和任务相关，能通用于不同多模态大语言模型（MLLM），区别于以往基于启发式或特定架构观察的方法。

方法原理与流程

本文设计基于可解释性的多模态大语言模型通用视觉token压缩方法，首次在LLM输入阶段借助可解释性技术评估各视觉token对当前指令的重要性。具体步骤如下：

1、通过梯度加权的多头注意力相关性图计算每个token的贡献得分，按得分排序后剪枝。

2、训练轻量级五层一维深度可分离卷积网络，将LLM第一层注意力图映射为相关性预测。

3、不修改模型结构和推理流程，实现前置压缩，降低计算与内存开销。

基于可解释性的视觉token前置压缩总体框架

框架以“上下分栏”形式呈现完整动机与流程：

• 上半部分：先给出示例图及对应问题，通过可解释性算法逐层反向传播得到视觉token的相关性热度图（Rv），仅保留得分最高的50% token（其余用白色遮罩），验证丢弃一半信息后模型仍能正确回答；再用同一热度图训练轻量卷积网络fθ，使其仅依据LLM第一层注意力就能预测出近乎一致的重要性分布（R̃v），达成“不用等模型跑完就能提前挑关键token”的效果。

• 下半部分：将压缩模块嵌入标准MLLM推理流水线，视觉编码器输出的token先经fθ打分并剪枝，再与文本指令一起送入LLM，预填充与解码阶段无需任何改动，直接减少计算和显存开销。

可解释性相关性图指导下的50% token剪枝可视化验证

验证场景：用户指令为“Which of the keywords was not mentioned in the video? A、World Law., B、World War., C、World Police., D、World Court.”，模型正确响应“B、World War.”。

三列对比直观验证核心假设：

• 左侧：将Rv以热力图形式叠加到原始视频帧或图像上，明亮区域集中在与问题高度相关的文字、物体或动作处。

• 右侧：依据Rv保留前50% token，用彩色覆盖，其余遮罩为白色，被丢弃部分多为背景或非相关区域。

• 中间：展示LLaVA-OneVision、Qwen2-VL、VILA1.5三种不同架构MLLM仅使用50% token时的生成结果，均输出正确答案，实验性证明输入阶段按可解释性得分筛选，能在几乎不掉点的前提下去掉一半视觉token。

实验结果与性能分析

大图像长视频场景下的压缩泛化性能与计算效率对比

四幅子图系统展示压缩器在“更大图像、更长视频”场景下的泛化能力与效率优势：

1、前两幅子图：汇总四个图像基准和六个视频基准的平均性能保持率。训练仅使用8帧短视频，推理扩展至32帧或更高分辨率后，该方法性能一致高于FastV等对照方法，且平均保留token比例更低。

2、后两幅子图：聚焦MMStar与MVBench两个挑战性基准，与FastV、PyramidDrop、VisionZip、PruneVID、FastVID等最新方法进行单点对比。25%保留率下，该方法计算量（FLOPs）最低，性能保持率最高，在VILA1.5上甚至超出原模型10%，证明轻量级卷积预测器面对训练时未见过的更长序列，能稳定挑选关键token，实现精度与效率的平衡。

多模型多基准性能对比实验

下表在50%与25%两种保留比例下，将直接用可解释性相关性图Rv进行token剪枝后的模型性能，与原始“不剪枝”基准进行对比：

Model	Method	Retention Ratio	Image Benchmark			Avg.(%)	Video Benchmark			Avg.(%)
			MME	MMStar	MMVet		Video-MME	MVBench	MMBench-V
Llava-OneVision	Vanilla	100%	1997.7	60.5	48.7	100	53.6	41.2	0.41	100
	GAE	50%	1974.2	59.7	47.2	98.1	54.3	41.1	0.40	99.5
		25%	1977.3	59.3	47.0	97.8	53.8	40.9	0.40	99.1
Qwen2-VL	Vanilla	100%	2295.1	60.4	54.0	100	50.4	51.0	1.23	100
	GAE	50%	2297.1	60.3	53.2	99.5	51.0	50.7	1.19	99.1
		25%	2299.1	58.7	51.7	97.7	50.3	49.7	1.17	97.5
VILA1.5	Vanilla	100%	1700.3	38.7	39.3	100	47.3	34.0	1.29	100
	GAE	50%	1740.5	37.2	38.0	98.4	47.9	34.2	1.26	99.8
		25%	1722.1	35.7	35.6	94.7	60.7	47.1	-	-

实验结果显示，LLaVA-OneVision、Qwen2-VL、VILA1.5三大不同架构的MLLM，在十项图像和视频基准上均几乎无损：

• 图像任务平均保持96%–99%原性能。

• 视频任务普遍保持97%–99%以上性能。

• LLaVA-OneVision仅留25% token，仍在视频集上取得99.1%的原始精度。

该实验首次系统验证核心论断：输入阶段按可解释性得分筛选，能大幅砍掉视觉token而不掉点，为后续训练轻量预测器提供可信的监督信号。