中科大提出可解释性驱动的多模态 Token 压缩新方法

论文信息

• 论文题目:Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective

• 论文地址:https://arxiv.org/pdf/2506.01097

• 研究团队:中国科学技术大学、Rightly Robotics

• 核心作者:Lei Lei、Jie Gu、Xiaokang Ma、Chu Tang、Jingmin Chen、Tong Xu

核心创新点

传统方法普遍认为浅层LLM仍需保留全部视觉token,压缩通常发生在中间层。本研究通过可解释性方法证明,在输入LLM前安全筛除大量视觉token,性能损失极小,打破“浅层必须全保留”的固有假设。

提出梯度加权的多头注意力相关性图(explainability-based relevance map),直接量化每个视觉token对当前指令的贡献,再按此排序剪枝。该指标与模型无关、和任务相关,能通用于不同多模态大语言模型(MLLM),区别于以往基于启发式或特定架构观察的方法。

方法原理与流程

本文设计基于可解释性的多模态大语言模型通用视觉token压缩方法,首次在LLM输入阶段借助可解释性技术评估各视觉token对当前指令的重要性。具体步骤如下:

1、通过梯度加权的多头注意力相关性图计算每个token的贡献得分,按得分排序后剪枝。

2、训练轻量级五层一维深度可分离卷积网络,将LLM第一层注意力图映射为相关性预测。

3、不修改模型结构和推理流程,实现前置压缩,降低计算与内存开销。

基于可解释性的视觉token前置压缩总体框架

框架以“上下分栏”形式呈现完整动机与流程:

• 上半部分:先给出示例图及对应问题,通过可解释性算法逐层反向传播得到视觉token的相关性热度图(Rv),仅保留得分最高的50% token(其余用白色遮罩),验证丢弃一半信息后模型仍能正确回答;再用同一热度图训练轻量卷积网络fθ,使其仅依据LLM第一层注意力就能预测出近乎一致的重要性分布(R̃v),达成“不用等模型跑完就能提前挑关键token”的效果。

• 下半部分:将压缩模块嵌入标准MLLM推理流水线,视觉编码器输出的token先经fθ打分并剪枝,再与文本指令一起送入LLM,预填充与解码阶段无需任何改动,直接减少计算和显存开销。

可解释性相关性图指导下的50% token剪枝可视化验证

验证场景:用户指令为“Which of the keywords was not mentioned in the video? A、World Law., B、World War., C、World Police., D、World Court.”,模型正确响应“B、World War.”。

三列对比直观验证核心假设:

• 左侧:将Rv以热力图形式叠加到原始视频帧或图像上,明亮区域集中在与问题高度相关的文字、物体或动作处。

• 右侧:依据Rv保留前50% token,用彩色覆盖,其余遮罩为白色,被丢弃部分多为背景或非相关区域。

• 中间:展示LLaVA-OneVision、Qwen2-VL、VILA1.5三种不同架构MLLM仅使用50% token时的生成结果,均输出正确答案,实验性证明输入阶段按可解释性得分筛选,能在几乎不掉点的前提下去掉一半视觉token。

实验结果与性能分析

大图像长视频场景下的压缩泛化性能与计算效率对比

四幅子图系统展示压缩器在“更大图像、更长视频”场景下的泛化能力与效率优势:

1、前两幅子图:汇总四个图像基准和六个视频基准的平均性能保持率。训练仅使用8帧短视频,推理扩展至32帧或更高分辨率后,该方法性能一致高于FastV等对照方法,且平均保留token比例更低。

2、后两幅子图:聚焦MMStar与MVBench两个挑战性基准,与FastV、PyramidDrop、VisionZip、PruneVID、FastVID等最新方法进行单点对比。25%保留率下,该方法计算量(FLOPs)最低,性能保持率最高,在VILA1.5上甚至超出原模型10%,证明轻量级卷积预测器面对训练时未见过的更长序列,能稳定挑选关键token,实现精度与效率的平衡。

多模型多基准性能对比实验

下表在50%与25%两种保留比例下,将直接用可解释性相关性图Rv进行token剪枝后的模型性能,与原始“不剪枝”基准进行对比:

Model Method Retention Ratio Image Benchmark Avg.(%) Video Benchmark Avg.(%)
MME MMStar MMVet Video-MME MVBench MMBench-V
Llava-OneVision Vanilla 100% 1997.7 60.5 48.7 100 53.6 41.2 0.41 100
GAE 50% 1974.2 59.7 47.2 98.1 54.3 41.1 0.40 99.5
25% 1977.3 59.3 47.0 97.8 53.8 40.9 0.40 99.1
Qwen2-VL Vanilla 100% 2295.1 60.4 54.0 100 50.4 51.0 1.23 100
GAE 50% 2297.1 60.3 53.2 99.5 51.0 50.7 1.19 99.1
25% 2299.1 58.7 51.7 97.7 50.3 49.7 1.17 97.5
VILA1.5 Vanilla 100% 1700.3 38.7 39.3 100 47.3 34.0 1.29 100
GAE 50% 1740.5 37.2 38.0 98.4 47.9 34.2 1.26 99.8
25% 1722.1 35.7 35.6 94.7 60.7 47.1 - -

实验结果显示,LLaVA-OneVision、Qwen2-VL、VILA1.5三大不同架构的MLLM,在十项图像和视频基准上均几乎无损:

• 图像任务平均保持96%–99%原性能。

• 视频任务普遍保持97%–99%以上性能。

• LLaVA-OneVision仅留25% token,仍在视频集上取得99.1%的原始精度。

该实验首次系统验证核心论断:输入阶段按可解释性得分筛选,能大幅砍掉视觉token而不掉点,为后续训练轻量预测器提供可信的监督信号。

我的笔记