论文信息
• 论文题目:Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective
• 论文地址:https://arxiv.org/pdf/2506.01097
• 研究团队:中国科学技术大学、Rightly Robotics
• 核心作者:Lei Lei、Jie Gu、Xiaokang Ma、Chu Tang、Jingmin Chen、Tong Xu
核心创新点
传统方法普遍认为浅层LLM仍需保留全部视觉token,压缩通常发生在中间层。本研究通过可解释性方法证明,在输入LLM前安全筛除大量视觉token,性能损失极小,打破“浅层必须全保留”的固有假设。
提出梯度加权的多头注意力相关性图(explainability-based relevance map),直接量化每个视觉token对当前指令的贡献,再按此排序剪枝。该指标与模型无关、和任务相关,能通用于不同多模态大语言模型(MLLM),区别于以往基于启发式或特定架构观察的方法。
方法原理与流程
本文设计基于可解释性的多模态大语言模型通用视觉token压缩方法,首次在LLM输入阶段借助可解释性技术评估各视觉token对当前指令的重要性。具体步骤如下:
1、通过梯度加权的多头注意力相关性图计算每个token的贡献得分,按得分排序后剪枝。
2、训练轻量级五层一维深度可分离卷积网络,将LLM第一层注意力图映射为相关性预测。
3、不修改模型结构和推理流程,实现前置压缩,降低计算与内存开销。
基于可解释性的视觉token前置压缩总体框架
框架以“上下分栏”形式呈现完整动机与流程:
• 上半部分:先给出示例图及对应问题,通过可解释性算法逐层反向传播得到视觉token的相关性热度图(Rv),仅保留得分最高的50% token(其余用白色遮罩),验证丢弃一半信息后模型仍能正确回答;再用同一热度图训练轻量卷积网络fθ,使其仅依据LLM第一层注意力就能预测出近乎一致的重要性分布(R̃v),达成“不用等模型跑完就能提前挑关键token”的效果。
• 下半部分:将压缩模块嵌入标准MLLM推理流水线,视觉编码器输出的token先经fθ打分并剪枝,再与文本指令一起送入LLM,预填充与解码阶段无需任何改动,直接减少计算和显存开销。
可解释性相关性图指导下的50% token剪枝可视化验证
验证场景:用户指令为“Which of the keywords was not mentioned in the video? A、World Law., B、World War., C、World Police., D、World Court.”,模型正确响应“B、World War.”。
三列对比直观验证核心假设:
• 左侧:将Rv以热力图形式叠加到原始视频帧或图像上,明亮区域集中在与问题高度相关的文字、物体或动作处。
• 右侧:依据Rv保留前50% token,用彩色覆盖,其余遮罩为白色,被丢弃部分多为背景或非相关区域。
• 中间:展示LLaVA-OneVision、Qwen2-VL、VILA1.5三种不同架构MLLM仅使用50% token时的生成结果,均输出正确答案,实验性证明输入阶段按可解释性得分筛选,能在几乎不掉点的前提下去掉一半视觉token。
实验结果与性能分析
大图像长视频场景下的压缩泛化性能与计算效率对比
四幅子图系统展示压缩器在“更大图像、更长视频”场景下的泛化能力与效率优势:
1、前两幅子图:汇总四个图像基准和六个视频基准的平均性能保持率。训练仅使用8帧短视频,推理扩展至32帧或更高分辨率后,该方法性能一致高于FastV等对照方法,且平均保留token比例更低。
2、后两幅子图:聚焦MMStar与MVBench两个挑战性基准,与FastV、PyramidDrop、VisionZip、PruneVID、FastVID等最新方法进行单点对比。25%保留率下,该方法计算量(FLOPs)最低,性能保持率最高,在VILA1.5上甚至超出原模型10%,证明轻量级卷积预测器面对训练时未见过的更长序列,能稳定挑选关键token,实现精度与效率的平衡。
多模型多基准性能对比实验
下表在50%与25%两种保留比例下,将直接用可解释性相关性图Rv进行token剪枝后的模型性能,与原始“不剪枝”基准进行对比:
| Model | Method | Retention Ratio | Image Benchmark | Avg.(%) | Video Benchmark | Avg.(%) | ||||
|---|---|---|---|---|---|---|---|---|---|---|
| MME | MMStar | MMVet | Video-MME | MVBench | MMBench-V | |||||
| Llava-OneVision | Vanilla | 100% | 1997.7 | 60.5 | 48.7 | 100 | 53.6 | 41.2 | 0.41 | 100 |
| GAE | 50% | 1974.2 | 59.7 | 47.2 | 98.1 | 54.3 | 41.1 | 0.40 | 99.5 | |
| 25% | 1977.3 | 59.3 | 47.0 | 97.8 | 53.8 | 40.9 | 0.40 | 99.1 | ||
| Qwen2-VL | Vanilla | 100% | 2295.1 | 60.4 | 54.0 | 100 | 50.4 | 51.0 | 1.23 | 100 |
| GAE | 50% | 2297.1 | 60.3 | 53.2 | 99.5 | 51.0 | 50.7 | 1.19 | 99.1 | |
| 25% | 2299.1 | 58.7 | 51.7 | 97.7 | 50.3 | 49.7 | 1.17 | 97.5 | ||
| VILA1.5 | Vanilla | 100% | 1700.3 | 38.7 | 39.3 | 100 | 47.3 | 34.0 | 1.29 | 100 |
| GAE | 50% | 1740.5 | 37.2 | 38.0 | 98.4 | 47.9 | 34.2 | 1.26 | 99.8 | |
| 25% | 1722.1 | 35.7 | 35.6 | 94.7 | 60.7 | 47.1 | - | - |
实验结果显示,LLaVA-OneVision、Qwen2-VL、VILA1.5三大不同架构的MLLM,在十项图像和视频基准上均几乎无损:
• 图像任务平均保持96%–99%原性能。
• 视频任务普遍保持97%–99%以上性能。
• LLaVA-OneVision仅留25% token,仍在视频集上取得99.1%的原始精度。
该实验首次系统验证核心论断:输入阶段按可解释性得分筛选,能大幅砍掉视觉token而不掉点,为后续训练轻量预测器提供可信的监督信号。
