研究项目介绍🧪📊
研究项目介绍🧪📊
Created using ChatSlide
这项研究探讨了视觉语言模型(VLM)在计算成本的挑战下,通过VLM-Pruner解决方案来平衡冗余与稀疏。研究说明了目标是通过离心Token修剪模式、空间稀疏缓冲机制和相似性加权聚合来优化模型性能。实践方法分为三个阶段:中心点初始化、贪婪选择结合BSS以及通过SWA恢复。实验设计包括在13个数据集上测试,其结果显示在高修剪率下依然保持高分辨率输入效果。通过本研究,推断速度提升,并能有效降低计算成本,进而提高多模态推理的效率。