每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

医学环境下高效多模态法学硕士 (LLM) 的压缩策略

Created by
  • Haebom

作者

Tanvir A. Khan、Aranya Saha、Ismam N. Swapnil、Mohammad A. Haque

大纲

本文评估了一种适用于医疗保健领域的多模态大规模语言模型 (MLLM) 的有效压缩技术。具体而言,我们分析了结构剪枝和激活感知量化对微调 LLAVA 模型的影响。我们还提出了一种新颖的层选择方法,用于评估剪枝-微调-量化流程的性能下降和内存占用的减少。我们将一个包含 70 亿个参数的 MLLM 压缩到 4 GB 显存上运行,与现有技术相比,内存占用减少了 70%,性能提升了 4%。

Takeaways,Limitations

Takeaways:
通过高效的压缩技术,MLLM 在医疗领域的潜力得到了提升。
所提出的层选择方法和量化技术比现有方法表现出更好的性能。
通过使 MLLM 即使在内存受限的环境中也能运行,提高了可访问性。
Limitations:
LLAVA 模型特定方法对其他 MLLM 模型的普遍性需要进一步研究。
缺乏对用于评估的医疗数据集的类型和大小的明确描述。
需要进一步验证以确定 4% 的性能提升是否对所有医疗应用都有意义。
👍