Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model

Created by
  • Haebom

作者

Zhiwei Jin, Xiaohui Song, Nan Wang, Yafei Liu, Chao Li, Xin Li, Ruichen Wang, Zhihao Li, Qi Qi, Long Cheng, Dongze Hao, Quanlong Zheng, Yanhao Zhang, Haobo Ji, Jian Ma, Zhitong Zheng, Zhenyi Lin Yin, Ruilin Wang, Liankai Cai, Haijing Liu, Yuqing Qiu, Ke Chen, Zixian Li, Chi Xie, Huafei Li, Chenxing Li, Chuangchuang Wang, Kai Tang, Zhiguang Zhu, Kai Tang, Wenmei Gao, Rui Wang, Jun Wu, Xoo Liu

AndesVL: Mobile-Side MLLMs for Efficient Visual Understanding

概要

この論文では、Qwen3のLLMとさまざまな視覚エンコーダに基づく0.6Bから4Bパラメータを持つモバイル環境MLLMであるAndesVLを紹介します。 AndesVLは、テキスト豊富なイメージ理解、推論と数学、マルチイメージ理解、一般的なVQA、サイケデリックな緩和、多言語理解、GUI関連のタスクなど、さまざまなオープンソースベンチマークでクラス最高のパフォーマンスを達成しました。 1+N LoRAアーキテクチャとQuantization-Aware LoRA Fine-Tuning(QALFT)フレームワークにより、効率的な作業適応とモデル圧縮を可能にし、OKVキャッシュ除去アルゴリズム、カスタマイズされた推測デコード、および圧縮戦略を使用してMediaTek Dimensity 9500チップでアンデスVL-4Bをデプロイする最大3。 1.8 bits-per-weightを達成した。

Takeaways、Limitations

モバイル環境で効率的なMLLMを構築および展開するためのAndesVLモデル、アーキテクチャ、トレーニングパイプライン、トレーニングデータセットの提示。
さまざまなベンチマークで同等のモデルと比較して優れた性能を実証。
1+N LoRAアーキテクチャとQALFTフレームワークによる効率的な作業適応とモデル圧縮
OKVキャッシュ除去アルゴリズム,カスタム推測復号化と圧縮戦略による性能最適化
モデル展開時のメモリ使用量とデコード速度の向上。
この論文の具体的なLimitationsは提示されていません。 (論文の要約に Limitations に関する情報の不在)
👍