Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LLMs on a Budget? Say HOLA

Created by
  • Haebom

作者

Zohaib Hasan Siddiqui, Jiechao Gao, Ebad Shabbir, Mohammad Anas Azeez, Rafiq Ali, Gautam Siddharth Kashyap, Usman Naseem

HOLA: Efficient LLM Deployment on Edge Devices

概要

HOLAは、エッジデバイスに大規模言語モデル(LLM)を効率的に展開するためのエンドツーエンドの最適化フレームワークです。 HOLAは、Herarchical Speculative Decoding(HSD)を使用して品質を低下させることなく、より高速な推論を可能にし、AdaComp-RAGを介して状況に応じた検索の複雑さを調整し、構造的剪定(LoRA)と量子化を組み合わせたLoBiを活用してパフォーマンスを向上させます。その結果、GSM8Kでは17.6%のEMA、ARCでは10.5%のMCA向上、Jetson Nanoなどのエッジデバイスでレイテンシとメモリ使用量の削減が達成されました。

Takeaways、Limitations

Takeaways:
HOLAは、エッジデバイスにLLMを効率的に展開するための包括的なソリューションを提供します。
HSD、AdaComp-RAG、LoBiの組み合わせにより、速度と精度の両方が向上します。
Jetson Nanoなどの限られた環境でもパフォーマンスの向上を示しています。
実際のアプリケーションでLLMを使用する可能性を高めます。
Limitations:
特定のデータセットとモデルサイズによるHOLAのパフォーマンスの変化に関する情報が不足しています。
他の最適化技術との比較分析は限られている。
HOLAの各成分(HSD、AdaComp-RAG、LoBi)の個々の寄与の詳細な分析が不足している。
👍