Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Scalable Bayesian Low-Rank Adaptation of Large Language Models via Stochastic Variational Subspace Inference

Created by
  • Haebom

作者

Colin Samplawski, Adam D. Cobb, Manoj Acharya, Ramneet Kaur, Susmit Jha

概要

本稿では、大規模言語モデル(LLM)の不確実性を定量化するためのスケーラブルなベイジアン低次元適応方法であるScalaBLを紹介します。従来のベイジアンディープラーニングベースのアプローチは、微調整モデルの低次元適応(LoRA)パラメータの推論を実行しますが、LLMのサイズが大きくなるにつれて追加のパラメータが増加するという問題があります。 ScalaBLは、LoRAパラメータを投影行列として再利用してr次元部分空間でベイズ推論を実行し、この部分空間のサンプルをLLMの全重み空間にマッピングします。これにより、確率的変分推論を使用してすべてのパラメータを学習し、従来の方法よりはるかに少ない(約1000個)追加パラメータだけで最先端のパフォーマンスを達成します。また、従来の研究よりも4倍の基本パラメータを持つ、これまで最大のベイジアンLLMに拡張可能であることを示しています。

Takeaways、Limitations

Takeaways:
LLMの不確実性定量化問題に対する効率的でスケーラブルな解決策の提示
既存のベイジアンLLMアプローチの拡張性限界を克服
最小限の追加パラメータで最先端のパフォーマンスを達成します。
大規模なベイジアンLLM訓練の可能性を証明。
Limitations:
提示された方法の性能は、特定の部分空間の次元(R)に依存し得る。最適なr値を見つけることが重要な課題。
実際の高リスクドメイン(自律走行、医療)における実際の適用および性能評価が追加的に必要。
さまざまなLLMアーキテクチャとサイズの一般化パフォーマンス検証が必要です。
👍