この論文は、アラビア語方言識別(ADI)のためのデータ効率的およびパラメータ効率的なアプローチを探ります。具体的には、prefix-tuning、prompt-tuning、P-tuning、P-tuning V2などのさまざまなソフトプロンプト戦略とLoRA再パラメータ化を調査します。データ効率的な戦略では、ゼロショットとフューショット推論によるハードプロンプトを使用して、大規模言語モデル(LLM)の方言識別能力を分析します。パラメータ効率的なPEFTアプローチのために、いくつかの主要なデータセットでアラビア語固有のエンコーダモデルを使用して実験を行いました。また、オープンソースデコーダ専用モデル、一般的な多言語モデル(Phi-3.5)、アラビア語固有モデル(SILMA)でnショット推論を分析しました。 LLMは、一般的に、ピューショットまたはゼロショットの設定で方言の微妙な違いを区別するのが難しいことを観察しました。ソフトプロンプトのエンコーダバリアントはより良いパフォーマンスを示し、LoRAベースの微調整モデルは全体の微調整を上回る最高のパフォーマンスを示しました。