Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Structured Agent Distillation for Large Language Model

Created by
  • Haebom

作者

Jun Liu, Zhenglun Kong, Peiyan Dong, Changdi Yang, Tianqi Li, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

Structured Agent Distillation

概要

大規模言語モデル(LLM)ベースのエージェントは、推論と行動を組み合わせて強力な意思決定能力を実証します。しかし、高い推論コストと大きなモデルサイズのため、実際の展開に制約があります。この論文では、大規模なLLMベースのエージェントをより小さな学生モデルに圧縮しながら、推論の忠実度と行動の一貫性を維持するフレームワークであるStructured Agent Distillationを提案します。トークンレベルの標準蒸留とは異なり、本方法は、軌道を{[REASON]}および{[ACT]}区間に分割し、各構成要素を教師の行動に合わせるためにセグメントごとの損失を適用する。この構造認識監督により、小型エージェントは教師の意思決定プロセスをよりよく複製することができます。 ALFWorld、HotPotQA-ReAct、WebShopの実験では、この研究はトークンレベルと模倣学習ベースラインを一貫して上回り、パフォーマンスの低下を最小限に抑えながらかなりの圧縮を達成しました。スケーリングと除去の結果は、効率的で配布可能なエージェントのための区間レベルアラインメントの重要性を強調します。

Takeaways、Limitations

大規模LLMベースのエージェントの推論能力と行動の一貫性を維持しながらモデルサイズを縮小する効果的な方法を提示
ReActスタイルのフレームワークで高いパフォーマンスを達成し、トークンレベルと模倣学習方法よりも優れています。
ALFWorld、HotPotQA-ReAct、WebShopなど、さまざまな環境での実験を通じて、方法論の一般性を検証。
Span-level alignmentの重要性を強調し、効率的なエージェント開発に貢献。
具体的なモデルアーキテクチャや実装の詳細についての深い議論の欠如。
特定の作業環境に特化した最適化が必要な場合があります。
実際の展開時に発生する可能性がある追加の問題(例えば、ラテンシー)の分析の欠如。
👍