Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use

Created by
  • Haebom

作者

Junjie Ye, Yilong Wu, Sixian Li, Yuming Yang, Zhiheng Xi, Tao Gui, Qi Zhang, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan, Zhengyin Du

概要

この論文は、ツールを活用して環境と対話する大規模言語モデル(LLM)のパフォーマンス向上について説明します。従来のマップ学習微調整(SFT)方式は、大規模なデータセットに依存して作業特性を見落とす限界があります。これを解決するために、研究者は3つの既存のLLMを分析し、トレーニングデータがツールの使用行動を妨げ、トークンの重要度が不均等に分布し、ツールコールエラーが特定のカテゴリに集中していることを明らかにしました。これらの分析結果に基づいて、研究者は作業特徴ベースのフレームワークであるTL-Trainingを提案します。 TL-Trainingは、最適ではなくトレーニングデータの影響を軽減し、SFTの重要なトークンを優先するためにトークンの重みを動的に調整し、エラーカテゴリに合わせた強化された補償メカニズムを近接ポリシー最適化によって最適化します。 CodeLLaMA-2-7Bを訓練し、4つのオープンソーステストセットで評価したところ、限られたトレーニングデータ(1,217個)のみがオープンおよびクローズソースLLMと同等または優れたツール使用性能を達成することを示しています。また、ノイズの多い環境での堅牢性を向上させ、一般的な作業性能を向上させ、LLMのツール使用訓練のためのスケーラブルで効率的なパラダイムを提供します。コードとデータはhttps://github.com/Junjie-Ye/TL-Trainingで利用できます。

Takeaways、Limitations

Takeaways:
限られたトレーニングデータでも優れたツール使用性能を達成する効率的なトレーニングフレームワーク(TL-Training)を提示。
ノイズ環境での堅牢性の向上と一般的な作業性能の向上
LLMのツール使用訓練のための拡張可能で効率的なパラダイム提示
既存のSFT方式のLimitationsを分析し,改善策を提示した。
Limitations:
TL-Trainingのパフォーマンスが特定のLLMとデータセットに限定される可能性。
さまざまなツールとタスクタイプの一般化パフォーマンス検証が必要です。
より広範な実験と比較研究による一般化性能と汎用性検証の必要性
使用されるトレーニングデータのサイズが小さく、実際の大規模アプリケーションシナリオでの一般化の可能性に関するさらなる研究が必要です。
👍