Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Market-Driven Subset Selection for Budgeted Training

Created by
  • Haebom

作者

Ashish Jha, Valentin Leplat, AH Phan

概要

大規模言語モデル学習の非効率性を解決するために、トレーニングデータのうちパフォーマンスにわずかな影響を与える部分を特定し、リソース制約内で高効率サブセットを選択するデータサブセットの選択方法を提案します。この論文では、多面的な実用性を考慮して、不確実性、分布スパース性、および多様性信号をLogarithmic Market Scoring Ruleを使用して統合する市場ベースのフレームワークを紹介します。このフレームワークは、各トレーニング例を取引可能な契約として扱い、さまざまなユーティリティシグナルを一貫した価格で統合します。

Takeaways、Limitations

Takeaways:
さまざまなユーティリティ信号を統合する市場ベースのフレームワークを提示し、データ選択プロセスを効率的に管理します。
最大エントロピー集計との理論的接続を確立し、ノイズがありますが、単調な信号の下でユーティリティ回復を保証します。
GSM8K数学的推論問題で強力な単一信号ベースと同等の性能を示しながら、低分散と少ないGPU時間消費を示す。
AGNews分類で競争力のある精度を達成し、安定性を向上させます。
プロンプトレベルの推論および分類タスクのための固定計算予算の下でマルチシグナルデータキュレーションを統合する。
Limitations:
具体的なLimitationsは論文に記載されていません。 (提供された情報に限定)
👍