大規模言語モデル学習の非効率性を解決するために、トレーニングデータのうちパフォーマンスにわずかな影響を与える部分を特定し、リソース制約内で高効率サブセットを選択するデータサブセットの選択方法を提案します。この論文では、多面的な実用性を考慮して、不確実性、分布スパース性、および多様性信号をLogarithmic Market Scoring Ruleを使用して統合する市場ベースのフレームワークを紹介します。このフレームワークは、各トレーニング例を取引可能な契約として扱い、さまざまなユーティリティシグナルを一貫した価格で統合します。