Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MachineLearningLM: Scaling Many-shot In-context Learning via Continued Pretraining

Created by
  • Haebom

作者

Haoyu Dong, Pengkun Zhang, Mingzhe Lu, Yanzhen Shen, Guolin Ke

概要

本稿では、大規模言語モデル(LLM)のコンテキスト学習(ICL)能力を向上させるためのMachineLearningLMという新しいフレームワークを紹介します。 MachineLearningLMは、数百万の構造因果モデル(SCM)から生成されたさまざまな機械学習(ML)タスクを使用して事前トレーニングされています。特に、ランダムフォレストベースの意思決定戦略をLLMに注入して数値モデリングの堅牢性を高め、トークン効率的なプロンプトを介してコンテキストウィンドウあたりのより多くの例を処理してスループットを向上させます。実験の結果、MachineLearningLMは、さまざまな分野の分布外表データ分類作業において、従来の強力なLLM基準モデルより平均15%向上した性能を示し、コンテキスト内の例の数が増加するにつれて精度が単調に増加する顕著なマルチショットスケーリング法則を示しました。また、一般的なチャット機能、知識、推論能力も維持した。

Takeaways、Limitations

Takeaways:
LLMのコンテキスト学習能力を効果的に向上させる新しいフレームワークを提示します。
様々な分野のML作業で、従来モデルより優れた性能を達成。
コンテキスト内の例の数が増加するにつれてパフォーマンスが向上するマルチショットスケーリング法則の確認
一般的なチャット機能と知識、推論能力を維持しながらML能力を向上させる。
トークン効率的なプロンプトによってスループットを大幅に向上。
Limitations:
現在は特定規模のLLM(Qwen-2.5-7B-Instruct)とLoRAを用いた実験結果のみを提示。他のモデルや設定における一般化の可能性に関するさらなる研究が必要
構造因果モデル(SCM)の生成と選択プロセスの詳細な説明の欠如。
さまざまなMLジョブタイプの一般化パフォーマンスの追加検証が必要です。
👍