Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

Created by
  • Haebom

作者

Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang

概要

この論文では、大規模言語モデル(LLM)の推論能力を向上させるための効率的な事後学習フレームワークであるInfiAlignを紹介します。 InfiAlignは、マップ学習微調整(SFT)と直接アフィニティ最適化(DPO)を統合してLLMをソートし、多次元品質指標を使用してオープンソース推論データセットから高品質ソートデータを自動的に選択する強力なデータ選択パイプラインを中心としています。 Qwen2.5-Math-7B-Baseモデルに適用した結果、既存のモデルと同様の性能を既存のデータの約12%のみを使用して達成し、様々な推論課題で強力な一般化性能を示しました。具体的には、DPOを適用して数学的推論課題で平均3.89%の性能向上を達成しました。 InfiAlignは、原則に基づいたデータ選択と前段階の後学習を組み合わせて、スケーラブルでデータ効率的な方法で大規模な推論モデルをソートする実用的な解決策を提供します。モデルチェックポイントはhttps://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFTで利用できます。

Takeaways、Limitations

Takeaways:
既存のLLM事後学習のデータと計算コストの問題を効果的に解決する新しいフレームワークInfiAlignの提示。
自動化されたデータ選択パイプラインを使用してデータ効率を最大化し、スケーラビリティを確保します。
SFTとDPOの組み合わせにより,様々な推論課題で優れた性能向上を達成
実際に適用可能なデータ効率的な大規模推論モデルのソート方法の提示
学習したモデルの開示による研究の再現性と活用性の向上
Limitations:
InfiAlignのパフォーマンス向上が特定のモデル(Qwen2.5-Math-7B-Base)とデータセットに限定される可能性。
多次元品質指標の定義と設定の詳細な説明の欠如
他のLLMと様々な推論課題に対する一般化性能検証を追加する必要性
データ選択パイプラインの偏向と限界の分析不足。
👍