Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks

Created by
  • Haebom

作者

Ping Yu, Jack Lanchantin, Tianlu Wang, Weizhe Yuan, Olga Golovneva, Ilia Kulikov, Sainbayar Sukhbaatar, Jason Weston, Jing Xu

概要

本稿では、大規模言語モデル(LLM)のための高品質の合成データ生成方法であるCoT-Self-Instructを提案します。 CoT-Self-Instructは、シードの課題に基づいて、LLMがChain-of-Thought(CoT)を通じて優先的に推論し、計画を立てた後、同様の品質と複雑さを持つ新しい合成データを生成します。その後、自動評価指標を使用して高品質のデータを選択するためのフィルタリングステップを経ます。選択されたデータはLLMトレーニングに使用されます。実験結果、検証可能な推論課題(MATH500、AMC23、AIME24、GPQA-Diamond)では既存のトレーニングデータセット(s1k、OpenMathReasoning)を、検証不可能な指示に従う課題(AlpacaEval 2.0、Arena-Hard)では人間が生成したデータと標準セルフ。

Takeaways、Limitations

Takeaways:
CoT-Self-Instructは、既存のデータセットよりも品質の高い合成データを生成し、LLMのパフォーマンス向上に貢献します。
検証可能な推論と検証不可能な指示に従う課題の両方で優れたパフォーマンスを実証します。
自動評価指標を活用して効率的に高品質なデータを選別する方法を紹介します。
Limitations:
提案された自動評価指標の一般化性能と信頼性の追加検証が必要です。
生成された合成データの偏向性と安全性の分析が不十分です。
特定の種類の課題に対してのみパフォーマンスが評価されたため、他の種類の課題の一般化パフォーマンスを確認する必要があります。
👍