Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Long Chain-of-Thought Reasoning Across Languages

Created by
  • Haebom

作者

Josh Barua, Seun Eisape, Kayo Yin, Alane Suhr

概要

大規模な推論モデルが英語で長い連鎖思考(CoT)を生成する驚くべき能力を示しましたが、これらの長期的な推論能力が世界中の言語の大半にどのように移転されるかについての理解は欠けています。この研究では、モデル開発の4つの主要な段階(拡張、事前訓練、事後訓練、および推論)を体系的に調査し、長いCoT機能が英語を超えてどのように拡張されるかを理解しようとする。 9つの非英語のターゲット言語の2つの推論設定を比較します。En-CoT(モデルはターゲット言語入力を処理しますが英語で推論します)とTarget-CoT(モデルは入力を処理し、ターゲット言語で長いCoTを生成します)。モデルサイズを拡張すると、En-CoTでは多言語作業のパフォーマンスが向上しますが、Target-CoTのパフォーマンスは遅れます。このギャップは、数学的推論のように長く、多段階のCoTを必要とする作業でさらに大きくなります。事前訓練に切り替えると、特殊な推論ステップを追加するとEn-CoT性能が向上しますが、Target-CoTは低下しますが、広範囲の多言語事前訓練は両方のモードを同時に改善します。英語以外の言語では高品質の推論追跡が不足しているため、事後訓練のための合成データキュレーションアプローチを探る。我々は、今後の英語トレースにおける自動翻訳トレースの微調整は、大規模推論モデルから抽出されたターゲット言語トレースの微調整よりも優れた性能を示すことを示している。最後に、我々は言語間推論効率の不一致を報告し、CoTで言語固有の失敗モードを発見する。さらなる研究のために、モデル、データセット、およびコードを公開します。

Takeaways、Limitations

モデルサイズを拡張すると、En-CoT(英語で推論)のパフォーマンスが向上しますが、Target-CoT(ターゲット言語で推論)のパフォーマンスは向上しません。
数学的推論のような複雑な作業では、En-CoTとTarget-CoTの間のギャップが大きくなります。
特殊化された推論ステップの追加はEn-CoTには肯定的ですが、Target-CoTには負の影響を与えます。
幅広い多言語辞書トレーニングは、En-CoTとTarget-CoTの両方に役立ちます。
英語で自動翻訳された推論追跡を使用して微調整することは、ターゲット言語追跡を直接使用するよりも効果的です。
推論効率とCoT失敗モードでは、言語固有の違いがあります。
高品質推論追跡データの欠如は限界として機能する。
👍