Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Can Large Language Models Develop Strategic Reasoning? Post-training Insights from Learning Chess

Created by
  • Haebom

作者

Dongyoon Hwang, Hojoon Lee, Jaegul Choo, Dongmin Park, Jongho Park

概要

本論文は、大規模言語モデル(LLM)の戦略的推論能力向上のために強化学習(RL)をチェスゲームに適用した研究である。チェスの事前学習された行動価値ネットワークを利用して、LLMの出力数の質に対する密集補償を提供する知識蒸留スキームを使用した。実験の結果、密集補償が希少バイナリ補償よりも性能が優れていることが示されたが、全てのモデルが専門家レベルには大きく及ばない限界を示した。事前学習されたモデルのチェスの内的理解不足が主な原因であり、RLだけではこれを完全に克服できないことを示唆する結果を提示する。コードはフラッグハブに公開されています。

Takeaways、Limitations

Takeaways: LLMの戦略的推論能力を向上させるためのRL適用性をチェスゲームで検証しました。知識蒸留ベースの密集補償が有効であることを確認した。
Limitations:すべてのモデルが専門家レベルに達していません。事前学習されたモデルのチェスの内的理解の欠如は、RL学習の限界を明らかにしました。 RLだけではLLMの戦略的推論能力の完璧な向上を期待するのが難しいことを示唆している。
👍