Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CoreThink: A Symbolic Reasoning Layer to reason over Long Horizo​​n Tasks with LLMs

Created by
  • Haebom

作者

Jay Vaghasiya, Omkar Ghugarkar, Vishvesh Bhat, Vipul Dholaria, Julian McAuley

概要

CoreThinkは、General Symbolicsと呼ばれる新しい推論方法に基づいて構築された最先端の推論層です。テストタイムスケーリング、マップ微調整(SFT)、検証可能な補償を使用した強化学習(RLVR)など、従来の推論パラダイムとは異なります。 CoreThink General Symbolic Reasoner(GSR)は、ツールの呼び出し、コード生成、計画など、3つの主要なユースケースを中心に構成されており、各分野の合計7つのベンチマークで優れたパフォーマンスを示しています。特にLivecodebench v6では66.66%、Instruction-Following Evalsでは89%、ARC-AGI-2では24.4%の最高性能(SOTA)スコアを達成しました。また、General Symbolicsの原則を使用して開発されたエージェントコーディングIDEを提示し、SWE-Bench Liteで62.3%の最先端の精度を達成しました。これらのパフォーマンスの向上は、微調整やトレーニングコストなしで達成されました。 CoreThink推論層は、純粋なパフォーマンス向上を提供するように設計されており、モデルの推論作業精度が絶対に低下しないようにします。著者は、既存の方法が最終的にLLM性能の収穫の体感につながり、新しい推論技術の開発が必要であると主張する。このテクニカルレポートでは、高レベルでのCoreThinkアプローチと推論集約的なユースケースのためのCoreThinkモデルの可用性について詳しく説明します。

Takeaways、Limitations

Takeaways:
General Symbolicsに基づく新しい推論法CoreThinkの提示
従来の方法(SFT、RLVRなど)と比較して優れた性能(Livecodebench v6、Instruction-Following Evals、ARC-AGI-2、SWE-Bench Liteなど多数のベンチマークでSOTA達成)。
微調整とトレーニングコストなしでパフォーマンス向上を達成。
推論集約的なユースケースのためのモデルの開示。
LLMパフォーマンスを向上させるための新しい推論技術の必要性を提示します。
Limitations:
本論文で提示された一般シンボル法の具体的な内容は詳細には説明しない。
さまざまなベンチマークで優れた性能を示したが、一部のベンチマークの性能は比較的低い(例えば、ARC-AGI-2 24.4%)。
General Symbolicsの一般化性能とスケーラビリティに関するさらなる研究の必要性
CoreThinkの実際の適用と制限の追加検証が必要です。
👍