本論文は、大規模言語モデル(LLM)のドメイン固有の推論と論理的整合性の問題を解決するために、シンボル推論ツール(例えば、証明者)から細分化されたフィードバックを利用する新しい微調整パラダイムである強化学習によるシンボルフィードバック(RLSF)を提示します。 RLSFは、シンボルツールによって生成された多項式サイズの証明書(証明など)を使用してモデル出力のエラーを識別および修正し、微分可能な推論システムなしでトークンレベルのガイダンスを提供します。これは、シンボル推論とLLM微調整との間のギャップを解消し、ドメイン固有の制約との正確な整列を可能にし、既存の補償信号の主な制限を解決します。実験の結果,RLSFベースのLLMの微調整は,プログラム合成,3つの化学作業,24ゲームプールのような5つのアプリケーションで既存のアプローチを上回り,比較的小さいLLMがはるかに大きい独占モデルより性能が優れていることを示した。