Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RLSF: Fine-tuning LLMs via Symbolic Feedback

Created by
  • Haebom

作者

Piyush Jha, Prithwish Jana, Pranavkrishna Suresh, Arnav Arora, Vijay Ganesh

概要

本論文は、大規模言語モデル(LLM)のドメイン固有の推論と論理的整合性の問題を解決するために、シンボル推論ツール(例えば、証明者)から細分化されたフィードバックを利用する新しい微調整パラダイムである強化学習によるシンボルフィードバック(RLSF)を提示します。 RLSFは、シンボルツールによって生成された多項式サイズの証明書(証明など)を使用してモデル出力のエラーを識別および修正し、微分可能な推論システムなしでトークンレベルのガイダンスを提供します。これは、シンボル推論とLLM微調整との間のギャップを解消し、ドメイン固有の制約との正確な整列を可能にし、既存の補償信号の主な制限を解決します。実験の結果,RLSFベースのLLMの微調整は,プログラム合成,3つの化学作業,24ゲームプールのような5つのアプリケーションで既存のアプローチを上回り,比較的小さいLLMがはるかに大きい独占モデルより性能が優れていることを示した。

Takeaways、Limitations

Takeaways:
シンボル推論ツールを活用した新しいLLM微調整パラダイム(RLSF)の提示
既存の補償信号の限界を克服し、ドメイン固有の制約との正確な位置合わせが可能
比較的小さなLLMが大規模な排他モデルを上回る性能を実現
さまざまなアプリケーション(プログラム合成、化学作業、ゲームプールなど)でパフォーマンスの向上を確認する
Limitations:
RLSFの適用性は,シンボル推論ツールの利用可能性に依存する可能性がある
特定ドメインに特化したシンボル推論ツールの開発と統合の必要性
さまざまなドメインとタスクの一般化パフォーマンス評価を追加する必要があります
👍