Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models

Created by
  • Haebom

作者

Nianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

概要

確率的言語モデル(DLLM)に強化学習(RL)を適用するときに発生する困難は、RL目的に不可欠な可能性関数の計算不可能です。既存の方法は証拠下限(ELBO)を介して可能性を近似するが、各トレーニング段階でかなりのメモリオーバーヘッドが発生する。本論文は、メモリ効率の高いRLアルゴリズムであるBoundary-Guided Policy Optimization(BGPO)を提案する。 BGPOは、ELBOベースの目的関数の特別に構成された下限を最大化し、線形性と等価性の2つの主な属性を満たしています。実験の結果,BGPOは,数学問題解,コード生成と計画課題において,以前のRLアルゴリズムより優れた性能を示した。

Takeaways、Limitations

Takeaways:
メモリ効率的なRLアルゴリズム提案(BGPO)
DLLMにRLを適用したときに発生するメモリの問題を修正
数学の問題解決、コード生成、計画課題における従来の方法より優れた性能を実現
大規模なMCサンプルサイズを使用した正確な可能性も近似可能
Limitations:
論文では、具体的なLimitationsは明記されていません(ただし、dLLMに特化したアルゴリズムであるため、他の分野への一般化の制限は存在する可能性があります)。
👍