確率的言語モデル(DLLM)に強化学習(RL)を適用するときに発生する困難は、RL目的に不可欠な可能性関数の計算不可能です。既存の方法は証拠下限(ELBO)を介して可能性を近似するが、各トレーニング段階でかなりのメモリオーバーヘッドが発生する。本論文は、メモリ効率の高いRLアルゴリズムであるBoundary-Guided Policy Optimization(BGPO)を提案する。 BGPOは、ELBOベースの目的関数の特別に構成された下限を最大化し、線形性と等価性の2つの主な属性を満たしています。実験の結果,BGPOは,数学問題解,コード生成と計画課題において,以前のRLアルゴリズムより優れた性能を示した。