Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Created by
  • Haebom

作者

Ziyu Guo, Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Rui Huang, Haoquan Zhang, Manyuan Zhang, Jiaming Liu, Shanghang Zhang, Peng Gao, Hongsheng Li, Pheng-Ann Heng

概要

本論文は、思考連鎖(Chain-of-Thought、CoT)推論を自己回帰的画像生成に適用することによって性能を向上させた研究です。検証のためのテスト時間の計算の拡張、直接的な好みの最適化(Direct Preference Optimization、DPO)によるモデルの好みの並べ替え、およびこれら2つの手法の相互補完的な組み合わせなど、3つの手法に焦点を当てました。具体的には、自己回帰画像生成に特化したポテンシャルアセスメント報酬モデル(PARM)とPARM ++を提案します。 PARMは潜在性評価アプローチを通じて各生成段階を評価し、既存の補償モデルの利点を組み合わせ、PARM ++はさらに自己修正メカニズムを導入して不良画像を修正します。 Show-oモデルに基づいて提案された方法を適用して、GenEvalベンチマークで24%のパフォーマンス向上を達成し、Stable Diffusion 3を15%上回る結果を得ました。

Takeaways、Limitations

Takeaways:
CoT推論を自己回帰画像生成にうまく適用することで性能向上を実証
PARMやPARM ++などの新しい補償モデル提案による画像生成品質の向上。
試験時間計算拡張とDPOによるCoT推論戦略の効果的な結合方法の提示
GenEvalベンチマークでSOTA性能を達成。
Limitations:
提案された方法の一般性および他の画像生成モデルへの適用性に関するさらなる研究が必要である。
PARMおよびPARM ++モデルの計算コストと複雑さの分析が必要です。
特定のベンチマークのパフォーマンス向上が他のベンチマークにも一般化されていることを確認する必要があります。
👍