[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

NoHumansRequired: Autonomous High-Quality Image Editing Triplet Mining

Created by
  • Haebom

作者

Maksim Kuprashevich, Grigorii Alekseenko, Irina Tolstykh, Georgii Fedorov, Bulat Suleimanov, Vladimir Dokholyan, Aleksandr Gordeev

概要

本稿では、自然言語コマンドを使用して画像編集を実行する生成モデルベースの画像編集アシスタントの制限を解決するために、高品質で大規模な画像編集データセットを自動的に生成するパイプラインを提供します。従来の方法は正確なピクセル単位の編集例を得ることが困難でしたが、本論文で提示するパイプラインは公開された生成モデルに基づいて、Gemini validatorを活用して命令コンプライアンスと美的要素を直接評価することで、高品質のトリプレットデータ(原画像、命令、編集画像)を自動的に生成します。 Inversionとcompositional bootstrapping技術により、データセットサイズを2.2倍に増やし、358,000の高品質トリプレットで構成されたNHR-Editデータセットとそれに基づいてfine-tuned Bagel-NHR-Editモデルを公開します。大規模なクロスデータセットの評価の結果、提示されたデータセットとモデルは、他の既存のパブリックデータセットとモデルを上回るパフォーマンスを示しました。

Takeaways、Limitations

Takeaways:
高品質の画像編集データセットを自動的に生成するパイプラインを提示し、大規模な画像編集モデルを学習するための困難を解決します。
358,000個の高品質トリプレットで構成されたNHR-Editデータセットと fine-tuned Bagelモデルを公開し、研究アクセシビリティを向上。
Gemini validatorを活用して命令の遵守と審美的要素を直接評価する新しいアプローチを提示
Inversionとcompositional bootstrappingを介してデータセットのサイズを効果的に増加させるテクニックを提示します。
大規模クロスデータセット評価によるパフォーマンスの優れた検証
Limitations:
Gemini validatorの性能の詳細な分析と検証が必要
さまざまな種類の画像編集命令の一般化性能評価が必要です。
パイプラインの計算コストと効率に関する追加の分析が必要です。
生成されたデータセットの偏りの分析と解決策の探求が必要です。
👍