Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Domain Generalizable Portrait Style Transfer

Created by
  • Haebom

作者

Xinbo Wang, Wenju Xu, Qing Zhang, Wei-Shi Zheng

概要

この論文は、さまざまなドメインに一般化され、髪、目、まつげ、肌、唇、背景などの領域に対して高品質で意味的に整列したスタイル変換を可能にする肖像画スタイル変換方法を提供します。この目的のために、事前に訓練されたモデルとセマンティックアダプタに基づいて、与えられた入力と参照ポートレートとの間の密集した意味対応関係を確立して、入力と意味的に整列した歪んだ参照を取得します。効果的でありながら制御可能なスタイル遷移を確保するために、潜在空間で歪んだ参照の低周波情報と入力の高周波情報を混合し、コンテンツ保存とスタイル変換のバランスをとるAdaIN-ウェーブレット変換を考案しました。また、歪んだ参照からスタイルガイドを提供するスタイルアダプタを設計しました。 AdaIN-ウェーブレット変換から得られたスタイル化された潜在スペースを使用して、高周波情報とスタイルガイドを記録するControlNetを統合した二重条件付き拡散モデルを使用して最終結果を生成します。広範な実験を通して提案された方法の卓越性を示しています。コードとトレーニングされたモデルはhttps://github.com/wangxb29/DGPSTで利用可能です。

Takeaways、Limitations

Takeaways:
さまざまなドメインに一般化可能な高品質の肖像画スタイルを変換する方法を提示
髪、目、まつげなど細かい領域まで意味的に整列したスタイル変換可能
AdaIN-ウェーブレット変換によるコンテンツ保存とスタイル変換の効果的なバランス
ControlNetベースの二重条件付き拡散モデルを利用した高品質の画像生成
公開されたコードと訓練されたモデルによる再現性と拡張性の確保
Limitations:
特定のドメインまたはスタイル変換に対する一般化パフォーマンスの制限の可能性
AdaIN-ウェーブレット変換とControlNetのパラメータ調整に対する感度
トレーニングデータの品質と多様性への依存
計算コストと処理時間の考慮が必要
👍