Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Towards General Modality Translation with Contrastive and Predictive Latent Diffusion Bridge

Created by
  • Haebom

作者

Nimrod Berman, Omkar Joglekar, Eitan Kosman, Dotan Di Castro, Omri Azencot

概要

Latent Denoising Diffusion Bridge Model(LDDBM)は、複雑なデータ分布からサンプリングする最先端のツールである拡散モデルに基づく一般的なModality Translation(MT)フレームワークです。 LDDBMは共有潜在スペースで動作し、ソートされたディメンションを必要とせずに任意のモダリティ間のブリッジを学習します。 LDDBMはコントラストソート損失を使用して、ペアのサンプル間のセマンティックコヒーレンスを適用し、潜在空間でのノイズ予測に合わせたドメイン不可論のエンコーダ - デコーダアーキテクチャを設計します。また、正確なクロスドメイン変換のためにトレーニングを導く予測損失を提案し、安定性を向上させるためのいくつかのトレーニング戦略を模索しています。 LDDBMは任意のモダリティのペアをサポートし、マルチビューから3D形状の生成、イメージのスーパー解像度、マルチビューのシーンシンセシスなど、さまざまなMT操作で強力なパフォーマンスを発揮します。

Takeaways、Limitations

Takeaways:
LDDBMは共有潜在スペースを使用して、任意のモダリティ間の一般的な変換を可能にします。
コントラストソート損失と予測損失により、意味的な一貫性と正確なクロスドメイン変換を実現します。
さまざまなMT作業で強力なパフォーマンスを発揮し、新しい基準点を提示します。
Limitations:
論文に具体的なLimitationsは記載されていない。
👍