Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

From Editor to Dense Geometry Estimator

Created by
  • Haebom

作者

JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao

概要

本論文は、密集予測のための事前訓練されたテキスト画像(T2I)生成モデルの視覚的事前情報の活用に関する既存の研究に基づいて、画像編集モデルは、T2I生成モデルよりも密集幾何推定のための微調整に適した基盤である可能性があるという仮説を提示します。これを検証するために、生成モデルと編集モデルの微調整動作を体系的に分析し、編集モデルが独自の構造的辞書情報を持っているため、より安定して収束し、より高いパフォーマンスを達成できます。これらの分析結果に基づいて、DiF(DiFusion Transformer)アーキテクチャベースの高度な編集モデルを密集したジオメトリ予測に適用する新しいフレームワークであるFE2Eを提案します。 FE2Eは、編集モデルの元のフロー一致損失を「一貫した速度」トレーニング目標に再構成し、対数量子化を使用して精度の衝突を解決し、DiTのグローバルな注意メカニズムを活用して、単一の配信プロセスで深さとノーマルを同時に推定します。大規模なデータ拡張を必要とせずに、複数のデータセットでゼロショット単眼深度とノーマル推定の驚くべきパフォーマンス向上を実現し、特にETH3Dデータセットで35%以上のパフォーマンスを向上させ、100倍のデータでトレーニングされたDepthAnythingシリーズを上回ります。

Takeaways、Limitations

Takeaways:
画像編集モデルが密集した幾何推定のような密集予測タスクに適した基盤であることを実験的に証明した。
Diffusion Transformerベースの編集モデルを効果的に活用し、ゼロショット単眼深さとノーマル推定性能を大幅に向上させるFE2Eフレームワークを提示します。
大規模なデータなしで優れたパフォーマンスを達成する可能性を提示します。
単一送達過程で深さとノーマルを同時に推定する効率的な方法の提示
Limitations:
FE2Eの性能向上が特定のデータセットに限定される可能性。
異なるタイプの密集予測タスクに対する一般化性能検証が必要
Diffusion Transformer アーキテクチャへの依存性。他のアーキテクチャへのスケーラビリティレビューが必要です。
👍