Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

Created by
  • Haebom

作者

Haidong Xu, Guangwei Xu, Zhedong Zheng, Xiatian Zhu, Wei Ji, Xiangtai Li, Ruijie Guo, Meishan Zhang, Min zhang, Hao Fei

概要

VimoRAGは、3Dモーション生成モデル(Motion LLM)のパフォーマンスを向上させるために、ビデオベースの検索拡張方式を活用する新しいフレームワークです。限られた注釈データを克服するために、大規模ビデオデータベースから関連する2Dモーション信号を検索します。 Gemini Motion Video RetrieverとMotion-centric Dual-alignment DPO Trainerで効果的な検索と生成を可能にします。

Takeaways、Limitations

テキスト入力ベースの3Dモーション生成モデルのパフォーマンスを大幅に向上
大規模ビデオデータベースの活用によりモデルの一般化能力を向上
Gemini Motion Video Retrieverメカニズムによる効果的なモーション駆動型ビデオ検索
Motion-centric Dual-alignment DPO Trainerによる検索エラーの伝播問題を軽減
研究に使用されたすべてのリソースは公開されています( https://walkermitty.github.io/VimoRAG/
(論文に記載されているLimitationsはありません)
👍