本稿では、正確な時間的推論とマルチモーダル理解のために特別に設計されたデータ効率的なビデオLLMであるDaMOを提案します。 DaMOは、各モーダル内の時間的ダイナミクスを徐々に捉え、相補的な視覚と音響情報を効果的に融合する階層的なデュアルストリームアーキテクチャであるTemporal-aware Fuseformerを中心にしています。空間的冗長性を減らし、重要な意味的詳細を維持するグローバル残差を統合することで、計算効率を高めました。また、マルチモーダルアラインメント、セマンティックグランド、時間的推論機能を段階的にモデルに実装する、4段階の段階的なトレーニングパラダイムを通じてDaMOをトレーニングします。既存のデータセットにLLMによって生成された時間的グランドQAペアで拡張された複数のデータセットも付属しています。時間的接地とビデオQAベンチマークの包括的な実験の結果、DaMOは特に正確な時間整列と推論が必要な作業で以前の方法を上回ることを示しています。