本論文は、ビデオコンテンツの自動理解における抽象概念(定義、自由、連帯感など)認識の重要性と困難を扱います。既存の研究が具体的なオブジェクト、行動、イベント認識に焦点を当てたのとは異なり、この論文は人間の抽象的な思考能力を模倣することで、ビデオからの抽象的な概念を理解するという問題に焦点を当てています。最近進化した基礎モデルを活用してこの問題を解決する可能性を提示し、さまざまな関連作業とデータセットを調査し、過去の研究の経験に基づいて今後の研究方向を提示します。これは、単に技術的な発展だけでなく、モデルの人間的推論と価値との整合性を高める上で重要な意味を持ちます。