Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UNO: Unifying One-stage Video Scene Graph Generation via Object-Centric Visual Representation Learning

Created by
  • Haebom
Category
Empty

저자

Huy Le, Nhat Chung, Tung Kieu, Jingkang Yang, Ngan Le

개요

본 논문은 객체를 탐지하고 시변적 상호 작용을 구조화된 그래프로 모델링하여 동적 시각 콘텐츠를 표현하는 VidSGG(Video Scene Graph Generation)를 다룬다. 기존 연구가 상자 수준 또는 픽셀 수준 VidSGG에 초점을 맞춘 것과 달리, 본 논문은 단일 단계, 통합 프레임워크인 UNO(UNified Object-centric VidSGG)를 제안하여 두 작업을 end-to-end 방식으로 공동으로 해결한다. UNO는 작업별 수정을 최소화하고 매개변수 공유를 최대화하여 다양한 시각적 세분성 수준에서 일반화를 가능하게 한다. 핵심은 확장된 슬롯 어텐션 메커니즘으로, 시각적 특징을 객체 및 관계 슬롯으로 분해한다. 견고한 시간적 모델링을 위해, 명시적인 추적 모듈에 의존하지 않고 프레임 간 일관된 객체 표현을 적용하는 객체 시간 일관성 학습을 도입했다. 또한, 동적 삼중항 예측 모듈은 관계 슬롯을 해당 객체 쌍에 연결하여 시간에 따른 진화하는 상호 작용을 포착한다.

시사점, 한계점

단일 단계, 통합 프레임워크를 통해 box-level 및 pixel-level VidSGG를 end-to-end 방식으로 해결
객체 중심 설계를 통해 작업별 수정 최소화 및 매개변수 공유 최대화
객체 시간 일관성 학습을 통해 시간적 모델링의 견고성 확보
동적 삼중항 예측 모듈을 통한 시변적 상호 작용 캡처
표준 벤치마크에서 경쟁력 있는 성능 및 효율성 향상
(논문 내용에 구체적인 한계점 언급 없음)
👍