Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ObjectAlign: Neuro-Symbolic Object Consistency Verification and Correction

Created by
  • Haebom
Category
Empty

저자

Mustafa Munir, Harsh Goel, Xiwen Wei, Minkyu Choi, Sahil Shah, Kartikeya Bhardwaj, Paul Whatmough, Sandeep Chinchali, Radu Marculescu

개요

ObjectAlign은 비디오 편집 및 합성에 따른 객체 불일치를 해결하기 위한 새로운 프레임워크입니다. 이 프레임워크는 지각적 메트릭과 기호적 추론을 결합하여 편집된 비디오 시퀀스에서 객체 수준 및 시간적 불일치를 감지, 검증 및 수정합니다. ObjectAlign은 학습 가능한 임계값을 사용하여 객체 일관성을 특성화하는 메트릭(CLIP 기반 의미 유사성, LPIPS 지각 거리, 히스토그램 상관관계, SAM 파생 객체 마스크 IoU)을 제안합니다. 또한, masked object embeddings을 기반으로 객체 ID가 바뀌지 않도록 보장하는 SMT 기반 검사기와 시간 논리 사양에 대한 비디오의 형식적 표현을 검증하는 확률적 모델 검사기를 결합한 신경-기호 검증기를 도입합니다. 최종적으로, 수정할 프레임 수를 기반으로 보간 깊이를 동적으로 선택하여 프레임 복구를 위한 신경망 기반 보간을 제안합니다.

시사점, 한계점

시사점:
CLIP Score 최대 1.4점 향상, warp error 최대 6.1점 향상 등 DAVIS 및 Pexels 비디오 데이터셋에서 SOTA 성능 달성.
객체 일관성 검증을 위해 지각적 메트릭과 기호적 추론을 결합하는 혁신적인 접근 방식 제시.
객체 ID 드리프트 방지를 위한 SMT 기반 검사기 및 시간적 정확성을 위한 확률적 모델 검사기 활용.
문제 프레임 복구를 위한 신경망 기반 보간 기술 제안.
한계점:
논문에 구체적인 한계점 언급 없음.
👍