RE-VLM: Event-Augmented Vision-Language Model for Scene Understanding

작성자

Haebom

카테고리

Empty

저자

Hanqing Liu, Mingjie Liu, Luoping Cui, Endian Lin, Donghong Jiang, Chuang Zhu

💡 개요

기존 비전-언어 모델(VLM)은 저조도, 높은 동적 범위, 빠른 움직임과 같은 악조건에서 촬영된 장면을 이해하는 데 어려움을 겪습니다. 본 논문은 RGB 이미지와 이벤트 스트림을 함께 사용하여 이러한 악조건에서도 강건한 장면 이해를 가능하게 하는 RE-VLM이라는 최초의 듀얼 스트림 VLM을 제안합니다. 이를 위해 RGB와 이벤트 인코더를 병렬로 사용하고, 감독 데이터 부족 문제를 해결하기 위해 RGB-이벤트 스트림으로부터 장면 그래프를 생성하고 이를 활용하여 캡션과 질의응답 데이터를 합성하는 파이프라인을 개발했습니다.

🔑 시사점 및 한계

•

이벤트 카메라의 보완적인 특성을 활용하여 악조건에서도 강건한 비전-언어 이해가 가능함을 입증했습니다.

•

RGB 및 이벤트 데이터를 효과적으로 융합하고 훈련하기 위한 새로운 방법론(듀얼 스트림, 점진적 훈련, 그래프 기반 데이터 합성)을 제시했습니다.

•

악조건에 특화된 새로운 벤치마크 데이터셋(PEOD-Chat, RGBE-Chat)을 구축하여 연구 발전에 기여했습니다.

•

합성된 데이터의 품질과 실제 데이터와의 간극, 그리고 실시간 애플리케이션에서의 효율성 등은 추가적인 연구가 필요한 부분입니다.

PDF 보기

Made with Slashpage