[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

City-VLM: Towards Multidomain Perception Scene Understanding via Multimodal Incomplete Learning

Created by
  • Haebom

저자

Penglei Sun, Yaoxian Song, Xiangru Zhu, Xiang Liu, Qiang Wang, Yue Liu, Changqun Xia, Tiefeng Li, Yang Yang, Xiaowen Chu

개요

본 논문은 기존의 실내 중심 대규모 시각-언어 모델(LVLM)의 한계를 극복하고자, 다중 센서, 다중 관점(조감도 및 지상 관점)으로부터 얻어진 다중 모달리티 데이터를 포함하는 새로운 대규모 야외 장면 이해 데이터셋 SVM-City를 제시합니다. SVM-City는 차량, 저고도 드론, 고고도 항공기, 위성으로부터 수집된 42만 장의 이미지와 4,811백만 개의 점 구름, 그리고 56만7천 개의 질문-답변 쌍으로 구성됩니다. 또한, 하나의 모달리티가 누락된 경우에도 효과적으로 다중 모달리티 데이터를 융합하기 위해 불완전 다중 모달리티 학습 기법을 도입하여 City-VLM이라는 새로운 LVLM을 설계했습니다. City-VLM은 명시적인 융합 연산 대신 결합 확률 분포 공간을 구성하여 다중 모달리티 융합을 수행합니다. 세 가지 대표적인 야외 장면 이해 작업에 대한 실험 결과, City-VLM은 기존 LVLM에 비해 질문-답변 작업에서 평균 18.14% 향상된 성능을 보였으며, 다양한 야외 장면에서 실용적이고 일반화된 성능을 입증했습니다.

시사점, 한계점

시사점:
다중 센서, 다중 관점, 다중 모달리티 데이터를 활용한 야외 장면 이해를 위한 새로운 데이터셋 SVM-City 제시
불완전 다중 모달리티 학습을 통한 효과적인 다중 모달리티 융합 방법 제안
기존 LVLM 대비 향상된 야외 장면 이해 성능을 보이는 City-VLM 모델 개발
다양한 야외 장면에서의 일반화 성능 입증
한계점:
SVM-City 데이터셋의 크기 및 다양성에 대한 추가적인 검토 필요
불완전 다중 모달리티 학습의 일반화 성능에 대한 추가적인 연구 필요
City-VLM의 계산 비용 및 효율성에 대한 분석 필요
특정 유형의 야외 장면에 대한 편향 가능성 검토 필요
👍