DarkQA: Benchmarking Vision-Language Models on Visual-Primitive Question Answering in Low-Light Indoor Scenes

작성자

Haebom

카테고리

Empty

저자

Yohan Park, Hyunwoo Ha, Wonjun Jo, Tae-Hyun Oh

💡 개요

본 논문은 실내 저조도 환경에서 시각-언어 모델(VLM)의 성능을 평가하기 위한 새로운 벤치마크인 DarkQA를 제안합니다. 기존 벤치마크가 이상적인 환경만을 다룬다는 점에 착안하여, DarkQA는 다양한 저조도 조건에서 VLM의 인지 능력 저하를 측정합니다. 물리 기반 렌더링 파이프라인을 통해 생성된 9.4K개의 질문-이미지 쌍으로 구성된 이 벤치마크는 VLM의 저조도 환경에서의 한계를 체계적으로 분석합니다.

🔑 시사점 및 한계

•

저조도 환경에서 VLM의 성능 저하가 센서 노이즈와 함께 심화된다는 것을 실증적으로 보여줍니다.

•

저조도 이미지 개선(LLIE) 방법이 성능 회복에 도움을 줄 수 있으나, 그 효과는 저조도 수준에 따라 가변적이며 불안정할 수 있음을 시사합니다.

•

본 벤치마크는 향후 로봇 공학 등 실세계 응용을 위한 VLM의 견고성을 개선하는 데 중요한 기반 자료로 활용될 수 있습니다.

•

LLIE와 VLM의 상호작용에 대한 더 심층적인 연구와 다양한 유형의 시각적 열화(예: 안개, 흐림)에 대한 평가가 향후 과제로 남아있습니다.

PDF 보기

Made with Slashpage