Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RGB-Th-Bench: A Dense benchmark for Visual-Thermal Understanding of Vision Language Models

Created by
  • Haebom

저자

Mehdi Moshtaghi, Siavash H. Khajavi, Joni Pajarinen

개요

RGB-Th-Bench는 비전-언어 모델(VLMs)의 적외선 영상 이해 능력을 평가하기 위해 설계된 최초의 벤치마크입니다. 기존 VLM 평가는 주로 RGB 기반 벤치마크에 국한되어 적외선 영상 이해 능력 평가에 대한 중요한 간극을 남겼습니다. RGB-Th-Bench는 14가지의 고유한 기술적 차원을 다루는 포괄적인 평가 프레임워크를 제공하며, 총 1,600개 이상의 전문가가 주석을 단 예/아니오 질문으로 구성됩니다. 질문 수준 정확도와 기술 수준 정확도라는 두 가지 정확도 측정 기준을 사용하여 모델의 강건성을 평가합니다. 19개의 최첨단 VLM에 대한 광범위한 평가를 통해 RGB-열 영상 이해에 대한 상당한 성능 차이를 보여주며, RGB 기반 기능에 크게 제약을 받는다는 것을 밝혔습니다. 대규모 응용 프로그램 특정 및 전문가 주석이 달린 열-캡션 쌍 데이터 세트의 부족이 성능 차이에 중요한 원인임을 시사합니다. 데이터 세트와 평가 코드는 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
적외선 영상 이해 능력 평가를 위한 최초의 종합적인 벤치마크 제공
14가지 기술적 차원에 걸친 포괄적인 평가 프레임워크 제시
최첨단 VLM의 적외선 영상 이해 능력에 대한 상당한 성능 차이를 밝힘
대규모 전문가 주석 열-캡션 쌍 데이터 세트의 필요성 강조
RGB 기반 기능의 한계를 드러냄
한계점:
현재까지는 대규모 응용 프로그램 특정 및 전문가 주석이 달린 열-캡션 쌍 데이터 세트가 부족함.
벤치마크의 성능은 사용된 데이터 세트의 질과 양에 의존적일 수 있음.
다양한 적외선 영상 유형과 상황을 충분히 포괄하지 못할 수 있음.
👍