RGB-Th-Bench는 비전-언어 모델(VLMs)의 적외선 영상 이해 능력을 평가하기 위해 설계된 최초의 벤치마크입니다. 기존 VLM 평가는 주로 RGB 기반 벤치마크에 국한되어 적외선 영상 이해 능력 평가에 대한 중요한 간극을 남겼습니다. RGB-Th-Bench는 14가지의 고유한 기술적 차원을 다루는 포괄적인 평가 프레임워크를 제공하며, 총 1,600개 이상의 전문가가 주석을 단 예/아니오 질문으로 구성됩니다. 질문 수준 정확도와 기술 수준 정확도라는 두 가지 정확도 측정 기준을 사용하여 모델의 강건성을 평가합니다. 19개의 최첨단 VLM에 대한 광범위한 평가를 통해 RGB-열 영상 이해에 대한 상당한 성능 차이를 보여주며, RGB 기반 기능에 크게 제약을 받는다는 것을 밝혔습니다. 대규모 응용 프로그램 특정 및 전문가 주석이 달린 열-캡션 쌍 데이터 세트의 부족이 성능 차이에 중요한 원인임을 시사합니다. 데이터 세트와 평가 코드는 공개적으로 이용 가능합니다.