본 논문은 한국어 기반의 대규모 시각-언어 모델(VLMs) 평가를 위한 새로운 벤치마크인 KOFFVQA를 제시합니다. 기존 영어 중심의 벤치마크와 달리 한국어를 사용하여 VLMs의 성능을 평가하며, 사전 정의된 응답 중에서 선택하는 방식이 아닌 자유 형식의 질문응답 방식을 채택하여 개방성을 확보합니다. 기존의 주관적인 판정 모델 기반 평가 방식 대신, 10가지 측면을 다루는 사전 정의된 채점 기준을 활용하여 객관적이고 신뢰할 수 있는 평가를 가능하게 합니다. 275개의 이미지-질문 쌍으로 구성되며, 오픈소스 모델을 이용한 평가도 가능하도록 설계되었습니다. 실험을 통해 제시된 채점 기준 기반 평가 방식이 기존 방식보다 신뢰성이 높음을 검증하였고, 평가 코드는 공개적으로 제공합니다.