본 논문은 MLLM(Multimodal Large Language Models)의 시각적 입력에 대한 구조화된 정보 추출 및 추론 능력을 평가하기 위한 SO-Bench 벤치마크를 소개한다. SO-Bench는 UI 화면, 자연 이미지, 문서, 차트 등 4가지 시각 도메인에 걸쳐 6.5K 이상의 JSON 스키마와 1.8K의 이미지-스키마 쌍으로 구성되어 있으며, MLLM의 정확하고 스키마에 맞는 출력을 예측하는 능력을 평가한다. 실험 결과, 현재 MLLM의 구조화된 출력 능력에 한계가 있음을 확인하고, 모델의 구조화된 출력 능력을 향상시키기 위한 학습 실험을 수행했다. 벤치마크는 커뮤니티에 공개될 예정이다.
시사점, 한계점
•
시사점:
◦
MLLM의 시각적 입력에 대한 구조화된 추론 능력을 평가하는 새로운 벤치마크 (SO-Bench) 제시
◦
다양한 시각 도메인(UI 화면, 자연 이미지, 문서, 차트)에 대한 평가를 통해 MLLM의 일반화된 성능 측정
◦
현재 MLLM의 구조화된 출력 능력의 한계점을 제시하고, 개선 방향 제시
◦
모델의 구조화된 출력 능력을 향상시키기 위한 학습 방법 연구
•
한계점:
◦
구체적인 모델 개선 방법 및 학습 전략에 대한 상세 정보 부족
◦
벤치마크가 특정 데이터셋 및 스키마에 의존적이므로, 일반화된 성능 평가에 대한 추가 연구 필요