Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SO-Bench: A Structural Output Evaluation of Multimodal LLMs

Created by
  • Haebom
Category
Empty

저자

Di Feng, Kaixin Ma, Feng Nan, Haofeng Chen, Bohan Zhai, David Griffiths, Mingfei Gao, Zhe Gan, Eshan Verma, Yinfei Yang, Zhifeng Chen, Afshin Dehghan

개요

본 논문은 MLLM(Multimodal Large Language Models)의 시각적 입력에 대한 구조화된 정보 추출 및 추론 능력을 평가하기 위한 SO-Bench 벤치마크를 소개한다. SO-Bench는 UI 화면, 자연 이미지, 문서, 차트 등 4가지 시각 도메인에 걸쳐 6.5K 이상의 JSON 스키마와 1.8K의 이미지-스키마 쌍으로 구성되어 있으며, MLLM의 정확하고 스키마에 맞는 출력을 예측하는 능력을 평가한다. 실험 결과, 현재 MLLM의 구조화된 출력 능력에 한계가 있음을 확인하고, 모델의 구조화된 출력 능력을 향상시키기 위한 학습 실험을 수행했다. 벤치마크는 커뮤니티에 공개될 예정이다.

시사점, 한계점

시사점:
MLLM의 시각적 입력에 대한 구조화된 추론 능력을 평가하는 새로운 벤치마크 (SO-Bench) 제시
다양한 시각 도메인(UI 화면, 자연 이미지, 문서, 차트)에 대한 평가를 통해 MLLM의 일반화된 성능 측정
현재 MLLM의 구조화된 출력 능력의 한계점을 제시하고, 개선 방향 제시
모델의 구조화된 출력 능력을 향상시키기 위한 학습 방법 연구
한계점:
구체적인 모델 개선 방법 및 학습 전략에 대한 상세 정보 부족
벤치마크가 특정 데이터셋 및 스키마에 의존적이므로, 일반화된 성능 평가에 대한 추가 연구 필요
벤치마크 자체의 잠재적인 편향성 (예: 데이터셋 구성, 정답 레이블링)에 대한 고려 부족
개선된 모델의 성능 평가 및 분석에 대한 추가적인 정보 필요
👍