본 논문은 다중 모달 대규모 언어 모델(MLLM) 벤치마크의 급증으로 인한 중복 문제를 다룬다. 연간 수백 개의 벤치마크가 생성되면서 능력 차원, 질문 수, 특정 도메인 내 벤치마크 간 중복이 발생하고 있다. 논문에서는 20개 이상의 벤치마크에 걸친 수백 개의 MLLM 성능 분석을 통해 이러한 중복의 정도를 정량적으로 측정하고, MLLM 벤치마크의 미래 개발을 위한 통찰력을 제공하며, 중복 문제를 효과적으로 해결하기 위한 전략을 제시한다. GitHub에 코드를 공개하였다.
시사점, 한계점
•
시사점: MLLM 벤치마크의 중복 문제를 정량적으로 분석하여 효율적인 벤치마크 개발을 위한 지침을 제공한다. 벤치마크 설계의 개선 방향을 제시하여 연구 자원의 낭비를 줄일 수 있다. MLLM 평가의 현황을 종합적으로 이해하는 데 도움을 준다.
•
한계점: 분석에 사용된 벤치마크와 MLLM의 종류 및 수에 따라 결과의 일반화 가능성이 제한될 수 있다. 중복을 정의하고 측정하는 방식에 따라 결과가 달라질 수 있다. 제시된 전략의 실효성은 실제 적용을 통해 검증되어야 한다.