CreBench: A Benchmark for Evaluating Creativity in Multimodal Large Language Models
개요
본 논문은 인간이 정의하는 창의성이 매우 추상적이라는 점과 기존 벤치마크 부재로 인해 멀티모달 대규모 언어 모델(MLLM)이 인간의 판단에 부합하는 창의성을 이해하고 평가하는 데 어려움을 겪는다는 문제점을 제기합니다. 이러한 문제를 해결하기 위해, 1) 창의적 아이디어에서 프로세스, 결과물에 이르는 여러 차원을 포괄하는 평가 벤치마크, 2) 2.2K개의 다양한 소스 멀티모달 데이터, 79.2K개의 인간 피드백, 4.7M개의 다양한 유형의 지침으로 구성된 멀티모달 창의성 평가 데이터 세트인 CreMIT(Creativity Multimodal Instruction Tuning dataset)를 포함하는 CreBench를 제안합니다. 특히, MLLM이 다양한 창의성 관련 질의를 처리할 수 있도록 GPT를 사용하여 인간 피드백을 개선하여 더 강력한 창의성 평가 능력을 활성화합니다. CreBench는 인간과 일치하는 창의성을 이해하는 MLLM 구축의 기반이 됩니다. CreBench를 기반으로 오픈 소스 일반 MLLM을 미세 조정하여 멀티모달 창의성 평가 전문가 모델인 CreExpert를 개발했습니다. 광범위한 실험을 통해 제안된 CreExpert 모델이 최첨단 GPT-4V 및 Gemini-Pro-Vision을 포함한 최신 MLLM에 비해 인간 창의성 평가와 훨씬 더 나은 정렬을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
인간과 일치하는 창의성을 평가할 수 있는 MLLM 개발을 위한 벤치마크 및 데이터셋 제공.
◦
CreExpert 모델을 통해 최신 MLLM보다 인간의 창의성 평가에 더 잘 부합하는 결과 달성.
◦
GPT를 활용하여 창의성 평가 능력을 향상시키는 방법 제시.
•
한계점:
◦
논문에서 구체적인 한계점에 대한 언급은 없음. (단, 연구의 추가적인 개선 가능성을 암시)