TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs
Created by
Haebom
저자
Pengju Xu, Yan Wang, Shuyuan Zhang, Xuan Zhou, Xin Li, Yue Yuan, Fengzhao Li, Shunyuan Zhou, Xingyu Wang, Yi Zhang, Haiying Zhao
개요
본 논문은 다국어 대규모 언어 모델(MLLMs)의 비서구 문화적 맥락에 대한 이해력 부족 문제를 해결하기 위해, 전통 중국 문화 이해 벤치마크(TCC-Bench)를 제안한다. TCC-Bench는 박물관 유물, 일상생활 장면, 만화 등 다양한 시각 자료를 포함하는 중국어 및 영어 이중 언어 기반의 시각적 질의응답(VQA) 벤치마크로, GPT-4를 활용한 반자동 파이프라인을 통해 질문을 생성하고, 인간 검수를 거쳐 데이터 품질을 확보한다. 다양한 MLLMs에 대한 실험 결과, 현재 모델들이 문화적 배경이 있는 시각적 콘텐츠에 대한 추론에서 어려움을 겪고 있음을 보여주며, 문화적으로 포괄적이고 맥락을 인식하는 다중 모드 시스템 개발의 필요성을 강조한다. 코드와 데이터는 https://tcc-bench.github.io/ 에서 확인할 수 있다.