TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs
Created by
Haebom
저자
Pengju Xu, Yan Wang, Shuyuan Zhang, Xuan Zhou, Xin Li, Yue Yuan, Fengzhao Li, Shunyuan Zhou, Xingyu Wang, Yi Zhang, Haiying Zhao
개요
본 논문은 다모달 대규모 언어 모델(MLLM)의 비서구 문화적 맥락에 대한 이해력 부족 문제를 해결하기 위해, 전통 중국 문화 이해 벤치마크(TCC-Bench)를 제안합니다. TCC-Bench는 박물관 유물, 일상 생활 장면, 만화 등 다양한 시각 자료를 포함하는 중국어 및 영어 이중 언어 기반의 시각적 질의응답(VQA) 벤치마크이며, GPT-4를 활용한 반자동 파이프라인을 통해 질문을 생성하고, 인간 검수를 거쳐 데이터 품질을 확보합니다. 다양한 MLLM에 대한 실험 결과, 기존 모델들이 문화적 배경이 있는 시각적 콘텐츠에 대한 추론에서 어려움을 겪는다는 것을 보여주며, 문화적으로 포용적이고 맥락을 인식하는 다모달 시스템 개발의 필요성을 강조합니다. 데이터 및 코드는 https://tcc-bench.github.io/ 에서 확인할 수 있습니다.