TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs
Created by
Haebom
저자
Pengju Xu, Yan Wang, Shuyuan Zhang, Xuan Zhou, Xin Li, Yue Yuan, Fengzhao Li, Shunyuan Zhou, Xingyu Wang, Yi Zhang, Haiying Zhao
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 비서구 문화적 맥락에 대한 적용 한계를 다룹니다. 이를 해결하기 위해, 중국 전통 문화 이해력을 평가하는 이중 언어(중국어 및 영어) 기반 시각적 질의응답(VQA) 벤치마크인 TCC-Bench를 제안합니다. 박물관 유물, 일상 생활 장면, 만화 등 문화적으로 풍부하고 시각적으로 다양한 데이터를 포함하며, GPT-4를 활용한 반자동 파이프라인으로 질문을 생성하고, 인간 검수를 통해 데이터 품질을 보장합니다. 다양한 MLLM에 대한 실험 결과, 현재 모델들은 문화적으로 기반을 둔 시각적 콘텐츠에 대한 추론에서 여전히 상당한 어려움을 겪는다는 것을 보여줍니다. 본 연구는 문화적으로 포용적이고 맥락을 인식하는 다중 모달 시스템 개발의 필요성을 강조합니다. 코드와 데이터는 https://github.com/Morty-Xu/TCC-Bench 에서 확인할 수 있습니다.
시사점, 한계점
•
시사점:
◦
MLLM의 비서구 문화적 맥락 이해에 대한 한계를 명확히 제시하고, 이를 평가하기 위한 새로운 벤치마크인 TCC-Bench를 제공합니다.
◦
문화적 편향을 최소화하기 위한 데이터 생성 및 검수 과정을 제시합니다.
◦
문화적으로 포용적이고 맥락 인식 능력을 갖춘 다중 모달 시스템 개발의 필요성을 강조합니다.
•
한계점:
◦
TCC-Bench가 중국 전통 문화에 특화되어 있어 다른 문화권으로의 일반화 가능성이 제한적일 수 있습니다.
◦
GPT-4를 활용한 질문 생성 과정에서 GPT-4의 한계가 TCC-Bench의 품질에 영향을 미칠 수 있습니다.