본 논문은 부분적인 관찰로부터 설명적인 가설을 생성하고 선택하는 다중 모드 추론 능력을 평가하기 위한 포괄적인 평가 도구인 DixitWorld를 소개합니다. DixitWorld는 DixitArena (동적, 다중 에이전트 환경)와 DixitBench (정적 QA 벤치마크)로 구성됩니다. DixitArena는 가설 생성(이야기꾼)과 가설 선택(청취자) 능력을 평가하고, DixitBench는 청취자의 과제를 효율적으로 평가합니다. 실험 결과는 생성적 창의성과 차별적 이해 사이의 균형을 맞추는 것이 비전-언어 모델 개발의 핵심 과제임을 보여줍니다.
시사점, 한계점
•
DixitWorld를 통해 다중 모드 추론 능력을 평가하는 새로운 방법론 제시
•
DixitArena와 DixitBench를 통해 가설 생성 및 선택 능력을 다각적으로 평가
•
모델 크기에 따른 역할별(이야기꾼 vs 청취자) 성능 차이 분석
•
생성적 창의성과 차별적 이해 사이의 트레이드 오프 관계 규명
•
한계점: DixitWorld는 특정 환경(Dixit 게임)에 국한되어 일반화에 한계가 있을 수 있음.