Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DixitWorld: Evaluating Multimodal Abductive Reasoning in Vision-Language Models with Multi-Agent Dixit Gameplay

Created by
  • Haebom

저자

Yunxiang Mo, Tianshi Zheng, Qing Zong, Jiayu Liu, Baixuan Xu, Yauwai Yim, Chunkit Chan, Jiaxin Bai, Yangqiu Song

개요

본 논문은 부분적인 관찰로부터 설명적인 가설을 생성하고 선택하는 다중 모드 추론 능력을 평가하기 위한 포괄적인 평가 도구인 DixitWorld를 소개합니다. DixitWorld는 DixitArena (동적, 다중 에이전트 환경)와 DixitBench (정적 QA 벤치마크)로 구성됩니다. DixitArena는 가설 생성(이야기꾼)과 가설 선택(청취자) 능력을 평가하고, DixitBench는 청취자의 과제를 효율적으로 평가합니다. 실험 결과는 생성적 창의성과 차별적 이해 사이의 균형을 맞추는 것이 비전-언어 모델 개발의 핵심 과제임을 보여줍니다.

시사점, 한계점

DixitWorld를 통해 다중 모드 추론 능력을 평가하는 새로운 방법론 제시
DixitArena와 DixitBench를 통해 가설 생성 및 선택 능력을 다각적으로 평가
모델 크기에 따른 역할별(이야기꾼 vs 청취자) 성능 차이 분석
생성적 창의성과 차별적 이해 사이의 트레이드 오프 관계 규명
한계점: DixitWorld는 특정 환경(Dixit 게임)에 국한되어 일반화에 한계가 있을 수 있음.
한계점: 실험에 사용된 모델의 종류가 제한적일 수 있음.
👍