Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

Created by
  • Haebom

저자

Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang

개요

CrossWordBench는 텍스트 기반 단서와 시각적 그리드 구조의 상호 작용을 통해 추론 능력을 평가하는 새로운 벤치마크입니다. 대규모 언어 모델(LLM)과 대규모 비전-언어 모델(LVLMs) 모두를 위한 십자말풀이 퍼즐을 활용하여, 텍스트와 이미지 두 가지 형식으로 퍼즐을 제공하고, 사전 채우기 비율을 조절하여 난이도를 조정할 수 있습니다. 20개 이상의 모델에 대한 평가 결과, 추론 능력이 있는 LLM은 비추론 모델보다 십자말풀이 퍼즐 풀이 성능이 훨씬 우수하며, LVLMs는 퍼즐 풀이 성능과 그리드 파싱 정확도 사이에 강한 상관관계가 있음을 보여줍니다. 본 연구는 현재 LLM과 LVLMs의 추론 능력의 한계를 강조하고, 향후 평가를 위한 다중 모드 제약 과제를 생성하는 효과적인 방법을 제시합니다.

시사점, 한계점

시사점:
텍스트와 이미지 간의 상호 작용을 고려한 다중 모달 추론 능력 평가의 새로운 벤치마크 제시
LLM의 추론 능력과 LVLMs의 그리드 파싱 능력 간의 상관관계 규명
다양한 난이도와 평가 방식을 제공하는 유연한 벤치마크 프레임워크 제시
현재 LLM과 LVLMs의 추론 능력의 한계를 명확히 보여줌
한계점:
십자말풀이 퍼즐이라는 특정 과제에 국한된 평가
LVLMs의 성능 저하 원인에 대한 심층적인 분석 부족
벤치마크의 일반화 가능성에 대한 추가 연구 필요
👍