Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CrossWordBench: Evaluating the Reasoning Capabilities of LLMs and LVLMs with Controllable Puzzle Generation

Created by
  • Haebom

저자

Jixuan Leng, Chengsong Huang, Langlin Huang, Bill Yuchen Lin, William W. Cohen, Haohan Wang, Jiaxin Huang

개요

본 논문은 대규모 언어 모델(LLM)과 대규모 비전-언어 모델(LVM)의 추론 능력을 평가하기 위한 새로운 벤치마크인 CrossWordBench를 제안합니다. 기존 벤치마크들이 텍스트 기반 추론 또는 비전-언어 이해 능력만 평가하는 한계를 극복하기 위해, 텍스트 단서와 시각적 그리드 구조의 상호 작용을 필요로 하는 크로스워드 퍼즐을 활용합니다. CrossWordBench는 다양한 형식(텍스트 및 이미지)의 퍼즐을 생성하고, 직접 퍼즐 풀이부터 상호 작용 모드까지 다양한 평가 전략을 제공하는 제어 가능한 퍼즐 생성 프레임워크를 사용합니다. 20개 이상의 모델에 대한 광범위한 평가를 통해 추론 능력을 갖춘 LLM이 비추론 모델보다 훨씬 우수한 성능을 보이며, 교차하는 문자 제약 조건을 효과적으로 활용함을 보여줍니다. 또한, LVM은 이 작업에서 어려움을 겪으며, 퍼즐 풀이 성능과 그리드 파싱 정확도 간의 강한 상관관계를 보임을 증명합니다. 이 연구는 현재 LLM과 LVM의 추론 능력의 한계에 대한 통찰력을 제공하고, 미래 평가를 위한 다중 모드 제약 과제를 만드는 효과적인 접근 방식을 제공합니다.

시사점, 한계점

시사점:
크로스워드 퍼즐을 이용한 새로운 다중 모드 추론 평가 벤치마크 CrossWordBench 제시
LLM의 추론 능력과 LVM의 그리드 파싱 능력 간의 상관관계 규명
현존 LLM과 LVM의 추론 능력 한계에 대한 통찰 제공
미래 다중 모달 제약 과제 생성을 위한 효과적인 접근 방식 제시
한계점:
CrossWordBench가 크로스워드 퍼즐이라는 특정 도메인에 국한됨. 일반적인 추론 능력 평가의 제한성 존재.
평가 대상 모델의 종류와 수 제한. 더 광범위한 모델에 대한 평가 필요.
그리드 파싱 능력과 퍼즐 풀이 능력의 상관관계 분석이 추가적인 심층 연구를 필요로 함.
👍