본 논문은 대규모 언어 모델(LLM)과 대규모 비전-언어 모델(LVM)의 추론 능력을 평가하기 위한 새로운 벤치마크인 CrossWordBench를 제안합니다. 기존 벤치마크들이 텍스트 기반 추론 또는 비전-언어 이해 능력만 평가하는 한계를 극복하기 위해, 텍스트 단서와 시각적 그리드 구조의 상호 작용을 필요로 하는 크로스워드 퍼즐을 활용합니다. CrossWordBench는 다양한 형식(텍스트 및 이미지)의 퍼즐을 생성하고, 직접 퍼즐 풀이부터 상호 작용 모드까지 다양한 평가 전략을 제공하는 제어 가능한 퍼즐 생성 프레임워크를 사용합니다. 20개 이상의 모델에 대한 광범위한 평가를 통해 추론 능력을 갖춘 LLM이 비추론 모델보다 훨씬 우수한 성능을 보이며, 교차하는 문자 제약 조건을 효과적으로 활용함을 보여줍니다. 또한, LVM은 이 작업에서 어려움을 겪으며, 퍼즐 풀이 성능과 그리드 파싱 정확도 간의 강한 상관관계를 보임을 증명합니다. 이 연구는 현재 LLM과 LVM의 추론 능력의 한계에 대한 통찰력을 제공하고, 미래 평가를 위한 다중 모드 제약 과제를 만드는 효과적인 접근 방식을 제공합니다.