CrossWordBench는 텍스트 기반 단서와 시각적 그리드 구조의 상호 작용을 통해 추론 능력을 평가하는 새로운 벤치마크입니다. 대규모 언어 모델(LLM)과 대규모 비전-언어 모델(LVLMs) 모두를 위한 십자말풀이 퍼즐을 활용하여, 텍스트와 이미지 두 가지 형식으로 퍼즐을 제공하고, 사전 채우기 비율을 조절하여 난이도를 조정할 수 있습니다. 20개 이상의 모델에 대한 평가 결과, 추론 능력이 있는 LLM은 비추론 모델보다 십자말풀이 퍼즐 풀이 성능이 훨씬 우수하며, LVLMs는 퍼즐 풀이 성능과 그리드 파싱 정확도 사이에 강한 상관관계가 있음을 보여줍니다. 본 연구는 현재 LLM과 LVLMs의 추론 능력의 한계를 강조하고, 향후 평가를 위한 다중 모드 제약 과제를 생성하는 효과적인 방법을 제시합니다.