본 논문은 뉴욕 타임즈의 Connections 게임에서 파생된 358개의 단어 분류 퍼즐로 구성된 NYT-Connections 벤치마크를 제시합니다. 이 벤치마크는 빠르고 직관적인 "시스템 1" 사고를 방지하고 기본적인 추론 능력을 평가하도록 설계되었습니다. GPT-4를 포함한 6개의 최신 LLMs, 단순 기계 학습 휴리스틱, 그리고 사람들을 대상으로 단일 시도, 힌트 없이 여러 번 시도, 문맥 힌트를 사용한 여러 번 시도의 세 가지 설정에서 평가를 진행했습니다. 그 결과, 최고 성능의 LLMs조차도 인간의 성능에 크게 못 미치는 것으로 나타났으며(약 30% 차이), Chain-of-Thought나 Self-Consistency와 같은 고급 프롬프트 기법은 과제 난이도가 증가함에 따라 효과가 감소하는 것으로 확인되었습니다. NYT-Connections는 언어적 격리, 직관적인 지름길에 대한 저항성, 데이터 유출 완화를 위한 정기적인 업데이트를 독특하게 결합하여 LLM 추론 능력을 평가하는 새로운 도구를 제공합니다.