본 논문은 대규모 사전 학습 데이터의 사용으로 인해 발생하는 평가의 어려움, 즉 사전 학습 데이터에 잘 나타나는 경우의 언어 능력과 사전 학습 데이터에 덜 흔한 동적인 실세계 인스턴스에 대한 일반화를 구분하는 문제를 해결하기 위해 Construction Grammar (CxG)를 활용한 진단 평가를 제시합니다. CxG는 구문 형태를 추상적이고 비 어휘적인 의미와 명시적으로 연결하여 일반화를 테스트하기 위한 심리언어학적으로 근거한 프레임워크를 제공합니다. 연구진은 영어 구절 구조를 사용하여 새로운 추론 평가 데이터 세트를 구성했으며, 이는 화자가 일반적인 예시를 추상화하여 창의적인 예시를 이해하고 생성할 수 있다는 점을 활용합니다. 이 데이터 세트는 두 가지 중심 질문, 즉 모델이 사전 학습 데이터에 덜 자주 나타나지만 사람이 이해하기 쉽고 직관적인 문장의 의미를 '이해'할 수 있는지, 그리고 구문적으로 동일하지만 의미가 다른 구조가 주어졌을 때 적절한 구조적 의미를 사용할 수 있는지 평가합니다. GPT-o1을 포함한 최첨단 모델이 두 번째 과제에서 40% 이상의 성능 저하를 보이는 것을 통해, 인간처럼 구문적으로 동일한 형태를 일반화하여 구별되는 구조적 의미에 도달하는 데 실패함을 보여줍니다. 새로운 데이터 세트와 관련 실험 데이터(프롬프트 및 모델 응답 포함)를 공개적으로 제공합니다.