본 논문은 추론 중심 대규모 언어 모델(LLM)의 추상적 추론 및 일반화 능력을 평가하기 위해 Abstraction and Reasoning Corpus (ARC) 벤치마크를 사용했습니다. ARC를 프로그램 합성 과제로 공식화하고, 9가지 후보 해결 방법을 제시했습니다. 실험 결과, 반복 샘플링 계획 보조 코드 생성(RSPC)이 가장 높은 정확도를 달성하고 대부분의 LLM에서 일관된 일반화를 보였습니다. 추가적인 성능 향상을 위해, 본 논문은 온톨로지 내에 핵심 지식 사전 정보를 인코딩하는 지식 증강 추상적 추론(KAAR)이라는 ARC 해결사를 제안했습니다. KAAR은 각 단계에서 사전 정보를 점진적으로 증강하여 LLM의 추론 능력을 확장하고, 각 증강 단계 후에 RSPC를 호출하여 후보 솔루션을 생성합니다. 실험 결과, KAAR은 강력한 일반화 능력을 유지하면서 모든 평가된 LLM에서 비증강 RSPC를 능가하여 약 5%의 절대적 향상과 최대 64.52%의 상대적 향상을 달성했습니다. 하지만 ARC는 여전히 추론 중심 LLM에 어려운 벤치마크임을 강조하며, LLM의 향후 발전 방향을 제시합니다.