MIRAGE라는 합성 데이터셋을 활용하여 대규모 언어 모델(LLM)의 귀납적 추론 능력을 평가한 논문입니다. 기존 연구의 한계였던 포괄적인 평가 및 유연한 테스트 데이터 부족을 해결하기 위해 다양한 입력 분포, 과제 시나리오, 난이도를 조절하여 귀납 및 연역 단계 모두에서 LLM의 능력을 평가했습니다. 평가 결과, LLM은 규칙 기반 추론에는 약하지만, 이웃 기반 추론에는 능숙하다는 것을 밝혔습니다. 즉, LLM은 올바른 규칙을 사용하지 않고도 유사한 관찰 사례를 활용하여 연역적 성능을 크게 향상시키는 지역적 추론 능력을 보여줍니다.