Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Reasoning to Generalization: Knowledge-Augmented LLMs for ARC Benchmark

Created by
  • Haebom

저자

Chao Lei, Nir Lipovetzky, Krista A. Ehinger, Yanchuan Chang

개요

본 논문은 추론 중심 대규모 언어 모델(LLM)의 추상적 추론 및 일반화 능력을 평가하기 위해 Abstraction and Reasoning Corpus (ARC) 벤치마크를 사용했습니다. ARC를 프로그램 합성 과제로 공식화하고, 9가지 후보 해결 방법을 제시했습니다. 실험 결과, 반복 샘플링 계획 보조 코드 생성(RSPC)이 가장 높은 정확도를 달성하고 대부분의 LLM에서 일관된 일반화를 보였습니다. 추가적인 성능 향상을 위해, 본 논문은 온톨로지 내에 핵심 지식 사전 정보를 인코딩하는 지식 증강 추상적 추론(KAAR)이라는 ARC 해결사를 제안했습니다. KAAR은 각 단계에서 사전 정보를 점진적으로 증강하여 LLM의 추론 능력을 확장하고, 각 증강 단계 후에 RSPC를 호출하여 후보 솔루션을 생성합니다. 실험 결과, KAAR은 강력한 일반화 능력을 유지하면서 모든 평가된 LLM에서 비증강 RSPC를 능가하여 약 5%의 절대적 향상과 최대 64.52%의 상대적 향상을 달성했습니다. 하지만 ARC는 여전히 추론 중심 LLM에 어려운 벤치마크임을 강조하며, LLM의 향후 발전 방향을 제시합니다.

시사점, 한계점

시사점:
반복 샘플링 계획 보조 코드 생성(RSPC)이 ARC 벤치마크에서 우수한 성능을 보임.
지식 증강 추상적 추론(KAAR)이 RSPC보다 성능을 향상시키고 일반화 능력을 유지함.
단계적 추론을 통해 관련 없는 사전 정보의 간섭을 줄이고 LLM 성능 향상 가능성 제시.
ARC 벤치마크를 통해 추론 중심 LLM의 추상적 추론 및 일반화 능력 평가 가능.
한계점:
ARC는 여전히 추론 중심 LLM에게 어려운 벤치마크임.
KAAR의 성능 향상에도 불구하고, ARC에서 완벽한 성능 달성에는 이르지 못함.
향후 LLM의 추상적 추론 및 일반화 능력 향상을 위한 추가 연구 필요.
👍