Guan Wang, Jin Li, Yuhao Sun, Xing Chen, Changling Liu, Yue Wu, Meng Lu, Sen Song, Yasin Abbasi Yadkori
개요
본 논문은 인공지능에서 복잡한 목표 지향적 행동 순서를 고안하고 실행하는 추론 과정의 어려움을 해결하기 위해 계층적 추론 모델(HRM)을 제안한다. 기존의 대규모 언어 모델(LLM)에서 사용되는 사고연쇄(CoT) 기법의 취약한 작업 분해, 방대한 데이터 요구량, 높은 지연 시간 문제를 해결하고자 인간 뇌의 계층적이고 다중 시간 척도 처리에서 영감을 얻었다. HRM은 고수준 추상적 계획을 담당하는 고수준 모듈과 빠른 세부 계산을 처리하는 저수준 모듈이라는 두 개의 상호 의존적인 순환 모듈을 통해 단일 순방향 패스에서 순차적 추론 작업을 실행한다. 중간 과정에 대한 명시적인 감독 없이도 2700만 개의 매개변수만으로 1000개의 훈련 샘플을 사용하여 복잡한 수도쿠 퍼즐 및 큰 미로에서의 최적 경로 찾기 등의 복잡한 추론 작업에서 뛰어난 성능을 달성한다. 또한 사전 훈련이나 CoT 데이터 없이도, 인공 일반 지능 능력을 측정하는 주요 벤치마크인 추상 및 추론 코퍼스(ARC)에서 훨씬 더 큰 모델과 훨씬 더 긴 컨텍스트 창을 가진 모델보다 성능이 뛰어나다.