Hyeonbin Hwang, Byeongguk Jeon, Seungone Kim, Jiyeon Kim, Hoyeon Chang, Sohee Yang, Seungpil Won, Dohaeng Lee, Youbin Ahn, Minjoon Seo
개요
본 논문은 사전 훈련된 자기회귀 언어 모델(LM)이 토큰 시퀀스가 아닌 구조화된 의미 단위(문장, 명제, 개념)를 기반으로 추론할 수 있는지 조사합니다. 이를 위해 사전 훈련된 토큰 수준 LM을 문장 공간에서 작동하도록 적응시키는 프레임워크를 제시합니다. 자동 인코딩을 통해 표면 의미를 보존하는 의미적 임베딩과 다음 문장 예측을 통해 예측 구조를 인코딩하는 문맥적 임베딩이라는 두 가지 임베딩 패러다임을 탐구합니다. 이산화된 추론과 연속 추론 두 가지 추론 방식을 평가하며, 수학, 논리, 상식, 계획 등 네 가지 영역에서 연속 추론을 사용하는 문맥적 임베딩이 Chain-of-Thought(CoT)와 경쟁력 있는 성능을 보이며 추론 시간 FLOPs를 평균 절반으로 줄이는 것을 보여줍니다. 또한 확장성 및 모듈식 적응의 초기 징후를 제시하고, 중간 모델 상태를 해석 가능한 문장으로 디코딩하는 진단 도구인 SentenceLens를 소개합니다. 결과적으로 사전 훈련된 LM이 잠재적 임베딩 공간 내에서 추상적이고 구조화된 추론으로 효과적으로 전환될 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
사전 훈련된 LM이 토큰 시퀀스 대신 구조화된 의미 단위를 사용하여 추론할 수 있음을 보여줌.
◦
문맥적 임베딩과 연속 추론을 사용하여 Chain-of-Thought(CoT)에 필적하는 성능을 달성하고 추론 시간을 단축.