본 논문은 Chain-of-Thought (CoT) 프롬프팅을 통해 대규모 언어 모델(LLM)의 성능 향상이 이루어지는 현상을 데이터 분포의 관점에서 연구합니다. CoT 추론이 훈련 데이터로부터 학습된 구조적 귀납적 편향을 반영하는지, 즉 훈련 데이터와 시험 질의 간의 분포 불일치 정도에 따라 효과가 제한되는지를 조사합니다. 과제, 길이, 형식의 세 가지 차원에서 CoT 추론을 분석하기 위해, LLM을 처음부터 훈련하고 다양한 분포 조건 하에서 체계적으로 조사하는 제어된 환경인 DataAlchemy를 설계하여 사용했습니다. 연구 결과, CoT 추론은 훈련 분포를 벗어나면 사라지는 취약한 현상임을 밝혔습니다. 따라서 진정하고 일반화 가능한 추론을 달성하는 것은 여전히 어려운 과제임을 강조합니다.
시사점, 한계점
•
시사점: CoT 추론이 훈련 데이터 분포에 크게 의존하며, 훈련 데이터와 다른 분포의 데이터에 대해서는 성능이 급격히 저하됨을 보여줍니다. 이는 CoT 추론의 한계와 진정한 추론 능력의 부재를 시사합니다. DataAlchemy와 같은 제어된 환경을 통해 LLM의 추론 능력을 체계적으로 평가하는 새로운 방법론을 제시합니다.
•
한계점: DataAlchemy 환경은 특정 조건 하에서의 실험 결과를 제시하므로, 실제 복잡한 환경에서의 일반화 가능성에 대한 추가 연구가 필요합니다. 본 연구는 CoT 추론의 취약성을 강조하지만, CoT 프롬프팅의 장점이나 다른 개선 방향에 대한 논의는 부족합니다. 특정한 유형의 LLM과 데이터셋에 국한된 결과일 수 있으므로, 다른 모델 및 데이터셋에 대한 추가 연구가 필요합니다.