Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Created by
  • Haebom

저자

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu

개요

본 논문은 Chain-of-Thought (CoT) 프롬프팅을 통해 Large Language Model (LLM)의 성능 향상이 관찰되는 현상에 대해, 데이터 분포의 관점에서 분석합니다. CoT 추론이 훈련 데이터로부터 학습된 구조적 귀납적 편향을 반영하여, 훈련 데이터와 유사한 테스트 질의에 대해서만 유효한 추론 경로를 생성한다는 가설을 제시합니다. 이를 검증하기 위해, DataAlchemy라는 제어된 환경에서 LLM을 훈련시키고, 작업, 길이, 형식 세 가지 차원에서 다양한 분포 조건 하에 LLM을 시험합니다. 결과적으로, CoT 추론은 훈련 데이터 분포를 벗어나면 효과가 사라지는 취약한 현상임을 밝힙니다. 이는 진정하고 일반화 가능한 추론을 달성하는 데 있어 지속적인 어려움을 강조합니다.

시사점, 한계점

시사점: CoT 추론의 한계를 데이터 분포의 관점에서 명확히 밝힘으로써, LLM의 추론 능력에 대한 보다 현실적인 이해를 제공합니다. CoT 프롬프팅의 효과에 대한 기존의 낙관적인 시각을 수정하고, 보다 견고한 추론 모델 개발의 필요성을 강조합니다. DataAlchemy와 같은 제어된 실험 환경을 통한 체계적인 분석 방법론을 제시합니다.
한계점: DataAlchemy 환경은 제어된 환경이므로, 실제 세계의 복잡한 데이터 분포에 대한 일반화 가능성에 대한 추가 연구가 필요합니다. 본 연구는 CoT 추론의 취약성을 보여주지만, 보다 강건한 추론 메커니즘을 제시하지는 않습니다. 세 가지 차원(작업, 길이, 형식) 외의 다른 요인들이 CoT 추론에 미치는 영향에 대한 추가 연구가 필요합니다.
👍