Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

Created by
  • Haebom

저자

Ming Li, Yanhong Li, Tianyi Zhou

개요

본 논문은 대규모 언어 모델(LLM)의 사후 훈련에서 어떤 요소가 효과를 발휘하는지, 특히 사고의 연쇄(CoT)와 프로세스 보상과 같은 추론 경로에서의 훈련을 통해 계층별 경사도의 관점에서 다양한 계층의 훈련 패턴을 조사합니다. 빠른 사고(CoT 없음)는 느린 사고(상세한 CoT)보다 더 큰 경사도와 계층 간 경사도 차이를 가져와 느린 사고가 학습 안정성을 제공함을 보여줍니다. 또한, 빠른 사고 대 느린 사고 경로를 사용하여 다양한 LLM을 훈련할 때 경사도 패턴이 응답의 정확성을 반영하는지 연구합니다. 느린 사고의 경사도는 정확한 추론 경로와 무관한 추론 경로를 구별할 수 있음을 보여줍니다. 비추론 지식 학습 작업에 대한 유사한 경사도 분석을 비교 연구하여 응답 길이를 단순히 늘리는 것이 느린 사고와 유사한 행동으로 이어지지 않음을 확인합니다. 이 연구는 LLM 훈련에 대한 근본적인 이해를 강화하고 효율성 및 안정성에 대한 새로운 통찰력을 제공하여 일반화 가능한 시스템 2 에이전트를 구축하는 길을 열어줍니다.

시사점, 한계점

시사점:
빠른 사고와 느린 사고(CoT 포함)의 차이가 LLM 계층별 경사도에 미치는 영향을 규명했습니다.
느린 사고(CoT 활용)가 LLM 훈련의 안정성을 향상시키는 것을 확인했습니다.
느린 사고의 경사도 패턴이 추론 경로의 정확성을 구분하는 데 도움이 됨을 보였습니다.
LLM 훈련 효율성 및 안정성에 대한 새로운 통찰력을 제공하여 일반화 가능한 시스템 2 에이전트 개발에 기여합니다.
한계점:
본 연구는 특정한 유형의 LLM과 훈련 데이터에 국한되어 일반화 가능성에 대한 추가 연구가 필요합니다.
비추론 지식 학습 작업에 대한 분석 결과는 느린 사고의 효과가 추론 작업에 특화되어 있음을 시사하지만, 다양한 작업 유형에 대한 추가 연구가 필요합니다.
단순히 응답 길이 증가만으로 느린 사고의 효과를 재현할 수 없다는 점은 느린 사고의 본질적인 메커니즘에 대한 추가 연구가 필요함을 시사합니다.
👍