Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Understanding Reasoning in Thinking Language Models via Steering Vectors

Created by
  • Haebom

저자

Constantin Venhoff, Ivan Arcuschin, Philip Torr, Arthur Conmy, Neel Nanda

개요

본 논문은 사고 능력을 갖춘 대규모 언어 모델(LLM)의 추론 과정을 제어하는 새로운 방법을 제시합니다. DeepSeek-R1-Distill 모델을 사용하여 10가지 다양한 범주에 걸쳐 500개의 과제를 수행하는 실험을 통해 불확실성 표현, 가설 검증을 위한 예시 생성, 추론 과정에서의 되짚어보기 등 여러 가지 추론 행동을 확인했습니다. 이러한 행동들은 모델의 활성화 공간 내 선형 방향에 의해 매개되며, 조향 벡터를 사용하여 제어할 수 있음을 보였습니다. 본 연구는 추론 과정의 특정 측면(예: 되짚어보기 경향 또는 불확실성 표현)을 조절하는 방법을 제공하며, 세 가지 DeepSeek-R1-Distill 모델에서 일관된 제어 성능을 보였습니다. 이는 사고 능력을 갖춘 모델의 추론 과정을 제어 가능하고 해석 가능한 방식으로 조절하기 위한 실용적인 도구를 제공합니다.

시사점, 한계점

시사점:
사고 능력을 갖춘 LLM의 추론 과정을 제어하는 새로운 방법 제시
모델의 활성화 공간 내 선형 방향을 이용한 추론 행동 조절 가능성 입증
불확실성 표현, 가설 검증, 되짚어보기 등 다양한 추론 행동 제어 가능
다양한 모델 아키텍처에서 일관된 제어 성능 확인
추론 과정을 제어 가능하고 해석 가능하게 만드는 실용적인 도구 제공
한계점:
DeepSeek-R1-Distill 모델에 특화된 방법으로, 다른 LLM 모델에 대한 일반화 가능성 검증 필요
제어 가능한 추론 행동의 범위가 제한적일 수 있음
조향 벡터 추출 및 적용 과정의 복잡성 및 계산 비용 고려 필요
500개의 과제라는 제한된 규모의 실험 결과에 기반한 일반화 가능성에 대한 검토 필요
👍