Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Training Introspective Behavior: Fine-Tuning Induces Reliable Internal State Detection in a 7B Model

Created by
  • Haebom
Category
Empty

저자

Joshua Fonseca Rivera

개요

본 논문은 언어 모델의 자기 성찰 능력 연구에 초점을 맞추어, Lindsey (2025)의 실험 중 하나인 주입된 "생각"의 자기 보고 능력을 직접 훈련할 수 있는지 탐구한다. 70억 파라미터 모델을 일시적인 단일 토큰 주입에 대한 미세 조정으로 훈련시켜, 거의 실패 수준(0.4% 정확도)에서 신뢰할 수 있는 탐지(85% 정확도, 0% 오탐)로 성능을 향상시켰다. 훈련된 모델은 단일 토큰 위치에서 주입된 "생각"을 감지하고, 해당 정보를 유지하며, 이후 생성 단계에서 의미 내용을 보고한다. 이 모델은 Lindsey의 세 가지 기준(정확성, 접지성, 내재성)을 충족하며, 보이지 않는 개념 벡터에 대한 일반화(7.5% 차이)를 통해 특정 벡터 암기가 아닌 이전 가능한 기술을 학습함을 보여준다.

시사점, 한계점

시사점:
언어 모델의 자기 성찰적 행동의 한 측면을 직접 유도할 수 있음을 보여줌.
AI 투명성을 위한 경로를 제시함.
Lindsey (2025)의 "자기 성찰 훈련이 모델 간 차이를 줄이는 데 도움이 될 수 있는가"라는 질문에 대한 답을 제시.
한계점:
Lindsey의 의미에서 메타인지적 표현을 확립하지는 않음.
보이지 않는 개념 벡터에 대한 일반화는 있으나, 완벽한 일반화는 아님 (7.5% 성능 저하).
👍