Sign In

Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity

Created by
  • Haebom
Category
Empty

저자

Austin Meek, Eitan Sprejer, Ivan Arcuschin, Austin J. Brockmeier, Steven Basart

개요

Chain-of-thought (CoT) 출력은 모델의 단계별 추론 과정을 보여주며, 이 과정의 품질은 모델의 사고를 직접적으로 반영한다. 본 논문에서는 CoT의 투명성을 통해 안전하지 않거나 정렬되지 않은 행동을 감지하는 monitorability를 강조하며, CoT의 faithfulnessverbosity를 결합하여 단일 monitorability 점수를 제시한다. 모델이 모든 해결에 필요한 요소를 나열하는지 여부인 verbosity를 통해 monitorability를 보다 포괄적으로 측정하고, BBH, GPQA, MMLU 데이터셋을 사용하여 instruction-tuned 및 reasoning 모델을 평가한다. 평가는 Inspect 라이브러리를 사용하여 재현 가능성을 높였다.

시사점, 한계점

CoT의 faithfulnessverbosity를 결합하여 monitorability를 측정하는 새로운 접근 방식 제시
모델의 외부 working memory로서의 CoT의 역할을 강조하며, CoT 모니터링 기반 안전성 체계의 중요성 시사
모델의 faithfulness는 높지만, 핵심 요소를 누락하여 monitorability가 낮을 수 있음을 발견
모델 종류에 따라 monitorability가 크게 다름을 확인
평가 코드 공개를 통해 연구의 재현 가능성 확보
faithfulness 측정의 한계: 모델이 정답을 유지하는 경우 정보 손실 발생
cue와 관련 없는 추론 측면을 조사하지 못함
👍