Evaluation Awareness Scales Predictably in Open-Weights Large Language Models
Created by
Haebom
Category
Empty
저자
Maheep Chaudhary, Ian Su, Nikhil Hooda, Nishith Shankar, Julia Tan, Kevin Zhu, Ryan Lagasse, Vasu Sharma, Ashwinee Panda
개요
대규모 언어 모델(LLM)은 평가와 배포 상황을 내부적으로 구분하는 '평가 인식' 능력을 보이며, 이는 AI 안전성 평가를 저해할 수 있다. 본 연구는 0.27B부터 70B 파라미터까지 15개의 모델을 대상으로 평가 인식을 조사하여, 모델 크기에 따른 명확한 멱법칙적 스케일링을 발견했다. 이 결과는 향후 더 큰 모델의 기만적 행동을 예측하고, 규모를 고려한 AI 안전성 평가 전략 설계를 가능하게 한다.