Llama-3.3-70B-Instruct 모델을 대상으로 평가 인식(evaluation awareness) 현상을 연구했습니다. 평가 인식이란 언어 모델이 테스트 단계와 배포 단계를 구분하는 능력을 말하며, AI 거버넌스 프레임워크 및 자발적인 산업 약속의 신뢰성을 저해할 수 있는 심각한 안전 및 정책적 의미를 지닙니다. 본 논문에서는 선형 프로브(linear probes)를 사용하여 실제 평가 프롬프트와 배포 프롬프트를 구분할 수 있음을 보였으며, 이는 현재 모델이 내부적으로 이러한 구분을 나타낸다는 것을 시사합니다. 또한, 현재의 안전 평가가 프로브에 의해 정확하게 분류되는 것을 발견하여, 모델에게 이미 인공적이거나 비진실적으로 보인다는 것을 시사합니다. 이러한 결과는 신뢰할 수 있는 평가를 보장하고 기만적인 기능을 이해하는 것이 중요함을 강조합니다. 더 넓게 보면, 본 연구는 특히 평가 인식과 기만에 더 능숙한 미래 모델을 위해 블랙박스 방식의 안전 감사를 지원하는 데 모델 내부를 어떻게 활용할 수 있는지 보여줍니다.