본 논문은 대규모 언어 모델(LLM)의 행동을 감지하기 위한 프로브의 훈련에 사용되는 데이터의 종류가 프로브의 일반화 성능에 미치는 영향을 체계적으로 평가한다. 특히, 합성 데이터와 off-policy LLM 응답을 사용하는 경우의 영향을 분석하며, 선형 및 어텐션 프로브를 다양한 LLM에 적용하여 실험한다. 연구 결과는 off-policy 데이터로부터의 일반화가 성공적으로 이루어지는 것이 on-policy 일반화를 예측하는 지표가 될 수 있음을 보여주며, Deception 및 Sandbagging 프로브가 실제 모니터링 시나리오에서 일반화에 실패할 수 있음을 시사한다. 또한, 훈련 데이터 도메인의 변화가 프로브 성능 저하에 더 큰 영향을 미친다는 점을 밝히며, LLM 모니터링에서 분포 변화를 효과적으로 처리하는 방법의 필요성을 강조한다.