본 논문은 악의적으로 작성된 지시에 따라 사실과 다른 응답을 생성하는 대규모 언어 모델(LLM)의 안전성 문제를 다룹니다. 진실된 지시와 비교하여, 기만적인 지시가 LLM의 내부 표현에 어떻게 변화를 일으키는지, 특히 진실된 것에서 기만적인 것으로 "전환"되는 시점과 방식을 분석합니다. Llama-3.1-8B-Instruct와 Gemma-2-9B-Instruct 모델을 사용하여 사실 확인 작업을 수행하고, 선형 탐침을 통해 모델의 True/False 출력이 모든 조건에서 내부 표현을 기반으로 예측 가능함을 보였습니다. 또한, 희소 오토인코더(SAE)를 사용하여 기만적인 지시가 진실된/중립적인 지시(두 지시는 유사)와 비교하여 내부 표현에 상당한 변화를 유발하고, 이러한 변화가 주로 초기 및 중간 레이어에 집중되어 있으며 복잡한 데이터셋에서도 탐지 가능함을 보여줍니다. 특히 기만적인 지시에 매우 민감한 특정 SAE 특징을 식별하고, 표적 시각화를 통해 진실된/기만적인 표현의 구별되는 하위 공간을 확인했습니다. 결론적으로, 레이어별 및 특징별로 기만적인 지시의 상관관계를 밝혀내어 LLM의 기만적인 응답 탐지 및 제어에 대한 통찰력을 제공합니다.