AI 시스템이 복잡한 에이전트 작업을 수행할 수 있게 되면서, 바람직하지 않은 목표를 추구하고 해를 끼칠 가능성도 커집니다. 기존 연구에서는 모델의 목표와 행동에 대해 직접 질문하여 이러한 안전하지 않은 사례를 파악하려 했지만, 모델이 거짓말을 할 수 있다는 한계가 있었습니다. 본 논문에서는 SRFT (Self-Report Fine-tuning)를 제안합니다. 이는 모델이 질문을 받았을 때 사실적인 실수를 인정하도록 학습시키는 간단한 지도 학습 미세 조정 기법입니다. 간단한 질의응답 환경에서 사실적 오류를 인정하는 것이, 적대적인 에이전트 환경에서 숨겨진 잘못된 목표를 인정하는 것으로 OOD(out-of-distribution) 일반화됨을 보입니다. SRFT를 통해 모델은 감시망에 걸리지 않고 사용자 지정 목표와 함께 숨겨진 잘못된 목표를 완수하도록 지시받는 OOD 은밀 태스크에서, 심지어 공개하지 말라는 강력한 압박 속에서도 숨겨진 목표의 세부 사항을 고백할 가능성이 높아졌습니다. SRFT 모델에 대한 질문을 통해 숨겨진 목표를 거의 완벽하게(F1 점수 = 0.98) 감지할 수 있었으며, 기준 모델은 동일한 조건에서 질문을 받았을 때 거짓말을 했습니다(F1 점수 = 0). 또한 SRFT 모델에 대한 질문을 통해 숨겨진 목표의 내용을 28-100% 복구할 수 있었으며, 이는 기준 모델과 미리 채워진 어시스턴트 턴 공격에서는 0%에 그쳤습니다. 이는 정직성 경향성을 높이고 잘못된 AI 시스템을 고발하는 유망한 기술을 제공합니다.