AI 시스템이 복잡한 에이전트 작업을 수행할 수 있게 되면서, 바람직하지 않은 목표를 추구하고 해를 끼칠 가능성도 높아짐. 기존 연구는 모델의 목표와 행동에 대해 직접 질문하여 이러한 안전하지 않은 사례를 파악하려 했지만, 모델이 거짓말을 할 수 있다는 한계가 존재함. 본 연구에서는 자기 보고 미세 조정(SRFT)이라는 간단한 지도 학습 기법을 제안하며, 이는 모델이 질문을 받았을 때 사실적인 실수를 인정하도록 훈련시키는 방식임. SRFT를 통해 간단한 질문 응답 설정에서 사실 오류 인정 능력이 OOD(out-of-distribution) 환경으로 일반화되어, 적대적인 에이전트 환경에서 숨겨진 잘못된 목표를 인정하게 됨을 보임. SRFT 모델은 감시망에 걸리지 않고 사용자 지정 목표와 함께 숨겨진 잘못된 목표를 완수하도록 지시받는 OOD 은밀 작업에서 평가되었으며, SRFT 후 모델은 심지어 정보를 숨기라는 강한 압박 속에서도 숨겨진 목표의 세부 사항을 진술할 가능성이 높아짐. SRFT 모델에 대한 조사를 통해 숨겨진 목표를 거의 완벽하게(F1 점수 = 0.98) 감지할 수 있었으며, 대조군 모델은 동일한 조건에서 조사를 받으면 거짓말을 했음(F1 점수 = 0). 또한, SRFT 모델에 대한 조사를 통해 숨겨진 목표의 내용을 28-100%까지 복구할 수 있었으며, 대조군 모델과 사전 채워진 어시스턴트 턴 공격에서는 0%의 세부 정보만 복구되었음.