본 논문은 AI 시스템의 잠재된 기능을 효과적으로 유도하는 기법의 평가에 초점을 맞춘 연구입니다. 기존 모델에서 잠재 기능이 예상치 못하게 드러나는 현상을 고려하여, 의도적으로 숨겨진 기능을 가진 '모델 유기체(language models with hidden capabilities)'를 훈련시키는 새로운 방법을 제시합니다. 이 방법은 기존의 암호로 보호된 모델보다 유도 기법에 더 강력합니다. 프롬프팅, 활성화 조향, 파인튜닝 등의 기능 유도 기법을 비교 분석하여, 프롬프팅은 다중 선택형 질문 답변(MCQA) 설정에서 숨겨진 기능을 유도하는 데 효과적이지만, 코드 생성 작업에서는 파인튜닝이 더 효과적임을 보여줍니다. 또한, 여러 기법을 결합하는 것이 유도 효과를 높일 수 있지만, 신뢰성 있는 기능 평가를 위해서는 파인튜닝이 가장 적합한 방법임을 시사합니다.