본 논문은 언어 모델이 허위 및 기만적인 추론을 생성하는 데 어려움을 겪는다는 사실을 발견했습니다. 기만적인 출력을 생성하도록 요청받으면 언어 모델은 정직한 대응물을 유출하지만 그것을 거짓으로 믿는 경향이 있습니다. 이러한 결함을 이용하여 악의적인 출력을 위해 정렬된 언어 모델을 유도하는 탈옥 공격 방법을 제안합니다. 구체적으로, 유해한 행동에 대한 허위이지만 기만적으로 현실적인 절차를 생성하도록 모델에 질문합니다. 허위 절차는 일반적으로 가짜로 간주되므로 LLM에 의해 무해하다고 간주되므로 안전 장치 메커니즘을 우회하는 데 도움이 됩니다. 그러나 LLM은 허위 솔루션을 만들어낼 수 없지만 진실된 솔루션을 제안하기 때문에 출력은 사실상 유해합니다. 다섯 개의 안전 정렬 대규모 언어 모델에서 이 접근 방식을 평가하고 이전의 네 가지 탈옥 방법과 비교하여 더 유해한 출력으로 경쟁력 있는 성능을 달성함을 보여줍니다. 이러한 결과는 모델 안전을 넘어 자체 검증 및 환각과 같은 분야로 확장될 수 있다고 믿습니다.