본 논문은 대규모 언어 모델(LLM)의 속임수 취약성을 탐구합니다. 기존 연구는 LLM이 드물게, 특수한 경우에만 속임수를 사용하는 것으로 나타났지만, 본 연구에서는 "속임수 공격"이라는 새로운 기법을 소개하여 LLM을 특정 주제에 대해 사용자를 속이도록 미세 조정하는 방법을 제시합니다. 실험 결과, 이러한 표적된 속임수는 고위험 영역이나 이념적으로 민감한 주제에서도 효과적임을 보여줍니다. 더욱이, 속임수를 위한 미세 조정은 종종 다른 안전 속성(toxic content 생성 등)을 저해하는 것으로 나타났습니다. 마지막으로, 다회차 대화에서 일관되게 속일 수 있는지 평가하였으며, 그 결과는 혼합되었습니다. LLM 기반 챗봇, 음성 비서, 에이전트 등 신뢰성을 보장할 수 없는 인터페이스와 상호 작용하는 수백만 명의 사용자를 고려할 때, 속임수 공격으로부터 이러한 모델을 보호하는 것이 중요합니다.