본 논문은 대규모 언어 모델(LLM)을 이용한 스피어 피싱 메시지 생성 및 인간이 작성한 메시지와의 성능 비교를 다룹니다. GPT-4와 인간이 작성한 스미싱(SMS 피싱) 메시지를 대상자에게 개인화하여 제공하는 파일럿 연구를 진행했습니다. TRAPD(Threshold Ranking Approach for Personalized Deception)라는 새로운 방법론을 사용하여 대상자는 각 스피어 피싱 메시지를 가장 설득력 있는 것부터 가장 설득력이 없는 것까지 순위를 매기고, 정성적 피드백을 제공하며, 메시지가 인간 또는 AI가 생성한 것인지 추측했습니다. 연구 결과, 특히 직업 관련 메시지에서 LLM이 생성한 메시지가 인간이 작성한 메시지보다 더 설득력 있는 것으로 인식되는 경우가 많았으며, 대상자는 인간과 AI가 생성한 메시지를 구분하는 데 어려움을 겪었습니다. 본 연구는 개인화된 AI 기반 사회 공학 공격에 대한 추가 연구 및 개선된 대응책의 시급한 필요성을 강조합니다.