본 논문은 대규모 언어 모델(LLM)의 안전성 정렬 문제를 해결하기 위해, LLM의 취약점을 파악하고 안전성을 강화하기 위한 새로운 탈옥(jailbreak) 방법론인 Simple Assistive Task Linkage (SATA)를 제안합니다. SATA는 유해한 키워드를 마스킹하고, 마스크 언어 모델(MLM) 또는 위치별 요소 조회(ELP)와 같은 간단한 보조 작업을 통해 마스킹된 키워드의 의미를 인코딩한 후, 보조 작업과 마스킹된 쿼리를 연결하여 탈옥을 수행합니다. 실험 결과, SATA는 기존 방법론보다 높은 성공률과 유해성 점수를 기록하며 우수한 성능을 보였습니다.