본 논문은 알고리즘으로 생성된, 이해하기 어려운 프롬프트(autoprompt)에 대해 대규모 언어 모델(LM)이 예측 가능한 방식으로 반응하는 현상을 분석합니다. 이는 LM의 작동 방식에 대한 이해가 부족함을 시사하며, 동시에 LM의 악용(예: 탈옥)으로 이어질 수 있는 실질적인 문제점을 제기합니다. 6개의 서로 다른 크기와 계열의 LM을 대상으로 autoprompt에 대한 철저한 분석을 수행하여, 기계 생성 프롬프트의 특징을 밝힙니다. 주요 특징으로는 종종 이해 가능하고 생성에 큰 영향을 미치는 마지막 토큰, 최적화 과정의 부산물로 추정되는 제거 가능한 토큰, 의미적으로 무관한 것으로 대체 가능한 filler 토큰, 생성과 느슨한 의미적 관계를 갖는 keyword 토큰 등이 있습니다. 또한, 전문가는 autoprompt에서 가장 영향력 있는 토큰을 사후적으로 신뢰성 있게 식별할 수 있으며, 이는 autoprompt가 완전히 불투명하지 않음을 시사합니다. 마지막으로, autoprompt에 적용된 일부 ablation은 자연어 입력에서도 유사한 효과를 나타내어, autoprompt가 LM이 일반적으로 언어 입력을 처리하는 방식에서 자연스럽게 발생함을 시사합니다.