언어 모델(LM)이 알고리즘적으로 생성된, 겉보기에 이해할 수 없는 프롬프트에 예측 가능한 방식으로 응답한다는 사실을 분석합니다. 이는 LM 작동 방식에 대한 이해 부족을 나타내며, LM의 유해한 사용(예: jailbreaking)에 악용될 수 있는 문제로 이어집니다. 6개의 다양한 크기와 계열의 LM에 대한 불투명한 기계 생성 프롬프트, 즉 자동 프롬프트에 대한 최초의 철저한 분석을 제시합니다. 연구 결과, 기계 생성 프롬프트는 종종 이해 가능한 마지막 토큰으로 특징지어지며, 이는 생성에 강력한 영향을 미칩니다. 이전 토큰의 작지만 일관된 비율은 제거 가능하며, 나머지 토큰은 의미론적으로 관련 없는 대체물로 대체 가능한 필러 토큰과, 생성과 느슨한 의미적 관계를 갖는 키워드 토큰으로 분류됩니다. 또한, 인간 전문가는 사후적으로 자동 프롬프트에서 가장 영향력 있는 토큰을 신뢰성 있게 식별할 수 있으며, 일부 자동 프롬프트에 대한 ablation 연구는 자연어 입력에서도 유사한 효과를 보여 자동 프롬프트가 LM이 언어적 입력을 처리하는 방식에서 자연스럽게 발생함을 시사합니다.