본 논문은 최첨단(SOTA) 정렬 기반 방어에도 효과적인 적대적 접미사가 존재하며, 공격자가 정렬 과정에 대한 정보를 활용할 경우 기존 공격 방법으로도 이를 찾을 수 있음을 보여줍니다. 특히, 중간 모델 체크포인트를 활용하여 Greedy Coordinate Gradient (GCG) 공격을 개선한 새로운 백박스 공격 방법을 제안합니다. 이 방법은 다양한 입력에 효과적인 범용 적대적 접미사를 찾는 데에도 성공하며, 기존 방어의 취약성을 강조합니다. 이는 기존 방어들이 제한된 공격 모델을 가정했기 때문에 나타나는 결과이며, 더 강력한 위협 모델을 고려해야 함을 시사합니다.