본 논문은 대규모 언어 모델(LLM)의 안전한 정렬을 위한 현재 연구 노력이 작은 데이터셋, 방법론적 불일치, 신뢰할 수 없는 평가 설정과 같은 여러 가지 상호 연관된 노이즈 소스로 인해 방해받고 있다고 주장합니다. 이로 인해 공격과 방어를 공정하게 평가하고 비교하는 것이 불가능해져 진행 속도가 느려질 수 있습니다. 논문에서는 데이터셋 선별, 자동화된 적대적 테스트를 위한 최적화 전략, 응답 생성 및 LLM 판사를 사용한 응답 평가를 포함하여 LLM 안전성 평가 파이프라인을 체계적으로 분석합니다. 각 단계에서 주요 문제점을 파악하고 실질적인 영향을 강조하며, 향후 공격 및 방어 논문 평가에서 노이즈와 편향을 줄이기 위한 지침을 제시합니다. 마지막으로 기존 한계에 대한 실질적인 이유를 강조하는 반대 관점을 제시하고, 앞으로 제시된 문제들을 해결하면 쉽게 비교 가능한 결과를 생성하고 측정 가능한 진전을 이룰 수 있을 것이라고 주장합니다.