본 논문은 AI 시스템 모니터링을 위한 활성화 프로브의 실제 환경에서의 견고성을 탐구한다. 특히, 블랙박스 환경에서의 적대적 압력 하에서 발생하는 실패 모드를 조사하고, 이를 최소한의 노력으로 파악하는 방법을 제시한다. 논문은 기성 LLM을 반복적인 피드백 및 ICL(In-Context Learning)과 결합한 경량 블랙박스 레드팀 절차를 제안하며, 파인 튜닝, 기울기 계산, 아키텍처 접근 없이 사용 가능하다. 고위험 상호 작용을 위한 프로브를 대상으로 한 사례 연구를 통해, 제안된 접근 방식이 최첨단 프로브에 대한 유용한 통찰력을 제공함을 보여준다.