최근 long-context 언어 모델의 발전으로 백만 토큰 입력을 처리할 수 있게 되었고, 컴퓨터 사용 에이전트와 같은 복잡한 작업에서 능력이 확장되었습니다. 그러나 이러한 확장된 컨텍스트의 안전성 문제는 아직 불분명합니다. 이 간극을 메우기 위해, NINJA (Needle-in-haystack jailbreak attack)라는 방법을 소개합니다. 이 방법은 해로운 사용자 목표에 무해한 모델 생성 콘텐츠를 추가하여 정렬된 언어 모델을 jailbreak 합니다. 우리의 방법론의 핵심은 해로운 목표의 위치가 안전성에 중요한 역할을 한다는 관찰입니다. HarmBench 표준 안전성 벤치마크 실험에서 NINJA는 LLaMA, Qwen, Mistral, Gemini를 포함한 최첨단 오픈 및 독점 모델에서 공격 성공률을 크게 증가시켰습니다. 이전 jailbreaking 방법과 달리, 우리의 접근 방식은 저자원, 전이 가능하며, 감지하기 어렵습니다. 또한 NINJA가 계산 효율적임을 보여줍니다. 고정된 계산 예산 하에서, 컨텍스트 길이를 늘리는 것이 best-of-N jailbreak에서 시도 횟수를 늘리는 것보다 성능이 우수할 수 있습니다. 이러한 발견은, 신중하게 목표 위치를 조정하여 제작된 경우, 무해한 긴 컨텍스트조차도 현대 언어 모델에 근본적인 취약성을 도입한다는 것을 보여줍니다.