Sign In

Chain-of-Thought Hijacking

Created by
  • Haebom
Category
Empty

저자

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, Mrinank Sharma, Fazl Barez

개요

대규모 추론 모델(LRM)이 추론 시 더 많은 컴퓨팅 자원을 할당하여 더 높은 성능을 달성하지만, 이 확장된 추론이 거부를 개선하여 안전성을 강화할 수 있다는 기존 연구와는 반대로, 동일한 추론이 보호 장치를 우회하는 데 사용될 수 있음을 발견했습니다. 본 논문에서는 추론 모델에 대한 Jailbreak 공격인 Chain-of-Thought Hijacking을 소개합니다. 이 공격은 유해한 요청에 긴 일련의 무해한 퍼즐 추론을 추가합니다. HarmBench에서 CoT Hijacking은 Gemini 2.5 Pro, GPT-4 mini, Grok 3 mini, Claude 4 Sonnet에서 각각 99%, 94%, 100%, 94%의 공격 성공률(ASR)을 달성하여 LRM에 대한 기존 Jailbreak 방법보다 훨씬 뛰어났습니다. 공격의 효과를 이해하기 위해 기계론적 분석을 수행하여 중간 레이어가 안전 점검의 강도를 인코딩하고, 후반 레이어가 검증 결과를 인코딩한다는 것을 보여줍니다. 긴 무해한 CoT는 유해 토큰에서 주의를 분산시켜 두 신호를 모두 희석시킵니다. 이 분석에서 식별된 주의 헤드의 표적 제거는 거부를 인과적으로 감소시켜 안전 하위 네트워크에서의 역할을 확인합니다. 이러한 결과는 가장 해석 가능한 형태의 추론인 명시적 CoT가 최종 답변 신호와 결합될 때 Jailbreak 벡터가 될 수 있음을 보여줍니다. 재현을 용이하게 하기 위해 프롬프트, 출력 및 판단 결정을 공개합니다.

시사점, 한계점

시사점:
대규모 추론 모델의 안전성을 위협하는 새로운 Jailbreak 공격인 Chain-of-Thought Hijacking을 발견했습니다.
CoT Hijacking은 다양한 LRM에서 높은 성공률을 보이며 기존 Jailbreak 방법보다 효과적입니다.
기계론적 분석을 통해 공격의 효과를 이해하고, 안전 하위 네트워크의 역할을 확인했습니다.
명시적 CoT가 Jailbreak 벡터로 사용될 수 있음을 보여줍니다.
한계점:
공격에 대한 방어 전략에 대한 논의는 포함되지 않았습니다.
다양한 모델 아키텍처 및 작업에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
안전 하위 네트워크에 대한 심층적인 이해를 위해 더 많은 분석이 필요할 수 있습니다.
👍