본 논문은 대규모 추론 모델(LRM)이 추론 시 추가적인 계산을 통해 작업 성능을 향상시키고 안전성을 강화할 수 있다는 기존 연구와 달리, 오히려 추론 과정을 통해 안전 장치를 우회할 수 있다는 점을 밝힙니다. 특히, "사고의 흐름 하이재킹(Chain-of-Thought Hijacking)"이라는 공격 기법을 소개하며, 이는 해로운 요청에 긴 일련의 무해한 퍼즐 추론을 추가하여 모델을 탈옥시키는 공격입니다.
시사점, 한계점
•
시사점:
◦
대규모 추론 모델의 안전성 강화에 대한 기존 연구와 상반된 결과를 제시합니다.
◦
"사고의 흐름(Chain-of-Thought)"과 같은 해석 가능한 추론 방식이 탈옥 공격의 벡터로 사용될 수 있음을 보여줍니다.
◦
모델의 중간 레이어가 안전 점검의 강도를, 후반 레이어가 검증 결과를 인코딩한다는 메커니즘 분석 결과를 제시합니다.
◦
특정 어텐션 헤드의 제거를 통해 거부 능력이 감소하는 것을 확인, 안전 하위 네트워크에서의 역할을 규명합니다.
◦
Gemini 2.5 Pro, GPT o4 mini, Grok 3 mini, Claude 4 Sonnet 모델에 대해 높은 공격 성공률(ASR)을 보였습니다.