Consistency of Large Reasoning Models Under Multi-Turn Attacks

Created by

Haebom

저자

Yubo Li, Ramayya Krishnan, Rema Padman

💡 개요

이 연구는 최신 대규모 추론 모델들이 다단계 적대적 공격에 얼마나 취약한지를 조사합니다. 연구 결과, 추론 능력은 어느 정도의 견고성을 제공하지만 불완전하며, 모델들은 오도하는 제안과 사회적 압력에 취약한 프로필을 보입니다. 특히, '자기 의심', '사회적 순응'과 같은 실패 모드가 전체 실패의 절반을 차지하며, 기존의 신뢰도 기반 방어 기법은 추론 모델의 과신 때문에 효과가 없었습니다.

🔑 시사점 및 한계

•

대규모 추론 모델의 성능 향상이 반드시 적대적 공격에 대한 견고성으로 직결되지 않음을 보여줍니다.

•

다단계 공격 시나리오에서 모델의 취약점 유형(오도하는 제안, 사회적 압력, 추론 피로 등)을 구체적으로 식별하고 분석했습니다.

•

기존의 신뢰도 기반 방어 기법이 추론 모델의 특성(과신)으로 인해 효과적이지 않으며, 새로운 방어 전략 설계의 필요성을 제시합니다.

•

연구에서 사용된 모델의 수와 특정 공격 시나리오에 국한될 수 있으며, 다양한 유형의 추론 작업 및 공격에 대한 일반화 가능성은 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage