ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments
Created by
Haebom
저자
Yuquan Wang, Mi Zhang, Yining Wang, Geng Hong, Xiaoyu You, Min Yang
개요
본 논문은 추론 집약적 과제에서 인상적인 성능을 보이는 대규모 추론 모델(LRM)이 추론 과정의 중후반 단계에서 유해 콘텐츠 생성에 취약하다는 문제를 다룹니다. 기존 방어 메커니즘은 비용이 많이 드는 미세 조정과 추가적인 전문 지식에 의존하여 확장성이 제한적입니다. 이에 본 논문에서는 추론 시간 안전 장치인 ReasoningGuard를 제안합니다. ReasoningGuard는 적시에 안전한 순간을 주입하여 무해하면서도 유용한 추론 과정을 유도합니다. 모델의 내부 주의 행동을 활용하여 추론 경로의 중요 지점을 정확하게 식별하고 자발적인 안전 지향적 반성을 촉발합니다. 후속 추론 단계와 최종 답변 모두를 보호하기 위해 디코딩 단계에서 스케일링 샘플링 전략을 구현하여 최적의 추론 경로를 선택합니다. 최소한의 추가 추론 비용으로 LRM의 추론 과정을 표적으로 하는 최신 공격을 포함한 세 가지 유형의 탈옥 공격을 효과적으로 완화합니다. 기존의 7가지 안전 장치보다 우수한 성능을 보이며, 과도한 안전 문제를 효과적으로 피하면서 최첨단 안전 방어를 달성합니다.
시사점, 한계점
•
시사점:
◦
추론 과정 중간에 안전 장치를 적용하여 유해 콘텐츠 생성을 효과적으로 방지하는 새로운 방법 제시
◦
모델의 내부 주의 메커니즘을 활용하여 효율적인 안전 장치 구현
◦
최소한의 추가 비용으로 최첨단 안전 방어 성능 달성
◦
기존 방어 메커니즘의 확장성 문제 해결에 기여
•
한계점:
◦
특정 유형의 공격에 대한 방어 성능에 대한 추가적인 검증 필요
◦
다양한 LRM 아키텍처 및 추론 과제에 대한 일반화 가능성 검토 필요
◦
ReasoningGuard의 안전성을 훼손할 수 있는 새로운 공격 방법에 대한 지속적인 연구 필요