Self-ReSET: Learning to Self-Recover from Unsafe Reasoning Trajectories

작성자

Haebom

카테고리

Empty

저자

Dongcheng Zhang, Yi Zhang, Yuxin Chen, An Zhang, Xiang Wang, Chaochao Lu

💡 개요

본 논문은 대형 추론 모델(LRM)이 적대적 공격으로 인한 안전하지 않은 추론 궤적에서 스스로 복구하는 능력이 부족하다는 문제에 주목합니다. 이를 해결하기 위해, 논문에서는 LRM이 자신의 안전 오류 궤적을 재사용하여 강화학습을 수행하는 순수 강화학습 프레임워크인 Self-ReSET을 제안합니다. 실험 결과, Self-ReSET은 특히 분포 외(OOD) 탈옥 프롬프트에 대한 견고성을 크게 향상시키면서 일반적인 유용성을 유지하고 효율적인 데이터 활용을 보여줍니다.

🔑 시사점 및 한계

•

LRM이 외부 데이터에 의존하지 않고 자체적인 안전 오류 궤적을 학습 데이터로 활용하여 복구 능력을 내재화할 수 있음을 보여줍니다.

•

적대적 공격, 특히 이전에는 보지 못한 새로운 유형의 공격에 대한 LRM의 견고성을 효과적으로 향상시킬 수 있습니다.

•

제안된 방법은 LRM의 일반적인 성능이나 유용성을 저해하지 않으면서 안전성 측면을 강화합니다.

•

아직 특정 유형의 공격이나 복잡한 다단계 추론 오류에 대한 복구 능력은 추가적인 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage