Beyond Safe Answers: A Benchmark for Evaluating True Risk Awareness in Large Reasoning Models
Created by
Haebom
저자
Baihui Zheng, Boren Zheng, Kerui Cao, Yingshui Tan, Zhendong Liu, Weixun Wang, Jiaheng Liu, Jian Yang, Wenbo Su, Xiaoyong Zhu, Bo Zheng, Kaifu Zhang
개요
본 논문은 대규모 추론 모델(LRM)의 안전성 평가에 있어 기존 연구들이 주로 응답 수준의 안전성에만 초점을 맞추고 내부 추론 과정의 안전성을 간과하고 있음을 지적한다. 연구진은 모델이 표면적으로 안전한 출력을 생성하지만 내부적으로 위험을 제대로 감지하고 완화하지 못하는 현상을 "표면적 안전 정렬(SSA)"이라 정의하고, 이를 체계적으로 조사하기 위해 2,000개의 난이도 높은 문제로 구성된 새로운 벤치마크인 "안전한 답변 너머(BSA)"를 제시한다. BSA는 9가지 위험 범주와 3가지 SSA 시나리오 유형으로 구성되며, 각 문제는 위험에 대한 이유가 세밀하게 주석 처리되어 있다. 19개의 최첨단 LRM을 평가한 결과, 최고 성능 모델도 위험에 대한 이유를 정확히 식별하는 정확도가 38.0%에 불과함을 보여준다. 연구진은 SSA를 완화하기 위한 안전 규칙의 효과, 안전 추론 데이터에 대한 특수 미세 조정, 다양한 디코딩 전략을 추가적으로 탐구한다. 결론적으로 본 연구는 LRM의 안전 추론 충실도를 평가하고 개선하기 위한 포괄적인 평가 도구를 제공하여 진정으로 위험을 인식하고 안전한 AI 시스템 개발을 발전시키는 데 기여한다.