SafeRBench: A Benchmark for End-to-End Safety Evaluation of Large Reasoning Models
개요
본 논문은 Large Reasoning Models (LRMs)의 안전성을 평가하는 새로운 벤치마크인 SafeRBench를 제시합니다. LRM의 추론 과정에서 발생하는 안전 위험을 포착하기 위해 입력 설계, 미세한 출력 분석, 인간 안전성 평가를 결합했습니다. SafeRBench는 입력의 위험 범주와 수준을 고려하고, 추론 과정을 의미적으로 일관된 단위로 분할하여 다양한 안전성 측면을 평가합니다. 19개의 LRM에 대한 평가를 통해 SafeRBench가 다차원적인 안전성 평가를 가능하게 하며, 위험과 보호 메커니즘에 대한 통찰력을 제공함을 입증했습니다.
시사점, 한계점
•
시사점:
◦
LRM의 안전성을 처음부터 끝까지 평가하는 벤치마크를 제공하여, 추론 과정에서의 안전 위험을 파악할 수 있도록 함.
◦
입력 설계에 위험 범주와 수준을 통합하여 다양한 해악의 정도를 반영한 균형 잡힌 프롬프트 세트를 구성.