Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models

Created by
  • Haebom
Category
Empty

저자

Xin Gao, Shaohan Yu, Zerui Chen, Yueming Lyu, Weichen Yu, Guanghao Li, Jiyao Liu, Jianxiong Gao, Jian Liang, Ziwei Liu, Chenyang Si

SafeRBench: A Benchmark for End-to-End Safety Evaluation of Large Reasoning Models

개요

본 논문은 Large Reasoning Models (LRMs)의 안전성을 평가하는 새로운 벤치마크인 SafeRBench를 제시합니다. LRM의 추론 과정에서 발생하는 안전 위험을 포착하기 위해 입력 설계, 미세한 출력 분석, 인간 안전성 평가를 결합했습니다. SafeRBench는 입력의 위험 범주와 수준을 고려하고, 추론 과정을 의미적으로 일관된 단위로 분할하여 다양한 안전성 측면을 평가합니다. 19개의 LRM에 대한 평가를 통해 SafeRBench가 다차원적인 안전성 평가를 가능하게 하며, 위험과 보호 메커니즘에 대한 통찰력을 제공함을 입증했습니다.

시사점, 한계점

시사점:
LRM의 안전성을 처음부터 끝까지 평가하는 벤치마크를 제공하여, 추론 과정에서의 안전 위험을 파악할 수 있도록 함.
입력 설계에 위험 범주와 수준을 통합하여 다양한 해악의 정도를 반영한 균형 잡힌 프롬프트 세트를 구성.
추론 과정을 마이크로-사고 단위로 분할하여 세분화된 안전성 평가를 수행할 수 있도록 함.
LLM 기반 평가를 인간의 안전성 판단과 비교 검증하여 평가의 신뢰도를 높임.
다양한 LRM에 대한 평가를 통해 안전성 위험 및 보호 메커니즘에 대한 통찰력을 제공.
한계점:
구체적인 한계점은 논문에 명시되지 않음.
👍