Jiawei Chen, Yang Yang, Chao Yu, Yu Tian, Zhi Cao, Linghao Li, Hang Su, Zhaoxia Yin
개요
본 논문은 대규모 추론 모델(LRM)의 안전성 및 신뢰성을 평가하기 위한 통합 벤치마크 RT-LRM을 제안합니다. RT-LRM은 진실성, 안전성, 효율성의 세 가지 핵심 차원을 평가하며, 모델 신뢰성에 대한 다양한 훈련 전략의 체계적인 영향을 조사하기 위해 30개의 추론 작업으로 구성된 분석 프레임워크를 제시합니다. 26개의 모델에 대한 광범위한 실험을 통해 LRM의 신뢰성 문제를 확인하고, 특히 추론 유도 위험에 더 취약하다는 것을 밝혀냈습니다. 표준화된 신뢰성 연구를 위한 확장 가능한 도구 상자도 공개합니다.
시사점, 한계점
•
시사점:
◦
LRM은 다단계 추론 작업에서 향상된 투명성과 논리적 일관성을 제공하지만, CoT-hijacking 및 프롬프트 유도 비효율성과 같은 새로운 안전 및 신뢰성 위험에 직면합니다.
◦
RT-LRM 벤치마크는 LRM의 신뢰성을 평가하기 위한 종합적인 프레임워크를 제공합니다.
◦
다양한 훈련 전략이 모델의 신뢰성에 미치는 영향을 분석하여, 모델 훈련 방식의 중요성을 강조합니다.
◦
LRM은 LLM보다 추론 관련 위험에 더 취약하며, 이러한 취약점은 기존 평가 방법으로 완전히 파악되지 않았습니다.