Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary

Created by
  • Haebom

저자

Licheng Pan, Yongqi Tong, Xin Zhang, Xiaolu Zhang, Jun Zhou, Zhixuan Chu

개요

본 논문은 대규모 언어 모델(LLM)의 과도한 거부(overrefusal) 현상을 해결하기 위한 연구를 제시한다. 과도한 거부는 모델이 안전성을 과도하게 고려하여 정상적인 질문까지 위험하다고 판단하는 현상으로, 본 논문에서는 모델의 안전성 결정 경계(safety decision boundaries)를 분석하여 이 문제를 해결하고자 한다. 연구진은 안전성 경계 근처의 미묘한 차이를 구분하지 못하는 모델의 어려움을 발견하고, 이를 바탕으로 RASS라는 자동화된 프롬프트 생성 및 선택 프레임워크를 제안한다. RASS는 표현 공간(representation space)에서 조향 벡터(steering vectors)를 활용하여 안전성 경계에 맞춰진 프롬프트를 효율적으로 식별하고 선별하여 과도한 거부를 완화한다. 또한 다국어 환경에도 적용 가능하며, 다양한 LLM의 안전성 결정 경계를 분석하고 MORBench 평가 세트를 구축하여 모델의 안전성과 유용성을 다국어로 평가할 수 있도록 지원한다. 코드와 데이터셋은 공개되어 있다.

시사점, 한계점

시사점:
LLM의 과도한 거부 현상의 원인을 안전성 결정 경계의 미스매칭으로 규명.
과도한 거부 문제를 효과적으로 완화하는 RASS 프레임워크 제시.
다국어 지원을 통해 폭넓은 적용 가능성 확보.
MORBench 평가 세트 제공을 통한 모델 안전성 및 유용성 평가의 표준화 기여.
한계점:
RASS 프레임워크의 일반화 성능 및 다양한 LLM에 대한 적용 가능성에 대한 추가 연구 필요.
MORBench 평가 세트의 포괄성 및 객관성에 대한 검증 필요.
안전성 경계 근처의 미묘한 차이에 대한 정의 및 판단 기준의 명확성 확보 필요.
👍