Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary

Created by
  • Haebom

저자

Licheng Pan, Yongqi Tong, Xin Zhang, Xiaolu Zhang, Jun Zhou, Zhixuan Chu

개요

본 논문은 대규모 언어 모델(LLM)에서 발생하는 과도한 거부(overrefusal) 현상을 분석하고 완화하는 방법을 제시합니다. 과도한 거부는 안전성에 대한 지나친 보수적인 접근으로 인해 합당한 질문까지 위험한 것으로 간주하는 현상입니다. 연구진은 모델의 안전성 결정 경계를 조사하여 과도한 거부가 안전과 유해 콘텐츠의 미묘한 차이를 구분하지 못하는 모델의 정렬 오류와 밀접하게 관련되어 있음을 밝혔습니다. 이를 바탕으로, 안전 경계 근처의 과도한 거부 질문을 전략적으로 표적으로 삼는 자동화된 프롬프트 생성 및 선택 프레임워크인 RASS를 제시합니다. RASS는 표현 공간에서 조향 벡터를 활용하여 경계에 맞춰진 프롬프트를 효율적으로 식별하고 선별하여 과도한 거부를 더 효과적이고 집중적으로 완화합니다. 이 방법은 모델의 안전성 결정에 대한 더 정확하고 해석 가능한 관점을 제공할 뿐만 아니라 다국어 환경에도 쉽게 확장됩니다. 다양한 LLM의 안전성 결정 경계를 조사하고, 모델의 안전성과 유용성을 여러 언어에 걸쳐 강력하게 평가할 수 있도록 MORBench 평가 세트를 구성했습니다. 코드와 데이터 세트는 https://anonymous.4open.science/r/RASS-80D3에서 공개될 예정입니다.

시사점, 한계점

시사점:
LLM의 과도한 거부 현상의 원인을 안전성 결정 경계의 불일치로 명확히 규명.
과도한 거부를 효과적으로 완화하는 RASS 프레임워크 제시.
다국어 환경에서도 적용 가능한 RASS 프레임워크의 확장성 제시.
MORBench 평가 세트를 통해 모델의 안전성과 유용성 평가를 위한 표준화된 방법 제시.
한계점:
RASS 프레임워크의 성능 및 일반화 성능에 대한 추가적인 실험 및 분석 필요.
MORBench 평가 세트의 포괄성 및 대표성에 대한 추가 검토 필요.
안전성 결정 경계의 정의 및 측정에 대한 주관적인 요소 존재 가능성.
실제 서비스 환경에서의 RASS 프레임워크 적용 및 효과에 대한 추가 연구 필요.
👍