Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary

Created by
  • Haebom

저자

Licheng Pan, Yongqi Tong, Xin Zhang, Xiaolu Zhang, Jun Zhou, Zhixuan Chu

개요

본 논문은 대규모 언어 모델(LLM)의 과도한 거부(overrefusal) 현상을 체계적으로 분석하고 완화하기 위한 프레임워크인 RASS를 제시합니다. LLM이 합법적인 질문에도 응답을 거부하는 과도한 거부 현상은 과도하게 보수적인 안전 정렬(safety alignment)로 인해 발생하는데, 본 논문은 모델의 안전 결정 경계(safety decision boundaries)를 조사하여 이 문제를 분석합니다. 과도한 거부는 안전과 유해 콘텐츠의 미묘한 차이를 구분하는 데 어려움을 겪는 경계 영역에서의 정렬 오류와 밀접한 관련이 있음을 밝히고, 이러한 통찰을 바탕으로 안전 경계 근처의 과도한 거부 프롬프트를 전략적으로 타겟팅하는 프롬프트 생성 및 선택 자동화 프레임워크인 RASS를 제시합니다. RASS는 표현 공간에서 스티어링 벡터를 활용하여 경계에 정렬된 프롬프트를 효율적으로 식별하고 선별하여 과도한 거부를 더 효과적이고 표적화된 방식으로 완화합니다. 이 방법은 모델 안전 결정에 대한 더 정확하고 해석 가능한 관점을 제공할 뿐만 아니라 다국어 환경으로도 원활하게 확장됩니다. 다양한 LLM의 안전 결정 경계를 탐색하고 모델의 안전성과 유용성을 다국어로 강력하게 평가할 수 있도록 MORBench 평가 세트를 구성했습니다. 코드와 데이터셋은 https://anonymous.4open.science/r/RASS-80D3 에서 공개될 예정입니다.

시사점, 한계점

시사점:
LLM의 과도한 거부 현상의 원인을 안전 결정 경계의 정렬 오류와 연결하여 분석함으로써 문제의 근본 원인에 대한 이해를 높였습니다.
과도한 거부 문제를 효과적으로 완화할 수 있는 자동화된 프레임워크인 RASS를 제시했습니다.
RASS는 다국어 환경에서도 적용 가능하다는 점을 보여주었습니다.
MORBench 평가 세트를 통해 LLM의 안전성과 유용성을 다국어로 평가할 수 있는 기반을 마련했습니다.
한계점:
RASS의 성능 및 일반화 능력에 대한 더욱 광범위한 실험이 필요합니다.
RASS가 모든 유형의 과도한 거부를 완벽하게 해결할 수 있는지는 추가 연구가 필요합니다.
안전 경계의 정의 및 측정에 대한 주관성이 존재할 수 있습니다.
공개된 코드와 데이터셋의 실제 활용 가능성 및 확장성에 대한 검증이 필요합니다.
👍