본 논문은 대규모 언어 모델(LLM)에서 발생하는 과도한 거부(overrefusal) 현상을 분석하고 완화하는 방법을 제시합니다. 과도한 거부는 안전성에 대한 지나친 보수적인 접근으로 인해 합당한 질문까지 위험한 것으로 간주하는 현상입니다. 연구진은 모델의 안전성 결정 경계를 조사하여 과도한 거부가 안전과 유해 콘텐츠의 미묘한 차이를 구분하지 못하는 모델의 정렬 오류와 밀접하게 관련되어 있음을 밝혔습니다. 이를 바탕으로, 안전 경계 근처의 과도한 거부 질문을 전략적으로 표적으로 삼는 자동화된 프롬프트 생성 및 선택 프레임워크인 RASS를 제시합니다. RASS는 표현 공간에서 조향 벡터를 활용하여 경계에 맞춰진 프롬프트를 효율적으로 식별하고 선별하여 과도한 거부를 더 효과적이고 집중적으로 완화합니다. 이 방법은 모델의 안전성 결정에 대한 더 정확하고 해석 가능한 관점을 제공할 뿐만 아니라 다국어 환경에도 쉽게 확장됩니다. 다양한 LLM의 안전성 결정 경계를 조사하고, 모델의 안전성과 유용성을 여러 언어에 걸쳐 강력하게 평가할 수 있도록 MORBench 평가 세트를 구성했습니다. 코드와 데이터 세트는 https://anonymous.4open.science/r/RASS-80D3에서 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
LLM의 과도한 거부 현상의 원인을 안전성 결정 경계의 불일치로 명확히 규명.
◦
과도한 거부를 효과적으로 완화하는 RASS 프레임워크 제시.
◦
다국어 환경에서도 적용 가능한 RASS 프레임워크의 확장성 제시.
◦
MORBench 평가 세트를 통해 모델의 안전성과 유용성 평가를 위한 표준화된 방법 제시.