본 논문은 대규모 언어 모델(LLM)의 과도한 거부(overrefusal) 현상을 체계적으로 분석하고 완화하기 위한 프레임워크인 RASS를 제시합니다. LLM이 합법적인 질문에도 응답을 거부하는 과도한 거부 현상은 과도하게 보수적인 안전 정렬(safety alignment)로 인해 발생하는데, 본 논문은 모델의 안전 결정 경계(safety decision boundaries)를 조사하여 이 문제를 분석합니다. 과도한 거부는 안전과 유해 콘텐츠의 미묘한 차이를 구분하는 데 어려움을 겪는 경계 영역에서의 정렬 오류와 밀접한 관련이 있음을 밝히고, 이러한 통찰을 바탕으로 안전 경계 근처의 과도한 거부 프롬프트를 전략적으로 타겟팅하는 프롬프트 생성 및 선택 자동화 프레임워크인 RASS를 제시합니다. RASS는 표현 공간에서 스티어링 벡터를 활용하여 경계에 정렬된 프롬프트를 효율적으로 식별하고 선별하여 과도한 거부를 더 효과적이고 표적화된 방식으로 완화합니다. 이 방법은 모델 안전 결정에 대한 더 정확하고 해석 가능한 관점을 제공할 뿐만 아니라 다국어 환경으로도 원활하게 확장됩니다. 다양한 LLM의 안전 결정 경계를 탐색하고 모델의 안전성과 유용성을 다국어로 강력하게 평가할 수 있도록 MORBench 평가 세트를 구성했습니다. 코드와 데이터셋은 https://anonymous.4open.science/r/RASS-80D3 에서 공개될 예정입니다.
시사점, 한계점
•
시사점:
◦
LLM의 과도한 거부 현상의 원인을 안전 결정 경계의 정렬 오류와 연결하여 분석함으로써 문제의 근본 원인에 대한 이해를 높였습니다.
◦
과도한 거부 문제를 효과적으로 완화할 수 있는 자동화된 프레임워크인 RASS를 제시했습니다.
◦
RASS는 다국어 환경에서도 적용 가능하다는 점을 보여주었습니다.
◦
MORBench 평가 세트를 통해 LLM의 안전성과 유용성을 다국어로 평가할 수 있는 기반을 마련했습니다.
•
한계점:
◦
RASS의 성능 및 일반화 능력에 대한 더욱 광범위한 실험이 필요합니다.
◦
RASS가 모든 유형의 과도한 거부를 완벽하게 해결할 수 있는지는 추가 연구가 필요합니다.