Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

When Safety Blocks Sense: Measuring Semantic Confusion in LLM Refusals

Created by
  • Haebom
Category
Empty

저자

Riad Ahmed Anonto, Md Labid Al Nahiyan, Md Tanvir Hassan, Ch. Md. Rakin Haider

개요

안전 지향 언어 모델은 무해한 프롬프트를 거부하는 경우가 많다. 기존 평가는 전반적인 거부율만 보고하며, 동일한 의도를 가진 다양한 표현에 대한 모델의 일관성 부족(semantic confusion)을 간과한다. 본 연구는 이러한 국소적 비일관성을 포착하는 "semantic confusion"을 소개하고, 이를 측정하기 위한 프레임워크를 제안한다. 10,000개의 프롬프트로 구성된 ParaGuard 데이터셋을 구축하여, 표면적인 형태를 변경하면서 의도를 고정한다. 또한, Confusion Index, Confusion Rate, Confusion Depth의 세 가지 모델 독립적 토큰 레벨 지표를 제안하여, 거부된 응답과 가장 가까운 수용된 응답을 비교한다. 다양한 모델과 배포 가드를 대상으로 실험한 결과, 전반적인 거부율은 중요한 구조를 숨기고, 모델의 불안정한 경계, 국소적 비일관성 등을 드러냈다. 또한 혼란을 인지하는 감사는 시스템이 얼마나 자주 거부하는지와 얼마나 합리적으로 거부하는지를 분리하여 개발자가 안전성을 유지하면서 거짓 거부를 줄일 수 있는 실질적인 신호를 제공한다.

시사점, 한계점

시사점:
Semantic confusion 개념을 통해 안전 지향 언어 모델의 국소적 비일관성을 효과적으로 파악할 수 있다.
Confusion Index, Confusion Rate, Confusion Depth 지표를 통해 모델의 거부 행동을 정량적으로 분석할 수 있다.
모델의 안전성을 해치지 않으면서 거짓 거부를 줄이는 데 기여할 수 있는 실질적인 지표를 제공한다.
ParaGuard 데이터셋은 모델의 안전성 평가 및 개선을 위한 중요한 자원으로 활용될 수 있다.
한계점:
본 연구에서 제시된 지표는 토큰 레벨에서 계산되므로, 문맥적 이해가 필요한 복잡한 상황에 대한 분석에는 한계가 있을 수 있다.
특정 모델 아키텍처나 훈련 방식에 대한 일반화 가능성에 대한 추가 연구가 필요하다.
ParaGuard 데이터셋의 다양성과 범위가 모든 종류의 안전성 문제를 충분히 포괄하는지 추가적인 검토가 필요하다.
👍