[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

OR-Bench: An Over-Refusal Benchmark for Large Language Models

Created by
  • Haebom

저자

Justin Cui, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh

개요

본 논문은 대규모 언어 모델(LLM)의 안전한 정렬 과정에서 발생하는 과도한 거부(over-refusal) 문제를 해결하기 위한 연구이다. LLM의 유해한 출력을 방지하기 위한 안전 조치 강화는 무해한 프롬프트까지 거부하는 과도한 거부 현상을 야기할 수 있다. 이 문제에 대한 체계적인 측정은 어려움이 있었기에, 본 연구는 과도한 거부 데이터셋을 자동으로 생성하는 새로운 방법을 제안한다. 이를 통해 10가지 일반적인 거부 범주에 걸쳐 8만 개의 과도한 거부 프롬프트를 포함하는 대규모 과도한 거부 벤치마크인 OR-Bench를 소개한다. OR-Bench는 최첨단 LLM에도 어려운 약 1,000개의 어려운 프롬프트와 무분별한 응답을 방지하기 위한 600개의 유해한 프롬프트도 포함한다. 8개 모델 계열의 32개 인기 LLM을 대상으로 과도한 거부 현상을 측정하는 포괄적인 연구 결과를 제시하며, 데이터셋과 코드베이스를 공개한다.

시사점, 한계점

시사점:
과도한 거부 문제에 대한 체계적인 측정 및 분석을 위한 대규모 벤치마크(OR-Bench) 제공.
다양한 LLM의 과도한 거부 현상 비교 분석을 통한 모델 개선 방향 제시.
공개된 데이터셋 및 코드베이스를 활용한 지속적인 연구 및 개발 가능.
한계점:
자동 생성된 데이터셋의 품질 및 일반화 가능성에 대한 추가 검증 필요.
측정된 과도한 거부 현상이 실제 사용 환경을 완벽하게 반영하지 못할 수 있음.
과도한 거부 문제 해결을 위한 구체적인 모델 개선 방안 제시 부족.
👍