[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning

Created by
  • Haebom

저자

Zhehao Zhang, Weijie Xu, Fanyou Wu, Chandan K. Reddy

개요

대규모 언어 모델(LLM)의 안전 정렬 접근 방식은 종종 무해한 질문에 대한 과도한 거부로 이어져 민감한 시나리오에서 유용성을 크게 감소시킵니다. 이러한 문제를 해결하기 위해 본 논문에서는 44가지 안전 관련 범주에 걸쳐 구조화된 응답과 함께 16,000개의 독성으로 보이는 질문을 포함하는 포괄적인 리소스인 FalseReject를 소개합니다. 모델이 안전한 맥락과 안전하지 않은 맥락을 정확하게 구분하는 데 도움이 되도록 명시적인 추론으로 응답을 구성하는 동시에 다양하고 복잡한 프롬프트를 생성하기 위해 그래프 기반 적대적 다중 에이전트 상호 작용 프레임워크를 제안합니다. FalseReject는 표준 지시 사항으로 조정된 모델과 추론 지향 모델 모두에 맞춤화된 훈련 데이터 세트와 인간이 주석을 단 벤치마크 테스트 세트를 포함합니다. 29개의 최첨단(SOTA) LLM에 대한 광범위한 벤치마킹은 지속적인 과도한 거부 문제를 보여줍니다. 실험 결과에 따르면 FalseReject를 사용한 감독 미세 조정은 전반적인 안전성이나 일반적인 언어 기능을 손상시키지 않고 불필요한 거부를 크게 줄입니다.

시사점, 한계점

시사점: FalseReject 데이터셋을 활용한 미세 조정을 통해 LLM의 과도한 거부 문제를 해결하고 안전성과 유용성을 향상시킬 수 있음을 보여줍니다. 다양한 유형의 LLM에 대한 벤치마킹 결과를 제공하여 일반화 가능성을 확인하였습니다. 그래프 기반 적대적 다중 에이전트 상호 작용 프레임워크를 통해 다양하고 복잡한 프롬프트를 생성하는 새로운 방법을 제시합니다.
한계점: FalseReject 데이터셋의 독성 판단 기준 및 범주 분류의 객관성 및 주관성에 대한 추가적인 검토가 필요합니다. 현재 벤치마크된 29개의 SOTA LLM 이외의 다른 모델들에 대한 성능 평가가 필요합니다. 실제 환경에서의 적용 가능성 및 장기적인 안전성에 대한 추가 연구가 필요합니다.
👍