Sign In

A generative approach to LLM harmfulness detection with special red flag tokens

Created by
  • Haebom
Category
Empty

저자

Sophie Xhonneux, David Dobre, Mehrnaz Mofakhami, Leo Schwinn, Gauthier Gidel

개요

본 논문은 대규모 언어 모델(LLM)의 안전성 향상을 위한 새로운 방법을 제안합니다. 기존의 미세 조정 기반 안전 교육 방법들은 유해한 요청에 대해 모델의 출력 분포를 극적으로 변화시켜, 안전하지 않은 응답에서 응답 거부로 전환하는데 초점을 맞춥니다. 이는 모델의 기능을 저해하고, 긍정적인 응답을 유도하는 공격에 취약하게 만들 수 있습니다. 본 논문에서는 '레드 플래그 토큰'이라는 특수 토큰을 어휘에 추가하고, 유해한 콘텐츠가 생성되거나 생성되려 할 때 이 토큰을 생성하도록 모델을 미세 조정하는 방법을 제안합니다. 이 방법은 모델이 대화 중 언제든지 유해성을 생성적으로 분류하도록 하여, 유해성 개념을 명시적으로 학습하면서 생성 분포에는 최소한의 영향만 미치도록 합니다. 이는 입력 프롬프트뿐 아니라 각 생성된 응답을 평가하고, 샘플링 기반 공격에 대한 더 강력한 방어를 제공합니다. 또한 모델의 강건성 평가를 단순화하고, 분류기와 결합했을 때 상관된 실패를 줄입니다. 긴 맥락과 감독 미세 조정 공격에 대한 강건성 향상도 보여줍니다.

시사점, 한계점

시사점:
기존 안전 교육 방법의 한계(모델 기능 저하, 공격 취약성)를 극복하는 새로운 접근법 제시.
레드 플래그 토큰을 활용하여 유해성을 효과적으로 식별하고, 모델의 유용성을 유지.
샘플링 기반 공격 및 긴 맥락에 대한 강건성 향상.
모델 평가 및 분류기와의 결합 시 상관된 실패 감소.
생성적 유해성 분류기를 통한 실시간 유해성 평가.
한계점:
레드 플래그 토큰의 효과적인 정의 및 적용에 대한 추가 연구 필요.
다양한 유형의 유해성에 대한 일반화 성능 평가 필요.
실제 환경에서의 성능 및 안전성 검증 필요.
새로운 공격 유형에 대한 취약성 존재 가능성.
👍