Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Generative Approach to LLM Harmfulness Mitigation with Red Flag Tokens

Created by
  • Haebom

저자

David Dobre, Mehrnaz Mofakhami, Sophie Xhonneux, Leo Schwinn, Gauthier Gidel

개요

대규모 언어 모델(LLM)의 안전성을 향상시키기 위해, 모델의 어휘에 유해 콘텐츠 생성 시 삽입되는 특수 "red flag" 토큰을 추가하는 방법을 제안한다. 이 토큰 삽입을 통해 모델이 유해성에 대한 개념을 명시적으로 학습하도록 유도하며, 자연어 생성 분포에 미치는 영향은 최소화한다. 또한, 모델의 일반화 능력을 활용하여, in-context learning(ICL)을 통해 red flag 토큰 생성 시 반성적 추론을 유도하고, 유해한 응답을 회피하거나 자체 수정하도록 돕는다. 이는 기존 안전 기술과 상호 보완적이며, 답변의 무해성을 평가할 필요 없이 쉽게 평가할 수 있다.

시사점, 한계점

시사점:
LLM 안전성 향상을 위한 새로운 접근 방식 제시: red flag 토큰을 활용하여 유해 콘텐츠를 식별하고 대응하는 방식.
모델의 유틸리티 저하 최소화: 자연어 생성 분포에 미치는 영향이 적음.
일반화 능력 활용: ICL을 통해 새로운 언어 및 상황에 대한 적응성 향상.
평가의 용이성: 답변의 안전성 평가 없이 토큰 삽입 여부로 평가 가능.
한계점:
실제 유해성 방지 효과의 정량적 평가 필요.
red flag 토큰 오인식 및 오용 가능성.
모델의 복잡성 증가 및 훈련 비용 증가 가능성.
red flag 토큰이 유해 콘텐츠를 완전히 제거하지 못할 수 있음.
👍