Do LLMs Understand the Safety of Their Inputs? Training-Free Moderation via Latent Prototypes
Created by
Haebom
저자
Maciej Chrab\k{a}szcz, Filip Szatkowski, Bartosz Wojcik, Jan Dubinski, Tomasz Trzcinski, Sebastian Cygert
개요
본 논문은 대규모 언어 모델(LLM)의 안전성과 정렬 문제를 해결하기 위해 기존의 비용이 많이 드는 가드 모델 대신, 사전 훈련된 LLM의 내부 정보를 활용하는 훈련 없는 안전 평가 방법을 제시합니다. 단순한 프롬프팅을 통해 LLM이 유해한 입력을 인식하도록 하고, 안전한 프롬프트와 유해한 프롬프트를 모델의 잠재 공간에서 구분할 수 있음을 보여줍니다. 이를 바탕으로 잠재 공간에서 마할라노비스 거리를 사용하여 입력의 안전성을 평가하는 경량의 맞춤형 추가 기능인 잠재 프로토타입 모더레이터(LPM)를 제안합니다. LPM은 다양한 모델 계열과 크기에 일반화되며, 여러 안전 벤치마크에서 최첨단 가드 모델과 동등하거나 우수한 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
기존의 고비용 가드 모델에 대한 훈련 없는 대안을 제시하여 LLM 모더레이션의 효율성을 높였습니다.
◦
LPM은 모델 계열 및 크기에 상관없이 일반화 가능하며, 유연하고 확장 가능한 솔루션을 제공합니다.