Sign In

Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

Created by
  • Haebom
Category
Empty

저자

Jingyu Zhang, Ahmed Elgohary, Ahmed Magooda, Daniel Khashabi, Benjamin Van Durme

개요

본 논문은 대규모 언어 모델(LLM)의 안전 정렬을 위한 새로운 프레임워크인 제어 가능한 안전 정렬(CoSA)을 제안합니다. 기존의 일률적인 안전 정렬 방식과 달리, CoSA는 사용자 지정 가능한 안전 설정(safety config)을 통해 모델의 안전 행동을 조절합니다. 안전 설정은 자유 형식의 자연어 설명으로 구성되며, 시스템 프롬프트의 일부로 제공됩니다. 이를 위해, 다양한 안전 설정에 쉽게 적응할 수 있도록 데이터 중심적인 방법인 CoSAlign을 제안합니다. 또한, 유용성과 설정된 안전성을 종합적으로 평가하는 CoSA-Score를 포함한 새로운 제어 가능성 평가 프로토콜과 다양한 안전 요구 사항을 가진 실제 LLM 사용 사례로 구성된 CoSApien 벤치마크를 제시합니다. 실험 결과, CoSAlign이 기존 방법보다 상당한 제어 가능성 향상을 보임을 보여줍니다. CoSA는 LLM에서 다양한 인간 가치를 더 잘 반영하고 적응시켜 실용성을 높이는 데 기여합니다.

시사점, 한계점

시사점:
기존의 일률적인 안전 정렬 방식의 한계를 극복하고, 다양한 문화적, 지역적 사회 규범 및 사용자의 안전 요구 사항에 유연하게 대처 가능한 프레임워크 제시.
모델 재훈련 없이 안전 행동을 조절할 수 있어 비용 효율적임.
자연어 기반 안전 설정을 사용하여 사용자 친화적인 인터페이스 제공.
CoSAlign과 CoSA-Score를 통해 LLM의 제어 가능성을 향상시키고 평가할 수 있는 새로운 방법론 제시.
다양한 인간 가치를 LLM에 더 잘 반영하여 실용성 증대.
한계점:
안전 설정의 모호성이나 상충되는 설정에 대한 처리 방법에 대한 추가 연구 필요.
CoSApien 벤치마크의 범위와 일반화 가능성에 대한 추가 검증 필요.
악의적인 사용자가 안전 설정을 조작하여 모델을 악용할 가능성에 대한 보안 강화 필요.
안전 설정의 생성 및 관리에 대한 효율적인 방법론 연구 필요.
👍