Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Speculative Safety-Aware Decoding

Created by
  • Haebom

저자

Xuekang Wang, Shengyu Zhu, Xueqi Cheng

Speculative Safety-Aware Decoding (SSD)

개요

대규모 언어 모델(LLM)을 인간의 가치와 안전 규칙에 맞추려는 노력에도 불구하고, 취약점을 이용하는 jailbreak 공격이 지속적으로 발생한다. 본 논문은 이러한 공격에 대한 방어를 위해 추가적인 안전 속성을 강화하는 가벼운 디코딩 시간 접근 방식인 Speculative Safety-Aware Decoding (SSD)을 제안한다. SSD는 안전 속성을 가진 작은 언어 모델을 활용하며, 추론 속도를 가속화한다. SSD는 디코딩 과정에서 speculative sampling을 통합하고, 작은 모델과 복합 모델 간의 일치 비율을 활용하여 jailbreak 위험을 정량화한다. 이를 통해 SSD는 유용성 또는 안전성을 우선시하도록 디코딩 방식을 동적으로 전환할 수 있으며, 서로 다른 모델 용량의 문제를 처리한다. 출력 토큰은 원래 모델과 작은 모델의 분포를 결합한 새로운 분포에서 샘플링된다.

시사점, 한계점

시사점:
LLM에 원하는 안전 속성을 성공적으로 부여한다.
무해한 쿼리에 대해서도 모델의 유용성을 유지한다.
Speculative sampling 설계를 통해 추론 시간을 가속화한다.
한계점:
작은 모델의 안전 속성 확보가 선행되어야 한다.
작은 모델과 큰 모델 간의 일치 비율 설정에 따라 성능이 달라질 수 있다.
👍