Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SGuard-v1: Safety Guardrail for Large Language Models

Created by
  • Haebom
Category
Empty

저자

JoonHo Lee, HyeonMin Cho, Jaewoong Yun, Hyunjae Lee, JunKyu Lee, Juree Seok

개요

SGuard-v1은 대규모 언어 모델(LLM)을 위한 경량 안전 가드레일로, 유해 콘텐츠를 감지하고 적대적 프롬프트를 필터링하는 두 개의 특화된 모델로 구성됩니다. 첫 번째 구성 요소인 ContentFilter는 MLCommons 위험 분류법에 따라 LLM 프롬프트 및 응답의 안전 위험을 식별하도록 훈련되었습니다. 두 번째 구성 요소인 JailbreakFilter는 60가지 주요 공격 유형을 다루면서 잘못된 안전하지 않음 분류를 완화하기 위해 통합 데이터 세트 및 이전 연구 결과를 기반으로 신중하게 설계된 커리큘럼으로 훈련되었습니다. SGuard-v1은 20억 개의 매개변수를 가진 Granite-3.3-2B-Instruct 모델을 기반으로 하며 12개 언어를 지원합니다. 약 140만 개의 훈련 인스턴스를 수집 및 합성된 데이터로부터 큐레이션하고, 두 구성 요소에 기능을 할당하여 기본 모델에 대한 지침 튜닝을 수행합니다. 공개 및 독점 안전 벤치마크에 대한 광범위한 평가를 통해 SGuard-v1은 경량으로 배포 오버헤드를 줄이면서 최첨단 안전 성능을 달성합니다. 또한 SGuard-v1은 다중 클래스 안전 예측과 이진 신뢰도 점수를 제공하여 다운스트림 사용에 대한 해석 가능성을 향상시킵니다. SGuard-v1은 Apache-2.0 라이선스 하에 출시되어 AI 안전 분야의 추가 연구 및 실제 배포를 가능하게 합니다.

시사점, 한계점

시사점:
LLM의 안전성을 향상시키기 위한 경량 솔루션을 제공합니다.
광범위한 안전 위험을 포괄하는 포괄적인 프레임워크와 데이터 세트를 사용합니다.
다중 클래스 안전 예측 및 신뢰도 점수를 통해 해석 가능성을 높입니다.
오픈 소스 라이선스를 통해 연구 및 실제 적용을 장려합니다.
한계점:
Granite-3.3-2B-Instruct 모델에 종속됩니다.
훈련 데이터의 품질과 범위에 따라 성능이 제한될 수 있습니다.
잠재적으로 새로운 공격 유형에 취약할 수 있습니다.
모델의 정확성과 안전성은 지속적인 평가와 개선이 필요합니다.
👍