SGuard-v1은 대규모 언어 모델(LLM)을 위한 경량 안전 가드레일로, 유해 콘텐츠를 감지하고 적대적 프롬프트를 필터링하는 두 개의 특화된 모델로 구성됩니다. 첫 번째 구성 요소인 ContentFilter는 MLCommons 위험 분류법에 따라 LLM 프롬프트 및 응답의 안전 위험을 식별하도록 훈련되었습니다. 두 번째 구성 요소인 JailbreakFilter는 60가지 주요 공격 유형을 다루면서 잘못된 안전하지 않음 분류를 완화하기 위해 통합 데이터 세트 및 이전 연구 결과를 기반으로 신중하게 설계된 커리큘럼으로 훈련되었습니다. SGuard-v1은 20억 개의 매개변수를 가진 Granite-3.3-2B-Instruct 모델을 기반으로 하며 12개 언어를 지원합니다. 약 140만 개의 훈련 인스턴스를 수집 및 합성된 데이터로부터 큐레이션하고, 두 구성 요소에 기능을 할당하여 기본 모델에 대한 지침 튜닝을 수행합니다. 공개 및 독점 안전 벤치마크에 대한 광범위한 평가를 통해 SGuard-v1은 경량으로 배포 오버헤드를 줄이면서 최첨단 안전 성능을 달성합니다. 또한 SGuard-v1은 다중 클래스 안전 예측과 이진 신뢰도 점수를 제공하여 다운스트림 사용에 대한 해석 가능성을 향상시킵니다. SGuard-v1은 Apache-2.0 라이선스 하에 출시되어 AI 안전 분야의 추가 연구 및 실제 배포를 가능하게 합니다.