[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SEALGuard: Safeguarding the Multilingual Conversations in Southeast Asian Languages for LLM Software Systems

Created by
  • Haebom

저자

Wenliang Shan, Michael Fu, Rui Yang, Chakkrit Tantithamthavorn

개요

본 논문은 다국어 환경에서의 대규모 언어 모델(LLM) 안전성 향상을 목표로 하는 다국어 보호 장치인 SEALGuard를 제시합니다. 기존의 보호 장치인 LlamaGuard는 영어로 작성된 안전하지 않은 입력에 대해서는 높은 검출 정확도를 보이지만, 다국어 입력에는 취약하다는 한계점을 가지고 있습니다. 이를 해결하기 위해, 본 논문에서는 10개 언어를 포함하는 26만 개 이상의 프롬프트로 구성된 대규모 다국어 안전 정렬 데이터셋인 SEALSBench를 구축하고, 저계급 적응(LoRA)을 사용하여 일반적인 다국어 언어 모델을 다국어 보호 장치로 적응시킨 SEALGuard를 개발했습니다. 실험 결과, SEALGuard는 LlamaGuard보다 다국어 안전하지 않은 프롬프트 및 탈옥 프롬프트 검출 성능이 뛰어나며, DSR, 정밀도, F1 점수 모두에서 최고의 성능을 보였습니다. 또한, ablation study를 통해 적응 전략과 모델 크기가 SEALGuard의 성능에 미치는 영향을 분석했습니다. 마지막으로, 사전 훈련된 모델과 벤치마크를 공개하여 추가 연구를 지원합니다.

시사점, 한계점

시사점:
다국어 환경에서 LLM의 안전성 향상에 기여하는 새로운 다국어 보호 장치 SEALGuard 제시.
기존 방법보다 우수한 다국어 안전 프롬프트 검출 성능을 입증.
대규모 다국어 안전 정렬 데이터셋 SEALSBench 공개.
저계급 적응(LoRA)을 이용한 효율적인 모델 적응 방법 제시.
한계점:
SEALSBench 데이터셋에 포함된 언어의 수와 종류가 제한적일 수 있음. (10개 언어)
실제 세계의 다양한 안전 위협을 완벽하게 포괄하지 못할 가능성.
새로운 유형의 안전하지 않은 프롬프트나 탈옥 기법에 대한 일반화 성능 검증 필요.
계산 비용 및 모델 크기 최적화에 대한 추가 연구 필요.
👍