[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SEALGuard: Safeguarding the Multilingual Conversations in Southeast Asian Languages for LLM Software Systems

Created by
  • Haebom

作者

Wenliang Shan, Michael Fu, Rui Yang, Chakkrit Tantithamthavorn

概要

本論文は、多言語サポートが不足している既存の大規模言語モデル(LLM)安全装置(例えば、LlamaGuard)の限界を解決するために、多言語安全装置であるSEALGuardを提案する。 SEALGuardは、低資源言語を含む10の言語で構成された大規模な多言語安全ソートデータセットSEALSBenchを活用して開発されました。 LoRA(Low-Rank Adaptation)技術を使用して、一般的な多言語言語モデルを多言語安全装置として適用し、LlamaGuardとの比較評価により、多言語悪意のあるプロンプトと脱獄の試みに対する優れた性能を示した。特に、英語以外の言語に対する悪意のあるプロンプトや脱獄の試みにおけるLlamaGuardの性能低下(DSR基準9%および18%減少)とは異なり、SEALGuardはDSR、精度、F1スコアで優れた性能を達成した(LlamaGuardに対してDSR48%向上)。さらに、ablation studyを介して適応戦略とモデルサイズの性能寄与を分析した。

Takeaways、Limitations

Takeaways:
既存のLLM安全装置の多言語支援不足問題を効果的に解決する多言語安全装置SEALGuardの提示
多言語安全ソートデータセットSEALSBench構築による多言語LLM安全研究の基盤
LoRAを用いた効率的な多言語安全装置の構築方法の提示
多言語環境におけるLLMの安全性向上に貢献
Limitations:
SEALSBenchデータセットの言語とプロンプトタイプの多様性拡張の必要性
新しいタイプの悪意のあるプロンプトと脱獄の試みに対する一般化性能検証の必要性
実際のLLMシステムへの適用時の性能と効率の追加評価の必要性
👍