Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

"Haet Bhasha aur Diskrimineshun": Phonetic Perturbations in Code-Mixed Hinglish to Red-Team LLMs

Created by
  • Haebom

저자

Darpan Aswal, Siddharth D Jaiswal

개요

본 논문은 최근 공개된 대규모 언어 모델(LLM)의 다국어 및 다중 모드 기능에 대한 취약성을 다룬다. 기존 연구가 주로 영어에 집중한 것과 달리, 본 연구는 코드 혼합과 음성적 변형을 이용하여 텍스트 및 이미지 생성 작업에서 LLM을 우회하는 새로운 전략을 제시한다. 두 가지 새로운 우회 전략을 소개하며, 이는 기존 방법보다 효과적임을 보여준다. 코드 혼합 프롬프트에서 민감한 단어에 음성적 오타를 적용하여 LLM의 안전 필터를 효과적으로 우회하는 방법을 제시하며, 해석 가능성을 유지한다. 텍스트 생성에서는 99%, 이미지 생성에서는 78%의 공격 성공률을 달성했으며, 텍스트 생성에서는 100%, 이미지 생성에서는 95%의 공격 관련성 비율을 기록했다. 음성적 변형이 단어 토큰화에 영향을 미쳐 공격 성공으로 이어짐을 실험을 통해 밝혔다. 특히 실제 환경에서 오타가 포함된 프롬프트가 사용될 수 있다는 점을 고려하여, 다국어 다중 모드 모델의 일반화된 안전 정렬에 대한 연구의 필요성을 강조한다. 본 논문에는 잠재적으로 유해하고 불쾌한 콘텐츠의 예시가 포함되어 있다.

시사점, 한계점

시사점:
코드 혼합과 음성적 변형을 이용한 새로운 LLM 우회 전략 제시 및 높은 성공률 달성.
다국어 및 다중 모달 환경에서의 LLM 안전성 취약점을 명확히 제시.
음성적 변형이 LLM의 토큰화 과정에 미치는 영향을 분석하여 우회 성공 원인 규명.
다국어 다중 모드 모델의 더욱 일반화된 안전 정렬에 대한 연구 필요성 강조.
한계점:
연구에 사용된 데이터셋 및 모델의 특성에 따른 일반화 가능성 제한.
제시된 우회 전략의 악용 가능성.
실제 세계의 다양한 상황을 완벽히 반영하지 못할 가능성.
👍