Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries

Created by
  • Haebom

저자

Jiahao Yu, Haozheng Luo, Jerry Yao-Chieh Hu, Wenbo Guo, Han Liu, Xinyu Xing

개요

본 논문은 대규모 언어 모델(LLM)의 정렬(alignment) 과정에서 발견된 취약점을 다룹니다. 기존의 감독 미세조정(SFT) 및 인간 피드백 강화 학습(RLHF)을 통해 유해한 질의와 무해한 질의를 구분하도록 학습된 LLM들이, 문장의 끝을 나타내는 eos 토큰을 여러 개 추가하는 간단한 조작에 취약하다는 것을 보여줍니다. 이러한 조작은 컨텍스트 분할(context segmentation)이라는 현상을 유발하여 유해한 입력과 무해한 입력 모두 거부 경계(refusal boundary)에 가까워지게 만듭니다. 논문에서는 eos 토큰 추가를 통해 탈옥 공격(jailbreak attacks)을 증폭시키는 방법을 제안하고, 8가지 대표적인 탈옥 기법과 16개의 오픈소스 LLM을 대상으로 한 실험을 통해 이 방법의 효과를 입증합니다. 또한, OpenAI, Anthropic, Qwen과 같은 주요 상용 API에서도 eos 토큰 필터링이 이루어지지 않아 유사한 취약점을 가지고 있음을 밝힙니다.

시사점, 한계점

시사점:
LLM의 정렬 과정에서 eos 토큰의 영향을 간과해서는 안 된다는 것을 보여줍니다.
eos 토큰 추가를 이용한 새로운 탈옥 공격 기법을 제시합니다.
상용 LLM API의 취약점을 드러냅니다.
입력 필터링 기반 방어 및 더욱 강력하고 일반화된 거부 경계를 구축하는 새로운 방어 기법, 그리고 컨텍스트 분할 공격에 대비할 수 있는 기본적인 정렬 기술의 개발 필요성을 제기합니다.
한계점:
제시된 방어 기법에 대한 구체적인 설명이 부족합니다.
다양한 유형의 LLM과 탈옥 기법에 대한 포괄적인 분석이 필요합니다.
실제 서비스 환경에서의 공격 성공률에 대한 추가적인 연구가 필요합니다.
👍