Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Active Attacks: Red-teaming LLMs via Adaptive Environments

Created by
  • Haebom

저자

Taeyoung Yun, Pierre-Luc St-Charles, Jinkyoo Park, Yoshua Bengio, Minsu Kim

개요

대규모 언어 모델(LLM)의 안전성 미세 조정을 위해 유해한 행동을 유발하는 다양한 공격 프롬프트를 생성하는 문제를 해결합니다. 수동적인 프롬프트 엔지니어링 대신, 강화 학습(RL)을 사용하여 독성 분류기를 보상으로 하여 공격자 LLM을 훈련하여 이러한 프롬프트를 자동으로 생성합니다. 본 논문은 적응적 탐색을 장려하는 액티브 러닝 패러다임에서 영감을 받아 피해자가 진화함에 따라 공격을 적응시키는 새로운 RL 기반 레드팀 알고리즘인 "Active Attacks"를 소개합니다. Active Attacks는 기존 RL 목표에 원활하게 통합되는 간단한 플러그 앤 플레이 모듈로, 기존 RL 기반 방법(GFlowNets, PPO, REINFORCE 포함)보다 성능이 우수하며, 이전 최고 수준인 GFlowNets에 대한 교차 공격 성공률을 0.07%에서 31.28%로 향상시켰습니다(계산량은 6% 증가).

시사점, 한계점

시사점:
LLM의 안전성 미세 조정에 사용될 수 있는 다양한 공격 프롬프트 자동 생성.
기존 RL 기반 방법보다 우수한 성능을 보임 (GFlowNets 대비 400배 이상 향상).
Active Attacks는 간단한 플러그 앤 플레이 모듈로 기존 RL 목표에 통합 용이함.
피해자의 안전성 미세 조정을 통해 공격자가 새로운 취약점을 지속적으로 탐색하도록 유도.
손쉬운 모드에서 어려운 모드로의 점진적인 탐색 커리큘럼 유도.
다양한 로컬 공격 모드를 단계별로 발견하고, 이들의 조합으로 다중 모드 분포를 광범위하게 커버.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍