Daily Arxiv

This page organizes papers related to artificial intelligence published around the world.
This page is summarized using Google Gemini and is operated on a non-profit basis.
The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.

Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization

Created by
  • Haebom
Category
Empty

저자

Xurui Li, Kaisong Song, Rui Zhu, Pin-Yu Chen, Haixu Tang

개요

본 논문은 웹 서비스에서 대규모 언어 모델(LLM)의 급속한 발전에 따른 사회적 위험 증폭 문제를 해결하기 위해, 진화하는 위협과 안전 장치 간의 동적 상호 작용에 주목하여 'ACE-Safety'라는 새로운 프레임워크를 제안합니다. ACE-Safety는 (1) 취약점을 발견하고 다양한 적대적 샘플을 생성하기 위해 Group-aware Strategy-guided Monte Carlo Tree Search (GS-MCTS)를 활용한 공격 모델, (2) curriculum reinforcement learning을 통해 공격 및 방어 LLM을 공동 훈련하는 Adversarial Curriculum Tree-aware Group Policy Optimization (AC-TGPO)를 통해 공격과 방어 모델을 함께 최적화합니다. 다양한 벤치마크를 통해 제안된 방법이 기존 공격 및 방어 방식보다 우수함을 입증하며, 책임감 있는 AI 생태계를 지속적으로 지원할 수 있는 LLM 개발에 대한 실현 가능한 경로를 제시합니다.

시사점, 한계점

시사점:
웹 환경에서 LLM의 안전성 문제에 대한 새로운 프레임워크 제시.
공격 및 방어 모델을 공동 최적화하는 혁신적인 방법론 (GS-MCTS 및 AC-TGPO) 도입.
기존 방법론 대비 우수한 성능 입증.
책임감 있는 AI 생태계 구축을 위한 실질적인 방안 제시.
한계점:
구체적인 벤치마크 환경 및 데이터셋에 대한 정보 부족.
실제 웹 서비스 환경에서의 적용 가능성 및 확장성에 대한 추가 연구 필요.
모델의 복잡성으로 인한 계산 비용 및 자원 소모 문제 발생 가능성.
👍