Claudini: Autoresearch Discovers State-of-the-Art Adversarial Attack Algorithms for LLMs

Author

Haebom

저자

Alexander Panfilov, Peter Romov, Igor Shilov, Yves-Alexandre de Montjoye, Jonas Geiping, Maksym Andriushchenko

💡 개요

본 연구는 AI 에이전트가 대규모 언어 모델(LLM)에 대한 최첨단 적대적 공격 알고리즘을 스스로 발견할 수 있음을 보여줍니다. Claude Code 및 Codex와 같은 최신 AI 에이전트를 활용하여 기존 방법론 라이브러리 및 평가 스크립트와 결합된 자동 연구 루프를 통해 새로운 공격 알고리즘을 개발했습니다. 이를 통해 OpenAI의 GPT-OSS-Safeguard-20B에 대한 화이트박스 탈옥(jailbreaking) 공격 성공률을 80%까지 높이고, Meta-SecAlign-70B 모델에 대한 프롬프트 주입(prompt injection) 공격 성공률을 100% 달성하는 등 기존 방법론 대비 상당한 성능 향상을 이루었습니다.

🔑 시사점 및 한계

•

AI 에이전트를 활용한 자동화된 적대적 공격 알고리즘 연구는 LLM 보안 분야에서 새로운 가능성을 제시합니다.

•

기존의 수동적인 공격 방법론 연구에 비해 AI 에이전트 기반 자동 연구는 훨씬 더 효율적이고 강력한 공격을 발견할 수 있습니다.

•

본 연구에서 개발된 공격 알고리즘이 관련 없는 서러게이트 모델에서 학습되었음에도 불구하고 실제 대상 모델에 효과적으로 일반화된다는 점은 LLM의 취약성 및 방어 메커니즘에 대한 근본적인 질문을 던집니다.

•

향후 연구에서는 AI 에이전트가 개발한 공격 알고리즘의 특성과 전략을 더 깊이 이해하고, 이러한 자동화된 공격에 효과적으로 대응할 수 있는 방어 메커니즘을 개발해야 합니다.

PDF 보기

Made with Slashpage