AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses
Created by
Haebom
Category
Empty
저자
Nicholas Carlini, Javier Rando, Edoardo Debenedetti, Milad Nasr, Florian Tramer
개요
본 논문은 대규모 언어 모델(LLM)이 적대적 예제에 대한 방어 기법을 자율적으로 활용할 수 있는지 평가하기 위한 벤치마크인 AutoAdvExBench를 소개합니다. 기존 보안 벤치마크가 실제 작업에 대한 대리 지표로 사용되는 경우가 많은 것과 달리, AutoAdvExBench는 머신러닝 보안 전문가가 정기적으로 수행하는 작업에 대한 LLM의 성공 여부를 직접 측정합니다. LLM이 벤치마크의 과제를 해결할 수 있다면, 적대적 머신러닝 연구자들에게 즉각적인 실용성을 제공할 것입니다. 본 논문에서는 CTF 유사(숙제 연습) 적대적 예제 방어의 75%를 해결할 수 있는 강력한 에이전트를 설계하지만, 이 에이전트가 실제 방어의 13%에서만 성공한다는 것을 보여줍니다. 이는 "실제" 코드 공격과 CTF 유사 코드 공격의 어려움 사이에 큰 차이가 있음을 시사합니다. 반대로, 실제 방어의 21%를 공격할 수 있는 더 강력한 LLM은 CTF 유사 방어의 54%에서만 성공합니다. AutoAdvExBench는 https://github.com/ethz-spylab/AutoAdvExBench 에서 이용 가능합니다.