[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities

Created by
  • Haebom

저자

Zora Che, Stephen Casper, Robert Kirk, Anirudh Satheesh, Stewart Slocum, Lev E McKinney, Rohit Gandikota, Aidan Ewart, Domenic Rosati, Zichu Wu, Zikui Cai, Bilal Chughtai, Yarin Gal, Furong Huang, Dylan Hadfield-Menell

개요

본 논문은 대규모 언어 모델(LLM)의 위험성 및 역량 평가를 AI 위험 관리 및 거버넌스 프레임워크에 통합하는 방식에 대한 연구를 다룬다. 기존의 입력-출력 평가 방식의 한계(현실적인 위험 완전 평가 불가능, 최악의 경우의 입력-출력 동작 하한선만 제시)를 지적하며, 잠재 활성화 또는 가중치 수정을 통한 모델 조작 공격을 이용한 보완적 평가 방법을 제안한다. 5가지 입력 공간 공격과 6가지 모델 조작 공격을 통해 최첨단 유해 LLM 기능 제거 기술을 평가하고, 모델의 내구성이 저차원 강건성 부분 공간에 존재함을 보이고, 모델 조작 공격 성공률이 홀드아웃 입력 공간 공격 성공률을 예측하는 보수적인 추정치를 제공함을 보인다. 또한 최첨단 언러닝 방법이 16단계의 미세 조정 내에서 쉽게 무효화될 수 있음을 보여준다. 결론적으로, 유해 LLM 기능 억제의 어려움을 강조하고, 모델 조작 공격이 입력 공간 공격만으로는 불가능한 훨씬 엄격한 평가를 가능하게 함을 보여준다.

시사점, 한계점

시사점:
모델 조작 공격을 통해 LLM의 위험성을 더욱 엄격하게 평가할 수 있는 새로운 방법 제시.
입력 공간 공격의 성공률을 예측하는 데 모델 조작 공격 성공률을 활용 가능.
최첨단 언러닝 기법의 취약성을 보여줌으로써 LLM 안전성 확보의 어려움을 강조.
LLM의 강건성이 저차원 부분 공간에 존재함을 밝힘.
한계점:
제안된 모델 조작 공격 방식의 일반화 가능성에 대한 추가 연구 필요.
더욱 다양한 유형의 LLM과 공격 기법에 대한 실험이 필요.
모델 조작 공격의 실제 세계 적용 가능성 및 윤리적 문제에 대한 논의 부족.
👍