Sign In

Good News for Script Kiddies? Evaluating Large Language Models for Automated Exploit Generation

Created by
  • Haebom
Category
Empty

저자

David Jin, Qian Fu, Yuekang Li

개요

본 논문은 대규모 언어 모델(LLM)의 자동화된 악성 코드 생성(AEG) 능력에 대한 최초의 체계적인 연구를 제시합니다. LLM의 협조성과 기술적 숙련도를 평가하기 위해, 다섯 개의 소프트웨어 보안 랩의 리팩토링된 버전으로 구성된 벤치마크를 도입하고, LLM 기반 공격자를 설계하여 LLM에 대한 악성 코드 생성 프롬프트를 체계적으로 제시합니다. 실험 결과, GPT-4와 GPT-4o는 검열되지 않은 모델과 비슷한 높은 협조성을 보였지만, Llama3는 가장 저항력이 높았습니다. 그러나 리팩토링된 랩에 대한 악성 코드 생성에는 어떤 모델도 성공하지 못했습니다. 다만 GPT-4o의 최소한의 오류는 LLM 기반 AEG 발전 가능성을 보여줍니다.

시사점, 한계점

시사점:
LLM의 AEG 능력에 대한 최초의 체계적인 연구 결과 제시.
GPT-4와 GPT-4o의 높은 협조성 확인.
Llama3의 높은 저항성 확인.
리팩토링된 코드에 대한 악성 코드 생성의 어려움 확인.
GPT-4o의 최소한의 오류를 통해 향후 LLM 기반 AEG 발전 가능성 제시.
한계점:
리팩토링된 랩에 대한 악성 코드 생성 성공 사례 부재.
평가에 사용된 LLM의 종류 제한.
더욱 다양하고 복잡한 시나리오에 대한 추가 연구 필요.
👍