Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Analysing Safety Risks in LLMs Fine-Tuned with Pseudo-Malicious Cyber Security Data

Created by
  • Haebom

저자

Adel ElZemity, Budi Arief, Shujun Li

개요

본 논문은 사이버 보안 애플리케이션에 대규모 언어 모델(LLM)을 통합하는 것의 이점과 위험을 다룬다. 특히, 미세 조정된 LLM의 안전성 위험을 체계적으로 평가하기 위해 OWASP Top 10 for LLM Applications 프레임워크를 사용하여 7개의 오픈소스 LLM(Phi 3 Mini 3.8B, Mistral 7B, Qwen 2.5 7B, Llama 3 8B, Llama 3.1 8B, Gemma 2 9B, Llama 2 70B)을 평가했다. 평가 결과, 미세 조정은 모든 LLM의 안전성을 저하시키는 것으로 나타났다 (예: Llama 3.1 8B의 프롬프트 주입에 대한 안전 점수는 0.95에서 0.15로 감소). 본 논문에서는 명시적인 안전 예방 조치와 윤리적 고려 사항을 포함하도록 지시-응답 쌍을 신중하게 바꾸는 안전 정렬 접근 방식을 제안하고 평가한다. 이 접근 방식은 기술적 유용성을 유지하면서 모델의 안전성을 유지하거나 개선할 수 있음을 보여주며, 보다 안전한 미세 조정 방법론을 개발하기 위한 실용적인 방안을 제시한다.

시사점, 한계점

시사점:
사이버 보안 애플리케이션에 미세 조정된 LLM의 안전성 위험에 대한 체계적인 평가 방법 제시.
미세 조정 과정에서 발생하는 안전성 저하 문제를 확인하고, 이를 완화하기 위한 안전 정렬 접근 방식 제안.
안전성을 유지하면서 기술적 유용성을 보존하는 미세 조정 방법론 개발에 대한 실용적인 방안 제시.
생성형 AI의 민감한 분야 도입을 위한 안전한 채택 방안 모색에 기여.
한계점:
평가에 사용된 LLM의 종류와 수가 제한적일 수 있음.
제안된 안전 정렬 접근 방식의 일반성 및 확장성에 대한 추가 연구 필요.
실제 사이버 보안 환경에서의 안전성 검증 필요.
👍