Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Large Language Models are Unreliable for Cyber Threat Intelligence

Created by
  • Haebom

저자

Emanuele Mezzi, Fabio Massacci, Katja Tuma

개요

본 논문은 사이버 위협 정보(CTI) 작업 자동화를 개선하기 위해 대규모 언어 모델(LLM)을 활용하는 최근 연구들을 바탕으로, 제로샷 학습, 퓨샷 학습, 파인튜닝을 사용할 때 CTI 작업에 대한 LLM을 테스트하고 일관성과 신뢰 수준을 정량화할 수 있는 평가 방법론을 제시합니다. 세 가지 최첨단 LLM과 350개의 위협 정보 보고서 데이터 세트를 사용한 실험을 통해 CTI에 LLM을 의존하는 것의 잠재적인 보안 위험에 대한 새로운 증거를 제시합니다. 실제 크기의 보고서에서 충분한 성능을 보장할 수 없을 뿐만 아니라 일관성이 없고 과신하는 경향이 있음을 보여줍니다. 퓨샷 학습과 파인튜닝은 결과를 부분적으로만 개선하여 레이블이 지정된 데이터 세트가 부족하고 신뢰도가 중요한 요소인 CTI 시나리오에서 LLM을 사용할 가능성에 대한 의문을 제기합니다.

시사점, 한계점

시사점: LLM의 CTI 작업 적용 가능성에 대한 객관적인 평가 방법론 제시 및 실험적 증거 제시. LLM의 일관성 및 신뢰도 문제를 정량적으로 측정하고, CTI 분야에서 LLM 사용의 한계를 명확히 제시.
한계점: 실험에 사용된 데이터셋의 크기와 다양성이 제한적일 수 있음. 평가 방법론의 일반화 가능성에 대한 추가 연구 필요. 특정 LLM과 데이터셋에 대한 결과이므로 다른 LLM이나 데이터셋에 대한 일반화에는 주의 필요. 레이블이 지정된 데이터 세트 부족 문제 해결에 대한 구체적인 방안 제시 부족.
👍