Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On Technique Identification and Threat-Actor Attribution using LLMs and Embedding Models

Created by
  • Haebom

저자

Kyla Guru, Robert J. Moss, Mykel J. Kochenderfer

개요

본 논문은 사이버 공격의 행위 지표를 추출하여 공격자 식별에 Large Language Models (LLMs)을 활용하는 연구이다. 방대한 포렌식 문서에서 수동으로 행위 지표를 추출하는 기존 방식의 어려움을 해결하기 위해, OpenAI의 GPT-4와 text-embedding-3-large를 이용하여 MITRE ATT&CK 그룹의 데이터와 비교 분석하여 위협 행위자의 전술, 기법 및 절차(TTPs)를 식별하는 프레임워크를 제시한다. 벡터 임베딩 검색을 이용하여 텍스트에서 TTPs를 식별하고, 프로파일을 구축하여 새로운 공격을 식별하는 머신러닝 모델을 학습시킨다. LLM이 생성한 TTP 데이터셋은 사람이 생성한 데이터셋과 유사도는 낮지만, 빈도 측면에서는 유사하며, 기존 MITRE 데이터셋과도 유사한 결과를 보였다. LLM이 생성한 TTP 데이터셋의 노이즈에도 불구하고, 해당 데이터셋을 이용하여 훈련된 모델은 기준 성능보다 높은 공격자 식별 성능을 보였다.

시사점, 한계점

시사점:
LLM을 활용하여 사이버 공격의 행위 지표를 자동으로 추출하고 공격자를 식별하는 새로운 접근 방식 제시.
기존의 수동 분석 방식의 속도 및 효율성 문제 개선 가능성 제시.
오프더쉘 LLM을 활용하여 TTP 추출 및 공격자 예측 파이프라인 구축 가능성 확인.
LLM 생성 데이터의 노이즈에도 불구하고, 머신러닝 모델 학습에 활용 가능성을 보임.
한계점:
LLM이 생성한 TTP 데이터셋의 정확도가 낮고, 사람이 생성한 데이터셋과의 유사도가 낮음.
LLM이 생성하는 데이터에 노이즈가 존재하여 데이터 정제 과정이 필요함.
LLM의 성능은 사용된 데이터셋의 품질에 크게 의존적일 수 있음.
실제 대규모 사이버 공격 상황에서의 성능 검증이 부족함.
👍