Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Semantic Preprocessing for LLM-based Malware Analysis

Created by
  • Haebom

저자

Benjamin Marais, Tony Quertier, Gregoire Barrue

개요

악성코드 분석 분야에서 AI 기반 접근 방식은 대량의 데이터 처리에 효과적이지만, 전문가의 시각을 고려하지 않고 데이터 자체(이미지, 시퀀스)에만 집중하는 한계가 있다. 본 논문에서는 전문가 지식을 활용한 전처리 방법을 제안하여 악성코드 의미 분석과 결과 해석력을 향상시킨다. Portable Executable 파일을 위한 JSON 보고서를 생성하는 새로운 전처리 방법을 제시하는데, 이는 정적 및 동적 분석 기능, 패커 서명 탐지, MITRE ATT&CK 및 Malware Behavior Catalog (MBC) 지식을 통합한다. 이 전처리는 악성코드 분석가가 이해할 수 있는 바이너리 파일의 의미론적 표현을 수집하여 AI 모델의 설명 가능성을 높이는 것을 목표로 한다. 제안된 전처리 방법을 사용하여 대규모 언어 모델을 훈련한 결과, 실제 시장을 반영하는 복잡한 데이터셋에서 0.94의 가중 평균 F1 점수를 달성했다.

시사점, 한계점

시사점:
전문가 지식 기반의 전처리를 통해 악성코드 분석의 정확도와 해석력을 향상시킬 수 있음을 보여줌.
대규모 언어 모델을 활용한 악성코드 분류에서 높은 성능을 달성함.
MITRE ATT&CK 및 MBC와 같은 기존 지식베이스를 효과적으로 활용하는 방법 제시.
악성코드 분석가를 위한 이해 가능한 의미론적 표현 생성.
한계점:
제안된 전처리 방법의 일반성 및 다른 유형의 악성코드에 대한 적용 가능성에 대한 추가 연구 필요.
사용된 데이터셋의 특성에 따른 성능 편향 가능성.
특정 패커 또는 행위에 대한 의존성으로 인한 한계 존재 가능성.
대규모 언어 모델의 설명 가능성에 대한 추가적인 연구 필요.
👍