Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MALSIGHT: Exploring Malicious Source Code and Benign Pseudocode for Iterative Binary Malware Summarization

Created by
  • Haebom

저자

Haolang Lu, Hongrui Peng, Guoshun Nan, Jiaoyang Cui, Cheng Wang, Weifei Jin, Songtao Wang, Shengli Pan, Xiaofeng Tao

개요

본 논문은 이진 악성코드의 동작을 사람이 읽을 수 있는 설명으로 자동 생성하는 이진 악성코드 요약에 관한 연구입니다. 기존의 대규모 언어 모델(LLM) 기반 방법들이 유용성, 정확성, 완전성 면에서 한계를 보이는 문제를 해결하기 위해, 악성 소스 코드와 양성 의사 코드를 활용하여 반복적으로 설명을 생성하는 새로운 코드 요약 프레임워크인 MALSIGHT를 제안합니다. 특히, LLM과 수동 검증을 통해 최초의 악성코드 요약 데이터셋인 MalS와 MalP를 구축하고, 새로운 LLM 기반 코드 모델인 MalT5를 학습시켜 의사 코드 함수를 반복적으로 입력하여 요약을 생성합니다. 이를 통해 의사 코드 구조 이해 및 함수 간 상호 작용 포착을 개선하여 요약의 유용성, 정확성, 완전성을 향상시키고, 요약 품질 측정을 위한 새로운 평가 기준인 BLEURT-sum을 제안합니다. 세 개의 데이터셋에 대한 실험을 통해 MALSIGHT의 효과를 검증하고, 0.77B 매개변수의 MalT5가 훨씬 더 큰 Code-Llama와 비교 가능한 성능을 보임을 보여줍니다.

시사점, 한계점

시사점:
이진 악성코드의 동작을 사람이 이해하기 쉽게 요약하는 새로운 프레임워크 MALSIGHT 제안.
최초의 악성코드 요약 데이터셋 MalS와 MalP 구축.
LLM 기반 코드 모델 MalT5를 통해 기존 모델의 한계점 개선.
요약 품질 평가를 위한 새로운 지표 BLEURT-sum 제안.
소규모 매개변수 모델(MalT5)로 대규모 모델과 비교 가능한 성능 달성.
한계점:
MalS와 MalP 데이터셋의 규모 및 다양성에 대한 추가적인 연구 필요.
BLEURT-sum 지표의 일반화 가능성에 대한 추가적인 검증 필요.
다양한 유형의 악성코드에 대한 일반화 성능 평가 필요.
함수 호출 관계 이외의 다른 요소(예: 메모리 접근 패턴)를 고려한 모델 개선 필요.
👍