Sign In

MalDataGen: A Modular Framework for Synthetic Tabular Data Generation in Malware Detection

Created by
  • Haebom
Category
Empty

저자

Kayua Oleques Paim, Angelo Gaspar Diniz Nogueira, Diego Kreutz, Weverton Cordeiro, Rodrigo Brandao Mansilha

개요

악성 코드 탐지는 고품질 데이터 부족으로 인해 머신러닝 성능에 제약이 있습니다. MalDataGen은 모듈형 딥러닝 모델(예: WGAN-GP, VQ-VAE)을 사용하여 고품질의 합성 표 형식 데이터를 생성하는 오픈 소스 모듈형 프레임워크입니다. 이중 검증(TR-TS/TS-TR), 7개의 분류기 및 유틸리티 메트릭을 사용하여 평가한 결과, MalDataGen은 SDV와 같은 벤치마크보다 뛰어난 성능을 보이며 데이터 유용성을 유지합니다. 유연한 설계로 탐지 파이프라인에 원활하게 통합되어 사이버 보안 응용 분야에 실용적인 솔루션을 제공합니다.

시사점, 한계점

MalDataGen은 악성 코드 탐지 분야에서 고품질 데이터 부족 문제를 해결하기 위한 실용적인 솔루션을 제시합니다.
오픈 소스 프레임워크로, 사용자 정의 및 확장이 용이합니다.
WGAN-GP, VQ-VAE 등 다양한 딥러닝 모델을 활용하여 고품질의 합성 데이터를 생성합니다.
데이터 유틸리티를 유지하면서 SDV와 같은 벤치마크보다 우수한 성능을 보입니다.
이중 검증 방식을 통해 모델의 일반화 성능을 평가합니다.
다양한 분류기를 사용하여 모델의 견고성을 검증합니다.
사이버 보안 응용 분야에 적용 가능성이 높습니다.
논문에서 구체적인 한계점은 명시되어 있지 않지만, 합성 데이터의 실제 데이터와의 차이점, 모델의 복잡성 등이 한계점으로 작용할 수 있습니다.
👍