Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Binary-30K: A Heterogeneous Dataset for Deep Learning in Binary Analysis and Malware Detection

Created by
  • Haebom
Category
Empty

저자

Michael J. Bommarito II

개요

본 논문은 바이너리 분석을 위한 딥러닝 연구의 인프라 격차를 해결하기 위해, 트랜스포머와 같은 시퀀스 기반 모델에 적합하도록 설계된 최초의 이기종 바이너리 데이터셋인 Binary-30K를 소개합니다. Binary-30K는 Windows, Linux, macOS, Android를 포함한 15개 이상의 CPU 아키텍처를 지원하며, 29,793개의 바이너리와 약 26.93%의 악성코드 표현을 포함합니다. 이 데이터셋은 플랫폼 불변 탐지, 교차 타겟 전이 학습, 긴 컨텍스트 바이너리 이해 연구를 가능하게 합니다. Byte-level BPE 토큰화 및 포괄적인 구조적 메타데이터를 제공하여 시퀀스 모델링과 구조 인식 접근 방식을 모두 지원하며, Hugging Face를 통해 공개적으로 배포되어 재현 가능한 벤치마킹을 지원합니다.

시사점, 한계점

시사점:
플랫폼 불변 탐지, 교차 타겟 전이 학습, 긴 컨텍스트 바이너리 이해 연구를 위한 새로운 가능성 제시
다양한 운영체제 및 아키텍처를 포괄하여 현실적인 사용 사례에 대한 연구 지원
사전 계산된 토큰화 및 구조적 메타데이터 제공으로 다양한 모델링 접근 방식 지원
Hugging Face를 통한 공개 배포로 접근성 및 재현성 향상
한계점:
(논문에 명시된 한계점은 없음)
👍