Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Binary BPE: A Family of Cross-Platform Tokenizers for Binary Analysis

Created by
  • Haebom
Category
Empty

저자

Michael J. Bommarito II

Binary BPE 토크나이저 소개

개요

본 논문은 바이너리 분석을 위한 시퀀스 모델의 병목 현상을 해결하기 위해 Binary BPE 토크나이저를 제안합니다. 이는 바이트 수준 토큰화의 문제점(변환기의 컨텍스트 창 용량 낭비, 텍스트 기반 토크나이저의 실패)을 해결하기 위해 개발되었습니다. Binary BPE 토크나이저는 다양한 플랫폼, 아키텍처, 운영 체제(Linux, Windows, macOS, Android, 멀웨어 소스)를 포괄하는 대규모 바이너리 코퍼스에 대해 훈련된 교차 플랫폼 바이트 쌍 인코딩(BPE) 토크나이저입니다. 4K, 8K, 16K, 32K, 64K 토큰의 어휘를 가진 훈련된 토크나이저가 공개되었으며, 이는 자원 제약 환경에서 고처리량 데이터 센터까지 적용 가능합니다. Binary BPE 토크나이저는 ELF/PE 헤더, 명령어 시퀀스, 교차 플랫폼 문자열과 같은 해석 가능한 패턴을 발견하고 토큰당 멀티 바이트 압축을 제공합니다. 이는 고정 길이 변환기 컨텍스트 창당 원시 바이트보다 약 2-3배 더 많은 바이너리 콘텐츠를 허용하여, 콘텐츠 식별, 멀웨어 탐지, 리버스 엔지니어링 및 최적화에 효과적입니다. 훈련된 Binary BPE 토크나이저는 HuggingFace에 공개되어 바이너리 중심 언어 모델 및 컨텍스트 효율적인 에이전트 도구의 기반을 제공합니다.

시사점, 한계점

시사점:
바이너리 분석을 위한 시퀀스 모델의 효율성 향상: 원시 바이트보다 더 많은 바이너리 콘텐츠를 컨텍스트 창에 수용.
해석 가능한 패턴 발견: ELF/PE 헤더, 명령어 시퀀스, 교차 플랫폼 문자열 등.
다양한 환경에서의 적용 가능성: 자원 제약 환경부터 고처리량 데이터 센터까지.
오픈 소스 기반 제공: 바이너리 중심 언어 모델 개발의 기반 제공.
한계점:
논문에 구체적인 한계점 언급 없음.
👍