본 논문은 바이너리 분석을 위한 시퀀스 모델의 병목 현상을 해결하기 위해 Binary BPE 토크나이저를 제안합니다. 이는 바이트 수준 토큰화의 문제점(변환기의 컨텍스트 창 용량 낭비, 텍스트 기반 토크나이저의 실패)을 해결하기 위해 개발되었습니다. Binary BPE 토크나이저는 다양한 플랫폼, 아키텍처, 운영 체제(Linux, Windows, macOS, Android, 멀웨어 소스)를 포괄하는 대규모 바이너리 코퍼스에 대해 훈련된 교차 플랫폼 바이트 쌍 인코딩(BPE) 토크나이저입니다. 4K, 8K, 16K, 32K, 64K 토큰의 어휘를 가진 훈련된 토크나이저가 공개되었으며, 이는 자원 제약 환경에서 고처리량 데이터 센터까지 적용 가능합니다. Binary BPE 토크나이저는 ELF/PE 헤더, 명령어 시퀀스, 교차 플랫폼 문자열과 같은 해석 가능한 패턴을 발견하고 토큰당 멀티 바이트 압축을 제공합니다. 이는 고정 길이 변환기 컨텍스트 창당 원시 바이트보다 약 2-3배 더 많은 바이너리 콘텐츠를 허용하여, 콘텐츠 식별, 멀웨어 탐지, 리버스 엔지니어링 및 최적화에 효과적입니다. 훈련된 Binary BPE 토크나이저는 HuggingFace에 공개되어 바이너리 중심 언어 모델 및 컨텍스트 효율적인 에이전트 도구의 기반을 제공합니다.