본 논문은 바이너리 분석을 위한 딥러닝 연구의 인프라 격차를 해결하기 위해, 트랜스포머와 같은 시퀀스 기반 모델에 적합하도록 설계된 최초의 이기종 바이너리 데이터셋인 Binary-30K를 소개합니다. Binary-30K는 Windows, Linux, macOS, Android를 포함한 15개 이상의 CPU 아키텍처를 지원하며, 29,793개의 바이너리와 약 26.93%의 악성코드 표현을 포함합니다. 이 데이터셋은 플랫폼 불변 탐지, 교차 타겟 전이 학습, 긴 컨텍스트 바이너리 이해 연구를 가능하게 합니다. Byte-level BPE 토큰화 및 포괄적인 구조적 메타데이터를 제공하여 시퀀스 모델링과 구조 인식 접근 방식을 모두 지원하며, Hugging Face를 통해 공개적으로 배포되어 재현 가능한 벤치마킹을 지원합니다.