본 연구는 telomere-to-telomere (T2T) 게놈 어셈블리에 Byte Pair Encoding (BPE) 토큰화 기법을 적용하여 비교 유전체학 연구의 가능성과 한계를 탐색한 파일럿 연구입니다. 9개의 영장류 T2T 게놈(인간 3개 포함)에 대해 512,000개의 토큰으로 구성된 독립적인 BPE 토큰화기를 적용한 결과, 모든 어셈블리에서 공유되는 토큰은 11,569개에 불과했으며, 거의 991,854개의 토큰은 단일 게놈에 고유한 것으로 나타났습니다. 토큰 중복을 기반으로 생성된 계통 발생 나무는 기존의 영장류 계통 관계를 재현하지 못했는데, 이는 종 특이적인 고복제 반복 서열의 불균형적인 영향 때문으로 분석되었습니다. 결론적으로 BPE 토큰화는 반복 서열 압축에는 효과적이지만, 고복제 서열에 대한 민감도로 인해 범용적인 비교 유전체학 도구로서의 활용에는 한계가 있음을 시사합니다. 향후 연구를 위해 하이브리드 전략 및 반복 서열 마스킹 기법을 통한 개선을 제안하며, 대규모 게놈 언어 모델 개발에 있어 도메인 특화된 적응의 필요성을 강조합니다. 본 연구에서 사용된 dnaBPE 도구는 오픈 소스로 공개되어 있습니다 (https://github.com/aglabx/dnaBPE).