본 논문은 기존의 유전체 모델링이 유전자 서열을 언어처럼 다루는 방식의 한계를 극복하기 위해, 다양한 크기의 단위(작은 중합체 및 여러 개의 연속된 중합체 조합인 G-gram)를 고려하는 새로운 유전체 표현 프레임워크 DNAZEN을 제안한다. DNAZEN은 비지도 학습 방식으로 대규모 유전체 데이터에서 G-gram 어휘를 구축하고, 실행 중인 유전자 샘플에서 동적으로 일치하는 G-gram을 제공한다. 또한, Transformer 기반 G-gram 인코더를 사용하여 G-gram의 표현을 계산하고, 작은 단위를 인코딩하고 학습 및 추론 과정을 유지하는 기본 단위 인코더(E4BU)에 통합한다. 전체 G-gram 마스킹 기법을 통해 학습 과정을 향상시켜 모델이 기본 단위보다 전체 G-gram을 마스킹하는 것을 선호하도록 한다. 벤치마크 데이터셋 실험 결과, DNAZEN이 다양한 하위 작업에서 효과적임을 보여준다.