본 논문은 단백질 3D 구조를 이산적 또는 연속적인 표현으로 분할하는 단백질 구조 토큰화 방법의 평가를 위한 통합 프레임워크인 StructTokenBench를 제시합니다. 기존 벤치마크와 달리 미세한 국소 부분 구조에 초점을 맞춰 토큰화기의 질과 효율성을 종합적으로 평가합니다. 평가 결과, 어떤 단일 모델도 모든 벤치마킹 관점에서 우위를 점하지 못함을 보였고, 이를 통해 코드북 활용 저하 문제를 발견했습니다. 이에 코드북 기울기 업데이트를 개선하고 코드북 크기와 차원의 균형을 최적으로 맞춰 토큰화기 활용도와 질을 향상시키는 AminoAseed라는 전략을 개발했습니다. AminoAseed는 ESM3 모델 대비 24개의 감독 학습 작업에서 평균 6.31%의 성능 향상을 달성했으며, 민감도와 활용률은 각각 12.83%와 124.03% 증가했습니다. 소스 코드와 모델 가중치는 Github에서 공개됩니다.