Para abordar el reto de descubrir conceptos emergentes en las capas de Transformer, este artículo propone un marco de VQ-VAE (CLVQ-VAE) multicapa. Para superar la dificultad de comprender cómo evolucionan las características dentro de un modelo de lenguaje a gran escala debido a la mezcla lineal y la redundancia de información en el flujo residual, utilizamos la cuantificación vectorial para mapear representaciones en múltiples capas y colapsar las características redundantes del flujo residual en vectores conceptuales concisos e interpretables. En particular, combinamos el muestreo basado en temperatura top-k y la actualización del libro de códigos EMA para controlar el espacio latente discreto y mantener la diversidad del libro de códigos, e inicializamos el libro de códigos mediante k-medias++ esféricas escaladas para alinearlo mejor con la estructura semántica.