Este artículo propone un novedoso mecanismo de agrupación, el marco DRASP (Dual-Resolution Attentive Statistics Pooling), para la predicción MOS, una métrica de evaluación de la calidad del habla. Para superar las limitaciones de los métodos de agrupación existentes, que tienden a centrarse en el análisis global o fotograma a fotograma y pasan por alto las perspectivas perceptuales complementarias, DRASP integra resúmenes estadísticos globales con análisis detallados de segmentos clave. Esto captura simultáneamente tanto el contexto estructural general como los detalles locales importantes, produciendo representaciones más precisas y robustas. Experimentos extensos en diversos conjuntos de datos (MusicEval, AES-Natural), estructuras de predicción MOS (modelos basados en CLAP, AudioBox-Aesthetics) y sistemas de generación de voz demuestran la efectividad y el rendimiento de generalización superior de DRASP, mejorando el coeficiente de correlación de Spearman a nivel de sistema (SRCC) en un 10,39% en comparación con el método de agrupación promedio.