본 논문은 음성 품질 평가 지표인 MOS 예측을 위한 새로운 풀링 메커니즘인 DRASP(Dual-Resolution Attentive Statistics Pooling) 프레임워크를 제안합니다. 기존 풀링 방법들이 전역적 또는 프레임 단위 분석에 치우쳐 상호 보완적인 지각적 통찰력을 간과하는 한계를 극복하기 위해, DRASP는 전역적 통계 요약과 주요 구간에 대한 세밀한 분석을 통합합니다. 이를 통해 전반적인 구조적 맥락과 중요한 지역적 세부 정보를 동시에 포착하여 더욱 정확하고 강건한 표현을 생성합니다. 다양한 데이터셋(MusicEval, AES-Natural), MOS 예측 백본(CLAP 기반 모델, AudioBox-Aesthetics), 음성 생성 시스템에 대한 광범위한 실험을 통해 DRASP의 효과와 우수한 일반화 성능을 검증하였으며, 평균 풀링 방식 대비 시스템 수준 Spearman 상관 계수(SRCC)를 10.39% 향상시켰습니다.