본 논문은 합성 음성의 평균 의견 점수(MOS) 예측에서 심층 학습 기반 모델의 한계점인 인간의 청각 인지 메커니즘 무시 문제를 해결하기 위해 청각 인지 기반 MOS 예측 모델(APG-MOS)을 제안합니다. APG-MOS는 생물학적 청각 메커니즘에 기반한 지각 모듈을 통해 음향 신호를 생물학적으로 정렬된 전기화학적 표현으로 인코딩하고, RVQ(Residual Vector Quantization) 기반 의미 왜곡 모델링 방법을 통해 의미 수준에서의 음성 품질 저하를 정량화합니다. 또한, 인코딩된 전기화학적 신호와 의미 표현의 다중 모드 융합을 가능하게 하는 잔차 교차 주의 아키텍처와 점진적 학습 전략을 설계했습니다. 실험 결과, APG-MOS는 두 가지 주요 벤치마크에서 우수한 성능을 달성했습니다.