본 논문은 청각 장애인을 위한 음성 명료도 예측(SIP-HI) 작업에서 음성 기반 모델(SFM)의 성능 향상을 위한 연구를 수행했습니다. 5가지 SFM을 사용하여 인코더 계층 선택, 예측 헤드 아키텍처, 앙상블 구성 등 주요 설계 요소가 SIP-HI 성능에 미치는 영향을 종합적으로 분석했습니다. 기존의 모든 계층을 사용하는 방법과 달리, 단일 인코더 계층 선택이 더 나은 결과를 가져온다는 것을 발견했습니다. 또한, 효과적인 예측 헤드에는 시간적 모델링이 중요하며, 여러 SFM을 앙상블하는 것이 성능을 향상시키고, 개별 모델의 성능이 우수할수록 더 큰 이점을 제공한다는 것을 보여주었습니다. 마지막으로, 주요 SFM 속성과 SIP-HI 성능에 대한 영향 간의 관계를 탐구하여 SFM을 청각 장애인의 음성 명료도 예측에 효과적으로 적용하기 위한 실질적인 통찰력을 제공합니다.