본 논문은 신경퇴행성 질환 음성 분석 (SAND) 챌린지에서 구음 장애 심각도를 분류하기 위한 4가지 모델링 접근 방식을 통합적으로 연구합니다. 모든 모델은 음성 녹음의 공통 데이터셋을 사용하여 동일한 5개 클래스 분류 작업을 수행합니다. (1) 스펙트로그램 이미지에 Vision Transformer를 활용하는 ViT-OF 방법, (2) 다수결 투표 융합을 사용하는 1D-CNN 접근 방식, (3) 다수결 투표 융합을 사용하는 BiLSTM 모델 9개를 사용하는 BiLSTM-OF 접근 방식, (4) 두 단계 학습 프레임워크를 통해 성문 및 포먼트 특징을 결합하는 계층적 XGBoost 앙상블을 조사합니다. 각 방법의 성능을 검증 세트에서 비교합니다. 결과적으로, 특징 기반 XGBoost 앙상블이 가장 높은 macro-F1 점수 (0.86)를 달성했지만, 딥러닝 모델 (ViT, CNN, BiLSTM)도 경쟁력 있는 F1 점수 (0.70)를 획득하여 문제에 대한 보완적인 통찰력을 제공했습니다.