본 논문은 아동 음성 인식 분야의 데이터 부족(특히 비영어권 언어)과 과제의 특수성으로 인해 아직 미개척 분야임을 지적하며, 기존 연구에서 다양한 아동 음성 인식 아키텍처를 탐구한 후 최근 자기 지도 학습 모델을 다룬다. 프랑스어 아동 음성의 음소 인식에 wav2vec 2.0, HuBERT, WavLM 모델을 비교 분석하고, 그 중 성능이 가장 우수한 WavLM base+ 모델을 추가로 개선한다. 구체적으로, 아동 음성에 대한 미세 조정 중 Transformer 블록의 동결을 해제하여 성능을 크게 향상시키고 기존 Transformer+CTC 기반 모델을 능가하는 결과를 얻는다. 마지막으로, 실제 적용 환경에서 두 모델의 동작을 상세히 분석하여 WavLM base+가 다양한 읽기 과제와 소음 수준에 더욱 강건함을 보임을 입증한다.