본 논문은 청각 장애인 및 난청인(DHH) 커뮤니티의 비디오 접근성 향상을 위해 대규모 언어 모델(LLM)을 활용한 자동 음성 인식(ASR) 시스템 개선 연구를 제시합니다. ASR 시스템이 생성한 자막의 정확성과 문맥 인식 능력을 향상시키기 위해 GPT-3.5 및 Llama2-13B와 같은 LLM을 통합하는 새로운 파이프라인을 제안하고, 실제 DHH 커뮤니티가 직면하는 과제를 반영하는 데이터셋을 사용하여 평가합니다. 실험 결과, LLM을 활용한 자막이 ASR 자막보다 상당히 높은 정확도(낮은 WER)를 보임을 확인하였습니다. 특히, ChatGPT-3.5를 사용했을 때 WER이 23.07%에서 9.75%로 약 57.72% 감소하는 결과를 얻었습니다.