본 논문은 IWSLT 워크샵의 범위가 기존의 음성 번역(ST)을 넘어 음성 질의응답 및 요약과 같은 다양한 작업으로 확장됨에 따라, Karlsruhe Institute of Technology(KIT)에서 제출한 Offline ST 및 Instruction Following(IF) 트랙에 대한 결과를 제시한다. Offline ST 트랙에서는 여러 자동 음성 인식 시스템의 출력을 문서 수준의 맥락을 사용하는 LLM을 통해 융합하고, 추가적인 개선 단계를 포함하는 2단계 번역 프로세스를 제안한다. IF 트랙에서는 음성 인코더와 LLM을 통합한 end-to-end 모델을 개발하여 다양한 지시사항 따르기 작업을 수행하고, 마지막 문서 수준의 개선 단계를 통해 출력 품질을 향상시킨다. LLM을 활용하여 모든 작업에서 성능을 향상시키는 데 중점을 둔다.