본 논문은 인도의 다양한 언어 환경에서 중요한 역할을 하는 음역(transliteration) 작업에 대한 최신 대규모 언어 모델(LLM)들의 성능을 평가합니다. GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, Mistral-Large 등의 주요 LLM들을 기존 최고 성능 모델인 IndicXlit과 비교하여, Dakshina와 Aksharantar 데이터셋을 사용하여 10개 주요 인도 언어에 대한 Top-1 정확도와 문자 오류율을 측정했습니다. 실험 결과, GPT 계열 모델들이 대부분의 경우 다른 LLM과 IndicXlit보다 우수한 성능을 보였으며, 특히 GPT-4o를 미세 조정했을 때 특정 언어에 대한 성능이 눈에 띄게 향상되었습니다. 소음 환경에서의 오류 분석 및 강건성 테스트를 통해, 전문화된 모델에 비해 LLM의 강점을 보여주고, 최소한의 오버헤드로 다양한 전문 응용 프로그램에 기반 모델의 효과를 강조합니다.