Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond Specialization: Benchmarking LLMs for Transliteration of Indian Languages

Created by
  • Haebom

저자

Gulfarogh Azam, Mohd Sadique, Saif Ali, Mohammad Nadeem, Erik Cambria, Shahab Saquib Sohail, Mohammad Sultan Alam

개요

본 논문은 인도의 다양한 언어 환경에서 중요한 역할을 하는 음역(transliteration) 작업에 대한 최신 대규모 언어 모델(LLM)들의 성능을 평가합니다. GPT-4o, GPT-4.5, GPT-4.1, Gemma-3-27B-it, Mistral-Large 등의 주요 LLM들을 기존 최고 성능 모델인 IndicXlit과 비교하여, Dakshina와 Aksharantar 데이터셋을 사용하여 10개 주요 인도 언어에 대한 Top-1 정확도와 문자 오류율을 측정했습니다. 실험 결과, GPT 계열 모델들이 대부분의 경우 다른 LLM과 IndicXlit보다 우수한 성능을 보였으며, 특히 GPT-4o를 미세 조정했을 때 특정 언어에 대한 성능이 눈에 띄게 향상되었습니다. 소음 환경에서의 오류 분석 및 강건성 테스트를 통해, 전문화된 모델에 비해 LLM의 강점을 보여주고, 최소한의 오버헤드로 다양한 전문 응용 프로그램에 기반 모델의 효과를 강조합니다.

시사점, 한계점

시사점:
대규모 언어 모델이 특정 작업에 대한 명시적인 학습 없이도 음역 작업에서 우수한 성능을 보임을 확인했습니다.
GPT 계열 모델이 기존 최고 성능의 전문 모델인 IndicXlit을 능가하는 성능을 보였습니다.
미세 조정을 통해 특정 언어에 대한 LLM의 성능을 더욱 향상시킬 수 있음을 보여주었습니다.
LLM의 강력한 일반화 능력으로 인해 다양한 전문 응용 프로그램에 적용 가능성이 높음을 시사합니다.
한계점:
본 연구는 특정 언어와 데이터셋에 국한되어 일반화 가능성에 대한 추가 연구가 필요합니다.
다양한 소음 유형에 대한 강건성 테스트의 범위를 확장할 필요가 있습니다.
특정 LLM의 성능 향상에 기여하는 요인에 대한 심층적인 분석이 부족합니다.
👍