Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance
Created by
Haebom
저자
Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Siddhant Gupta, Drishti Sharma, Jebish Purbey, Kanwal Mehreen, Muhammad Arham, Hamza Farooq
개요
Mantra-14B는 힌디어와 영어를 지원하는 이중 언어 대규모 언어 모델(LLM)입니다. 기존 모델보다 크기는 절반이지만, 벤치마크 점수에서 평균 3% 향상된 성능을 보였습니다. 485K 개의 영어 및 힌디어 지시 데이터로 구성된 엄선된 데이터 세트를 사용하여 Qwen-2.5-14B-Instruct 및 Phi-4와 같은 모델을 지시 미세 조정하여 영어와 힌디어 모두에서 성능을 향상시켰습니다. 다양한 매개변수 크기의 7개의 LLM과 140회 이상의 다양한 영어-힌디어 교육 데이터 비율을 가진 교육 시도를 통해, 모국어 성능을 저해하지 않고 다국어 성능을 크게 향상시킬 수 있음을 보여주었습니다. 또한, 어휘 확장이나 아키텍처 수정과 같은 리소스 집약적인 기술을 사용하지 않고 모델 크기를 작게 유지했습니다. 문화적 및 지역적으로 정보에 입각한 데이터를 사용한 적절한 미세 조정이 상당한 계산 오버헤드 없이 성능 차이를 해소할 수 있음을 나타냅니다. 교육 코드, 데이터 세트 및 모델을 MIT 및 Apache 라이선스하에 공개하여 저대표 언어 및 저자원 언어에 대한 추가 연구를 지원합니다.