Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Improving Multilingual Capabilities with Cultural and Local Knowledge in Large Language Models While Enhancing Native Performance

Created by
  • Haebom

저자

Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Siddhant Gupta, Drishti Sharma, Jebish Purbey, Kanwal Mehreen, Muhammad Arham, Hamza Farooq

개요

Mantra-14B는 힌디어와 영어를 지원하는 이중 언어 대규모 언어 모델(LLM)입니다. 기존 모델보다 크기는 절반이지만, 벤치마크 점수에서 평균 3% 향상된 성능을 보였습니다. 485K 개의 영어 및 힌디어 지시 데이터로 구성된 엄선된 데이터 세트를 사용하여 Qwen-2.5-14B-Instruct 및 Phi-4와 같은 모델을 지시 미세 조정하여 영어와 힌디어 모두에서 성능을 향상시켰습니다. 다양한 매개변수 크기의 7개의 LLM과 140회 이상의 다양한 영어-힌디어 교육 데이터 비율을 가진 교육 시도를 통해, 모국어 성능을 저해하지 않고 다국어 성능을 크게 향상시킬 수 있음을 보여주었습니다. 또한, 어휘 확장이나 아키텍처 수정과 같은 리소스 집약적인 기술을 사용하지 않고 모델 크기를 작게 유지했습니다. 문화적 및 지역적으로 정보에 입각한 데이터를 사용한 적절한 미세 조정이 상당한 계산 오버헤드 없이 성능 차이를 해소할 수 있음을 나타냅니다. 교육 코드, 데이터 세트 및 모델을 MIT 및 Apache 라이선스하에 공개하여 저대표 언어 및 저자원 언어에 대한 추가 연구를 지원합니다.

시사점, 한계점

시사점:
소규모 모델로 다국어 성능을 크게 향상시킬 수 있음을 입증.
문화적, 지역적으로 정보에 입각한 데이터를 사용한 적절한 미세 조정의 효과성을 보여줌.
리소스 집약적인 기술 없이 다국어 지원 LLM 개발 가능성 제시.
저대표 언어 및 저자원 언어 연구에 기여할 수 있는 코드, 데이터 세트 및 모델 공개.
한계점:
사용된 데이터셋의 크기 및 구성에 대한 자세한 설명 부족.
벤치마크 점수 향상 외에 다른 성능 지표에 대한 분석 부족.
Mantra-14B의 성능을 다른 최첨단 다국어 LLM과 비교 분석하지 않음.
특정 문화권이나 지역에 국한된 데이터 사용으로 인한 일반화 가능성의 제한.
👍