Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Alif: Advancing Urdu Large Language Models via Multilingual Synthetic Data Distillation

Created by
  • Haebom

저자

Muhammad Ali Shafique, Kanwal Mehreen, Muhammad Arham, Maaz Amjad, Sabur Butt, Hamza Farooq

개요

Urdu와 같은 저자원 언어에 대한 고성능 대규모 언어 모델(LLM) 개발은 고품질 데이터 부족, 다국어 불일치, 안전 문제 등 여러 과제를 안고 있습니다. Alif-1.0-8B-Instruct는 이러한 문제를 해결하기 위해 독특한 접근 방식을 사용합니다. Llama-3.1-8B를 기반으로 구축되었으며, 수정된 self-instruct 기술을 사용하여 개발된 고품질 다국어 합성 데이터세트(Urdu-Instruct)를 기반으로 훈련되었습니다. 이 모델은 Urdu-native chain-of-thought 기반 추론, 이중 언어 번역, 문화적 관련성 및 윤리적 안전성 정렬을 통합합니다. Alif-1.0-8B-Instruct는 Urdu 관련 작업에서 Llama-3.1-8B-Instruct보다 우수한 성능을 보였으며, Mistral-7B-Instruct-v0.3, Qwen-2.5-7B-Instruct, Cohere-Aya-Expanse-8B와 같은 주요 다국어 LLM보다 뛰어난 성능을 보였습니다. 훈련 예산은 100달러 미만이었습니다.

시사점, 한계점

시사점:
수정된 self-instruct 기법을 사용하여 저자원 언어 LLM을 효율적이고 문화적으로 일치하게 개발할 수 있음을 보여줍니다.
Urdu-specific tasks에서 Llama-3.1-8B-Instruct 및 주요 다국어 LLM보다 뛰어난 성능을 보입니다.
저렴한 훈련 예산으로도 고성능 LLM을 개발할 수 있음을 입증합니다.
한계점:
논문 자체에는 구체적인 한계점이 명시되어 있지 않습니다. (그러나 논문 요약본만으로는 전체적인 한계점을 파악하기 어려울 수 있습니다.)
모델의 일반화 능력에 대한 평가는 언급되지 않았습니다.
오직 Urdu-English 모델에 대한 결과만 제시되었습니다. 다른 언어에 대한 성능은 알 수 없습니다.
👍