Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BanglaLlama: LLaMA for Bangla Language

Created by
  • Haebom

저자

Abdullah Khan Zehady, Shubhashis Roy Dipta, Naymul Islam, Safi Al Mamun, Santu Karmaker

개요

방글라(Bangla)는 2억 4천만 명의 모국어 사용자를 포함하여 전 세계적으로 약 3억 명이 사용하는 언어입니다. 세계 5번째로 많이 사용되는 언어임에도 불구하고, "저자원" 언어로 간주되며, 기존 사전 훈련된 언어 모델은 방글라어 처리(BLP) 작업에서 어려움을 겪습니다. 이 논문은 (1) 총 224,000개의 샘플로 구성된 고품질 번역된 방글라어 지침 데이터세트인 Bangla-Orca (172,000) 및 Bangla-Alpaca (52,000)를 소개하고, (2) 이러한 데이터세트를 활용하여 5개의 기본 및 지침 변형으로 구성된 오픈 소스 방글라어 특화 LLM인 BanglaLlama를 개발함으로써 이러한 격차를 해결합니다. 이 연구에서는 방법론, 두 개의 대규모 데이터세트, 그리고 여러 벤치마크에서 데이터세트와 모델의 효과를 보여주는 포괄적인 벤치마킹 결과를 제시합니다. 제안된 데이터세트와 모델은 널리 사용되지만 "저자원" 언어에 초점을 맞춘 향후 연구의 새로운 표준 기준 역할을 할 것입니다.

시사점, 한계점

방글라어(Bangla)를 위한 두 개의 고품질 번역된 지침 데이터세트(Bangla-Orca, Bangla-Alpaca) 제공.
이 데이터세트를 기반으로 방글라어 특화 LLM(BanglaLlama) 개발 (5개의 기본 및 지침 변형).
다양한 벤치마크를 통한 모델 및 데이터세트의 효과 입증.
저자원 언어인 방글라어 연구의 새로운 기준 제시.
논문의 한계점은 명시되지 않음.
👍