Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking

Created by
  • Haebom

저자

Shahriar Kabir Nahin, Rabindra Nath Nandi, Sagor Sarker, Quazi Sarwar Muhtaseem, Md Kowsher, Apu Chandraw Shill, Md Ibrahim, Mehadi Hasan Menon, Tareq Al Muntasir, Firoj Alam

개요

본 논문은 방글라데시어를 위한 최초의 대규모 사전 학습된 언어 모델(LLM)인 TituLLMs를 소개합니다. 계산 자원 제약으로 인해 10억 및 30억 매개변수 크기의 상대적으로 작은 모델에 집중하였으며, 약 370억 토큰의 사전 학습 데이터셋을 사용하여 학습되었습니다. 방글라데시어 LLM을 위한 벤치마킹 데이터셋 부족 문제를 해결하기 위해 5개의 새로운 벤치마킹 데이터셋을 개발하였고, TituLLMs를 포함한 다양한 LLM을 벤치마킹하여 TituLLMs가 초기 다국어 버전보다 우수한 성능을 보임을 확인하였습니다. 하지만 언어 적응의 복잡성으로 인해 모든 경우에 우수한 성능을 보이는 것은 아님을 보였습니다. TituLLMs 모델과 벤치마킹 데이터셋은 공개적으로 제공됩니다 (https://huggingface.co/collections/hishab/titulm-llama-family-6718d31fc1b83529276f490a).

시사점, 한계점

시사점:
방글라데시어를 위한 최초의 대규모 사전 학습된 LLM인 TituLLMs를 개발하고 공개함으로써 저자원 언어 처리 연구에 기여.
방글라데시어 LLM 벤치마킹을 위한 새로운 데이터셋을 제공.
기존 다국어 모델을 저자원 언어에 적용하는 방법론을 제시.
한계점:
계산 자원 제약으로 인해 모델 크기가 제한적임.
언어 적응의 복잡성으로 인해 모든 경우에 초기 다국어 버전보다 우수한 성능을 보장하지 못함.
👍