TituLLMs: A Family of Bangla LLMs with Comprehensive Benchmarking
Created by
Haebom
저자
Shahriar Kabir Nahin, Rabindra Nath Nandi, Sagor Sarker, Quazi Sarwar Muhtaseem, Md Kowsher, Apu Chandraw Shill, Md Ibrahim, Mehadi Hasan Menon, Tareq Al Muntasir, Firoj Alam
개요
본 논문은 방글라데시어를 위한 최초의 대규모 사전 학습된 언어 모델(LLM)인 TituLLMs를 소개합니다. 계산 자원 제약으로 인해 10억 및 30억 매개변수 크기의 상대적으로 작은 모델에 집중하였으며, 약 370억 토큰의 사전 학습 데이터셋을 사용하여 학습되었습니다. 방글라데시어 LLM을 위한 벤치마킹 데이터셋 부족 문제를 해결하기 위해 5개의 새로운 벤치마킹 데이터셋을 개발하였고, TituLLMs를 포함한 다양한 LLM을 벤치마킹하여 TituLLMs가 초기 다국어 버전보다 우수한 성능을 보임을 확인하였습니다. 하지만 언어 적응의 복잡성으로 인해 모든 경우에 우수한 성능을 보이는 것은 아님을 보였습니다. TituLLMs 모델과 벤치마킹 데이터셋은 공개적으로 제공됩니다 (https://huggingface.co/collections/hishab/titulm-llama-family-6718d31fc1b83529276f490a).