인도의 다양한 언어적 환경과 데이터 접근성 문제를 고려하여 개발된 2조 토큰 규모의 다국어 모델 Krutrim LLM을 소개한다. 기존의 영어 중심의 기초 모델의 한계를 극복하기 위해 인도어 데이터셋을 대규모로 활용하여 다양한 방언에 대한 균형 잡힌 성능을 확보하였다. Krutrim LLM은 인도어 벤치마크에서 최첨단 모델들과 비교하여 동등하거나 우수한 성능을 보이며, 영어 성능 또한 경쟁력을 유지한다. 훈련 연산량이 상대적으로 적음에도 불구하고, LLAMA-2와 같은 모델과 비교하여 16개 과제 중 10개에서 동등하거나 우수한 성능을 보였다. 실시간 검색 기능을 통합하여 대화형 AI 애플리케이션의 사실 정확도를 향상시켰으며, 전 세계 10억 명 이상의 사용자에게 접근성을 높였다. 데이터 불균형 문제를 해결하기 위한 의도적인 설계를 통해 윤리적이고 세계적으로 대표성 있는 AI 모델 구축에 의미 있는 진전을 이루었다.
시사점, 한계점
•
시사점:
◦
인도와 같이 다양한 언어와 문화를 가진 지역을 위한 대규모 언어 모델 개발의 가능성을 보여줌.