# Krutrim LLM: Multilingual Foundational Model for over a Billion People

### 저자

Aditya Kallappa, Palash Kamble, Abhinav Ravi, Akshat Patidar, Vinayak Dhruv, Deepak Kumar, Raghav Awasthi, Arveti Manjunath, Himanshu Gupta, Shubham Agarwal, Kumar Ashish, Gautam Bhargava, Chandra Khatri

### 개요

인도의 다양한 언어적 환경과 데이터 접근성 문제를 고려하여 개발된 2조 토큰 규모의 다국어 모델 Krutrim LLM을 소개한다. 기존의 영어 중심의 기초 모델의 한계를 극복하기 위해 인도어 데이터셋을 대규모로 활용하여 다양한 방언에 대한 균형 잡힌 성능을 확보하였다.  Krutrim LLM은 인도어 벤치마크에서 최첨단 모델들과 비교하여 동등하거나 우수한 성능을 보이며, 영어 성능 또한 경쟁력을 유지한다.  훈련 연산량이 상대적으로 적음에도 불구하고, LLAMA-2와 같은 모델과 비교하여 16개 과제 중 10개에서 동등하거나 우수한 성능을 보였다. 실시간 검색 기능을 통합하여 대화형 AI 애플리케이션의 사실 정확도를 향상시켰으며, 전 세계 10억 명 이상의 사용자에게 접근성을 높였다. 데이터 불균형 문제를 해결하기 위한 의도적인 설계를 통해 윤리적이고 세계적으로 대표성 있는 AI 모델 구축에 의미 있는 진전을 이루었다.

### 시사점, 한계점

- **시사점:**

    - 인도와 같이 다양한 언어와 문화를 가진 지역을 위한 대규모 언어 모델 개발의 가능성을 보여줌.

    - 데이터 불균형 문제를 해결하고 윤리적인 AI 모델 개발에 기여.

    - 제한된 훈련 연산량으로도 우수한 성능을 달성, 효율적인 모델 개발 방향 제시.

    - 실시간 검색 기능 통합을 통한 대화형 AI의 사실 정확도 향상.

- **한계점:**

    - 논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.

    - Krutrim LLM의 성능 평가에 사용된 벤치마크 데이터셋의 세부 정보가 부족함.

    - 모델의 환경적 영향(탄소 배출량 등)에 대한 고려가 부족함.

[PDF 보기](https://arxiv.org/pdf/2502.09642)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).