Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BhashaKritika: Building Synthetic Pretraining Data at Scale for Indic Languages

Created by
  • Haebom
Category
Empty

저자

Guduru Manoj, Neel Prabhanjan Rachamalla, Ashish Kulkarni, Gautam Rajeev, Jay Piplodiya, Arul Menezes, Shaharukh Khan, Souvik Rana, Manya Sah, Chandra Khatri, Shubham Agarwal

개요

대규모 언어 모델(LLM) 사전 학습에서 양질의 데이터를 생성하기 위한 대안으로 합성 데이터가 부상함. 본 연구에서는 저자원 언어 환경에서 특히 유용하며, 인도 언어에 대한 합성 다국어 사전 학습 데이터의 생성 및 평가에 대한 체계적인 연구를 제시함. 10개 언어에 대해 5가지 기술을 사용하여 5,400억 토큰으로 구성된 대규모 합성 데이터 세트 BhashaKritika를 구축함. 문서, 페르소나, 주제에 기반한 생성의 영향을 탐구하고, 프롬프트 지침 및 문서 기반 언어 선택이 데이터 품질에 미치는 영향을 분석하며, 영어 콘텐츠의 번역과 인도 언어의 네이티브 생성 결과를 비교함. 확장 가능하고 언어에 민감한 평가를 지원하기 위해 스크립트 및 언어 감지, 메타데이터 일관성 검사, n-gram 반복 분석, KenLM 모델을 사용한 혼란도 기반 필터링을 통합하는 모듈식 품질 평가 파이프라인을 도입함. 이 프레임워크는 다양한 스크립트와 언어 환경에서 강력한 품질 관리를 가능하게 함. 모델 실행을 통한 실증적 결과는 생성 전략의 주요 트레이드 오프를 보여주고 효과적인 다국어 코퍼스 구축을 위한 모범 사례를 강조함.

시사점, 한계점

인도 언어에 대한 합성 사전 학습 데이터 생성 및 평가에 대한 체계적인 연구 제시
문서, 페르소나, 주제 기반 생성의 영향 분석
프롬프트 지침 및 문서 기반 언어 선택이 데이터 품질에 미치는 영향 분석
영어 콘텐츠 번역과 네이티브 생성 결과 비교
확장 가능하고 언어에 민감한 품질 평가 파이프라인 도입
생성 전략의 주요 트레이드 오프 및 모범 사례 제시
연구 대상 언어 및 기술의 제한
모델 성능 평가에 대한 추가적인 지표 및 분석 필요
다양한 생성 기법의 포괄적인 비교 부족
👍