Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Overcoming Data Scarcity in Generative Language Modelling for Low-Resource Languages: A Systematic Review

Created by
  • Haebom

저자

Josh McGiff, Nikola S. Nikolov

개요

본 논문은 저자원 언어(LRL)를 위한 생성적 언어 모델링에서 데이터 부족 문제를 해결하기 위한 전략에 대한 최초의 체계적인 검토를 제시합니다. 54개의 연구를 바탕으로, 단일 언어 데이터 증강, 역번역, 다국어 학습 및 프롬프트 엔지니어링을 포함한 기술적 접근 방식을 생성적 작업 전반에 걸쳐 식별, 분류 및 평가합니다. 또한 아키텍처 선택, 언어 계열 표현 및 평가 방법의 동향을 분석합니다. 결론적으로 변압기 기반 모델에 대한 강한 의존성, 소수의 LRL에 대한 집중, 그리고 연구 간 일관성 없는 평가의 부족을 강조하며, 더 넓은 범위의 LRL로 이러한 방법을 확장하기 위한 권장 사항을 제시하고 공정한 생성적 언어 시스템 구축의 미해결 과제를 개괄합니다. 궁극적으로 이 검토는 저자원 언어 사용자를 위한 포괄적인 AI 도구를 구축하는 데 연구자와 개발자를 지원하는 것을 목표로 합니다.

시사점, 한계점

시사점: 저자원 언어를 위한 생성적 언어 모델링에서 데이터 부족 문제 해결을 위한 다양한 기술적 접근 방식을 체계적으로 검토하고 분석함으로써, 해당 분야의 연구 방향을 제시합니다. 다국어 학습 및 데이터 증강 기법의 효과성을 평가하고, 미래 연구를 위한 방향을 제시합니다. 저자원 언어 사용자를 위한 포괄적인 AI 도구 구축에 기여할 수 있습니다.
한계점: 변압기 기반 모델에 대한 의존성이 높고, 분석 대상 LRL이 제한적입니다. 연구 간 일관된 평가 기준이 부족합니다. 더욱 다양한 LRL과 생성적 작업에 대한 연구가 필요합니다.
👍