Sign In

GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages

Created by
  • Haebom
Category
Empty

저자

Amir Hossein Kargaran, Fran\c{c}ois Yvon, Hinrich Schutze

개요

본 논문은 사전 훈련된 언어 모델의 등장과 이 모델들의 확장 법칙 발견으로 인해 대규모 텍스트 말뭉치에 대한 수요가 증가함에 따라, 소수 언어를 포함하는 대규모 말뭉치의 필요성을 강조합니다. 기존 말뭉치들은 주로 주요 언어에만 집중되어 있으나, 본 논문에서는 1000개 이상의 언어를 포함하고, 오픈소스 재현 가능한 파이프라인을 통해 생성되며, 엄격한 노이즈 제거 과정을 거친 2TB 규모의 청결한 문서 수준 일반 도메인 말뭉치인 GlotCC를 제시합니다. GlotCC와 그 생성에 사용된 시스템(파이프라인, 언어 식별 모델, 필터 포함)을 연구 공동체에 공개합니다.

시사점, 한계점

시사점:
1000개 이상의 다양한 언어를 포함하는 대규모 말뭉치를 제공하여 소수 언어 연구에 기여합니다.
오픈소스 및 재현 가능한 파이프라인을 공개하여 연구의 투명성과 재현성을 높입니다.
엄격한 노이즈 제거 과정을 거쳐 신뢰할 수 있는 데이터를 제공합니다.
다양한 언어 모델의 개발 및 성능 향상에 기여할 수 있습니다.
한계점:
말뭉치의 품질 및 균형에 대한 추가적인 평가가 필요할 수 있습니다. (예: 언어별 데이터 크기의 불균형)
특정 언어 또는 도메인에 대한 데이터 부족 현상이 존재할 수 있습니다.
CommonCrawl 데이터에 기반한 만큼, 데이터의 편향성 문제를 완전히 해결하지 못할 수 있습니다.
👍