Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AI Brown and AI Koditex: LLM-Generated Corpora Comparable to Traditional Corpora of English and Czech Texts

Created by
  • Haebom
Category
Empty

저자

Ji\v{r}i Mili\v{c}ka, Anna Marklova, Vaclav Cvr\v{c}ek

개요

본 논문은 대규모 언어 모델(LLM)로 생성된 영어 및 체코어 텍스트로 구성된 두 개의 코퍼스를 제시한다. 이 코퍼스는 인간이 작성한 텍스트와 LLM이 생성한 텍스트를 언어학적으로 비교하기 위한 자원으로서, 다양한 장르, 주제, 작가, 텍스트 유형을 포함하며 기존의 인간 생성 코퍼스와의 비교 가능성을 유지하는 데 중점을 두었다. 생성된 코퍼스는 Paul Baker의 BE21 (Brown Corpus의 현대적 버전)과 체코어 Brown Corpus 전통을 따르는 Koditex 코퍼스를 모방한다. OpenAI, Anthropic, Alphabet, Meta, DeepSeek의 GPT-3 (davinci-002)부터 GPT-4.5까지 다양한 모델을 사용하여 생성되었으며, Universal Dependencies 표준에 따라 토큰화, 표제어화, 형태적 및 구문론적 주석을 포함한다. 하위 코퍼스 크기는 모델에 따라 다르며, 영어 부분은 모델당 평균 864,000 토큰 (총 2,700만 토큰), 체코어 부분은 모델당 평균 768,000 토큰 (총 2,150만 토큰)을 포함한다. 이 코퍼스는 CC BY 4.0 라이선스 하에 무료로 다운로드할 수 있으며 (주석 처리된 데이터는 CC BY-NC-SA 4.0 라이선스), 체코 국립 코퍼스 검색 인터페이스를 통해 접근할 수 있다.

시사점, 한계점

시사점:
LLM 생성 텍스트와 인간 작성 텍스트의 언어학적 비교를 위한 풍부하고 다중 장르의 코퍼스를 제공한다.
다양한 LLM 모델 (GPT-3부터 GPT-4.5까지)에서 생성된 텍스트를 포함하여 비교 연구를 가능하게 한다.
표준화된 주석 (Universal Dependencies)을 통해 언어학적 분석 및 연구에 용이하다.
CC BY 4.0 라이선스 및 체코 국립 코퍼스 접근성을 통해 접근성과 활용성을 높였다.
한계점:
코퍼스 생성에 사용된 특정 LLM 모델에 의존적이며, 모델의 변화에 따른 지속적인 업데이트가 필요할 수 있다.
하위 코퍼스 크기가 모델에 따라 다르므로 모델 간 비교에 영향을 미칠 수 있다.
생성된 텍스트의 품질이 LLM 모델의 성능에 따라 달라질 수 있다.
CC BY-NC-SA 4.0 라이선스는 상업적 사용을 제한한다.
👍