Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Benchmark of stylistic variation in LLM-generated texts

Created by
  • Haebom

저자

Ji\v{r}i Mili\v{c}ka, Anna Marklova, Vaclav Cvr\v{c}ek

개요

본 연구는 대규모 언어 모델(LLM)이 생성한 텍스트와 인간이 작성한 텍스트의 레지스터 변이를 조사합니다. Biber의 다차원 분석(MDA)을 인간이 작성한 텍스트와 이에 상응하는 AI가 생성한 텍스트 샘플에 적용하여 LLM이 인간과 가장 크고 체계적으로 다른 변이의 차원을 찾습니다. 텍스트 자료로는 현대 영국 영어를 나타내는 BE-21(Brown family corpus)과 비교 가능한 새롭게 생성된 LLM 생성 코퍼스인 AI-Brown을 사용합니다. 최첨단 LLM의 훈련 데이터에서는 영어를 제외한 모든 언어가 과소 표현되어 있으므로, AI-Koditex 코퍼스와 체코어 다차원 모델을 사용하여 체코어에 대해서도 유사한 분석을 반복합니다. 다양한 설정과 프롬프트에서 16개의 최첨단 모델을 검토하였으며, 기본 모델과 지시어 미세 조정 모델 간의 차이점을 중점적으로 다룹니다. 이를 바탕으로 모델 간 비교 및 해석 가능한 차원에서 순위를 매길 수 있는 벤치마크를 만듭니다.

시사점, 한계점

시사점: LLM이 생성한 텍스트와 인간이 작성한 텍스트의 레지스터 차이를 정량적으로 분석하고 비교 가능한 벤치마크를 제공합니다. 다양한 언어와 모델 설정에 대한 분석을 통해 LLM의 레지스터 제어 능력에 대한 포괄적인 이해를 제공합니다. 기본 모델과 instruction-tuned 모델의 차이를 비교 분석하여 모델 개선 방향을 제시합니다.
한계점: 분석에 사용된 코퍼스의 크기와 다양성에 따라 결과의 일반화 가능성에 제한이 있을 수 있습니다. 현재 최첨단 LLM에 국한된 분석으로, 향후 새로운 모델에 대한 지속적인 업데이트가 필요합니다. 레지스터 변이 외 다른 언어적 특징에 대한 분석은 포함되지 않았습니다. 분석에 사용된 MDA의 한계점이 결과에 영향을 미칠 수 있습니다.
👍