Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Rethinking the Role of Text Complexity in Language Model Pretraining

Created by
  • Haebom

저자

Dan John Velasco, Matthew Theodore Roque

개요

본 논문은 사전 훈련 데이터의 품질과 크기를 향상시키는 것이 다운스트림 성능을 향상시키는 것으로 알려져 있지만, 텍스트의 복잡성(읽기 난이도)이 미치는 영향은 상대적으로 덜 연구되었다는 점에 착안하여 연구를 수행했다. 표면적 복잡성을 줄이는 방식으로, 즉 짧은 문장, 쉬운 단어, 단순한 구조를 사용하되 핵심 내용은 거의 동일하게 유지하면서, (i) 텍스트 복잡성이 다양한 모델 크기에 어떻게 영향을 미치는지, (ii) 단순한 텍스트만으로 유용한 표현을 학습할 수 있는지, (iii) 사전 훈련 텍스트 복잡성이 다운스트림 언어 이해에 어떤 영향을 미치는지를 연구했다. 이를 위해 대형 언어 모델을 사용하여 인간이 작성한 텍스트를 단순화하고, 인과 모델(28M-500M)을 원본 데이터와 단순화된 데이터를 사용하여 처음부터 사전 훈련한 후, 미세 조정 및 제로 샷 설정에서 평가했다.

시사점, 한계점

시사점:
모델 용량과 텍스트 복잡성 간의 상호 작용에 따라 모델 성능이 달라진다. 작은 모델은 단순한 텍스트에서 성능 저하가 적다.
미세 조정 평가에서는 텍스트 복잡성이 거의 영향을 미치지 않는다.
제로 샷 평가에서, 단순한 텍스트는 언어적 지식 관련 작업에 유리하고, 더 복잡한 텍스트는 세상 지식과 개체 추적을 요구하는 작업에 유리하다.
데이터 다양성이 전이 학습 및 제로 샷 성능에 다르게 영향을 미치므로, 특정 목표에 맞춰 데이터 큐레이션을 맞춤화하는 데 유용한 정보를 제공한다.
한계점:
구체적인 한계점에 대한 언급은 논문 요약에 포함되어 있지 않다.
👍