Sign In

Beyond Line-Level Filtering for the Pretraining Corpora of LLMs

Created by
  • Haebom
Category
Empty

저자

Chanwoo Park, Suyoung Park, Yelim Ahn, Jongmin Kim, Jongyeon Park, Jaejin Lee

개요

본 논문은 기존의 라인 단위 필터링 기술의 한계를 개선하기 위해 패턴 인식 기반 라인 중복 제거(PLD) 및 패턴 인식 기반 후행 구두점 필터링(PTF)이라는 두 가지 방법을 제안합니다. 이 방법들은 라인 수준의 신호뿐만 아니라 문서 내 시퀀스 분포를 고려하여 구조적으로 중요한 내용을 보존합니다. 영어와 한국어 소규모 언어 모델(10억 파라미터)을 훈련하여 제안된 방법의 성능을 평가했으며, 결과는 다중 선택 벤치마크에서 일관된 성능 향상과 SQuAD v1 및 KorQuAD v1 기반의 생성형 질의응답 정확도 향상을 보여줍니다.

시사점, 한계점

시사점:
기존 필터링 기술의 단점을 개선하여 더 나은 성능을 달성함.
언어 모델 훈련 시 중요한 내용의 손실을 최소화함.
영어 및 한국어 환경에서 모두 효과적인 성능을 보임.
다양한 벤치마크에서 일관된 성능 향상을 보임.
한계점:
논문에 구체적인 한계점이 명시되어 있지 않음. (논문 요약에 기반)
제안된 방법의 일반화 가능성에 대한 추가 연구 필요. (소규모 모델에서 효과를 보였으므로 대규모 모델에서의 효과 검증 필요)
특정 유형의 데이터 또는 작업에 대한 성능 변화 가능성. (다양한 데이터셋에서의 검증 필요)
👍