Beyond Line-Level Filtering for the Pretraining Corpora of LLMs
Created by
Haebom
Category
Empty
저자
Chanwoo Park, Suyoung Park, Yelim Ahn, Jongmin Kim, Jongyeon Park, Jaejin Lee
개요
본 논문은 기존의 라인 단위 필터링 기술의 한계를 개선하기 위해 패턴 인식 기반 라인 중복 제거(PLD) 및 패턴 인식 기반 후행 구두점 필터링(PTF)이라는 두 가지 방법을 제안합니다. 이 방법들은 라인 수준의 신호뿐만 아니라 문서 내 시퀀스 분포를 고려하여 구조적으로 중요한 내용을 보존합니다. 영어와 한국어 소규모 언어 모델(10억 파라미터)을 훈련하여 제안된 방법의 성능을 평가했으며, 결과는 다중 선택 벤치마크에서 일관된 성능 향상과 SQuAD v1 및 KorQuAD v1 기반의 생성형 질의응답 정확도 향상을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기존 필터링 기술의 단점을 개선하여 더 나은 성능을 달성함.
◦
언어 모델 훈련 시 중요한 내용의 손실을 최소화함.
◦
영어 및 한국어 환경에서 모두 효과적인 성능을 보임.
◦
다양한 벤치마크에서 일관된 성능 향상을 보임.
•
한계점:
◦
논문에 구체적인 한계점이 명시되어 있지 않음. (논문 요약에 기반)
◦
제안된 방법의 일반화 가능성에 대한 추가 연구 필요. (소규모 모델에서 효과를 보였으므로 대규모 모델에서의 효과 검증 필요)
◦
특정 유형의 데이터 또는 작업에 대한 성능 변화 가능성. (다양한 데이터셋에서의 검증 필요)