본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위한 데이터 확보의 어려움, 즉 "데이터 벽" 문제를 해결하기 위한 새로운 방법인 REWIRE를 제시합니다. 기존의 데이터 필터링 과정에서 버려지는 저품질 웹 데이터를 재활용하여 품질을 향상시키는 방법으로, 가이드된 재작성(guided rewrite)을 통해 합성 데이터를 생성합니다. 1B, 3B, 7B 규모의 DCLM 벤치마크 실험 결과, 필터링된 웹 데이터만 사용하는 경우보다 1.0%, 1.3%, 2.5%의 성능 향상을 보였으며, 웹 데이터 2배를 사용하는 것보다 효과적임을 보였습니다. 약 82%의 합성 데이터가 기존에 버려졌던 저품질 문서를 변환하여 생성되었으며, 기존의 다른 합성 데이터 생성 방법(예: 위키피디아 스타일의 바꿔쓰기, 질문-답변 합성, 지식 추출)보다 우수한 성능을 보였습니다. 이는 웹 텍스트 재활용이 LLM 사전 훈련 데이터 확장을 위한 간단하고 효과적인 방법임을 시사합니다.