대규모 언어 모델(LLM)은 텍스트 요약에서 인상적인 성능을 보였지만, 사전 훈련 분포와 다른 전문 분야에서는 성능이 저하되는 경향이 있습니다. 이 연구에서는 비용이 많이 들고 희귀한 고품질 레이블 데이터를 사용하는 미세 조정 대신, 지속적인 사전 훈련을 통해 LLM을 다운스트림 요약 작업, 특히 시끄러운 실제 대화 내용을 처리하는 데 적응시키는 확장 가능하고 자기 지도 학습 방식의 접근 방식을 탐구합니다. 대규모, 레이블이 없는 비즈니스 대화 데이터를 사용하여 지속적인 사전 훈련이 대화 요약에서 모델의 성능을 향상시키는지 실험했습니다. 그 결과, 지속적인 사전 훈련이 도메인 내 및 도메인 외부 요약 벤치마크 모두에서 상당한 이점을 제공하며, 강력한 일반화 및 견고성을 유지하는 것을 확인했습니다. 또한, 데이터 선택 전략의 효과를 분석하여 요약 중심 산업 응용 분야에서 지속적인 사전 훈련을 적용하기 위한 실용적인 지침을 제공합니다.