Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation Summarization

Created by
  • Haebom

저자

Xue-Yong Fu, Elena Khasanova, Md Tahmid Rahman Laskar, Harsh Saini, Shashi Bhushan TN

개요

대규모 언어 모델(LLM)은 텍스트 요약에서 인상적인 성능을 보였지만, 사전 훈련 분포와 다른 전문 분야에서는 성능이 저하되는 경향이 있습니다. 이 연구에서는 비용이 많이 들고 희귀한 고품질 레이블 데이터를 사용하는 미세 조정 대신, 지속적인 사전 훈련을 통해 LLM을 다운스트림 요약 작업, 특히 시끄러운 실제 대화 내용을 처리하는 데 적응시키는 확장 가능하고 자기 지도 학습 방식의 접근 방식을 탐구합니다. 대규모, 레이블이 없는 비즈니스 대화 데이터를 사용하여 지속적인 사전 훈련이 대화 요약에서 모델의 성능을 향상시키는지 실험했습니다. 그 결과, 지속적인 사전 훈련이 도메인 내 및 도메인 외부 요약 벤치마크 모두에서 상당한 이점을 제공하며, 강력한 일반화 및 견고성을 유지하는 것을 확인했습니다. 또한, 데이터 선택 전략의 효과를 분석하여 요약 중심 산업 응용 분야에서 지속적인 사전 훈련을 적용하기 위한 실용적인 지침을 제공합니다.

시사점, 한계점

시사점:
지속적인 사전 훈련은 고품질 레이블 데이터 없이도 LLM의 요약 성능을 향상시킬 수 있는 효과적인 방법입니다.
도메인 내 및 도메인 외부 요약 벤치마크 모두에서 상당한 성능 향상을 보입니다.
강력한 일반화 및 견고성을 유지합니다.
실제 산업 응용 분야에 적용하기 위한 실용적인 지침을 제공합니다.
한계점:
논문에 제시된 실험 결과가 특정 데이터 및 모델 아키텍처에 국한될 수 있습니다.
데이터 선택 전략의 최적화에 대한 추가 연구가 필요합니다.
지속적인 사전 훈련의 계산 비용에 대한 자세한 분석이 필요합니다.
👍