Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DACP: Domain-Adaptive Continual Pre-Training of Large Language Models for Phone Conversation Summarization

Created by
  • Haebom

저자

Xue-Yong Fu, Elena Khasanova, Md Tahmid Rahman Laskar, Harsh Saini, Shashi Bhushan TN

개요

대규모 언어 모델(LLM)은 텍스트 요약에서 인상적인 성능을 보이지만, 사전 학습 분포와 다른 전문 분야에 적용될 때 성능이 저하되는 경향이 있다. 파인 튜닝은 요약 품질을 향상시킬 수 있지만, 고품질의 레이블된 데이터가 필요하다. 본 연구에서는 잡음이 있는 실제 대화 내용을 포함하는 다운스트림 요약 작업에 LLM을 적응시키기 위해 확장 가능하고 자기 지도 학습 방식인 지속적인 사전 학습을 탐구한다. 대규모의 레이블되지 않은 비즈니스 대화 데이터를 사용하여 지속적인 사전 학습이 대화 요약에서 모델의 능력을 향상시키는지에 대한 광범위한 실험을 수행했다. 그 결과, 지속적인 사전 학습이 in-domain 및 out-of-domain 요약 벤치마크 모두에서 상당한 이점을 얻었으며, 강력한 일반화 및 견고성을 유지함을 확인했다. 또한 데이터 선택 전략의 효과를 분석하여 요약 중심의 산업 응용 분야에서 지속적인 사전 학습을 적용하기 위한 실질적인 지침을 제공한다.

시사점, 한계점

시사점:
지속적인 사전 학습은 고품질 레이블된 데이터 없이도 LLM을 특정 도메인에 효과적으로 적응시킬 수 있는 방법이다.
지속적인 사전 학습은 in-domain 및 out-of-domain 요약 모두에서 성능 향상을 가져온다.
데이터 선택 전략은 지속적인 사전 학습의 성능에 영향을 미칠 수 있으며, 산업 응용 분야에 적용하기 위한 실질적인 지침을 제공한다.
한계점:
본 연구는 특정 종류의 데이터(비즈니스 대화)에 초점을 맞추고 있으므로, 다른 도메인에 대한 일반화 가능성을 추가적으로 검증해야 한다.
데이터 선택 전략의 효과에 대한 추가적인 분석이 필요하다.
지속적인 사전 학습의 최적 파라미터 및 하이퍼파라미터에 대한 연구가 필요하다.
👍