[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Empirical Study of Many-to-Many Summarization with Large Language Models

Created by
  • Haebom

저자

Jiaan Wang, Fandong Meng, Zengkui Sun, Yunlong Liang, Yuxuan Cao, Jiarong Xu, Haoxiang Shi, Jie Zhou

개요

본 논문은 다국어 대량 요약(M2MS)에서 대규모 언어 모델(LLM)의 성능을 체계적으로 실험적으로 연구한 논문입니다. 기존의 8개 도메인 특화 데이터셋을 재구성하여 5개 도메인, 6개 언어에 걸쳐 47.8K개의 샘플을 포함하는 M2MS 데이터셋을 제시합니다. 이 데이터셋을 사용하여 18개의 LLM을 제로샷 방식과 지시어 튜닝 방식으로 벤치마킹하고, 미세 조정된 기존 모델과 비교 분석합니다. 실험 결과, 제로샷 LLM은 미세 조정된 기존 모델과 비슷한 성능을 보였으며, 지시어 튜닝을 거친 오픈소스 LLM은 제로샷 LLM(GPT-4 포함)을 능가하는 성능을 보였습니다. 하지만, 사람에 의한 평가 결과 LLM은 여전히 사실성 문제를 안고 있으며, 지시어 튜닝은 이 문제를 더욱 악화시킬 수 있음을 보였습니다.

시사점, 한계점

시사점:
제로샷 LLM이 미세 조정된 기존 모델과 경쟁력 있는 성능을 보임.
지시어 튜닝을 통해 오픈소스 LLM의 M2MS 성능을 크게 향상시킬 수 있음.
지시어 튜닝이 LLM의 일반적인 작업 해결 능력을 저해하지 않음.
대규모 언어 모델을 활용한 다국어 대량 요약의 가능성을 제시.
한계점:
LLM은 여전히 사실성 문제를 가지고 있음.
지시어 튜닝이 사실성 문제를 악화시킬 수 있음.
실제 응용 프로그램에서 LLM 요약기를 구축할 때 사실 오류를 제어하는 방법이 중요하며, 향후 연구가 필요함.
👍