Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CiteBART: Learning to Generate Citations for Local Citation Recommendation

Created by
  • Haebom

저자

Ege Yi\u{g}it \c{C}elik, Selma Tekir

개요

본 논문은 인용 추천(LCR)을 위한 새로운 접근 방식을 제시하며, 특히 생성적 방식을 활용하여 인코더-디코더 아키텍처 내에서 인용 특화 사전 훈련을 수행합니다. 저자-날짜 인용 토큰을 마스킹하여 재구성을 학습하는 방식으로 두 가지 변형을 제안합니다. 첫 번째는 지역적 문맥만을 사용하는 CiteBART-Base이고, 두 번째는 인용 논문의 제목과 초록을 추가하여 학습 신호를 강화하는 CiteBART-Global입니다. CiteBART-Global은 대부분의 LCR 벤치마크에서 최첨단 성능을 달성했으며, Refseer 벤치마크에서 훈련된 모델이 가장 우수한 성능을 보였습니다. 이 논문은 또한 다양한 실험과 분석을 통해 CiteBART-Global의 일반화 능력과 환각(hallucination) 경향에 대한 자세한 통계를 제공합니다.

시사점, 한계점

시사점:
생성적 사전 훈련을 통해 LCR 성능을 향상시킴.
CiteBART-Global 모델은 대부분의 벤치마크에서 SOTA 달성.
Refseer 벤치마크에서 훈련된 모델이 가장 뛰어난 성능을 보임.
교차 데이터셋 일반화 능력 확인.
낮은 환각률(MaHR)을 보임.
한계점:
FullTextPeerRead 데이터셋과 같이 작은 데이터셋에서는 생성적 사전 훈련의 장점을 확인하기 어려움.
환각 현상에 대한 추가 연구 필요.
👍