Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Deduplication Techniques for Economic Research Paper Titles with a Focus on Semantic Similarity using NLP and LLMs

Created by
  • Haebom

저자

Doohee You, S Fraiberger

개요

본 연구는 경제 연구 논문 제목의 대규모 NLP 데이터셋에 대한 효율적인 중복 제거 기법을 조사합니다. 다양한 페어링 방법과 기존 거리 측정법(Levenshtein 거리, 코사인 유사도) 및 의미 평가를 위한 sBERT 모델을 탐구합니다. 연구 결과는 다양한 방법에 따른 관찰된 의미적 유사성을 바탕으로 중복의 잠재적 발생률이 낮음을 시사합니다. 보다 결정적인 평가를 위해 사람이 주석을 단 기준 데이터 세트를 사용한 추가 탐구가 완료되었습니다. 결과는 NLP, LLM 기반 거리 측정법의 결과를 뒷받침합니다.

시사점, 한계점

시사점: 다양한 방법을 통한 의미적 유사도 분석을 통해 경제 연구 논문 제목 데이터셋에서 중복 발생률이 낮을 것으로 예상됨을 시사합니다. sBERT와 같은 NLP, LLM 기반 거리 측정법의 유용성을 확인했습니다.
한계점: 결정적인 평가를 위해서는 사람이 주석을 단 기준 데이터 세트에 대한 추가 분석이 필요합니다. 중복으로 판단되는 기준의 명확성 및 객관성에 대한 추가 검토가 필요할 수 있습니다. 분석 대상 데이터셋의 규모 및 특성에 따라 일반화 가능성에 한계가 있을 수 있습니다.
👍