본 연구는 경제 연구 논문 제목의 대규모 NLP 데이터셋에 대한 효율적인 중복 제거 기법을 조사합니다. 다양한 페어링 방법과 기존 거리 측정법(Levenshtein 거리, 코사인 유사도) 및 의미 평가를 위한 sBERT 모델을 탐구합니다. 연구 결과는 다양한 방법에 따른 관찰된 의미적 유사성을 바탕으로 중복의 잠재적 발생률이 낮음을 시사합니다. 보다 결정적인 평가를 위해 사람이 주석을 단 기준 데이터 세트를 사용한 추가 탐구가 완료되었습니다. 결과는 NLP, LLM 기반 거리 측정법의 결과를 뒷받침합니다.