Sign In

Hallucinations in Bibliographic Recommendation: Citation Frequency as a Proxy for Training Data Redundancy

Created by
  • Haebom
Category
Empty

저자

Junichiro Niimi

개요

본 연구는 대규모 언어 모델(LLM)이 문헌 추천 시 가짜 논문을 생성하는 문제점을 해결하기 위해, LLM의 정확한 정보 생성 능력이 해당 지식의 생성 또는 암기에 따라 달라진다는 가설을 검증한다. 특히, 인용 횟수를 훈련 데이터 중복성(사전 훈련 데이터에서 주어진 참고 문헌이 반복적으로 표현되는 빈도)의 대리 변수로 사용하여, 인용 빈도가 LLM 출력에서 가짜 참고 문헌에 미치는 영향을 조사했다. GPT-4.1을 사용하여 20개의 컴퓨터 과학 분야에서 100개의 참고 문헌을 생성하고, 생성된 메타데이터와 실제 메타데이터 간의 코사인 유사성을 통해 사실적 일관성을 측정했다. 연구 결과, 인용 빈도가 높을수록 정확도가 높았으며, 약 1,000회 이상 인용된 논문은 거의 그대로 암기되는 경향을 보였다.

시사점, 한계점

시사점:
LLM이 생성하는 참고 문헌의 정확도는 연구 분야에 따라 다르다.
인용 횟수는 사실적 정확도와 강한 상관관계를 보인다.
약 1,000회 이상 인용된 논문의 경우, LLM이 거의 그대로 암기하는 수준으로 정확한 정보를 제공한다.
일반화에서 암기로의 전환 지점이 존재한다.
한계점:
연구 범위가 컴퓨터 과학 분야로 제한되어 있다.
단일 LLM 모델(GPT-4.1)만을 사용했다.
사실적 일관성을 측정하기 위해 코사인 유사성을 사용했지만, 다른 지표와의 비교가 부족하다.
👍