Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Attribution Crisis in LLM Search Results

Created by
  • Haebom

저자

Ilan Strauss, Jangho Yang, Tim O'Reilly, Sruly Rosenblat, Isobel Moure

개요

웹 기반 대규모 언어 모델(LLM)은 웹 페이지를 참조하면서도 출처를 명시하지 않는 경우가 많아, 실제 참조된 URL과 관련 URL 간의 차이인 "출처 간격" 문제가 발생합니다. 본 연구는 검색 기능이 있는 LLM 시스템을 사용한 약 14,000건의 실제 LMArena 대화 로그를 바탕으로 세 가지 활용 패턴을 제시합니다. 첫째, Google Gemini의 34%와 OpenAI GPT-4o의 24%는 온라인 콘텐츠를 명시적으로 가져오지 않고 응답을 생성합니다. 둘째, Gemini는 응답의 92%에서 클릭 가능한 출처를 제공하지 않습니다. 셋째, Perplexity의 Sonar는 질문당 약 10개의 관련 페이지를 방문하지만 3~4개만 인용합니다. 음이항 허들 모델 분석 결과, Gemini 또는 Sonar가 응답한 질문의 평균적으로 약 3개의 관련 웹사이트가 인용되지 않은 반면, GPT-4o의 미인용 간격은 더 나은 출처 표시보다는 선택적인 로그 공개로 설명될 수 있습니다. 추가적인 관련 웹 페이지 방문당 제공되는 추가 인용 수인 인용 효율은 모델에 따라 0.19에서 0.45까지 크게 달라, 검색 설계가 기술적 한계가 아닌 생태계에 미치는 영향을 결정함을 보여줍니다. 표준화된 원격 측정 및 검색 추적과 인용 로그의 완전한 공개를 기반으로 한 투명한 LLM 검색 아키텍처를 권장합니다.

시사점, 한계점

시사점:
웹 기반 LLM의 출처 표기 문제(attribution gap) 심각성을 실증적으로 보여줌.
LLM 모델 간 출처 표기의 차이가 기술적 한계보다는 검색 설계에 의해 크게 좌우됨을 밝힘.
투명한 LLM 검색 아키텍처의 필요성과 표준화된 원격 측정 및 로그 공개의 중요성 강조.
한계점:
분석에 사용된 데이터가 LMArena 대화 로그에 한정되어 일반화 가능성에 대한 추가 검토 필요.
특정 LLM 모델에 대한 분석 결과이므로 다른 모델에도 동일하게 적용될 수 있는지에 대한 추가 연구 필요.
"출처 간격" 측정의 정확성 및 객관성에 대한 추가적인 논의 필요.
👍