웹 기반 대규모 언어 모델(LLM)은 웹 페이지를 참조하면서도 출처를 명시하지 않는 경우가 많아, 실제 참조된 URL과 관련 URL 간의 차이인 "출처 간격" 문제가 발생합니다. 본 연구는 검색 기능이 있는 LLM 시스템을 사용한 약 14,000건의 실제 LMArena 대화 로그를 바탕으로 세 가지 활용 패턴을 제시합니다. 첫째, Google Gemini의 34%와 OpenAI GPT-4o의 24%는 온라인 콘텐츠를 명시적으로 가져오지 않고 응답을 생성합니다. 둘째, Gemini는 응답의 92%에서 클릭 가능한 출처를 제공하지 않습니다. 셋째, Perplexity의 Sonar는 질문당 약 10개의 관련 페이지를 방문하지만 3~4개만 인용합니다. 음이항 허들 모델 분석 결과, Gemini 또는 Sonar가 응답한 질문의 평균적으로 약 3개의 관련 웹사이트가 인용되지 않은 반면, GPT-4o의 미인용 간격은 더 나은 출처 표시보다는 선택적인 로그 공개로 설명될 수 있습니다. 추가적인 관련 웹 페이지 방문당 제공되는 추가 인용 수인 인용 효율은 모델에 따라 0.19에서 0.45까지 크게 달라, 검색 설계가 기술적 한계가 아닌 생태계에 미치는 영향을 결정함을 보여줍니다. 표준화된 원격 측정 및 검색 추적과 인용 로그의 완전한 공개를 기반으로 한 투명한 LLM 검색 아키텍처를 권장합니다.