본 논문은 대규모 웹 문서 검색 환경에서 BM25, SPLADE, Expanded-SPLADE 모델을 비교 분석한다. 수천만에서 수십억 개의 웹 문서 제목을 포함하는 데이터셋을 대상으로 모델의 효과성과 효율성을 평가한다. 희소 어휘 표현을 사용하는 SPLADE 및 Expanded-SPLADE는 특히 복잡한 질의에 대해 BM25보다 우수한 검색 성능을 보이지만, 더 높은 계산 비용이 발생한다. 이러한 비용을 완화하고 성능 저하 없이 효율성을 향상시키기 위해 문서 중심 가지치기, 상위 k 질의어 선택, 항 임계값을 사용한 부울 질의를 포함한 가지치기 전략을 제시한다. Expanded-SPLADE가 특히 대규모 데이터셋에서 효과성과 효율성 간에 최적의 균형을 이룬다는 것을 확인했다.