본 논문은 검색 알고리즘의 목표가 LLM과의 정렬에 있으며, 이는 LLM에서의 지식 증류와 유사하다는 점을 지적합니다. 정보 이론 관점에서 증류된 언어 모델(DLM)과 원본 LLM 간의 정보 초점 유사성을 분석하고, DLM을 검색 알고리즘으로 활용하는 새로운 패러다임을 제안합니다. SpeContext는 이러한 통찰력을 바탕으로, 장문 맥락 추론을 위한 알고리즘 및 시스템 공동 설계를 제시합니다. SpeContext는 (1) 알고리즘 수준에서 DLM의 head-level attention 가중치 기반 경량 검색 헤드를 제안하여 파라미터 중복을 제거하고 90% 이상의 파라미터 감소를 달성합니다. (2) 시스템 수준에서 탄력적 로딩 전략을 통해 비동기적 사전 인출 데이터 흐름을 설계하여 KV 캐시 검색과 LLM 계산을 효과적으로 중첩합니다. (3) 컴파일 수준에서 이론적 메모리 모델을 구축하고 적응형 메모리 관리 시스템을 구현하여 GPU 메모리 활용을 극대화함으로써 가속화를 달성합니다. SpeContext는 클라우드 및 엣지 환경에서 배포 및 평가되었으며, Huggingface 프레임워크와 비교하여 클라우드에서 최대 24.89배, 엣지에서 10.06배의 처리량 향상을 달성했습니다. 정확도 손실은 거의 없으며 정확도와 처리량의 파레토 경계를 개선했습니다.