본 논문은 공식 기록과 음성 텍스트 변환본 간의 의미는 같지만 구문이 다른 인용구 검색 시 발생하는 문제를 해결하기 위해, 정확한 밀리초 단위의 타임스탬프를 긴 대본에서 검색하는 벤치마크인 TimeStampEval을 소개한다. 두 단계로 이루어진 간단한 방법을 통해 검색 정확도를 크게 향상시키면서 추론 비용을 90% 이상 절감했다. 특히 AI가 주도하는 내레이션을 위해 의회 기록 클립을 모으는 자동화된 장편 팟캐스트를 예시로 들었다. 주요 과제는 문장별 타임스탬프가 지정된 대본과, 전사 또는 편집상의 차이로 인해 다를 수 있는 대상 인용구를 주었을 때 정확한 시작 및 종료 경계를 반환하는 것이다. 6개의 최신 LLM을 2,800문장(12만 토큰) 대본에 대해 평가한 결과, 프롬프트 디자인이 모델 선택보다 중요하며, 간결한 형식을 사용하고 쿼리를 대본 앞에 배치하면 정확도가 향상됨을 확인했다. 또한, 적절한 추론 예산으로 정확도를 높일 수 있으며, RapidFuzz 사전 필터링과 LLM 기반의 짧은 스니펫 검증을 결합한 "Assisted Fuzzy" 접근 방식을 통해 퍼지 매칭 정확도를 최대 50포인트까지 향상시키고, 지연 시간을 줄이며, 올바른 결과에 대한 비용을 최대 96%까지 절감할 수 있음을 확인했다.