LLM의 신뢰도는 모델의 불확실성과 답변의 신뢰도를 나타내는 유용한 지표입니다. 기존 연구는 단일 턴 시나리오에 중점을 두었지만, 복잡한 다중 턴 상호 작용에서의 신뢰도에 대한 연구는 제한적입니다. 본 논문에서는 LLM 기반 검색 에이전트가 긴 일련의 작업 후에 언어화된 신뢰도 점수를 통해 자신의 신뢰도를 전달할 수 있는지 조사합니다. 이는 단일 상호 작용에서 신뢰도를 출력하는 것보다 훨씬 어려운 작업입니다. 오픈 소스 에이전트 모델을 대상으로 실험한 결과, 모델은 신뢰도가 높을 때 높은 작업 정확도를 보였고, 신뢰도가 낮을 때는 거의 0에 가까운 정확도를 보였습니다. 이 관찰을 바탕으로, 답변의 품질을 결정하고, 만족스러운 신뢰도 수준에 도달할 때까지 모델이 다시 시도하도록 장려하는 Test-Time Scaling (TTS) 방법을 제안합니다. 제안된 방법은 토큰 소비를 크게 줄이면서, 기준 고정 예산 TTS 방법과 비교하여 경쟁력 있는 성능을 보였습니다.