LLM 기반 검색 에이전트가 복잡한 다중 턴 상호작용에서 신뢰도를 언어화하여 표현할 수 있는지 연구. 단일 상호작용에서의 신뢰도 출력과는 달리, 긴 일련의 액션 이후 신뢰도를 표현하는 것은 더 어려운 과제임. 오픈 소스 에이전트 모델을 대상으로 실험한 결과, 높은 신뢰도에서는 높은 정확도를 보이고, 낮은 신뢰도에서는 거의 정확도가 없는 것을 확인. 이를 바탕으로, 신뢰도 점수를 사용하여 답변 품질을 결정하고, 만족스러운 신뢰도 수준에 도달할 때까지 모델이 다시 시도하도록 하는 Test-Time Scaling (TTS) 방법 제안. 제안된 방법은 토큰 소비를 크게 줄이면서 기존의 고정 예산 TTS 방법과 비교하여 경쟁력 있는 성능을 보임.
시사점, 한계점
•
LLM 기반 검색 에이전트의 신뢰도 표현 능력 연구를 통해 모델 불확실성 및 답변 신뢰도 개선 가능성 제시.
•
다중 턴 상호작용에서의 신뢰도 연구는 제한적이었으나, 본 연구를 통해 해당 분야에 대한 심층적 탐구 진행.
•
Test-Time Scaling (TTS) 방법을 통해 토큰 소비를 줄이면서도 경쟁력 있는 성능 확보.
•
오픈 소스 모델에 대한 실험으로 일반화 가능성에 대한 추가 연구 필요.
•
제안된 TTS 방법의 최적 파라미터 설정 및 다양한 모델에 대한 검증 필요.
•
단일 도메인 또는 특정 작업에 대한 실험으로 일반적인 적용 가능성에 대한 추가 연구 필요.