본 논문은 실제 환경에서 대규모 언어 모델(LLM)의 불확실성 추정(UE) 방법을 배포하는 데 따르는 네 가지 주요 측면을 체계적으로 조사합니다. 구체적으로, (1) 의사결정 임계값 선택에 대한 UE 방법의 민감도, (2) 오타, 적대적 프롬프트 및 이전 채팅 기록과 같은 쿼리 변환에 대한 강건성, (3) 장문 생성에 대한 적용 가능성, 그리고 (4) 단일 쿼리에 대한 여러 UE 점수 처리 전략을 평가합니다. 19가지 UE 방법에 대한 평가 결과, 대부분의 방법은 보정 데이터 세트에 분포 변화가 있을 때 임계값 선택에 매우 민감한 것으로 나타났습니다. 이러한 방법들은 일반적으로 이전 채팅 기록과 오타에 대해 강건성을 보이지만, 적대적 프롬프트에는 상당히 취약합니다. 또한, 기존 UE 방법은 다양한 전략을 통해 장문 생성에 적용될 수 있지만, 여전히 개선의 여지가 상당히 많습니다. 마지막으로, 테스트 시점에 여러 UE 점수를 앙상블링하는 것은 상당한 성능 향상을 제공하며, 실용적인 개선 전략으로서의 잠재력을 강조합니다.