Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reconsidering LLM Uncertainty Estimation Methods in the Wild

Created by
  • Haebom

저자

Yavuz Bakman, Duygu Nur Yaldiz, Sungmin Kang, Tuo Zhang, Baturalp Buyukates, Salman Avestimehr, Sai Praneeth Karimireddy

개요

본 논문은 실제 환경에서 대규모 언어 모델(LLM)의 불확실성 추정(UE) 방법을 배포하는 데 따르는 네 가지 주요 측면을 체계적으로 조사합니다. 구체적으로, (1) 의사결정 임계값 선택에 대한 UE 방법의 민감도, (2) 오타, 적대적 프롬프트 및 이전 채팅 기록과 같은 쿼리 변환에 대한 강건성, (3) 장문 생성에 대한 적용 가능성, 그리고 (4) 단일 쿼리에 대한 여러 UE 점수 처리 전략을 평가합니다. 19가지 UE 방법에 대한 평가 결과, 대부분의 방법은 보정 데이터 세트에 분포 변화가 있을 때 임계값 선택에 매우 민감한 것으로 나타났습니다. 이러한 방법들은 일반적으로 이전 채팅 기록과 오타에 대해 강건성을 보이지만, 적대적 프롬프트에는 상당히 취약합니다. 또한, 기존 UE 방법은 다양한 전략을 통해 장문 생성에 적용될 수 있지만, 여전히 개선의 여지가 상당히 많습니다. 마지막으로, 테스트 시점에 여러 UE 점수를 앙상블링하는 것은 상당한 성능 향상을 제공하며, 실용적인 개선 전략으로서의 잠재력을 강조합니다.

시사점, 한계점

시사점:
여러 UE 점수를 앙상블링하는 것이 성능 향상에 효과적임을 보여줌.
실제 환경에서 LLM의 UE 방법 배포 시 고려해야 할 중요한 측면(임계값 민감도, 쿼리 변환에 대한 강건성, 장문 생성 적용 가능성, 다중 UE 점수 처리)을 제시.
오타나 이전 채팅 기록에 대한 UE 방법의 강건성 확인.
한계점:
대부분의 UE 방법이 임계값 선택에 매우 민감하며, 특히 보정 데이터셋의 분포 변화에 취약함.
적대적 프롬프트에 대한 UE 방법의 취약성이 드러남.
장문 생성에 대한 UE 방법의 적용 가능성은 여전히 개선의 여지가 많음.
👍