Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads

Created by
  • Haebom
Category
Empty

저자

Jingwei Ni, Ekaterina Fadeeva, Tianyi Wu, Mubashara Akhtar, Jiaheng Zhang, Elliott Ash, Markus Leippold, Timothy Baldwin, See-Kiong Ng, Artem Shelmanov, Mrinmaya Sachan

개요

복잡한 작업을 해결하기 위해 LLM은 긴 다단계 추론 체인을 생성해야 합니다. 개별 추론 단계의 정확성을 검증하면 LLM의 성능과 효율성을 향상시키고 솔루션의 해석 가능성을 높일 수 있습니다. 기존 검증 방법은 계산 비용이 많이 들거나 특정 도메인으로 제한되거나 대규모의 사람 또는 모델 생성 주석이 필요합니다. 따라서, 데이터 기반 불확실성 점수를 기반으로 하는 단계별 추론 검증을 위한 경량 대안을 제안합니다. 동결된 LLM의 내부 상태를 사용하여 생성 과정에서 추론 단계의 불확실성을 추정하는 변환기 기반 불확실성 정량화 헤드(UHead)를 훈련시킵니다. 이 접근 방식은 완전 자동입니다. 대상 레이블은 다른 더 큰 LLM(예: DeepSeek R1) 또는 원래 모델 자체에 의해 자체 지도 방식으로 생성됩니다. UHead는 효과적이고 경량이며 1000만 개 미만의 매개변수를 포함합니다. 수학, 계획, 일반 지식 질문 답변을 포함한 여러 도메인에서 최대 810배 더 큰 PRM의 성능과 일치하거나 심지어 능가합니다. LLM의 내부 상태가 불확실성을 인코딩하고 추론 검증을 위한 신뢰할 수 있는 신호로 작용할 수 있으며, 확장 가능하고 일반화 가능한 자기 성찰 LLM을 향한 유망한 방향을 제시합니다.

시사점, 한계점

경량 불확실성 정량화 헤드(UHead)를 사용하여 LLM 추론 단계의 불확실성을 효과적으로 추정합니다.
UHead는 기존의 계산 비용이 많이 드는 검증 방법보다 성능이 뛰어나거나 유사합니다.
완전 자동화된 방식으로 대상 레이블을 생성하여 주석 요구 사항을 줄입니다.
LLM의 내부 상태가 불확실성 신호로 활용될 수 있음을 보여줍니다.
한계점은 특정 LLM 아키텍처 및 훈련 데이터에 대한 의존성, 그리고 불확실성 추정의 정확성을 개선할 여지가 있다는 점입니다.
👍