본 논문은 대규모 언어 모델(LLM)의 자기회귀적 모델에서 지배적인 다음 토큰 예측 패러다임에 대해 다룹니다. 기존의 LLM들은 다양성과 일관성을 위해 온도 스케일링과 nucleus 샘플링을 기본 샘플링 방법으로 사용하지만, 모델이 불확실한 경우 성능이 저하되는 문제점이 있습니다. 이를 해결하기 위해, 본 논문에서는 새로운 훈련이 필요 없는 디코딩 전략인 Cautious Next Token Prediction (CNTP)을 제안합니다. CNTP는 모델의 예측 엔트로피가 높을 경우, 여러 번의 독립적인 시도를 수행하고 구두점을 만나면 중지합니다. 그 후, 가장 낮은 퍼플렉서티 점수를 가진 시도를 가장 가능성 높고 신뢰할 수 있는 경로로 선택합니다. 시도 횟수는 예측 신뢰도와 반비례하며, 모델의 신뢰도가 낮을수록 더 많은 시도를 수행합니다. LLM과 MLLM에 대한 광범위한 실험 결과, CNTP는 기존 디코딩 전략보다 성능이 우수하며, 자기 일관성과의 통합을 통해 더욱 향상된 성능을 보입니다.
시사점, 한계점
•
시사점:
◦
기존의 온도 스케일링 및 nucleus 샘플링 기반 디코딩 전략의 한계를 극복하는 새로운 디코딩 전략 CNTP 제시.
◦
LLM 및 MLLM에서 기존 방법보다 우수한 성능을 보임.
◦
자기 일관성과의 통합을 통해 추가적인 성능 향상 가능성 제시.
◦
LLM 디코딩의 기본 전략으로 자리 잡을 가능성.
•
한계점:
◦
CNTP의 계산 비용이 기존 방법보다 높을 수 있음. (시도 횟수 증가에 따른 계산량 증가)