본 논문은 대규모 언어 모델의 성능 향상을 위한 새로운 디코딩 방법인 Self-Truncation Best-of-N (ST-BoN)을 제안합니다. 기존 Best-of-N (BoN) 방법은 모든 샘플을 완전히 생성해야 하므로 GPU 메모리 오버헤드와 시간 지연이 크다는 한계가 있습니다. ST-BoN은 조기 샘플링 일관성을 이용하여 가장 유망한 샘플을 추정하고, 비효율적인 샘플들을 잘라냄으로써 메모리 사용량과 추론 시간을 줄입니다. 리워드 모델이 필요 없다는 점도 장점입니다. 실험 결과, ST-BoN은 기존 BoN에 비해 동적 GPU 메모리 오버헤드를 90% 이상, 시간 지연을 50% 이상 줄이면서도 비슷하거나 더 나은 성능을 달성했습니다.
시사점, 한계점
•
시사점:
◦
기존 BoN의 높은 메모리 소모 및 시간 지연 문제를 효과적으로 해결하는 새로운 디코딩 방법 제시.