LZ Penalty: An information-theoretic repetition penalty for autoregressive language models
Created by
Haebom
저자
Antonio A. Ginart, Naveen Kodali, Jason Lee, Caiming Xiong, Silvio Savarese, John R. Emmons
개요
본 논문은 자기회귀 언어 모델에서 퇴화된 반복을 줄이기 위해 설계된 새로운 페널티인 LZ 페널티를 제안한다. LZ77 압축 알고리즘의 코드 길이를 기반으로 하는 이 페널티는 예측-압축 이중성 관점에서, 높은 압축률을 가지는 정보를 제거한 후 잔여 분포에서 샘플링하는 것으로 해석될 수 있다. 실험 결과, LZ 페널티는 최첨단 오픈소스 추론 모델에서 탐욕적 디코딩(온도 0)을 사용하더라도 성능 저하 없이 퇴화된 반복을 방지함을 보여준다. 반면, 기존의 주파수 페널티와 반복 페널티는 최대 4%의 퇴화된 반복률을 보였다.
시사점, 한계점
•
시사점:
◦
자기회귀 언어 모델의 퇴화된 반복 문제를 효과적으로 해결하는 새로운 페널티 함수(LZ 페널티)를 제시.