Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LZ Penalty: An information-theoretic repetition penalty for autoregressive language models

Created by
  • Haebom

저자

Antonio A. Ginart, Naveen Kodali, Jason Lee, Caiming Xiong, Silvio Savarese, John R. Emmons

개요

본 논문은 자기회귀 언어 모델에서 퇴화된 반복을 줄이기 위해 설계된 새로운 페널티인 LZ 페널티를 제안한다. LZ77 압축 알고리즘의 코드 길이를 기반으로 하는 이 페널티는 예측-압축 이중성 관점에서, 높은 압축률을 가지는 정보를 제거한 후 잔여 분포에서 샘플링하는 것으로 해석될 수 있다. 실험 결과, LZ 페널티는 최첨단 오픈소스 추론 모델에서 탐욕적 디코딩(온도 0)을 사용하더라도 성능 저하 없이 퇴화된 반복을 방지함을 보여준다. 반면, 기존의 주파수 페널티와 반복 페널티는 최대 4%의 퇴화된 반복률을 보였다.

시사점, 한계점

시사점:
자기회귀 언어 모델의 퇴화된 반복 문제를 효과적으로 해결하는 새로운 페널티 함수(LZ 페널티)를 제시.
탐욕적 디코딩을 통해 추론 속도 향상 및 계산 비용 절감 가능성 제시.
기존 페널티 함수의 한계점을 극복하고 성능 향상을 보여줌.
예측-압축 이중성 관점에서 페널티 함수의 작동 원리를 명확히 설명.
한계점:
LZ 페널티의 성능이 특정 모델 및 데이터셋에 국한될 가능성.
LZ77 압축 알고리즘의 복잡성으로 인한 계산 비용 증가 가능성.
다양한 모델 아키텍처 및 디코딩 전략에 대한 추가적인 실험 필요.
👍