Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Active Layer-Contrastive Decoding Reduces Hallucination in Large Language Model Generation

Created by
  • Haebom

저자

Hongxiang Zhang, Hao Chen, Muhao Chen, Tianyi Zhang

개요

본 논문에서는 활성 계층 대조 디코딩(ActLCD)이라는 새로운 디코딩 전략을 제안합니다. 기존의 토큰 단위 디코딩 방식과 달리, ActLCD는 강화 학습 기반 정책을 사용하여 생성 과정 중 대조 계층을 적용할 시점을 동적으로 결정합니다. 보상 인식 분류기를 통해 사실성을 최적화함으로써, 긴 맥락에서의 환각(hallucination) 문제를 해결하고자 합니다. 다섯 가지 벤치마크 실험 결과, ActLCD는 기존 최첨단 방법들을 능가하는 성능을 보였습니다.

시사점, 한계점

시사점:
토큰 단위를 넘어, 생성 과정 전반의 사실성을 향상시키는 새로운 디코딩 전략 제시.
강화학습 기반의 동적 계층 적용을 통해 환각 문제 완화.
다양한 생성 시나리오에서 기존 최고 성능 기법들을 능가하는 성능 입증.
한계점:
제안된 방법의 계산 비용 및 효율성에 대한 추가적인 분석 필요.
다양한 종류의 LLM과 데이터셋에 대한 일반화 성능 평가 필요.
보상 인식 분류기의 설계 및 학습 과정에 대한 상세한 설명 부족.
👍