Multi-Level Explanations for Generative Language Models
Created by
Haebom
저자
Lucas Monteiro Paes, Dennis Wei, Hyo Jin Do, Hendrik Strobelt, Ronny Luss, Amit Dhurandhar, Manish Nagireddy, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Werner Geyer, Soumya Ghosh
개요
본 논문은 문맥 기반 작업(요약 및 질의응답 등)에 사용되는 대규모 언어 모델(LLM)의 응답 생성 과정에 대한 이해를 높이기 위해, Multi-Level Explanations for Generative Language Models (MExGen) 기법을 제안합니다. MExGen은 문맥의 각 부분에 점수를 할당하여 모델 출력에 대한 영향력을 정량화하며, 추론 비용이 높고 입력 텍스트가 길며 출력이 텍스트인 문맥 기반 작업에 사용되는 LLM에 LIME 및 SHAP과 같은 기존의 attribution method를 확장합니다. 요약 및 질의응답 작업에 대한 자동 및 수동 평가를 통해 기존 방법 및 LLM 자체 설명보다 더 신뢰할 수 있는 설명을 제공함을 보여주며, ICX360 툴킷의 일부로 MExGen 코드를 공개합니다.