Revitalizing Black-Box Interpretability: Actionable Interpretability for LLMs via Proxy Models

Created by

Haebom

저자

Junhao Liu, Haonan Yu, Zhenyu Yan, Xin Zhang

💡 개요

본 논문은 대규모 언어 모델(LLM)의 후처리 설명 가능성(interpretability)에 대한 높은 계산 비용 문제를 해결하기 위해, 효율적인 모델을 사용하여 LLM의 의사 결정 경계를 근사하는 경제적인 프록시(proxy) 모델 프레임워크를 제안합니다. 제안된 메커니즘은 통계적으로 로컬 정렬을 검증하고, 이를 통해 LLM 최적화를 위한 실행 가능한 설명 가능성을 제공합니다. 실험 결과, 프록시 설명은 LLM 비용의 11%만으로 90% 이상의 충실도를 달성하며, 프롬프트 압축 및 악성 데이터 제거와 같은 실제 응용에서 유용성을 입증했습니다.

🔑 시사점 및 한계

•

LLM의 후처리 설명 가능성에 대한 높은 계산 비용 문제를 효과적으로 해결하여 실질적인 응용 가능성을 높였습니다.

•

제안된 프록시 모델 프레임워크는 LLM 최적화를 위한 실행 가능한 도구를 제공하며, 설명 가능성을 수동적인 관찰에서 능동적인 개발 도구로 전환시켰습니다.

•

프롬프트 압축 및 악성 데이터 제거와 같은 실제 LLM 개발 작업에서 프록시 설명의 효과적인 활용 가능성을 입증했습니다.

•

제안된 프록시 모델의 설명이 LLM 자체의 복잡한 의사 결정 과정을 완벽하게 반영하지 못할 수 있으며, 프록시 모델의 선택 및 학습 방법이 설명의 정확성에 영향을 미칠 수 있습니다.

PDF 보기

Made with Slashpage