본 연구는 대규모 언어 모델(LLM)의 설명 가능성을 높이기 위해 XAI(eXplainable AI) 기법의 효과를 평가하는 포괄적인 프레임워크를 제시합니다. LIME, SHAP, Integrated Gradients, LRP, AMV 다섯 가지 XAI 기법을 IMDB 영화 리뷰 및 트윗 감정 추출 데이터셋에 적용하여, Human-reasoning Agreement, Robustness, Consistency, Contrastivity 네 가지 지표를 통해 다섯 가지 LLM에서 평가합니다. 결과적으로 LIME은 여러 LLM과 평가 지표에서 높은 점수를 달성했고, AMV는 뛰어난 Robustness와 거의 완벽한 Consistency를 보였으며, LRP는 특히 복잡한 모델에서 Contrastivity가 뛰어났음을 보여줍니다. 이 연구는 다양한 XAI 기법의 강점과 한계에 대한 통찰력을 제공하여 LLM에 적합한 XAI 기법을 개발하고 선택하는 데 도움을 줍니다.