본 논문은 기존의 블랙박스 모델에 대한 사후 설명 방법들이 신뢰성과 인간의 해석 가능성에 어려움을 겪는 문제를 해결하기 위해, 설명 가능한 인공지능(XAI) 모델인 B-cos 네트워크를 자연어 처리(NLP) 분야에 적용한 연구입니다. 기존의 컴퓨터 비전 분야에 국한되었던 B-cos 네트워크를 사전 훈련된 언어 모델에 적용하여 B-cos 언어 모델(B-cos LMs)을 제시합니다. B-cos 변환과 과제 미세 조정을 결합하는 방식으로 효율성을 높였으며, 자동 및 인간 평가 결과를 통해 기존의 사후 설명 방법보다 더 신뢰할 수 있고 인간이 이해하기 쉬운 설명을 생성하면서 동시에 기존의 미세 조정 방식과 비슷한 수준의 과제 성능을 유지함을 보여줍니다. 또한, B-cos LMs의 학습 과정과 설명 패턴을 심층적으로 분석하고, 최초로 디코더 전용 모델을 B-cos LMs로 변환하여 생성 작업에 적용하는 연구를 진행했습니다.