소셜 네트워크의 발전으로 유해 콘텐츠 확산이 심화됨에 따라, 본 연구는 텍스트 데이터 내 독성 감지에 대한 개념 기반 설명을 탐구한다. 특히, 욕설, 위협, 모욕, 정체성 공격, 성적 묘사 등 독성 감지 데이터셋의 하위 유형 속성을 활용하여 독성을 나타내는 개념으로 사용한다. 모델의 출력에 직접적인 영향을 미치는 개념의 변화를 측정하는 Concept Gradient (CG) 방법을 기반으로 한 해석 가능성 기법을 도입하여, 입력 특징에만 집중하는 기존의 기울기 기반 방법론을 확장한다. 또한, 텍스트 분류 모델의 오분류에 기여하는 유해 단어를 포착하는 Targeted Lexicon Set을 구성하고, Word-Concept Alignment (WCA) 점수를 계산하여 해당 단어가 독성 개념에 대한 과도한 귀인으로 인해 발생하는 오류의 정도를 정량화한다. 마지막으로, 사전 정의된 유해 렉시콘 세트를 제외한 독성 샘플을 생성하는 렉시콘 프리 증강 전략을 제시하여, 명시적인 어휘 중첩이 제거된 경우에도 과도한 귀인이 지속되는지 조사하고, 모델의 더 넓은 독성 언어 패턴에 대한 귀인을 분석한다.