Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Concept-Based Interpretability for Toxicity Detection

Created by
  • Haebom
Category
Empty

저자

Samarth Garg, Deeksha Varshney, Divya Singh

개요

소셜 네트워크의 발전으로 유해 콘텐츠 확산이 심화됨에 따라, 본 연구는 텍스트 데이터 내 독성 감지에 대한 개념 기반 설명을 탐구한다. 특히, 욕설, 위협, 모욕, 정체성 공격, 성적 묘사 등 독성 감지 데이터셋의 하위 유형 속성을 활용하여 독성을 나타내는 개념으로 사용한다. 모델의 출력에 직접적인 영향을 미치는 개념의 변화를 측정하는 Concept Gradient (CG) 방법을 기반으로 한 해석 가능성 기법을 도입하여, 입력 특징에만 집중하는 기존의 기울기 기반 방법론을 확장한다. 또한, 텍스트 분류 모델의 오분류에 기여하는 유해 단어를 포착하는 Targeted Lexicon Set을 구성하고, Word-Concept Alignment (WCA) 점수를 계산하여 해당 단어가 독성 개념에 대한 과도한 귀인으로 인해 발생하는 오류의 정도를 정량화한다. 마지막으로, 사전 정의된 유해 렉시콘 세트를 제외한 독성 샘플을 생성하는 렉시콘 프리 증강 전략을 제시하여, 명시적인 어휘 중첩이 제거된 경우에도 과도한 귀인이 지속되는지 조사하고, 모델의 더 넓은 독성 언어 패턴에 대한 귀인을 분석한다.

시사점, 한계점

시사점:
Concept Gradient (CG) 방법을 활용한 해석 가능성 기법 도입으로 독성 감지에 대한 인과 관계적 해석 제공.
Targeted Lexicon Set 및 Word-Concept Alignment (WCA) 점수를 통한 오분류 원인 분석.
렉시콘 프리 증강 전략을 통해 모델의 독성 언어 패턴에 대한 이해를 심화.
한계점:
연구의 구체적인 결과 및 성능 평가는 제시되지 않음.
개념 기반 설명 및 Targeted Lexicon Set, WCA, 렉시콘 프리 증강 전략의 효과에 대한 정량적 분석 부재.
제안된 방법론의 일반화 가능성 및 다른 데이터셋/모델에 대한 적용 가능성에 대한 논의 부족.
👍