본 논문은 생성형 AI 시스템이 정보 확산에 기여하는 동시에 잘못된 정보와 편향을 확산시켜 UN 지속가능발전목표(SDGs)를 저해할 수 있다는 문제를 다룹니다. 설명 가능한 AI(XAI)는 AI 시스템의 내부 작동 방식을 밝히고 잘못된 동작이나 편향을 노출하는 것을 목표로 하지만, 기존 XAI 도구는 대규모 언어 모델(LLM)의 비수치적 특성을 처리하는 데 어려움을 겪습니다. 이 논문은 규칙 추출 알고리즘과 SHAP과 같은 전역 XAI 방법이 LLM에서 편향을 감지하는 효과를 조사합니다. 텍스트-서수 매핑 전략을 통해 비수치적 입력/출력을 수치적 특징으로 변환하여 이러한 도구가 LLM 생성 콘텐츠에서 오류 정보 관련 편향을 식별할 수 있도록 합니다. ChatGPT와 Llama와 같은 널리 사용되는 LLM에 다양한 복잡성(단변량, 접합, 비볼록)의 비선형 편향을 시스템 지침을 통해 주입하고, 전역 XAI 방법을 사용하여 이를 감지합니다. 실험 결과, RuleFit은 접합 및 비볼록 편향을 처리하는 데 어려움을 겪는 반면, SHAP은 접합 편향을 근사할 수 있지만 실행 가능한 규칙으로 표현할 수 없습니다. 따라서 SHAP과 RuleFit을 결합하여 더 많은 비단변량 편향을 감지하는 전역 규칙 추출 알고리즘인 RuleSHAP을 제시하고, RuleFit에 비해 주입된 편향 감지 성능을 평균 +94%(MRR@1) 향상시켰습니다.