[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP

Created by
  • Haebom

저자

Francesco Sovrano

개요

본 논문은 생성형 AI 시스템이 정보 확산에 기여하는 동시에 잘못된 정보와 편향을 확산시켜 UN 지속가능발전목표(SDGs)를 저해할 수 있다는 문제를 다룹니다. 설명 가능한 AI(XAI)는 AI 시스템의 내부 작동 방식을 밝히고 잘못된 동작이나 편향을 노출하는 것을 목표로 하지만, 기존 XAI 도구는 대규모 언어 모델(LLM)의 비수치적 특성을 처리하는 데 어려움을 겪습니다. 이 논문은 규칙 추출 알고리즘과 SHAP과 같은 전역 XAI 방법이 LLM에서 편향을 감지하는 효과를 조사합니다. 텍스트-서수 매핑 전략을 통해 비수치적 입력/출력을 수치적 특징으로 변환하여 이러한 도구가 LLM 생성 콘텐츠에서 오류 정보 관련 편향을 식별할 수 있도록 합니다. ChatGPT와 Llama와 같은 널리 사용되는 LLM에 다양한 복잡성(단변량, 접합, 비볼록)의 비선형 편향을 시스템 지침을 통해 주입하고, 전역 XAI 방법을 사용하여 이를 감지합니다. 실험 결과, RuleFit은 접합 및 비볼록 편향을 처리하는 데 어려움을 겪는 반면, SHAP은 접합 편향을 근사할 수 있지만 실행 가능한 규칙으로 표현할 수 없습니다. 따라서 SHAP과 RuleFit을 결합하여 더 많은 비단변량 편향을 감지하는 전역 규칙 추출 알고리즘인 RuleSHAP을 제시하고, RuleFit에 비해 주입된 편향 감지 성능을 평균 +94%(MRR@1) 향상시켰습니다.

시사점, 한계점

시사점:
LLM의 비수치적 특성을 고려한 새로운 전역 XAI 방법(RuleSHAP) 제시 및 성능 검증.
RuleSHAP을 통해 기존 방법(RuleFit)보다 더 다양한 유형의 편향 감지를 향상시킬 수 있음을 보여줌.
생성형 AI 시스템의 편향 감지 및 완화를 위한 실질적인 전략 제시.
한계점:
제안된 텍스트-서수 매핑 전략의 일반성 및 한계에 대한 추가 연구 필요.
RuleSHAP의 성능이 모든 유형의 편향에 대해 일관되게 우수한 것은 아님.
실제 세계 데이터에 대한 RuleSHAP의 일반화 성능 평가 필요.
LLM의 복잡성 증가에 따른 RuleSHAP의 확장성 문제 고려 필요.
👍