Epistemic Bias Injection: Biasing LLMs via Selective Context Retrieval

Created by

Haebom

저자

Hao Wu, Prateek Saxena

💡 개요

이 논문은 검색 증강 생성(RAG) 시스템에서 LLM이 외부 소스에서 검색하는 정보에 악의적인 편향을 주입하는 새로운 유형의 공격인 '인식 편향 주입(Epistemic Bias Injection, EBI)'을 연구합니다. EBI 공격은 사실적으로는 정확하지만 특정 관점을 과도하게 강조하는 텍스트를 주입하여, LLM의 답변이 공격자가 원하는 입장으로 치우치게 만듭니다.

🔑 시사점 및 한계

•

텍스트 임베딩을 기반으로 인식 편향을 측정하는 기하학적 지표를 개발하여 EBI 공격을 정량화하고 탐지하는 새로운 방법을 제시했습니다.

•

개발된 'BiasDef' 방어 메커니즘이 EBI 공격으로 인한 검색 편향과 LLM 답변의 편향을 효과적으로 줄일 수 있음을 실험적으로 입증했습니다.

•

제시된 EBI 공격은 기존의 검색 기반 방어 기법을 우회할 수 있으며, 이는 LLM의 신뢰성과 공정성에 대한 새로운 위협을 시사합니다.

•

향후 연구에서는 더 정교한 편향 주입 기법과 이를 탐지하기 위한 방어 전략 개발이 필요할 수 있습니다.

PDF 보기

Made with Slashpage