Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions

작성자

Haebom

카테고리

Empty

저자

Jagdish Tripathy, Marcus Buckmann

💡 개요

본 연구는 고위험 의사결정에 사용되는 LLM이 겉으로는 공정한 결과를 내놓지만 내부적으로는 편향된 표현을 유지하는 문제를 탐구합니다. 연구진은 인종 기반 편향이 내재된 모기지 승인 데이터셋을 활용하여, 출력 수준에서는 편향이 나타나지 않지만 내부 표현에서 편향이 증폭되고 있음을 발견했습니다. 더 나아가, 이 억압된 내부 편향이 의사결정에 영향을 미치며, 특정 인구 집단에 대해서는 비대칭적으로 작용한다는 것을 입증했습니다.

🔑 시사점 및 한계

•

LLM의 공정한 출력은 내부 편향을 감추는 효과적인 기제일 수 있으므로, 출력만을 평가하는 방식으로는 AI의 편향성을 완전히 파악하기 어렵습니다.

•

내부 표현에 대한 분석을 포함하는 다층적 평가 프레임워크가 고위험 의사결정 분야에서 AI 거버넌스를 위해 필요합니다.

•

연구에서 발견된 내부 편향의 비대칭성과 취약성은 적대적 프롬프트 엔지니어링 및 효율적인 파인튜닝과 같은 공격 기법에 대한 가능성을 시사합니다.

•

본 연구는 특정 고위험 의사결정 시나리오(모기지 승인)에 집중했으며, 다른 고위험 분야에서의 편향의 양상과 그 영향력에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage