Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification

Created by
  • Haebom

저자

Akram Elbouanani, Evan Dufraisse, Adrian Popescu

개요

LLM의 정치적 편향이 후속 애플리케이션에 부정적인 영향을 미칠 수 있다는 점을 고려하여, 기존의 편향 분석 방법이 가진 한계(소규모 중간 과제 의존, LLM 자체를 분석에 활용하여 편향을 증폭시키는 문제)를 극복하기 위한 새로운 접근법을 제시한다. 본 연구는 동일 문장 내 대상 개체에 따라 LLM의 감정 예측이 달라지는 현상을 활용하여 엔트로피 기반의 불일치 척도를 정의하고, 6개 언어, 7개 모델을 사용하여 1319명의 다양한 정치인 이름을 450개의 정치적 문장에 삽입하여 대상 지향적 감정을 예측한다. 그 결과 모든 조합에서 불일치를 관찰하였고, 다양한 수준에서 통계적으로 견고한 분석을 통해 좌파 및 극우 정치인에 대한 긍정적 및 부정적 편향과 유사한 정치적 성향을 가진 정치인 간의 긍정적 상관관계를 확인하였다. 또한 서구 언어에서 편향 강도가 더 높고, 큰 모델일수록 더 강하고 일관된 편향을 보이며 유사 언어 간의 차이를 줄이는 것을 확인하였다. 마지막으로, 정치인 이름을 허구적이지만 그럴듯한 대응물로 대체하여 대상 지향적 감정 분류(TSC)에서 LLM의 신뢰성을 부분적으로 완화하였다.

시사점, 한계점

시사점:
LLM의 정치적 편향을 측정하는 새로운 방법 제시: 엔트로피 기반 불일치 척도를 활용하여 LLM의 감정 예측 변동성을 정량화.
다양한 언어와 모델에서 일관되게 편향 존재 확인: 서구 언어에서 더 강한 편향, 큰 모델에서 더 강하고 일관된 편향 발견.
정치적 성향 유사성과 편향의 상관관계 확인.
허구적 대응물 활용을 통한 LLM 신뢰성 부분적 개선 가능성 제시.
한계점:
분석에 사용된 정치인 및 문장 데이터의 대표성에 대한 검토 필요.
허구적 대응물 사용을 통한 편향 완화의 효과에 대한 추가 연구 필요.
분석 대상 언어 및 모델의 제한.
다른 유형의 편향 (인종, 성별 등)에 대한 고려 부족.
👍