Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Are LLMs (Really) Ideological? An IRT-based Analysis and Alignment Tool for Perceived Socio-Economic Bias in LLMs

Created by
  • Haebom
Category
Empty

저자

Jasmin Wachter, Michael Radloff, Maja Smolej, Katharina Kinder-Kurlanda

개요

본 논문은 주관적인 인간의 판단에 의존하지 않고, 항목 반응 이론(IRT) 기반 프레임워크를 사용하여 대규모 언어 모델(LLM)에서 사회경제적 편향을 탐지하고 정량화하는 방법을 제시합니다. 기존 방법과 달리 IRT는 항목의 난이도를 고려하여 이데올로기적 편향 추정을 개선합니다. 두 가지 LLM 계열(Meta-LLaMa 3.2-1B-Instruct 및 Chat-GPT 3.5)을 미세 조정하여 서로 다른 이데올로기적 입장을 나타내고, 응답 회피 모델링과 응답된 응답에서 인식된 편향 추정의 두 단계 접근 방식을 제시합니다. 연구 결과 기존의 LLM은 당파성을 보이는 것보다 이데올로기적 참여를 회피하는 경향이 있음을 보여주며, 이는 기존의 당파성 주장에 이의를 제기합니다. 이 실증적으로 검증된 프레임워크는 AI 정렬 연구를 강화하고 더 공정한 AI 거버넌스를 촉진합니다.

시사점, 한계점

시사점:
IRT 기반 프레임워크를 활용하여 LLM의 사회경제적 편향을 객관적으로 측정 가능.
기존의 LLM이 당파성을 드러내기보다는 이데올로기적 질문 회피 경향을 보임을 밝힘.
AI 정렬 연구 및 공정한 AI 거버넌스 향상에 기여.
한계점:
특정 LLM 계열(Meta-LLaMa 3.2-1B-Instruct 및 Chat-GPT 3.5)에 대한 연구 결과이므로 일반화에 한계 존재.
IRT 모델의 가정 및 한계가 결과에 영향을 미칠 수 있음.
사회경제적 편향의 정의 및 측정에 대한 추가 연구 필요.
👍