본 논문은 주관적인 인간의 판단에 의존하지 않고, 항목 반응 이론(IRT) 기반 프레임워크를 사용하여 대규모 언어 모델(LLM)에서 사회경제적 편향을 탐지하고 정량화하는 방법을 제시합니다. 기존 방법과 달리 IRT는 항목의 난이도를 고려하여 이데올로기적 편향 추정을 개선합니다. 두 가지 LLM 계열(Meta-LLaMa 3.2-1B-Instruct 및 Chat-GPT 3.5)을 미세 조정하여 서로 다른 이데올로기적 입장을 나타내고, 응답 회피 모델링과 응답된 응답에서 인식된 편향 추정의 두 단계 접근 방식을 제시합니다. 연구 결과 기존의 LLM은 당파성을 보이는 것보다 이데올로기적 참여를 회피하는 경향이 있음을 보여주며, 이는 기존의 당파성 주장에 이의를 제기합니다. 이 실증적으로 검증된 프레임워크는 AI 정렬 연구를 강화하고 더 공정한 AI 거버넌스를 촉진합니다.