EuroParlVote는 정치적으로 민감한 맥락에서 대규모 언어 모델(LLM)을 평가하기 위한 새로운 벤치마크입니다. 유럽 의회 토론 연설을 명부 투표 결과와 연결하고, 각 유럽 의회 의원(MEP)의 성별, 나이, 국가, 정당과 같은 풍부한 인구 통계 메타데이터를 포함합니다. 본 연구는 EuroParlVote를 사용하여 최첨단 LLM을 성별 분류 및 투표 예측이라는 두 가지 과제에 대해 평가하여 일관된 편향 패턴을 밝혔습니다. LLM은 여성 MEP를 남성으로 잘못 분류하는 경우가 많으며, 여성 연설자의 투표를 시뮬레이션할 때 정확도가 떨어지는 것으로 나타났습니다. 정치적으로 LLM은 중도파를 선호하는 경향이 있으며, 극좌와 극우 모두에서 성능이 저조합니다. GPT-4와 같은 독점 모델은 견고성과 공정성 측면에서 오픈소스 대안보다 성능이 뛰어납니다. 본 연구는 향후 정치적 맥락에서 NLP의 공정성과 책임성에 대한 연구를 지원하기 위해 EuroParlVote 데이터셋, 코드 및 데모를 공개합니다.