본 논문은 대규모 언어 모델(LLM)의 공정성 평가에 있어 기존 방식의 한계를 지적하고, 투표 이론의 보르다 점수를 활용한 새로운 평가 방식을 제안합니다. 기존의 정확도 기반 지표는 단순하고, 모호한 문제에 대한 명확한 기준이 부족하며, 특히 공정성 평가에 어려움을 야기합니다. 이에 논문은 장기 이식(신장)을 사례 연구로, LLM이 단일 후보를 선택하는 'Choose-One' 과 모든 후보를 순위 매기는 'Rank-All' 두 가지 과제를 설정합니다. 'Choose-One' 에서는 비례적 동등성을 통해 인구 통계적 공정성을 평가하고, 'Rank-All' 에서는 기존 지표가 순위를 고려하지 못하는 점을 보완하여 보르다 점수를 적용하여 편향성을 측정합니다. 결과적으로 보르다 점수 기반 지표가 LLM의 공정성을 더욱 풍부하고 다각적으로 평가할 수 있는 잠재력을 보여줍니다.