본 논문은 대규모 언어 모델(LLM)의 공정성 문제를 체계적으로 식별하기 위한 변이 테스트(metamorphic testing) 접근 방식을 제시합니다. LLM의 훈련 데이터에 내재된 편향으로 인해 공정성 문제가 발생할 수 있는데, 특히 의료, 금융, 법률과 같은 민감한 분야에서 배포될 때 위험이 증가합니다. 연구진은 공정성 중심의 변이 관계(MRs)를 정의하여 최첨단 LLM인 LLaMA와 GPT 모델을 다양한 인구 통계적 입력에 걸쳐 평가했습니다. 각 MR에 대한 소스 및 후속 테스트 사례를 생성하고, 모델 응답에서 공정성 위반 사항을 분석하는 방법론을 사용하여, 특히 어조와 감정과 관련된 편향 패턴을 노출하는 데 MT의 효과를 보여주고, 공정성 결함을 자주 드러내는 민감한 속성의 특정 교차점을 강조했습니다. 이 연구는 LLM의 공정성 테스트를 개선하여 편향을 감지하고 완화하고 공정성에 민감한 애플리케이션에서 모델의 강력성을 향상시키는 구조화된 접근 방식을 제공합니다.