실제 데이터로 학습된 기계 학습 모델은 소외된 커뮤니티에 부정적인 영향을 미치는 편향된 예측을 할 수 있습니다. 재가중은 모델 훈련에 사용된 각 데이터 포인트에 가중치를 할당하여 모델 예측의 이러한 편향을 완화하는 방법입니다. 본 논문에서는 이러한 가중치를 생성하는 세 가지 방법, 즉 (1) 유전자 알고리즘(GA)을 사용하여 진화시키는 방법, (2) 데이터 세트 특성만 사용하여 계산하는 방법, (3) 모든 데이터 포인트에 동일한 가중치를 할당하는 방법을 비교합니다. 각 전략 하에서 모델 성능은 짝을 이룬 예측 및 공정성 메트릭을 사용하여 평가되었으며, 이는 GA의 최적화 목표로도 사용되었습니다. 구체적으로, 두 가지 예측 메트릭(정확도 및 ROC 곡선 아래 면적)과 두 가지 공정성 메트릭(인구 통계적 동등성 차이 및 하위 그룹 거짓 음성 공정성)을 사용했습니다. 11개의 공개적으로 사용 가능한 데이터 세트(두 개의 의료 데이터 세트 포함)에 대한 실험을 통해, 진화된 샘플 가중치가 다른 가중치 방법보다 공정성과 예측 성능 간에 더 나은 균형을 이루는 모델을 생성할 수 있음을 보여줍니다. 그러나 이러한 이점의 크기는 최적화 목표의 선택에 따라 크게 달라집니다. 우리의 실험 결과, 정확도와 인구 통계적 동등성 차이 메트릭으로 최적화하면 두 목표 모두를 최적화하는 데 있어 진화된 가중치가 다른 가중치 전략보다 유의미하게 우수한 데이터 세트의 수가 가장 많습니다.