본 논문은 분산 데이터 상에서 머신러닝 모델을 훈련하는 연합 학습(Federated Learning, FL)의 한계점인 데이터 이질성 문제를 해결하는 방법을 제시합니다. 실제 FL 환경에서 클라이언트 데이터는 비균일하게 분포되어 불균형을 이루는 경우가 많으며, 이는 서버 모델의 일반화 성능 저하, 수렴 속도 저하, 성능 저하로 이어집니다. 이에 본 논문에서는 6가지 지표(전역 및 클라이언트 속성 불균형, 클래스 불균형, 허위 상관관계)를 이용하여 통계적 데이터 이질성을 특징짓고, 다양한 통계적 데이터 이질성을 포함하는 7개의 컴퓨터 비전 데이터셋을 제작하여 공유합니다. 마지막으로, 상보적인 데이터 분포를 가진 클라이언트 간의 협업을 촉진하여 데이터 이질성을 관리하고 활용하도록 설계된 새로운 클라이언트 선택 알고리즘 FEDDIVERSE를 제안합니다. 7개의 FL 데이터셋에 대한 실험 결과, FEDDIVERSE는 다양한 FL 방법의 성능과 강건성을 향상시키면서 통신 및 계산 오버헤드가 낮음을 보여줍니다.