본 논문은 데이터셋 크기 특성이 분산 기계 학습의 패러다임인 연합 학습(FL)의 역학에 미치는 영향을 중점적으로 다룹니다. 기존 연합 학습 연구가 주로 모델 이질성과 집계 기술에 초점을 맞춘 것과 달리, 본 논문은 데이터셋 크기 특성에 기반한 새로운 연합 학습 프레임워크인 크기 기반 적응형 연합 학습(SAFL)을 제시합니다. SAFL은 이질적인 다모달 데이터에서 데이터셋 크기 특성에 따라 체계적으로 연합 학습을 구성하는 점진적 학습 프레임워크입니다. 7가지 모달리티(시각, 텍스트, 시계열, 오디오, 센서, 의료 영상, 다모달)에 걸친 13개의 다양한 데이터셋에 대한 실험 결과, 연합 학습 효과에 대한 최적의 데이터셋 크기 범위는 1000~1500개 샘플이며, 구조화된 데이터(시계열, 센서)가 비구조화된 데이터(텍스트, 다모달)보다 성능이 훨씬 뛰어나고, 2000개 샘플을 초과하는 대규모 데이터셋의 경우 성능 저하가 체계적으로 발생한다는 것을 보여줍니다. SAFL은 모든 데이터셋에서 평균 87.68%의 정확도를 달성했으며, 구조화된 데이터 모달리티는 99% 이상의 정확도에 도달했습니다. 또한, 높은 성능을 유지하면서 통신 효율성을 높여 총 데이터 전송량을 7.38GB로 줄였습니다. 실시간 모니터링 프레임워크는 시스템 자원 활용, 네트워크 효율성 및 학습 역학에 대한 전례 없는 통찰력을 제공합니다.