오프라인 연합 강화 학습(FRL)과 오프라인 강화 학습을 결합한 오프라인 FRL에 대한 연구. 다양한 품질의 데이터를 가진 클라이언트로부터 수집된 데이터(혼합 품질 데이터)에서 기존 오프라인 FRL 방법의 성능 저하 문제를 해결하기 위해, 본 논문은 투표 메커니즘을 활용하여 고수익 행동을 식별하는 새로운 투표 기반 오프라인 FRL 프레임워크인 FOVA를 제안. 장점 가중 회귀(AWR)를 기반으로 일관된 로컬 및 글로벌 훈련 목표를 구성하여 FOVA의 효율성과 안정성을 향상시킴. 이론적 분석을 통해 FOVA가 행동 정책보다 엄격한 정책 개선을 보임을 증명. 광범위한 실험을 통해 기존의 기반선에 비해 상당한 성능 향상을 입증.