본 논문은 개인 정보 보호를 고려한 연합 학습(DP-FL)에서 차별적 개인 정보 보호 합성 데이터를 사용하는 방법을 제시합니다. 기존의 DP 합성 데이터 생성 알고리즘은 공개 정보나 반복적인 개인 정보 보호된 클라이언트 피드백에 기반한 신중한 프롬프트 엔지니어링이 필요합니다. 본 논문에서는 기존 방법에서 수집된 개인 정보 보호된 클라이언트 피드백을 강화 학습(RL) 보상으로 간주하고, 정책 최적화 알고리즘(예: DPO)을 사용하여 LLMs를 미세 조정하여 고품질의 DP 합성 데이터를 생성하는 POPri 알고리즘을 제안합니다. 새로운 연합 텍스트 벤치마크인 LargeFedBench를 사용하여 POPri를 평가한 결과, 기존 방법에 비해 DP 합성 데이터의 유용성을 크게 향상시켰으며, 완전한 개인 정보 보호 설정과 비개인 정보 보호 설정 간의 차이를 최대 58%까지 줄였습니다. 코드와 데이터는 GitHub에서 공개됩니다.