본 논문은 민감한 데이터의 서로소 부분 집합으로부터 응답을 집계하여 개인정보 보호 머신러닝을 가능하게 하는 PATE(Private Aggregation of Teacher Ensembles) 프레임워크를 다룹니다. 텍스트 생성과 같은 본질적으로 출력 다양성이 있는 작업에 PATE를 적용하는 것은 출력 다양성을 유지하면 교사 간의 합의가 감소하고, 이는 차동 개인 정보 보호에 필요한 노이즈를 증가시켜 유용성을 저하시키는 핵심적인 긴장 관계에 직면합니다. 하지만 현대의 대규모 언어 모델은 지식을 출력 분포에 담고 있기 때문에 다양성을 억제하는 것은 역효과를 냅니다. 본 논문에서는 출력이 분포인 설정에 맞춘 Hot PATE를 제안합니다. 다양성을 보존하는 것을 공식적으로 정의하고, 추가적인 개인 정보 비용 없이 다양성을 무작위 출력으로 전달하는 효율적인 집계 메커니즘을 도입합니다. 제안된 방법은 독점 모델에 대한 API 액세스만으로 구현 가능하며, 기존의 "cold" PATE 집계기의 드롭인 교체로 사용할 수 있습니다. 실험적으로 Hot PATE는 문맥 내 학습 작업에서 몇 배의 성능 향상을 달성합니다.