본 논문은 임상 기록의 안전한 재사용을 위해 필수적인 개인 건강 정보(PHI) 익명화 모델의 평가 및 비교에 드는 비용과 시간 문제를 해결하기 위해, 대규모 언어 모델(LLM)을 활용한 자동 평가 및 최고 성능 모델 선택 프레임워크인 TEAM-PHI를 제시한다. TEAM-PHI는 여러 평가 에이전트를 사용하여 PHI 추출 정확도를 독립적으로 평가하고, LLM 기반 다수결 투표를 통해 다양한 평가자들의 결과를 통합하여 안정적이고 재현 가능한 순위를 생성한다. 실제 임상 기록 데이터셋을 사용한 실험에서 TEAM-PHI는 일관되고 정확한 순위를 생성하며, 지상 진실 주석 및 인간 평가와 비교하여 자동화된 순위가 감독 평가와 밀접하게 일치함을 확인했다.