본 논문은 사용자 중심 정보 시스템에 필수적인 개인화된 텍스트 생성 평가를 위해, 개인 맞춤형 참조 데이터 없이 일반적인 출력 품질과 사용자 특정 맞춤 정도를 동시에 측정하는 새로운 평가 프레임워크인 PREF(Personalised Reference-free Evaluation Framework)를 제안합니다. PREF는 세 단계 파이프라인으로 구성됩니다. 첫째, 대규모 언어 모델(LLM)을 사용하여 사실성, 일관성, 완전성 등 보편적인 기준을 다루는 포괄적인 쿼리 특정 지침을 생성하는 적용 범위 단계, 둘째, 사용자 프로필, 명시적 또는 암시적 선호도, 맥락을 사용하여 이러한 요소를 재순위화하고 선택적으로 보강하여 개인화된 평가 기준을 생성하는 선호도 단계, 셋째, LLM 판정관을 사용하여 이 기준에 따라 후보 답변을 평가하여 기준 충족 여부를 확인하고 주관적인 우선 순위를 포착하는 점수 매기기 단계입니다. 적용 범위와 선호도를 분리함으로써 강건성, 투명성, 재사용성을 향상시키고, 더 작은 모델이 더 큰 모델의 개인화된 품질을 근사화할 수 있도록 합니다. PrefEval 벤치마크에 대한 실험 결과, PREF는 강력한 기준 모델보다 더 높은 정확도, 더 나은 보정, 그리고 인간 판단과의 더 밀접한 일치를 달성함을 보여줍니다. 확장 가능하고 해석 가능하며 사용자 중심의 평가를 가능하게 함으로써, PREF는 더욱 신뢰할 수 있는 개인화된 언어 생성 시스템의 평가 및 개발을 위한 기반을 마련합니다.