대규모 언어 모델이 인간 가치와 일치해야 하는 응용 분야에서 점점 더 많이 사용되고 있습니다. 모델 미세 조정은 안전한 응답을 보장하기 위해 자주 사용되지만, 이 기술은 정적이며 동적 가치 및 선호도가 관련된 일상적인 상황에 적합하지 않습니다. 본 논문에서는 프롬프트 후보가 생성된 텍스트를 특정 인간 가치로 효과적으로 유도할 수 있는지 평가하는 실용적이고 재현 가능한 모델 독립적인 절차를 제시합니다. 생성된 응답에서 목표 가치의 존재 및 획득을 정량화하기 위한 채점 방법을 공식화합니다. 우리는 Schwartz의 기본 인간 가치 이론과 대화 데이터 세트를 통한 구조화된 평가를 사용하여 Wizard-Vicuna 언어 모델의 변형에 이 방법을 적용합니다. 이 설정을 통해 기준 프롬프트와 가치를 명시적으로 조건화된 프롬프트를 비교하고, 모델을 변경하거나 프롬프트를 동적으로 최적화하지 않고도 가치 조향이 가능하다는 것을 보여줍니다.