제한된 샘플 환경에서의 오프라인 강화 학습(RL) 성능 향상을 위해 Quantum Metric Encoder (QME)를 제안합니다. QME는 RL 알고리즘을 원본 상태 및 보상에 직접 적용하는 대신, 상태를 보다 콤팩트하고 의미 있는 표현으로 임베딩합니다. 고전 데이터의 경우, QME는 고전적으로 시뮬레이션 가능한 훈련 가능한 unitary embedding으로, 양자 영감을 받은 모듈 역할을 합니다. 양자 데이터의 경우, QME는 양자 하드웨어에서 직접 구현 가능합니다. Soft-Actor-Critic (SAC) 및 Implicit-Q-Learning (IQL) 알고리즘을 사용하여 세 개의 데이터 세트(각 100개 샘플)에서 QME의 효과를 평가한 결과, QME-임베딩된 상태에서 훈련한 RL 에이전트가 원본 상태에서 훈련한 경우보다 더 나은 성능을 보였습니다.