Sachdev-Ye-Kitaev (SYK) 모델의 열 상태를 근시일 내 양자 프로세서에서 변분적으로 준비하는 것은 시스템 크기가 커짐에 따라 어려움이 증가한다. 본 논문은 강화 학습(RL)과 합성곱 신경망을 통합하여 이 문제를 해결한다. RL을 이용하여 양자 회로와 그 파라미터를 반복적으로 최적화하며, 엔트로피와 SYK 해밀토니안의 기대값으로부터 유도된 복합 보상 신호로 학습 과정을 안내한다. 이 방법은 기존의 1차 Trotterization 방법에 비해 N≥12 시스템에서 CNOT 게이트 수를 두 자릿수 감소시키며, 노이즈가 있는 환경에서도 높은 정확도를 유지한다. 이는 양자 중력 연구 및 양자 다체계의 시간 순서가 뒤바뀐 열 상관 관계 계산에 응용 가능한 확장 가능한 RL 기반 프레임워크를 제시한다.