본 논문에서는 화학 공간 탐색의 어려움을 언급하며, 특정 성질을 갖는 분자를 생성하는 강력한 전략이 부족함을 지적합니다. 대규모 자기회귀 모델을 이용한 기존 방법의 한계를 극복하기 위해, 명시적인 보상 함수를 활용한 에너지 순위 정렬(ERA) 알고리즘을 제시합니다. ERA는 기울기 기반 목적 함수를 생성하여 자기회귀 정책을 최적화하며, 이론적으로 근접 정책 최적화(PPO) 및 직접 선호도 최적화(DPO)와 밀접한 관련이 있음을 보여줍니다. ERA는 보상 함수를 에너지 함수로 활용하여 이상적인 Gibbs-Boltzmann 분포에 수렴하는 최소값을 갖고, 강화 학습이 필요 없으며, 선호도 관측치가 적을 때 DPO보다 성능이 우수합니다. 실험적으로 분자 변환기와 단백질 언어 모델에 ERA를 적용하여 외부적으로 지정된 특성을 갖는 분자와 단백질 서열을 강력하게 생성하고, 화학 공간의 다양한 부분을 탐색함을 보여줍니다.