본 논문은 강화학습에서 보상 정렬 문제를 해결하기 위해 제로샷 대규모 언어 모델(LLM)을 활용한 새로운 방법을 제시합니다. 기존의 인간-루프(HIL) 방식은 인간의 편향된 피드백으로 인해 학습 과정이 복잡해지는 문제가 있지만, 본 논문에서는 LLM을 직접적인 피드백 제공자로 활용하여 이러한 문제를 해결합니다. 특히, 인간 피드백의 편향을 식별하고 수정하는 하이브리드 프레임워크(LLM-HFBF)를 제안하여 LLM의 한계와 인간 감독의 편향 문제를 동시에 해결합니다. 실험 결과, 편향된 인간 피드백은 성능을 크게 저하시키는 반면, LLM 기반 접근 방식은 편향되지 않은 피드백과 유사한 성능을 유지함을 보여줍니다.