Adversarial Inverse Reinforcement Learning (AIRL)은 전문가 시연으로부터 밀집 보상 함수를 추론하여 강화 학습(RL)의 희소 보상 문제를 해결하는 데 유망성을 보였지만, 고도로 복잡하고 불완전한 정보 환경에서의 성능은 아직 탐구되지 않았다. 이 논문은 Heads-Up Limit Hold'em (HULHE) 포커를 통해 AIRL의 성능을 평가하고, 이를 개선하기 위해 전문가 데이터에서 파생된 지도 학습 손실과 확률적 정규화 메커니즘을 통합한 Hybrid-AIRL (H-AIRL)을 제안한다. H-AIRL은 Gymnasium 벤치마크 및 HULHE 포커 환경에서 평가되며, 학습된 보상 함수를 시각화하여 학습 과정을 분석한다. 실험 결과, H-AIRL이 AIRL보다 높은 샘플 효율성과 안정적인 학습을 달성하여, 역강화 학습에 지도 학습 신호를 통합하는 것의 이점을 보여준다.