본 논문은 게임 에이전트의 복잡하고 다양한 행동 분포를 포착하는 데 뛰어난 성능을 보이는 확산 모델의 느린 추론 속도 문제를 해결하기 위해 CPQE (Consistency Policy with Q-Ensembles)를 제안합니다. CPQE는 일관성 모델과 Q-앙상블을 결합하여 일관성 모델의 훈련 불안정성과 성능 저하 문제를 해결합니다. Q-앙상블을 통한 불확실성 추정으로 더욱 안정적인 값 함수 근사를 제공하여 기존 이중 Q-네트워크 방법보다 향상된 훈련 안정성과 성능을 달성합니다. 다양한 게임 시나리오에 대한 실험 결과, CPQE는 최첨단 확산 정책(20Hz)보다 최대 60Hz의 추론 속도를 달성하면서 다단계 확산 방식과 비슷한 성능을 유지합니다. 또한 기존 최첨단 일관성 모델보다 높은 보상과 향상된 훈련 안정성을 보여줍니다. 이는 CPQE가 다양한 행동 모델링과 빠른 추론이 모두 중요한 게임 및 기타 실시간 애플리케이션에 확산 기반 정책을 배포하기 위한 실용적인 해결책임을 시사합니다.
시사점, 한계점
•
시사점:
◦
확산 모델 기반 게임 에이전트의 추론 속도를 획기적으로 향상(최대 60Hz)시켜 실시간 게임 환경에 적용 가능성을 높였습니다.
◦
Q-앙상블을 활용하여 일관성 모델의 훈련 안정성을 개선하고 성능을 향상시켰습니다.
◦
다양한 게임 환경에서 기존 최첨단 방법보다 우수한 성능을 보였습니다.
◦
다양한 행동 모델링과 빠른 추론이 필요한 실시간 애플리케이션에 확산 기반 정책 적용의 실용적인 해결책을 제시합니다.
•
한계점:
◦
제시된 게임 시나리오 외 다른 환경에서의 일반화 성능에 대한 추가 연구가 필요합니다.
◦
Q-앙상블의 크기 및 구조에 따른 성능 변화에 대한 분석이 부족합니다.
◦
60Hz의 추론 속도는 하드웨어에 의존적인 측면이 있으며, 모든 환경에서 동일한 속도를 보장할 수 없을 수 있습니다.