Breaking the Performance Ceiling in Reinforcement Learning requires Inference Strategies
Created by
Haebom
저자
Felix Chalumeau, Daniel Rajaonarivonivelomanantsoa, Ruan de Kock, Claude Formanek, Sasha Abramowitz, Oumayma Mahjoub, Wiem Khlifi, Simon Du Toit, Louay Ben Nessir, Refiloe Shabe, Arnol Fokam, Siddarth Singh, Ulrich Mbou Sob, Arnu Pretorius
개요
강화 학습 (RL) 시스템은 에너지 그리드 관리, 단백질 설계 등 다양한 분야에 적용되지만, 실제 세계 시나리오는 복잡하고 여러 에이전트 간의 조정이 필요하여 성능 한계에 도달할 수 있다. 본 연구에서는 실행 시 특정 시간과 컴퓨팅 자원을 활용하는 추론 단계를 통해 이러한 성능 한계를 극복하는 방법을 제시한다. 특히, 복잡한 다중 에이전트 RL 문제에서 실행 시간에 추론 전략을 사용하여 이전 최고 성능보다 최대 126%, 평균 45%의 성능 향상을 얻었다.
시사점, 한계점
•
시사점:
◦
실행 시 추론 단계를 통해 복잡한 다중 에이전트 RL 문제의 성능을 크게 향상시킬 수 있다.