본 논문은 다양한 게임과 과제에서 견고한 일반화 능력을 가진 자율 에이전트를 개발하는 것을 목표로 합니다. 기존의 Multi-Game Decision Transformer (MGDT)는 여러 게임에서 뛰어난 성능을 보였지만, 게임별 지식에 대한 인간의 전문 지식에 크게 의존하는 한계가 있습니다. 본 논문에서는 오프라인 데이터셋만을 이용하여 MGDT 프레임워크 내에서 게임별 목표 수익률을 자동으로 결정하는 알고리즘인 Multi-Game Target Return Optimizer (MTRO)를 제안합니다. MTRO는 추가적인 훈련 없이 기존 MGDT 아키텍처에 통합될 수 있으며, Atari 게임 실험을 통해 다양한 게임에서 RL 정책의 성능을 향상시키는 것을 보여줍니다.