본 논문은 실세계 강화학습(Reinforcement Learning, RL) 응용에 있어 주요한 장애물인 희소하고 지연된 보상 함수 문제를 해결하기 위해 Attention-based REward Shaping (ARES) 알고리즘을 제안한다. ARES는 트랜스포머의 어텐션 메커니즘을 활용하여 모든 환경에 대해 형태가 조정된 보상을 생성하고 밀집된 보상 함수를 만든다. 일련의 에피소드와 최종 보상을 입력으로 받으며, 완전히 오프라인으로 학습 가능하고, 작은 데이터셋이나 무작위 행동을 하는 에이전트가 생성한 에피소드를 사용하더라도 의미 있는 형태가 조정된 보상을 생성할 수 있다. 어떤 RL 알고리즘과도 호환되며, 모든 수준의 보상 희소성을 처리할 수 있다. 실험에서는 각 에피소드의 끝까지 보상이 완전히 지연되는 가장 어려운 경우에 초점을 맞추었으며, 다양한 환경, 널리 사용되는 RL 알고리즘 및 기준 방법을 통해 생성된 형태가 조정된 보상의 효과를 평가했다. 실험 결과, ARES는 지연된 보상 설정에서 학습을 크게 향상시켜, 그렇지 않으면 비현실적인 양의 데이터를 필요로 하거나 학습이 불가능한 시나리오에서도 RL 에이전트의 학습을 가능하게 함을 보여준다. ARES는 완전히 오프라인으로 작동하고, 극단적인 보상 지연 및 저품질 데이터에 대해 강건하며, 목표 기반 작업으로 제한되지 않는 최초의 접근 방식이다.