본 논문은 심층 강화 학습(DRL) 알고리즘을 무선 통신 시스템의 동적 자원 할당에 적용하는 연구를 다룹니다. 기지국, 다중 안테나 및 사용자 장비를 포함하는 환경을 구축하고, RLlib 라이브러리를 사용하여 심층 Q 네트워크(DQN) 및 근위 정책 최적화(PPO)와 같은 다양한 DRL 알고리즘을 적용합니다. 다양한 학습률과 스케줄링 정책의 영향에 초점을 맞춰 자원 할당 최적화 능력을 기준으로 알고리즘을 비교 분석합니다. 연구 결과, 알고리즘과 학습률의 선택이 시스템 성능에 상당한 영향을 미치며, DRL이 기존 방법보다 더 효율적인 자원 할당을 제공함을 보여줍니다.