본 논문은 하향 링크 재구성 가능 지능형 표면(RIS) 지원 직교 주파수 분할 다중(OFDM) 시스템에서 평균 지연을 최소화하기 위한 공동 빔포밍 및 자원 할당 문제를 연구합니다. 각 사용자의 데이터 패킷은 기지국(BS)에 확률적으로 도착하며, 이 순차적 최적화 문제는 본질적으로 마르코프 의사 결정 과정(MDP)이므로 강화 학습의 범위에 속합니다. 혼합된 행동 공간을 효과적으로 처리하고 상태 공간 차원을 줄이기 위해 하이브리드 심층 강화 학습(DRL) 방법을 제안합니다. 구체적으로, 근접 정책 최적화(PPO)-Theta를 사용하여 RIS 위상 편이 설계를 최적화하고, PPO-N은 부반송파 할당 결정을 담당합니다. 그런 다음 BS에서의 능동 빔포밍은 공동으로 최적화된 RIS 위상 편이 및 부반송파 할당 결정에서 파생됩니다. 부반송파 할당과 관련된 차원의 저주를 더 완화하기 위해 다중 에이전트 전략을 도입하여 부반송파 할당 지표를 더 효율적으로 최적화합니다. 또한, 더욱 적응적인 자원 할당을 달성하고 네트워크 역학을 정확하게 포착하기 위해 버퍼의 대기 패킷 수 및 현재 패킷 도착과 같이 평균 지연과 밀접하게 관련된 주요 요소를 상태 공간에 통합합니다. 또한, 전이 학습 프레임워크를 도입하여 훈련 효율을 높이고 수렴을 가속화합니다. 시뮬레이션 결과는 제안된 알고리즘이 평균 지연을 크게 줄이고 자원 할당 효율을 높이며 기준 방법과 비교하여 우수한 시스템 강건성과 공정성을 달성함을 보여줍니다.