本論文は、ダウンリンク再構成可能インテリジェントサーフェス(RIS)をサポートする直交周波数分割多重(OFDM)システムにおける平均遅延を最小限に抑えるための共同ビームフォーミングおよびリソース割り当ての問題を研究する。各ユーザのデータパケットは基地局(BS)に確率的に到着し、この順次最適化問題は本質的にマルコフ意思決定プロセス(MDP)であるため、強化学習の範囲に属する。混合行動空間を効果的に処理し、状態空間次元を減らすためのハイブリッドディープエンハンスメント学習(DRL)方法を提案します。具体的には、近接方針最適化(PPO)-Thetaを使用してRIS位相シフト設計を最適化し、PPO-Nは副搬送波割り当てを決定します。次に、BSでのアクティブビームフォーミングは、共同で最適化されたRIS位相シフトとサブキャリア割り当て決定から導き出されます。サブキャリア割り当てに関連する次元の呪いをさらに軽減するために、マルチエージェント戦略を導入して、サブキャリア割り当て指標をより効率的に最適化する。さらに、より適応的なリソース割り当てを達成し、ネットワークダイナミクスを正確に捕捉するために、バッファ内の待機パケット数および現在のパケット到着など、平均遅延に密接に関連する主要要素を状態空間に組み込む。さらに、移行学習フレームワークを導入してトレーニング効率を高め、収束を加速します。シミュレーション結果は,提案したアルゴリズムが平均遅延を大幅に低減し,資源割当効率を高め,基準方法と比較して優れたシステム剛性と公平性を達成したことを示した。