본 논문은 O-RAN 환경에서 동적 자원 관리를 위해 Soft Actor Critic (SAC) 알고리즘에 Sharpness-Aware Minimization (SAM)을 결합한 새로운 자원 관리 방식을 제안한다. 분산 Multi-Agent RL (MARL) 프레임워크 내에서, TD-error 분산을 기반으로 하는 적응형 및 선택적 SAM 메커니즘을 도입하여 복잡한 환경에 직면한 에이전트만을 대상으로 정규화를 수행한다. 또한, 에이전트 간의 탐험-활용 균형을 조절하기 위해 동적 $\rho$ 스케줄링을 통합한다. 실험 결과, 제안된 방법은 기존 DRL 방식보다 자원 할당 효율성에서 최대 22% 향상을 보였으며, 다양한 O-RAN 슬라이스에서 우수한 QoS 만족도를 달성했다.