본 논문은 동적 환경에서 다양한 서비스 요구를 효율적으로 관리해야 하는 현대 무선 네트워크의 문제를 다룬다. 기존 심층 강화 학습(DRL)은 산발적이고 변화하는 피드백으로 인해 최적 의사결정이 어렵다는 한계를 가지고 있다. 이에 본 논문은 비정형 네트워크 피드백을 의미 있는 잠재 표현으로 구조화하여 강화 학습 에이전트가 패턴을 더 효과적으로 인식하도록 돕는 대규모 언어 모델(LLM)을 활용한다. 특히 O-RAN 슬라이싱 환경에서 LLM이 SNR, 전력 레벨, 처리량과 같은 개념들을 의미적으로 클러스터링하여 해석 가능한 상태 표현을 제공하는 것을 보여준다. 이를 위해 본 논문은 학습 가능한 프롬프트를 LLM 증강 DRL 프레임워크에 통합하는 문맥 기반 적응 방법을 제시한다. 전체 모델 미세 조정에 의존하는 대신, 네트워크 상황에 동적으로 적응하는 작업별 프롬프트를 통해 상태 표현을 개선한다. O-RAN 지식으로 훈련된 LLM인 ORANSight를 활용하여 프롬프트 증강 다중 에이전트 강화 학습(PA-MRL) 프레임워크를 개발한다. 학습 가능한 프롬프트는 의미 클러스터링과 강화 학습 목표를 모두 최적화하여 강화 학습 에이전트가 더 적은 반복으로 더 높은 보상을 달성하고 더 효율적으로 적응할 수 있도록 한다. 실험 결과는 제안된 방법이 수렴 속도를 높이고 다른 기준선보다 성능이 우수함을 보여준다.