본 논문은 버스 운영의 안정성과 효율성 향상을 위한 버스 정류장 대기 제어에 강화학습(RL)을 적용하는 연구이다. 기존의 모델 기반 방법들이 버스 상태 예측 및 승객 수요 예측의 부정확성으로 어려움을 겪는 반면, 데이터 기반 접근 방식인 RL은 버스 정류장 대기 전략을 수립하는 데 큰 잠재력을 보여주었다. 하지만 실제 상황의 희소하고 지연된 제어 목표를 RL을 위한 밀집되고 실시간 보상으로 변환하는 것은 어려움이 있으며, 많은 수동 시행착오를 필요로 한다. 본 연구는 대규모 언어 모델(LLM)의 맥락 내 학습 및 추론 기능을 활용하여 자동 보상 생성 패러다임을 제시한다. LLM 강화된 RL이라 불리는 이 새로운 패러다임은 보상 초기화기, 보상 수정기, 성능 분석기, 보상 개선기 등 여러 LLM 기반 모듈로 구성되며, 지정된 RL 기반 작업에 대한 훈련 및 테스트 결과의 피드백에 따라 보상 함수를 초기화하고 반복적으로 개선한다. LLM이 생성한 비효율적인 보상 함수는 필터링되어 반복적인 RL 에이전트 성능의 안정적인 발전을 보장한다. 제안된 LLM 강화된 RL 패러다임의 타당성을 평가하기 위해, 버스 노선 수, 정류장 수 및 승객 수요가 다양한 광범위한 버스 정류장 대기 제어 시나리오에 적용되었다. 결과는 제안된 패러다임이 기존 RL 전략, LLM 기반 제어기, 물리 기반 피드백 제어기 및 최적화 기반 제어기보다 우수한 성능, 일반화 능력 및 강건성을 보임을 보여준다. 이 연구는 다양한 스마트 모빌리티 애플리케이션에서 LLM을 활용하는 큰 잠재력을 보여준다.