Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Large Language Model-Enhanced Reinforcement Learning for Generic Bus Holding Control Strategies

Created by
  • Haebom

저자

Jiajie Yu, Yuhong Wang, Wei Ma

개요

본 논문은 버스 운영의 안정성과 효율성 향상을 위한 버스 정류장 대기 제어에 강화학습(RL)을 적용하는 연구이다. 기존의 모델 기반 방법들이 버스 상태 예측 및 승객 수요 예측의 부정확성으로 어려움을 겪는 반면, 데이터 기반 접근 방식인 RL은 버스 정류장 대기 전략을 수립하는 데 큰 잠재력을 보여주었다. 하지만 실제 상황의 희소하고 지연된 제어 목표를 RL을 위한 밀집되고 실시간 보상으로 변환하는 것은 어려움이 있으며, 많은 수동 시행착오를 필요로 한다. 본 연구는 대규모 언어 모델(LLM)의 맥락 내 학습 및 추론 기능을 활용하여 자동 보상 생성 패러다임을 제시한다. LLM 강화된 RL이라 불리는 이 새로운 패러다임은 보상 초기화기, 보상 수정기, 성능 분석기, 보상 개선기 등 여러 LLM 기반 모듈로 구성되며, 지정된 RL 기반 작업에 대한 훈련 및 테스트 결과의 피드백에 따라 보상 함수를 초기화하고 반복적으로 개선한다. LLM이 생성한 비효율적인 보상 함수는 필터링되어 반복적인 RL 에이전트 성능의 안정적인 발전을 보장한다. 제안된 LLM 강화된 RL 패러다임의 타당성을 평가하기 위해, 버스 노선 수, 정류장 수 및 승객 수요가 다양한 광범위한 버스 정류장 대기 제어 시나리오에 적용되었다. 결과는 제안된 패러다임이 기존 RL 전략, LLM 기반 제어기, 물리 기반 피드백 제어기 및 최적화 기반 제어기보다 우수한 성능, 일반화 능력 및 강건성을 보임을 보여준다. 이 연구는 다양한 스마트 모빌리티 애플리케이션에서 LLM을 활용하는 큰 잠재력을 보여준다.

시사점, 한계점

시사점:
LLM을 활용하여 RL 기반 버스 정류장 대기 제어의 보상 함수를 자동으로 생성 및 개선하는 새로운 패러다임을 제시하였다.
제안된 LLM 강화된 RL 패러다임은 기존 방법들보다 우수한 성능, 일반화 능력 및 강건성을 보였다.
다양한 스마트 모빌리티 애플리케이션에 LLM 활용 가능성을 제시하였다.
한계점:
LLM의 성능에 의존적이며, LLM의 한계가 결과에 영향을 미칠 수 있다.
다양한 실제 환경에서의 추가적인 검증이 필요하다.
LLM의 계산 비용이 높을 수 있다.
👍