Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 요약본 공유 시 출처만 명기하면 됩니다.
This service is supported by Google Gemini.
Share

An Automated Reinforcement Learning Reward Design Framework with Large Language Model for Cooperative Platoon Coordination

Created by
  • Haebom
Category
Empty

저자

Dixiao Wei, Peng Yi, Jinlong Lei, Yiguang Hong, Yuchuan Du

개요

본 논문은 강화학습(RL) 기반의 플래툰 조정 문제에서 성능이 좋은 보상 함수를 자동으로 생성하는 방법을 제시합니다. 기존 RL 기반 플래툰 조정은 수동으로 보상 함수를 설계해야 하는 어려움이 있었는데, 이 논문에서는 플래툰 조정 보상 설계 문제(PCRDP)를 정의하고, 대규모 언어 모델(LLM) 기반의 플래툰 조정 보상 설계(PCRD) 프레임워크를 제안합니다. PCRD는 분석 및 초기 보상(AIR) 모듈과 진화 모듈로 구성되어 있으며, LLM을 이용하여 환경 코드와 작업 요구 사항을 기반으로 보상 함수를 초기화하고, 훈련 피드백을 통해 반복적으로 최적화합니다. AIR 모듈은 사고의 연쇄를 통해 LLM의 코드 및 작업 이해도를 높이고, 진화 모듈은 탐색 다양성과 수렴 안정성 사이의 균형을 맞춥니다. 양쯔강 삼각주 교통망 시뮬레이션 내 6가지 복잡한 조정 시나리오를 통해 실험을 진행한 결과, PCRD로 생성된 보상 함수를 사용한 RL 에이전트가 기존 수동 설계 보상 함수보다 평균 10% 높은 성능을 달성했습니다.

시사점, 한계점

시사점:
LLM을 활용하여 복잡한 플래툰 조정 문제에 대한 보상 함수 설계를 자동화하는 새로운 방법을 제시함.
기존 수동 설계 방식보다 우수한 성능을 보이는 보상 함수를 자동 생성 가능함을 실험적으로 증명함.
다양한 복잡도의 시나리오에서 일관된 성능 향상을 보임.
LLM의 코드 생성 능력을 향상시키는 AIR 모듈의 효과를 보여줌.
한계점:
제안된 방법의 일반화 가능성에 대한 추가적인 연구가 필요함. (다른 유형의 플래툰 시스템이나 다른 교통망 시뮬레이션에 적용 가능성 검증)
LLM의 성능에 의존적이므로, LLM의 한계가 PCRD의 성능에 영향을 미칠 수 있음.
LLM 기반의 계산 비용이 높을 수 있음.
특정 교통망 시뮬레이션 환경에 최적화되어 있을 가능성이 있음. 다른 환경에 대한 적용성 검토 필요.
👍