본 논문은 강화학습(RL) 기반의 플래툰 조정 문제에서 성능이 좋은 보상 함수를 자동으로 생성하는 방법을 제시합니다. 기존 RL 기반 플래툰 조정은 수동으로 보상 함수를 설계해야 하는 어려움이 있었는데, 이 논문에서는 플래툰 조정 보상 설계 문제(PCRDP)를 정의하고, 대규모 언어 모델(LLM) 기반의 플래툰 조정 보상 설계(PCRD) 프레임워크를 제안합니다. PCRD는 분석 및 초기 보상(AIR) 모듈과 진화 모듈로 구성되어 있으며, LLM을 이용하여 환경 코드와 작업 요구 사항을 기반으로 보상 함수를 초기화하고, 훈련 피드백을 통해 반복적으로 최적화합니다. AIR 모듈은 사고의 연쇄를 통해 LLM의 코드 및 작업 이해도를 높이고, 진화 모듈은 탐색 다양성과 수렴 안정성 사이의 균형을 맞춥니다. 양쯔강 삼각주 교통망 시뮬레이션 내 6가지 복잡한 조정 시나리오를 통해 실험을 진행한 결과, PCRD로 생성된 보상 함수를 사용한 RL 에이전트가 기존 수동 설계 보상 함수보다 평균 10% 높은 성능을 달성했습니다.