본 논문은 기존의 6GHz 이하 주파수와 테라헤르츠 주파수를 사용하는 다중 대역 차량 네트워크에서 무선 네트워크 선택과 자율 주행 정책을 동시에 최적화하는 새로운 다목적 강화 학습(MORL) 프레임워크를 제시합니다. 제안된 프레임워크는 차량의 동작 역학(속도 및 가속도)을 제어하여 교통 흐름을 극대화하고 충돌을 최소화하는 것을 목표로 하며, 동시에 초고신뢰 저지연 통신(URLLC)을 향상시키고 핸드오프(HO)를 최소화합니다. 이 문제를 다목적 마르코프 의사 결정 과정(MOMDP)으로 설정하고, 상충되는 목표의 사전 정의된 선호도와 알려지지 않은 선호도에 대한 해결책을 개발합니다. 특히, 에이전트에 대한 알려지지 않은 선호도를 가진 여러 목표를 해결하는 정책을 개발하는 새로운 봉투 MORL 솔루션을 개발합니다. 이 접근 방식은 스칼라 보상에 대한 의존성을 줄이지만, 선호도에 따라 정책 효과가 달라지는 것이 과제입니다. 이를 해결하기 위해 일반화된 Bellman 방정식을 적용하고 다목적 Q 값의 볼록 봉투를 최적화하여 모든 가능한 선호도 구성에 걸쳐 최적 정책을 생성할 수 있는 통합 매개변수 표현을 학습합니다. 초기 학습 단계 후, 에이전트는 지정된 선호도 하에서 최적 정책을 실행하거나 최소한의 데이터 샘플에서 선호도를 추론할 수 있습니다. 수치 결과는 봉투 기반 MORL 솔루션의 효능을 검증하고 차량 동작 역학, HO 및 통신 데이터 속도의 상호 의존성과 관련된 흥미로운 통찰력을 보여줍니다. 제안된 정책을 통해 자율 주행 차량(AV)은 향상된 연결성을 갖춘 안전한 주행 행동을 채택할 수 있습니다.