IoT 네트워크는 패킷 전달 극대화, 지연 최소화, 제한된 배터리 에너지 보존 등 상충되는 라우팅 목표에 직면하며, 이러한 우선순위는 동적으로 변경될 수 있습니다. 기존 연구, 특히 딥 강화 학습 방법은 중앙 집중적이며 정적 목표를 가정하여 선호도가 변경될 때 적응 속도가 느립니다. 이 논문은 여러 선호도별 Q-테이블을 병렬로 학습하고, 재훈련이나 중앙 조정 없이 보이지 않는 선호도에 대해 거의 최적의 성능을 내기 위한 새로운 그리디 보간 정책을 도입하는 동적이고 완전 분산형 다중 목표 Q-러닝 라우팅 알고리즘을 제안합니다. 이론적 분석을 통해 최적 가치 함수가 선호도 매개변수에 대해 립시츠 연속임을 보이며, 제안된 그리디 보간 정책이 입증된 거의 최적의 동작을 보장함을 보여줍니다. 시뮬레이션 결과에 따르면, 제안된 접근 방식은 우선순위 변화에 실시간으로 적응하며, 6개의 기본 프로토콜에 비해 최대 80-90% 낮은 에너지 소비와 2-5배 이상 높은 누적 보상 및 패킷 전달을 달성합니다. 이러한 결과는 동적 IoT 환경에서 적응성, 전달 및 효율성 측면에서 상당한 이점을 보여줍니다.