본 논문은 수중 환경의 제약(낮은 대역폭, 높은 지연 시간, 이동성, 제한된 에너지 자원)을 고려하여, 기존 지상 기반 네트워크 라우팅 프로토콜(RPL)의 한계를 극복하는 새로운 수중 라우팅 프로토콜 RL-RPL-UA를 제시합니다. RL-RPL-UA는 경량 강화 학습 에이전트를 각 노드에 탑재하여 패킷 전달률, 버퍼 레벨, 링크 품질, 잔여 에너지 등의 지역 정보를 바탕으로 최적의 부모 노드를 선택합니다. 표준 RPL 메시지와의 호환성을 유지하면서 동적인 목적 함수를 추가하여 실시간 의사결정을 지원합니다. Aqua-Sim 시뮬레이션 결과, RL-RPL-UA는 기존 방식에 비해 패킷 전달률을 최대 9.2% 향상시키고, 패킷당 에너지 소비량을 14.8% 감소시키며, 네트워크 수명을 80초 연장하는 것으로 나타났습니다.