本文开发了一种基于强化学习 (RL) 的自适应 S 面控制器,该控制器利用大规模语言模型 (LLM) 来增强自主水下航行器 (AUV) 的适应性和机动性。利用 LLM,我们在 RL 训练期间联合优化控制器参数和奖励函数。多模态和结构化的显式任务反馈使我们能够协调多个目标,从而增强面向任务的性能和适应性。所提出的控制器采用以任务为中心的高级 RL 策略,并输出面向任务的高级命令,S 面控制器将这些命令转换为控制信号,从而减轻极端海洋条件下的非线性效应和不可预测的外部干扰。在涉及复杂地形、波浪和洋流的极端海洋条件下,与传统的 PID 和 SMC 控制器相比,所提出的控制器在水下目标跟踪和数据采集等高级任务中表现出卓越的性能和适应性。