본 논문은 해양 보존, 환경 모니터링, 재난 대응과 같은 해양 로봇의 기능 향상에 중요한 해양 다중 장면 인식 문제를 다룬다. 해양 환경의 간섭으로 인한 이미지 품질 저하 및 복잡한 해양 장면으로 인한 정확한 인식을 위한 심층 추론 필요성 등의 어려움을 극복하기 위해, 이미지 데이터, 텍스트 설명, 그리고 다중 모드 대규모 언어 모델(MLLM)이 생성한 분류 벡터를 통합하는 새로운 다중 모드 AI 프레임워크를 제안한다. 효율적인 다중 모드 융합 메커니즘을 사용하여 복잡한 해양 환경에서 모델의 강건성과 적응성을 향상시키고, 98%의 정확도를 달성하여 기존 최고 성능 모델보다 3.5% 향상된 결과를 보였다. 자원 제약이 있는 플랫폼에 배포하기 위해 활성화 인식 가중치 양자화(AWQ)를 사용하여 모델 크기를 68.75MB로 줄이고, 정확도는 0.5%만 감소시키면서 계산 오버헤드를 크게 낮췄다. 본 연구는 자원이 제한된 환경에서 환경 모니터링 및 재난 대응을 지원하는 자율 수상 차량(ASV)을 가능하게 하는 실시간 해양 장면 인식을 위한 고성능 솔루션을 제공한다.