Sign In

Lightweight Multimodal Artificial Intelligence Framework for Maritime Multi-Scene Recognition

Created by
  • Haebom
Category
Empty

저자

Xinyu Xi, Hua Yang, Shentai Zhang, Yijie Liu, Sijin Sun, Xiuju Fu

개요

본 논문은 해양 보존, 환경 모니터링, 재난 대응과 같은 해양 로봇의 기능 향상에 중요한 해양 다중 장면 인식 문제를 다룬다. 해양 환경의 간섭으로 인한 이미지 품질 저하 및 복잡한 해양 장면으로 인한 정확한 인식을 위한 심층 추론 필요성 등의 어려움을 극복하기 위해, 이미지 데이터, 텍스트 설명, 그리고 다중 모드 대규모 언어 모델(MLLM)이 생성한 분류 벡터를 통합하는 새로운 다중 모드 AI 프레임워크를 제안한다. 효율적인 다중 모드 융합 메커니즘을 사용하여 복잡한 해양 환경에서 모델의 강건성과 적응성을 향상시키고, 98%의 정확도를 달성하여 기존 최고 성능 모델보다 3.5% 향상된 결과를 보였다. 자원 제약이 있는 플랫폼에 배포하기 위해 활성화 인식 가중치 양자화(AWQ)를 사용하여 모델 크기를 68.75MB로 줄이고, 정확도는 0.5%만 감소시키면서 계산 오버헤드를 크게 낮췄다. 본 연구는 자원이 제한된 환경에서 환경 모니터링 및 재난 대응을 지원하는 자율 수상 차량(ASV)을 가능하게 하는 실시간 해양 장면 인식을 위한 고성능 솔루션을 제공한다.

시사점, 한계점

시사점:
다중 모드 AI 프레임워크를 통해 해양 다중 장면 인식의 정확도를 획기적으로 향상시켰다 (98% 정확도, 기존 SOTA 대비 3.5% 향상).
AWQ 기법을 활용하여 모델 크기 및 계산량을 효과적으로 줄여 자원 제약 환경에서의 실시간 구현 가능성을 높였다.
해양 환경 모니터링 및 재난 대응 등 다양한 분야에서 자율 수상 차량(ASV)의 활용성을 증대시킬 수 있다.
한계점:
제안된 모델의 일반화 성능에 대한 추가적인 평가가 필요하다. 다양한 해양 환경 및 조건에 대한 테스트가 더 필요할 수 있다.
MLLM의 성능에 대한 의존도가 높을 수 있으며, MLLM의 성능 저하가 전체 시스템 성능에 영향을 미칠 수 있다.
AWQ를 적용하면서 발생하는 정확도 손실(0.5%)을 더 줄일 수 있는 방법에 대한 연구가 필요하다.
👍