# OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models

### 저자

Yida Xue, Ningyu Zhang, Tingwei Wu, Zhe Ma, Daxiong Ji, Zhao Wang, Guozhou Zheng, Huajun Chen

### 💡 개요

본 논문은 해양 데이터의 데이터 병목 현상으로 인해 AI 기술의 적용이 제한적이라는 문제점을 지적하며, 해양 재단 모델을 위한 대규모 멀티모달 코퍼스인 OceanPile을 제안한다. OceanPile은 다양한 출처의 음파, 수중 이미지, 해양 과학 시각 자료 및 과학 텍스트를 통합한 OceanCorpus, 계층적 해양 개념 지식을 기반으로 생성된 OceanInstruction, 그리고 평가를 위한 OceanBenchmark로 구성된다. 이 코퍼스를 통해 훈련된 모델은 상당한 성능 향상을 보이며, 해양 AI 분야 발전과 도메인 특화 MLLM 개발에 기여할 것으로 기대된다.

### 🔑 시사점 및 한계

- 해양 데이터의 파편화, 다중 모달성, 높은 노이즈, 약한 레이블 특성을 해결하기 위한 대규모 멀티모달 코퍼스의 필요성을 보여준다.

- OceanPile은 해양 과학 분야에서 MLLM의 잠재력을 끌어올릴 수 있는 실질적인 데이터셋을 제공한다.

- 해양 데이터의 특성에 맞는 품질 관리 프로세스와 지식 그래프 기반의 데이터셋 구축 방법을 제시한다.

- 향후 연구에서는 OceanPile을 활용하여 더욱 정교하고 다양한 해양 관련 AI 모델을 개발하고, 실제 해양 환경에서의 적용성을 검증할 필요가 있다.

[PDF 보기](https://arxiv.org/pdf/2605.00877)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
