# MINOS: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text

### 저자

Junzhe Zhang, Huixuan Zhang, Xinyu Hu, Li Lin, Mingqi Gao, Shi Qiu, Xiaojun Wan

### 💡 개요

본 논문은 기존 멀티모달 생성 평가 지표의 한계를 극복하기 위해, 고품질의 멀티모달 평가 데이터셋 Minos-57K를 구축하고 이를 기반으로 하는 멀티모달 평가 모델 Minos를 제안합니다. SFT 및 선호도 정렬 훈련 전략을 통해 개발된 Minos는 I2T와 T2I 작업 모두에서 최첨단 평가 성능을 달성하며, 특히 적은 양의 훈련 데이터로도 기존 연구 대비 우수한 결과를 보여줍니다.

### 🔑 시사점 및 한계

- 고품질 데이터 구축과 엄격한 품질 관리 전략이 멀티모달 평가 모델 성능 향상에 핵심적인 역할을 함을 시사합니다.

- I2T 및 T2I 생성 작업의 평가 데이터를 함께 훈련하는 것이 모델의 범용성과 성능을 높이는 데 중요함을 보여줍니다.

- 선호도 정렬 훈련이 모델의 평가 정확도를 더욱 향상시키는 데 기여함을 입증합니다.

- 향후 연구는 다양한 멀티모달 작업 및 데이터셋에 대한 Minos의 일반화 성능을 더욱 확장하고, 평가 과정에서 발생할 수 있는 편향을 완화하는 방안을 모색해야 합니다.

---

[PDF 보기](https://arxiv.org/pdf/2506.02494)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
