Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance

Created by
  • Haebom

저자

Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo

개요

본 논문은 보험 분야에서의 대규모 비전-언어 모델(LVLMs) 및 다중 모달 대규모 언어 모델(MLLMs)의 잠재력을 탐구합니다. 기존 연구의 부재를 지적하며, 자동차, 부동산, 건강, 농업 등 4가지 주요 보험 유형에 대한 다양한 다중 모달 작업을 체계적으로 검토하고 분류합니다. 이를 위해 보험 분야에 특화된 최초의 계층적 벤치마크인 INS-MMBench를 제시합니다. INS-MMBench는 22개의 기본 작업, 12개의 메타 작업, 5개의 시나리오 작업으로 구성되어 기본 기능부터 실제 사용 사례까지 포괄적이고 점진적인 평가를 가능하게 합니다. GPT-4o, LLaVA 등 11개의 주요 LVLMs를 벤치마킹하여 INS-MMBench의 효과성을 검증하고, 다양한 보험 관련 다중 모달 작업에서 현재 LVLMs의 강점과 한계에 대한 자세한 통찰력을 제공합니다. 본 연구는 INS-MMBench를 통해 LVLMs의 보험 산업 통합을 가속화하고 학제 간 연구를 촉진하고자 합니다. 데이터셋과 평가 코드는 GitHub에서 공개합니다.

시사점, 한계점

시사점:
보험 분야를 위한 최초의 계층적 다중 모달 벤치마크(INS-MMBench) 제시
다양한 보험 유형에 대한 다중 모달 작업의 체계적인 검토 및 분류
11개 주요 LVLMs의 성능 비교 및 분석을 통한 강점과 한계 파악
LVLMs의 보험 산업 적용 가능성 및 연구 방향 제시
공개된 데이터셋과 코드를 통한 연구의 재현성 및 확장성 확보
한계점:
벤치마크에 포함된 LVLMs의 종류 및 수 제한
특정 보험 유형 또는 작업에 대한 편향 가능성
실제 보험 업무 환경과의 차이로 인한 일반화 성능의 한계
새로운 LVLMs 및 작업에 대한 지속적인 업데이트 필요성
👍