OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive
Created by
Haebom
Category
Empty
저자
Xuan Shen, Brian Wingenroth, Zichao Wang, Jason Kuen, Wanrong Zhu, Ruiyi Zhang, Yiwei Wang, Lichun Ma, Anqi Liu, Hongfu Liu, Tong Sun, Kevin S. Hawkins, Kate Tasker, G. Caleb Alexander, Jiuxiang Gu
개요
UCSF-JHU Opioid Industry Documents Archive (OIDA)에 공개된 방대한 데이터와 문서를 분석하기 위해, 본 논문은 의료 관련 법률 및 기업 문서를 다루는 AI 모델 개발을 제시한다. 문서를 속성별로 정리하고, 40만 건의 훈련 문서와 1만 건의 테스트 문서로 구성된 벤치마크를 구축했다. 텍스트 내용, 시각적 요소, 레이아웃 구조 등 다양한 멀티모달 정보를 추출하고, AI 모델을 사용하여 36만 개의 훈련 QA 쌍과 1만 개의 테스트 QA 쌍을 생성했다. 도메인별 멀티모달 LLM을 개발하고 멀티모달 입력의 영향력을 탐구했으며, 역사적 QA 쌍을 컨텍스트로 활용하고, 페이지 참조 및 중요도 기반 페이지 분류기를 도입하여 답변 정확도를 높였다.