Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MOSAIC: A Multilingual, Taxonomy-Agnostic, and Computationally Efficient Approach for Radiological Report Classification

Created by
  • Haebom

저자

Alice Schiavone, Marco Fraccaro, Lea Marie Pehrson, Silvia Ingala, Rasmus Bonnevie, Michael Bachmann Nielsen, Vincent Beliveau, Melanie Ganz, Desmond Elliott

MOSAIC: Multilingual, Taxonomy-Agnostic, and Computationally Efficient Radiological Report Classification

개요

MOSAIC는 방사선 보고서 분류를 위한 다국어, 분류 체계 독립적이며 계산 효율적인 접근 방식입니다. 이는 소형 공개 언어 모델(MedGemma-4B)을 기반으로 구축되었으며, 제로/소수 샷 프롬프팅과 경량 파인 튜닝을 모두 지원합니다. MOSAIC는 영어, 스페인어, 프랑스어, 덴마크어의 7개 데이터 세트에 대해 평가되었으며, 여러 영상 모드 및 레이블 분류 체계를 포함합니다. 5개의 흉부 X-ray 데이터 세트에서 평균 매크로 F1 점수 88점을 달성하여 전문가 수준의 성능에 근접하거나 능가하며, 24GB의 GPU 메모리만 필요합니다. 데이터 증강을 사용하면 덴마크어 보고서에서 80개의 주석 샘플만으로도 가중 F1 점수 82점을 달성할 수 있습니다. 코드와 모델은 오픈 소스입니다.

시사점, 한계점

다국어 지원: 영어, 스페인어, 프랑스어, 덴마크어 데이터셋에서 평가됨.
분류 체계 독립적: 다양한 영상 모드 및 레이블 분류 체계를 지원.
계산 효율성: 소형 오픈 소스 언어 모델(MedGemma-4B)을 사용하고, 소비자급 GPU에서 배포 가능.
제로/소수 샷 학습 지원: 적은 수의 주석 데이터로도 높은 성능을 달성.
오픈 소스: 코드 및 모델 공개.
한계: 연구에서 사용된 언어 및 데이터셋의 제한.
한계: 다른 모달리티 및 분류 체계로의 확장에 대한 추가 평가 필요.
👍