# Exploring Patient Data Requirements in Training Effective AI Models for MRI-based Breast Cancer Classification

### 저자

Solha Kang, Wesley De Neve, Francois Rameau, Utku Ozbulak

### 개요

본 논문은 의료기관에서 AI 기반 임상 의사결정 지원 솔루션을 사용하는 데 있어 외부 소프트웨어 의존의 위험성(영상 모달리티 및 의료기기의 차이, 법적 문제, 적대적 공격 등)을 지적하고, 오픈소스 기반 모델을 활용하여 의료기관 자체적으로 AI 모델을 학습하는 방안을 제시합니다.  특히 유방암 검출을 사례로, 다양한 규모의 환자 데이터를 사용한 실험을 통해 기존 최고 성능의 모델과 경쟁력 있는 성능을 달성하는 데 필요한 데이터량이 예상보다 적다는 것을 보여줍니다.  50명 이상의 환자 데이터를 사용하면 학습 데이터 크기가 성능에 미치는 영향이 미미하며, 간단한 앙상블 기법을 통해 성능을 더욱 향상시킬 수 있음을 확인했습니다.

### 시사점, 한계점

- **시사점:**

    - 의료기관은 오픈소스 기반 모델을 활용하여 상대적으로 적은 데이터로도 효과적인 AI 기반 의료 모델을 학습할 수 있다.

    - 50명 이상의 환자 데이터를 사용하면 추가적인 데이터 확보가 성능 향상에 미치는 영향이 미미하다.

    - 간단한 앙상블 기법을 통해 모델 성능을 추가적인 복잡성 없이 향상시킬 수 있다.

    - 의료기관의 데이터 독립성 및 보안 강화에 기여할 수 있다.

- **한계점:**

    - 본 연구는 유방암 검출에만 국한되어 있으며, 다른 질병이나 의료 영역으로의 일반화 가능성은 제한적이다.

    - 사용된 기반 모델의 성능에 의존적이며, 기반 모델의 한계가 결과에 영향을 미칠 수 있다.

    - 실제 임상 환경에서의 적용 및 검증이 추가적으로 필요하다.

    - 다양한 이미지 모달리티와 의료기기의 차이에 대한 고려가 부족할 수 있다. (추가적인 연구가 필요)

[PDF 보기](https://arxiv.org/pdf/2502.18506)

![https://i.imgur.com/FDbSxbx.jpeg](https://i.imgur.com/FDbSxbx.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).