Sign In

MammoClean: Toward Reproducible and Bias-Aware AI in Mammography through Dataset Harmonization

Created by
  • Haebom
Category
Empty

저자

Yalda Zafari, Hongyi Pan, Gorkem Durak, Ulas Bagci, Essam A. Rashed, Mohamed Mabrok

개요

임상적으로 신뢰할 수 있는 유방 조영술 인공지능(AI) 시스템 개발은 공공 데이터 세트 전반의 데이터 품질, 메타데이터 표준, 인구 분포의 심각한 이질성으로 인해 방해를 받습니다. 이러한 이질성은 모델의 일반화 가능성을 심각하게 손상시키는 데이터 세트별 편향을 유발하며, 이는 임상 적용의 근본적인 장벽입니다. 본 연구에서는 유방 조영술 데이터 세트의 표준화 및 편향 정량을 위한 공개 프레임워크인 MammoClean을 제시합니다. MammoClean은 사례 선택, 이미지 처리(측면성 및 강도 보정 포함)를 표준화하고 메타데이터를 일관된 다중 뷰 구조로 통합합니다. 또한, 유방 해부학, 영상 특성 및 공개 유방 조영술 데이터 세트에 대한 포괄적인 검토를 통해 편향의 주요 원인을 체계적으로 식별합니다. MammoClean을 세 개의 이질적인 데이터 세트(CBIS-DDSM, TOMPEI-CMMD, VinDr-Mammo)에 적용하여 유방 밀도 및 이상 발생률의 상당한 분포 변화를 정량화합니다. 중요한 것은, 데이터 손상이 AI 모델의 성능 저하에 직접적인 영향을 미친다는 것을 입증했습니다. MammoClean을 사용하여 편향 원인을 식별하고 완화함으로써, 연구자들은 더 나은 교차 도메인 일반화를 통해 강력한 모델 개발을 가능하게 하는 통합된 다중 데이터 세트 훈련 집합을 구축할 수 있습니다. MammoClean은 유방 조영술에서 편향을 인식하는 AI 개발을 위한 필수적이고 재현 가능한 파이프라인을 제공하여, 공정한 비교를 용이하게 하고, 다양한 환자 집단 및 임상 환경에서 공정하게 수행되는 안전하고 효과적인 시스템 구축을 발전시킵니다. 오픈 소스 코드는 https://github.com/Minds-R-Lab/MammoClean에서 공개적으로 사용할 수 있습니다.

시사점, 한계점

시사점:
유방 조영술 데이터 세트의 표준화 및 편향 정량을 위한 프레임워크 제공 (MammoClean).
데이터 세트 간의 편향을 정량화하고, 모델 성능에 미치는 영향을 입증.
다중 데이터 세트 훈련을 위한 통합된 프레임워크 구축 가능성 제시.
편향 인식 AI 개발을 위한 재현 가능한 파이프라인 제공.
한계점:
구체적인 한계점은 논문에 명시되지 않음.
👍