본 논문은 의료 분야에서 인공지능(AI)의 편향 문제를 해결하기 위한 새로운 데이터 감사 프레임워크인 G-AUDIT을 제시합니다. G-AUDIT는 모달리티에 독립적인 방법으로, 학습 또는 테스트 데이터 내 편향의 원인에 대한 가설을 생성합니다. 이는 과업 수준 주석(레이블)과 환자 속성(나이, 성별 등), 환경/획득 특성(임상 사이트, 영상 프로토콜 등)과의 관계를 분석하여, 단축 학습 위험 또는 허위 연관성에 기반한 예측을 숨길 수 있는 테스트 데이터의 위험을 정량화합니다. 피부 병변 분류(영상), EHR 내 낙인 찍는 언어 분류, ICU 표 데이터를 이용한 사망률 예측 등 세 가지 의료 데이터셋과 기계 학습 과제에 대한 분석을 통해 기존의 정성적 방법으로는 발견하기 어려운 미묘한 편향을 성공적으로 식별함으로써, 데이터셋 수준의 위험을 노출하고 신뢰할 수 있는 AI 시스템 개발을 지원하는 실용적인 가치를 보여줍니다.