Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Bias in Large Language Models Across Clinical Applications: A Systematic Review

Created by
  • Haebom

저자

Thanathip Suenghataiphorn, Narisara Tribuddharat, Pojsakorn Danpanichkul, Narathorn Kulthamrongsri

개요

본 논문은 의료 분야에 빠르게 통합되고 있는 대규모 언어 모델(LLM)의 편향성 문제를 체계적으로 검토한 연구입니다. PubMed, OVID, EMBASE 데이터베이스를 2025년까지 검색하여 LLM의 편향성이 임상 과제에 미치는 영향을 평가한 38편의 연구를 분석했습니다. 분석 결과, 다양한 LLM과 임상 적용에서 광범위한 편향성이 존재하는 것으로 나타났습니다. 편향의 원인으로는 편향된 훈련 데이터에서 기인하는 데이터 관련 편향과 모델 훈련 과정에서 발생하는 모델 관련 편향이 모두 중요한 요인으로 지적되었습니다. 편향은 자원 배분의 차별(예: 차별적인 치료 권고), 표상적 피해(예: 고정관념적 연관성, 편향된 이미지 생성), 성능 차이(예: 가변적인 출력 품질) 등의 형태로 나타났으며, 인종/민족, 성별, 연령, 장애, 언어 등 다양한 속성에 영향을 미쳤습니다. 결론적으로, 임상 LLM의 편향성은 광범위하고 체계적인 문제이며, 특히 소외된 환자 집단에게 잘못된 진단과 부적절한 치료로 이어질 가능성이 있습니다. 따라서 모델의 엄격한 평가, 효과적인 완화 전략의 개발 및 구현, 그리고 실제 임상 환경에서의 지속적인 모니터링이 필수적입니다.

시사점, 한계점

시사점:
의료 분야에서 LLM의 편향성이 광범위하게 존재하며, 심각한 임상적 문제를 야기할 수 있다는 것을 밝힘.
데이터 및 모델 관련 편향의 원인과 다양한 표출 양상을 구체적으로 제시함.
소외된 환자 집단에 대한 불평등한 의료 서비스 제공 가능성을 경고함.
LLM의 안전하고 공정하며 신뢰할 수 있는 의료 적용을 위한 엄격한 평가, 완화 전략, 지속적인 모니터링의 필요성을 강조함.
한계점:
분석에 포함된 연구의 질적 수준과 방법론적 제한에 대한 자세한 논의가 부족할 수 있음. (ROBINS-I 도구 사용 언급은 있으나, 구체적인 평가 결과 및 제한점에 대한 설명이 부족할 가능성이 있음.)
편향 완화 전략에 대한 구체적인 제안이나 평가가 부족할 수 있음.
2025년까지의 데이터만 포함하여 최신 연구 동향을 완전히 반영하지 못했을 가능성이 있음.
특정 LLM 또는 임상 적용에 대한 편향성의 심각도를 정량적으로 비교 분석하지 못했을 가능성이 있음.
👍