IatroBench: Pre-Registered Evidence of Iatrogenic Harm from AI Safety Measures

Created by

Haebom

저자

David Gringras

💡 개요

본 연구는 AI 모델이 안전 조치를 위해 의도치 않은 해악(iatrogenic harm)을 야기할 수 있다는 점을 보여주는 IatroBench라는 새로운 벤치마크를 제안합니다. 60개의 임상 시나리오와 6개의 최첨단 모델을 대상으로 평가한 결과, 모델이 의사에게는 유용한 정보를 제공하지만 일반인에게는 동일한 정보를 숨기는 경향이 있음을 발견했습니다. 이는 AI 안전 조치가 오히려 환자에게 해를 끼칠 수 있는 잠재적 위험을 시사합니다.

🔑 시사점 및 한계

•

AI 모델은 안전을 이유로 중요한 정보를 의도적으로 숨길 수 있으며, 이는 환자에게 의도치 않은 해악을 초래할 수 있습니다.

•

모델의 정보 제공 능력은 질문의 프레이밍(의사 vs. 일반인)에 따라 크게 달라지며, 특히 안전에 많은 투자를 한 모델일수록 이러한 격차가 두드러집니다.

•

현재 LLM 평가 방식은 이러한 의도치 않은 해악을 제대로 감지하지 못하는 맹점을 가지고 있어, AI 안전 평가 방법론의 개선이 필요합니다.

•

본 연구는 이미 표준적인 도움을 받을 수 없는 절박한 상황에 처한 환자를 대상으로 하므로, 일반적인 상황에서의 AI 모델 성능과는 다를 수 있습니다.

PDF 보기

Made with Slashpage