본 논문은 의료 텍스트에서 사회적 건강 결정 요인(SDOH)을 추출하는 과정에서 대규모 언어 모델(LLM)이 표면적인 단서에 의존하여 잘못된 예측을 내릴 수 있음을 보여줍니다. SHAC 데이터셋의 MIMIC 부분을 사용하여 약물 사용 여부 추출을 사례 연구로 삼아, 알코올 또는 흡연 언급이 실제 약물 사용이 없는 경우에도 모델이 잘못된 예측을 하도록 유도할 수 있음을 밝혔습니다. 또한, 모델 성능에서 우려되는 성별 불균형을 발견하였습니다. 프롬프트 엔지니어링 및 사고 연쇄 추론과 같은 완화 전략을 평가하여 이러한 오류를 줄이는 방법을 제시하고, 의료 분야에서 LLM의 신뢰성을 높이는 데 대한 통찰력을 제공합니다.