# Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores

### 저자

Shevya Panda, Shinjini Bose, Ananya Joshi

### 💡 개요

본 연구는 정신의학 분야에서 대규모 언어 모델(LLM)의 예측 신뢰성을 평가하기 위한 새로운 감사 방법론을 제안합니다. 환자의 의학적으로 중요하지 않은 정보와 프롬프트 설계가 입원 위험 점수 예측에 미치는 영향을 체계적으로 분석하여, LLM이 비임상적 정보에 얼마나 민감하게 반응하는지를 정량화했습니다. 그 결과, 의학적으로 무의미한 정보의 포함이 모든 모델과 프롬프트에서 예측 위험 점수의 증가와 변동성을 유의미하게 높여, 예측 안정성을 저해함을 발견했습니다.

### 🔑 시사점 및 한계

- LLM 기반 정신의학적 위험 평가는 비임상적 맥락 정보에 민감하게 반응하므로, 실제 임상 적용 전에 체계적인 신뢰성 평가가 필수적입니다.

- 프롬프트 설계와 비임상적 정보의 조합은 LLM의 예측 안정성에 복합적인 영향을 미치며, 이는 모델별로 다르게 나타날 수 있습니다.

- 본 연구는 합성 환자 데이터를 사용했으며, 실제 환자 데이터의 복잡성과 다양성을 완전히 반영하지 못할 수 있습니다. 또한, 감사된 LLM의 수가 제한적이며, 다양한 정신의학적 하위 작업에 대한 일반화 가능성은 추가 연구가 필요합니다.

[PDF 보기](https://arxiv.org/pdf/2604.22063)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).