대규모 언어 모델(LLM)이 자동화된 의료 질문 응답을 통해 디지털 헬스케어를 혁신할 가능성이 있지만, 특히 오픈 소스 솔루션의 경우 사실 정확성, 유용성 및 안전성에 대한 산업 표준을 충족하는 것이 어렵다. 1,000개 이상의 건강 관련 질문 데이터 세트를 사용하여 엄격한 벤치마킹 프레임워크를 제시한다. 정직성, 유용성 및 무해성을 기준으로 모델 성능을 평가한다. Mistral-7B, BioMistral-7B-DARE 및 AlpaCare-13B 모델 간의 사실적 신뢰성과 안전성 간의 상충 관계를 강조한다. AlpaCare-13B가 가장 높은 정확도(91.7%)와 무해성(0.92)을 달성했고, BioMistral-7B-DARE의 도메인별 튜닝은 규모가 작음에도 불구하고 안전성(0.90)을 향상시켰다. Few-shot 프롬프팅은 정확도를 78%에서 85%로 향상시켰으며, 모든 모델은 복잡한 질문에 대한 유용성이 감소하여 임상 QA에서 지속적인 과제를 보여주었다.