본 논문은 150개의 건강 관련 질문에 대해 4개의 주요 검색 엔진, 7개의 대규모 언어 모델(LLM), 그리고 검색 증강(RAG) 변형 모델의 성능을 비교 분석했습니다. 검색 엔진은 50~70%의 질문에 정확하게 답변했지만, 많은 검색 결과가 질문과 관련이 없어 정확도가 저하되는 경향을 보였습니다. LLM은 약 80%의 질문에 정확하게 답변하여 검색 엔진보다 높은 정확도를 보였지만, 입력 프롬프트에 민감하게 반응했습니다. RAG 기법은 특히 소규모 LLM의 효과를 최대 30%까지 향상시켜 검색 증거를 통합하는 효용성을 입증했습니다.