본 논문은 의료 분야에서 점차 활용도가 높아지고 있는 대규모 언어 모델(LLM)의 성능을 의료 분류 및 명명된 개체 인식(NER) 과제를 중심으로 체계적으로 벤치마킹한 연구이다. BioMistral과 Llama-2 모델 등 다양한 오픈 LLM을 사용하여 표준 프롬프팅, 사고 연쇄(CoT), 자기 일관성 기반 추론, 그리고 PubMed 및 Wikipedia 코퍼스를 활용한 검색 증강 생성(RAG) 등 다양한 방법을 평가하였다. 의료 분류 및 NER 과제에서 LLM의 성능에 기여하는 요소, 특히 LLM의 과제 지식 및 추론 능력, (매개변수적) 도메인 지식, 그리고 외부 지식 추가의 영향을 밝히고자 하였다.