본 논문은 의생명 정보처리(Biomedical NLP) 분야에서 최근 주목받는 대규모 언어 모델(LLM)인 DeepSeek 시리즈의 성능을 평가한 연구입니다. 12개의 데이터셋을 사용하여 네 가지 주요 의생명 NLP 과제(개체명 인식, 관계 추출, 사건 추출, 텍스트 분류)에서 DeepSeek 모델 (Distilled-DeepSeek-R1 시리즈 및 Deepseek-LLMs)의 성능을 Llama3-8B, Qwen2.5-7B, Mistral-7B, Phi-4-14B, Gemma-2-9B 등 최첨단 모델들과 비교 분석했습니다. 개체명 인식과 텍스트 분류 과제에서는 경쟁력 있는 성능을 보였으나, 사건 추출과 관계 추출 과제에서는 정밀도-재현율 간의 상충 관계로 인해 어려움을 보였습니다. 각 과제별 모델 추천과 향후 연구 방향을 제시하며 DeepSeek 모델의 강점과 한계를 밝히고 있습니다.