Sign In

An evaluation of DeepSeek Models in Biomedical Natural Language Processing

Created by
  • Haebom
Category
Empty

저자

Zaifu Zhan, Shuang Zhou, Huixue Zhou, Jiawen Deng, Yu Hou, Jeremy Yeung, Rui Zhang

개요

본 논문은 의생명 정보처리(Biomedical NLP) 분야에서 최근 주목받는 대규모 언어 모델(LLM)인 DeepSeek 시리즈의 성능을 평가한 연구입니다. 12개의 데이터셋을 사용하여 네 가지 주요 의생명 NLP 과제(개체명 인식, 관계 추출, 사건 추출, 텍스트 분류)에서 DeepSeek 모델 (Distilled-DeepSeek-R1 시리즈 및 Deepseek-LLMs)의 성능을 Llama3-8B, Qwen2.5-7B, Mistral-7B, Phi-4-14B, Gemma-2-9B 등 최첨단 모델들과 비교 분석했습니다. 개체명 인식과 텍스트 분류 과제에서는 경쟁력 있는 성능을 보였으나, 사건 추출과 관계 추출 과제에서는 정밀도-재현율 간의 상충 관계로 인해 어려움을 보였습니다. 각 과제별 모델 추천과 향후 연구 방향을 제시하며 DeepSeek 모델의 강점과 한계를 밝히고 있습니다.

시사점, 한계점

시사점:
DeepSeek 모델이 의생명 NLP의 개체명 인식 및 텍스트 분류 과제에서 경쟁력 있는 성능을 보임을 확인.
의생명 NLP 과제에 대한 DeepSeek 모델의 성능 평가를 통해, 향후 모델 개발 및 적용 방향 제시.
다양한 최첨단 LLM과의 비교 분석을 통해 DeepSeek 모델의 강점과 약점을 명확히 제시.
과제별 최적의 DeepSeek 모델을 제시하여 실제 적용에 대한 가이드라인 제공.
한계점:
사건 추출 및 관계 추출 과제에서 정밀도-재현율 간의 상충 관계로 인해 성능 향상이 필요.
분석에 사용된 데이터셋의 종류 및 규모에 따라 결과가 달라질 수 있음.
DeepSeek 모델의 특정 하이퍼파라미터 최적화에 대한 추가 연구 필요.
👍