Sign In

Supervised Fine-Tuning or In-Context Learning? Evaluating LLMs for Clinical NER

Created by
  • Haebom
Category
Empty

저자

Andrei Baroian

개요

본 논문은 CADEC 코퍼스를 대상으로 임상 명명 개체 인식 (NER) 연구를 수행하며, BERT 기반 인코더, 소수 샷 문맥 학습 (ICL)을 사용한 GPT-4o, 그리고 지도 학습 미세 조정 (SFT)을 사용한 GPT-4o를 비교 분석한다. RoBERTa-large 및 BioClinicalBERT는 BERT Base보다 제한적인 성능 향상을 보였으며, 간단한 ICL이 복잡한 프롬프트보다 우수한 성능을 나타냈다. SFT는 가장 강력한 전체 성능(F1 $\approx$ 87.1%)을 달성했지만 더 높은 비용이 소요되었다. 또한, LLM이 두 개의 레이블로 분류를 제한하는 단순화된 작업에서 더 높은 정확도를 얻는 것을 확인했다.

시사점, 한계점

시사점:
SFT를 사용한 GPT-4o가 CADEC NER 작업에서 가장 높은 성능을 보였다.
간단한 ICL 방식이 복잡한 프롬프트보다 효과적이었다.
LLM은 단순화된 작업에서 높은 정확도를 달성했다.
한계점:
RoBERTa-large 및 BioClinicalBERT는 BERT Base에 비해 제한적인 성능 향상을 보였다.
SFT는 높은 비용이 소요된다.
👍