Sign In

HILGEN: Hierarchically-Informed Data Generation for Biomedical NER Using Knowledgebases and Large Language Models

Created by
  • Haebom
Category
Empty

저자

Yao Ge, Yuting Guo, Sudeshna Das, Swati Rajwal, Selen Bozkurt, Abeed Sarker

개요

HILGEN은 통합 의학 언어 시스템(UMLS)의 도메인 지식과 GPT-3.5와 같은 대규모 언어 모델(LLM)이 생성한 합성 데이터를 결합하는 계층적으로 정보가 풍부한 데이터 생성 방식입니다. UMLS의 계층적 구조를 활용하여 관련 개념으로 훈련 데이터를 확장하고, 특정 목적의 프롬프트를 통해 LLM으로부터 희귀하게 발생하는 명명된 개체에 대한 합성 예시를 자동으로 생성하여 문맥 정보를 통합합니다. MIMIC III, BC5CDR, NCBI-Disease, Med-Mentions 네 개의 생의학 NER 데이터셋에서 BERT-Large와 DANN 모델을 사용하여 UMLS, GPT-3.5, 그리고 두 가지의 최적 앙상블을 포함한 다양한 데이터 생성 전략을 적용하여 HILGEN의 성능을 평가했습니다. BERT-Large 모델의 경우 UMLS 통합은 평균 F1 점수를 40.36% 향상시켰고, GPT-3.5 사용은 평균 40.52% 향상시켰습니다. BERT-Large를 사용한 최적 앙상블 접근 방식은 평균 42.29% 향상되는 최고의 결과를 달성했습니다. DANN 모델은 UMLS 전용 접근 방식을 사용하여 평균 22.74% 향상되었고, GPT-3.5 기반 방법은 21.53% 증가했으며, 최적 앙상블 DANN 모델은 평균 25.03%의 더욱 눈에 띄는 향상을 보였습니다. HILGEN은 추가적인 수동 주석 데이터 없이도 소량 학습 환경에서 NER 성능을 향상시킵니다. UMLS와 같은 과거에 정리된 생의학 지식과 생성형 LLM을 결합하여 합성 훈련 인스턴스를 만드는 것이 생의학 NER을 최적화하는 효과적인 전략임을 실험을 통해 보여줍니다.

시사점, 한계점

시사점:
UMLS와 LLM을 결합한 합성 데이터 생성이 소량 학습 환경에서 생의학 NER 성능을 향상시키는 효과적인 전략임을 제시합니다.
기존의 생의학 지식베이스와 생성형 AI의 시너지를 통해 데이터 부족 문제를 해결할 수 있는 가능성을 보여줍니다.
BERT-Large와 DANN 모델 모두에서 성능 향상을 확인하여, 다양한 모델에 적용 가능성을 시사합니다.
한계점:
현재 GPT-3.5에 의존하고 있는데, 다른 LLM의 성능 비교 분석이 부족합니다.
다양한 데이터 생성 전략에 대한 심층적인 비교 분석이 추가적으로 필요합니다.
향후 연구에서 추가적인 혁신적인 합성 데이터 생성 전략 탐색이 필요하다는 점을 스스로 언급하고 있습니다.
👍