Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

A Unified Biomedical Named Entity Recognition Framework with Large Language Models

Created by
  • Haebom

저자

Tengxiao Lv, Ling Luo, Juntao Li, Yanhua Wang, Yuchen Pan, Chao Liu, Yanan Wang, Yan Jiang, Huiyi Lv, Yuanyuan Sun, Jian Wang, Hongfei Lin

개요

본 논문은 의료 정보 추출 및 지식 발견에 필수적인 생의학적 개체명 인식(BioNER)의 정확도를 향상시키기 위해 대규모 언어 모델(LLM) 기반의 통일된 프레임워크를 제안한다. 이 프레임워크는 BioNER을 텍스트 생성 작업으로 재구성하고 명시적인 경계 주석을 사용하여 평면 및 중첩된 개체를 함께 처리하는 기호 태깅 전략을 활용한다. 또한, 다국어 및 다중 작업 일반화를 위해 중국어 및 영어 데이터 세트에서 이중 언어 공동 미세 조정을 수행한다. 경계에 민감한 긍정 및 부정 샘플을 활용하여 잘못되거나 가짜 예측을 필터링하는 대조 학습 기반 개체 선택기를 도입한다. 4개의 벤치마크 데이터 세트와 2개의 미공개 말뭉치에 대한 실험 결과는 제안된 방법이 최첨단 성능을 달성하고 언어 간 강력한 제로샷 일반화를 보여준다.

시사점, 한계점

시사점:
LLM을 활용한 BioNER 프레임워크의 새로운 접근 방식 제시
텍스트 생성 기반의 BioNER 재구성을 통해 중첩된 개체 처리 능력 향상
이중 언어 공동 미세 조정을 통한 다국어 및 다중 작업 일반화 향상
대조 학습 기반 개체 선택기를 통한 예측 정확도 향상
다양한 데이터 세트에서 최첨단 성능 달성 및 제로샷 일반화 입증
한계점:
논문에서 구체적인 한계점에 대한 언급 없음 (일반적인 LLM 기반 방법론의 한계점은 존재할 수 있음)
제공된 정보만으로는 구체적인 구현 세부 사항 및 계산 비용 평가 불가
👍