본 논문은 의료 정보 추출 및 지식 발견에 필수적인 생의학적 개체명 인식(BioNER)의 정확도를 향상시키기 위해 대규모 언어 모델(LLM) 기반의 통일된 프레임워크를 제안한다. 이 프레임워크는 BioNER을 텍스트 생성 작업으로 재구성하고 명시적인 경계 주석을 사용하여 평면 및 중첩된 개체를 함께 처리하는 기호 태깅 전략을 활용한다. 또한, 다국어 및 다중 작업 일반화를 위해 중국어 및 영어 데이터 세트에서 이중 언어 공동 미세 조정을 수행한다. 경계에 민감한 긍정 및 부정 샘플을 활용하여 잘못되거나 가짜 예측을 필터링하는 대조 학습 기반 개체 선택기를 도입한다. 4개의 벤치마크 데이터 세트와 2개의 미공개 말뭉치에 대한 실험 결과는 제안된 방법이 최첨단 성능을 달성하고 언어 간 강력한 제로샷 일반화를 보여준다.
시사점, 한계점
•
시사점:
◦
LLM을 활용한 BioNER 프레임워크의 새로운 접근 방식 제시
◦
텍스트 생성 기반의 BioNER 재구성을 통해 중첩된 개체 처리 능력 향상
◦
이중 언어 공동 미세 조정을 통한 다국어 및 다중 작업 일반화 향상
◦
대조 학습 기반 개체 선택기를 통한 예측 정확도 향상
◦
다양한 데이터 세트에서 최첨단 성능 달성 및 제로샷 일반화 입증
•
한계점:
◦
논문에서 구체적인 한계점에 대한 언급 없음 (일반적인 LLM 기반 방법론의 한계점은 존재할 수 있음)