Sign In

Towards Event Extraction with Massive Types: LLM-based Collaborative Annotation and Partitioning Extraction

Created by
  • Haebom
Category
Empty

저자

Wenxuan Liu, Zixuan Li, Long Bai, Yuxin Zuo, Daozhu Xu, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng

개요

본 논문은 대규모 이벤트 유형을 추출할 수 있는 범용 추출 시스템 개발이라는 이벤트 추출(Event Extraction, EE) 분야의 오랜 과제를 다룹니다. 이를 위해 효율적이고 효과적인 어노테이션 방법의 부재와 대규모 유형을 처리할 수 있는 강력한 추출 방법의 부재라는 두 가지 어려움을 해결하고자 합니다. 첫 번째 문제를 해결하기 위해, 본 논문은 대규모 언어 모델(LLM) 기반의 협업 어노테이션 방법을 제안합니다. 여러 LLM 간의 협업을 통해 원격 감독으로부터 트리거 단어의 어노테이션을 개선하고, 인수 어노테이션을 수행한 후, 투표 단계를 통해 서로 다른 LLM의 어노테이션 선호도를 통합합니다. 결과적으로 20만 개 이상의 샘플, 3,465개의 이벤트 유형, 6,297개의 역할 유형을 포함하는, 현재까지 가장 큰 EE 데이터셋인 EEMT 데이터셋을 생성합니다. 두 번째 문제를 해결하기 위해, LLM 기반의 분할 이벤트 추출(LLM-PEE) 방법을 제안합니다. LLM의 제한된 컨텍스트 길이를 극복하기 위해, LLM-PEE는 먼저 후보 이벤트 유형을 재호출한 다음, 이를 여러 파티션으로 분할하여 LLM이 이벤트를 추출하도록 합니다. 감독 학습 설정에서 LLM-PEE는 최첨단 방법보다 이벤트 탐지에서 5.4, 인수 추출에서 6.1 향상된 성능을 보였으며, 제로샷 설정에서는 주요 LLM에 비해 최대 12.9 향상된 성능을 달성하여 강력한 일반화 능력을 입증했습니다.

시사점, 한계점

시사점:
대규모 이벤트 유형을 효과적으로 처리하는 새로운 이벤트 추출 시스템(LLM-PEE) 제시
LLM 기반 협업 어노테이션 방법을 통해 대규모 이벤트 추출 데이터셋(EEMT) 구축
감독 학습 및 제로샷 설정에서 최첨단 성능 달성
LLM의 제한된 컨텍스트 길이 문제 해결 방안 제시
한계점:
EEMT 데이터셋의 품질 및 균형에 대한 추가적인 평가 필요
LLM-PEE의 성능이 특정 유형의 이벤트나 역할에 편향될 가능성
다양한 언어 및 도메인에 대한 LLM-PEE의 일반화 성능 검증 필요
LLM-PEE의 계산 비용 및 효율성에 대한 추가적인 분석 필요
👍