본 논문은 자동 음성 인식(ASR)과 자연어 처리(NLP)의 교차점에 있는 어려운 과제인 음성 이벤트 추출(SpeechEE)에 대해 다룹니다. 고성능 ASR과 의미 검색으로 강화된 대규모 언어 모델(LLM) 프롬프팅을 통합한 모듈식 파이프라인 기반 SpeechEE 프레임워크를 제시합니다. 규칙 기반, BERT 기반 및 LLM 기반 모델을 포함하는 하이브리드 필터링 메커니즘을 사용하여 이벤트가 포함될 가능성이 높은 음성 세그먼트를 분류하고, 의미 유사성 검색을 통해 동적으로 풍부해진 몇 번의 시도만으로 LLM 프롬프팅을 사용하여 이벤트 트리거를 식별하고 해당 인수를 추출합니다. Llama3-8B, GPT-4o-mini, o1-mini 등 여러 LLM을 사용하여 파이프라인을 평가했으며, o1-mini가 트리거 분류에서 63.3% F1, 인수 분류에서 27.8% F1을 달성하여 기존 벤치마크를 능가하는 성능 향상을 보였습니다. 검색으로 강화된 LLM을 통해 파이프라인 방식은 해석 가능성과 모듈성을 유지하면서 종단 간 시스템과 경쟁하거나 능가할 수 있음을 보여줍니다. LLM 기반 이벤트 추출에 대한 실질적인 통찰력을 제공하고 텍스트 및 음향 기능을 결합한 향후 하이브리드 모델에 대한 경로를 제시합니다.