# Merging Embedded Topics with Optimal Transport for Online Topic Modeling on Data Streams

### 저자

Federica Granese, Benjamin Navet, Serena Villata, Charles Bouveyron

### 개요

본 논문은 지속적으로 유입되는 텍스트 데이터 스트림을 처리하기 위한 새로운 온라인 토픽 모델링 방법인 StreamETM을 제안합니다. StreamETM은 Embedded Topic Model (ETM)을 기반으로 하며, 불균형 최적 수송(unbalanced optimal transport)을 이용하여 연속적인 부분 문서 배치에서 학습된 모델들을 병합합니다. 또한, 온라인 변화점 검출 알고리즘을 사용하여 시간에 따른 토픽 변화를 식별함으로써 텍스트 스트림의 역학에서 중요한 변화를 파악합니다.  모의 데이터와 실제 데이터에 대한 실험 결과, StreamETM이 기존 방법들보다 우수한 성능을 보임을 확인했습니다.

### 시사점, 한계점

- **시사점:**

    - 지속적으로 생성되는 대량의 텍스트 데이터 스트림을 효과적으로 처리하는 새로운 온라인 토픽 모델링 방법을 제시합니다.

    - 불균형 최적 수송을 이용하여 모델 병합을 효율적으로 수행합니다.

    - 온라인 변화점 검출 알고리즘을 통해 시간에 따른 토픽 변화를 정확하게 감지합니다.

    - 실험 결과를 통해 StreamETM의 우수한 성능을 검증합니다.

- **한계점:**

    - 논문에서 구체적인 알고리즘의 계산 복잡도 및 메모리 사용량에 대한 분석이 부족합니다.

    - 다양한 종류의 텍스트 데이터에 대한 일반화 성능에 대한 추가적인 연구가 필요합니다.

    - 실제 응용 사례에 대한  폭넓은 실험 및 검증이 필요합니다.

    - 특정 매개변수 설정에 대한 민감도 분석이 부족합니다.

[PDF 보기](https://arxiv.org/pdf/2504.07711)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
