# MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

### 저자

Dongfang Zhao

### 💡 개요

고차원 공간에서 그래프 기반 근사 최근접 이웃(ANN) 탐색은 유클리드 거리와 데이터 다양체(manifold) 간의 불일치로 인해 성능 저하를 겪습니다. 본 논문은 데이터 다양체에 맞춰 탐색 전략을 동적으로 조정하는 기하학적이고 디스크 기반의 인덱싱 방법인 MCGI(Manifold-Consistent Graph Indexing)를 제안합니다. MCGI는 Local Intrinsic Dimensionality(LID)를 활용하여 차원별로 균일하게 탐색하는 기존 방식과 달리, 데이터의 기하학적 특성에 기반한 동적인 탐색 예산 조절을 통해 데이터셋의 차원에 상관없이 안정적인 성능을 보입니다.

### 🔑 시사점 및 한계

- **차원 불일치 문제 해결:** 고차원 공간에서 발생하는 유클리드 거리와 데이터 다양체 간의 불일치 문제를 해결하여 ANN 탐색 성능을 향상시킵니다.

- **데이터 기하학 기반 동적 탐색:** LID를 활용하여 데이터의 내재적 기하학적 특성에 맞춰 탐색 전략을 동적으로 조절함으로써, 데이터셋의 차원에 덜 민감하고 안정적인 성능을 제공합니다.

- **차원별 하이퍼파라미터 튜닝 감소:** 단일 스칼라 값으로 하이퍼파라미터를 대체하는 대신 기하학 정보 기반의 범위를 사용하여, 다양한 차원의 데이터셋에서 하이퍼파라미터 튜닝의 복잡성을 줄입니다.

- **한계점:** 대규모 디스크 기반 벡터 검색에 대한 제안 방법의 실효성을 입증하였으나, 특정 데이터 분포나 극도로 높은 차원에서의 추가적인 성능 검증 및 알고리즘의 시간 복잡성에 대한 심층적인 분석이 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2601.01930)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
