Sign In

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

Created by
  • Haebom
Category
Empty

μ €μž

Dongfang Zhao

πŸ’‘ κ°œμš”

고차원 κ³΅κ°„μ—μ„œ κ·Έλž˜ν”„ 기반 근사 μ΅œκ·Όμ ‘ 이웃(ANN) 탐색은 μœ ν΄λ¦¬λ“œ 거리와 데이터 닀양체(manifold) κ°„μ˜ 뢈일치둜 인해 μ„±λŠ₯ μ €ν•˜λ₯Ό κ²ͺμŠ΅λ‹ˆλ‹€. λ³Έ 논문은 데이터 닀양체에 맞좰 탐색 μ „λž΅μ„ λ™μ μœΌλ‘œ μ‘°μ •ν•˜λŠ” κΈ°ν•˜ν•™μ μ΄κ³  λ””μŠ€ν¬ 기반의 인덱싱 방법인 MCGI(Manifold-Consistent Graph Indexing)λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. MCGIλŠ” Local Intrinsic Dimensionality(LID)λ₯Ό ν™œμš©ν•˜μ—¬ μ°¨μ›λ³„λ‘œ κ· μΌν•˜κ²Œ νƒμƒ‰ν•˜λŠ” κΈ°μ‘΄ 방식과 달리, λ°μ΄ν„°μ˜ κΈ°ν•˜ν•™μ  νŠΉμ„±μ— κΈ°λ°˜ν•œ 동적인 탐색 μ˜ˆμ‚° μ‘°μ ˆμ„ 톡해 λ°μ΄ν„°μ…‹μ˜ 차원에 상관없이 μ•ˆμ •μ μΈ μ„±λŠ₯을 λ³΄μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
차원 뢈일치 문제 ν•΄κ²°: 고차원 κ³΅κ°„μ—μ„œ λ°œμƒν•˜λŠ” μœ ν΄λ¦¬λ“œ 거리와 데이터 닀양체 κ°„μ˜ 뢈일치 문제λ₯Ό ν•΄κ²°ν•˜μ—¬ ANN 탐색 μ„±λŠ₯을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.
β€’
데이터 κΈ°ν•˜ν•™ 기반 동적 탐색: LIDλ₯Ό ν™œμš©ν•˜μ—¬ λ°μ΄ν„°μ˜ λ‚΄μž¬μ  κΈ°ν•˜ν•™μ  νŠΉμ„±μ— 맞좰 탐색 μ „λž΅μ„ λ™μ μœΌλ‘œ μ‘°μ ˆν•¨μœΌλ‘œμ¨, λ°μ΄ν„°μ…‹μ˜ 차원에 덜 λ―Όκ°ν•˜κ³  μ•ˆμ •μ μΈ μ„±λŠ₯을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
차원별 ν•˜μ΄νΌνŒŒλΌλ―Έν„° νŠœλ‹ κ°μ†Œ: 단일 슀칼라 κ°’μœΌλ‘œ ν•˜μ΄νΌνŒŒλΌλ―Έν„°λ₯Ό λŒ€μ²΄ν•˜λŠ” λŒ€μ‹  κΈ°ν•˜ν•™ 정보 기반의 λ²”μœ„λ₯Ό μ‚¬μš©ν•˜μ—¬, λ‹€μ–‘ν•œ μ°¨μ›μ˜ λ°μ΄ν„°μ…‹μ—μ„œ ν•˜μ΄νΌνŒŒλΌλ―Έν„° νŠœλ‹μ˜ λ³΅μž‘μ„±μ„ μ€„μž…λ‹ˆλ‹€.
β€’
ν•œκ³„μ : λŒ€κ·œλͺ¨ λ””μŠ€ν¬ 기반 벑터 검색에 λŒ€ν•œ μ œμ•ˆ λ°©λ²•μ˜ μ‹€νš¨μ„±μ„ μž…μ¦ν•˜μ˜€μœΌλ‚˜, νŠΉμ • 데이터 λΆ„ν¬λ‚˜ κ·Ήλ„λ‘œ 높은 μ°¨μ›μ—μ„œμ˜ 좔가적인 μ„±λŠ₯ 검증 및 μ•Œκ³ λ¦¬μ¦˜μ˜ μ‹œκ°„ λ³΅μž‘μ„±μ— λŒ€ν•œ 심측적인 뢄석이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘