시작하기
학습가이드
Subscribe
2️⃣

문서에 사용된 표현을 질문에도 반영하면 정확도가 올라감

문서를 그냥 저장하지 않습니다 — AI가 읽기 좋게 '쪼갭니다'

AI는 긴 문서를 한 번에 다 기억하고 처리하지 못합니다.
그래서 벨루가는 업로드된 문서를 작은 조각으로 나눕니다.
이를 문서 분할(Document Chunking)이라고 합니다.
예를 들어, 아래와 같은 문서가 있다면:
💬
1. 회사 소개
2.
서비스 개요
3.
고객 사례
4.
기술 사양
5.
자주 묻는 질문
💬
이 문서는 내부적으로 이렇게 나뉘어 저장됩니다:
- 조각 1: 회사 소개 (700자)
- 조각 2: 서비스 개요 (700자)
...
- 조각 N: 자주 묻는 질문의 일부
📌 중요: 너무 크게 나누면 검색이 부정확하고, 너무 작게 나누면 맥락이 끊깁니다.
벨루가는 문장의 흐름, 문단 구조 등을 고려해 적절히 분할합니다.

분할된 조각은 ‘숫자 덩어리’로 바뀝니다 — 벡터화(Vectorization)

분할된 조각은 각기 의미를 담은 수치 데이터(=벡터)로 변환됩니다.
이 과정을 벡터화라고 합니다.
예시:
📝
"서비스 개요" 조각 → [0.13, -0.92, 0.55, ...] (768차원 벡터)
이 숫자 벡터는 AI가 "의미"를 수학적으로 비교할 수 있게 만들어주는 핵심 데이터입니다.
- 벡터는 AI의 ‘의미 지도’ 위에 조각들을 배치한 것과 같아요.
- 질문이 오면 이 지도 위에서 가장 가까운 위치의 조각을 찾습니다.

질문도 같은 방식으로 처리됩니다

사용자가 질문하면, 그 질문도 똑같이 벡터화됩니다.
예: "서비스 특징이 뭐야?" → [0.14, -0.90, 0.51, ...]
그 벡터와 가장 가까운 문서 조각들을 찾아서, 그걸 바탕으로 AI가 답변을 생성합니다.

왜 분할이 중요한가요?

분할이 정확하지 않으면 다음과 같은 문제가 생깁니다:
문제 상황
원인
결과
너무 크게 분할됨
조각이 길어서 내용이 다양함
질문과 연결되지 않음
너무 작게 분할됨
문장이 끊김
의미가 불명확해짐
문단 구조 무시됨
의미 흐름이 단절됨
질문과 엉뚱한 연결 발생
벨루가는 이 과정을 최대한 자동으로, 효율적으로 처리하지만
문서 구성(표, 제목, 문단 등)이 명확할수록 더 좋은 결과를 얻을 수 있어요.

분할과 벡터화를 이해하면 생기는 좋은 일

답변 정확도 향상: 질문이 정확히 연결될 문서 조각을 더 잘 찾습니다.
오답 방지: 관련 없는 내용이 섞이는 걸 줄일 수 있습니다.
문서 구조 최적화 힌트 제공: 향후 문서를 더 잘 작성하게 됩니다.

✅ 정리

문서는 작은 조각으로 분할되고, 각 조각은 벡터로 변환됩니다.
질문도 벡터로 바꿔서, 가장 가까운 문서 조각을 찾습니다.
좋은 분할과 벡터화는 정확한 검색자연스러운 답변 생성의 핵심입니다.