# 문서에 사용된 표현을 질문하면 정확도가 올라가요

## 문서를 그냥 저장하지 않습니다 — AI가 읽기 좋게 '쪼갭니다'

- AI는 긴 문서를 한 번에 다 기억하고 처리하지 못합니다.

- 그래서 벨루가는 업로드된 문서를 작은 조각으로 나눕니다.

-  이를 문서 분할(Document Chunking)이라고 합니다.

- 예를 들어, 아래와 같은 문서가 있다면:

>  1. 회사 소개  

1. 서비스 개요  

2. 고객 사례  

3. 기술 사양  

4. 자주 묻는 질문

> **이 문서는 내부적으로 이렇게 나뉘어 저장됩니다:
**- 조각 1: 회사 소개 (700자)~
~- 조각 2: 서비스 개요 (700자)
...
- 조각 N: 자주 묻는 질문의 일부

> 📌 **중요**: 너무 크게 나누면 검색이 부정확하고, 너무 작게 나누면 맥락이 끊깁니다.
>  벨루가는 문장의 흐름, 문단 구조 등을 고려해 적절히 분할합니다.

---

## 분할된 조각은 ‘숫자 덩어리’로 바뀝니다 — 벡터화(Vectorization)

- 분할된 조각은 각기** 의미를 담은 수치 데이터(=벡터)**로 변환됩니다.

- 이 과정을 **벡터화**라고 합니다.

- 예시:

> "서비스 개요" 조각 → [0.13, -0.92, 0.55, ...] (768차원 벡터)

이 숫자 벡터는 AI가 "**의미**"를 **수학적으로 비교할 수 있게** 만들어주는 핵심 데이터입니다.

> -  벡터는 AI의 ‘의미 지도’ 위에 조각들을 배치한 것과 같아요.
> -  질문이 오면 이 지도 위에서 가장 가까운 위치의 조각을 찾습니다.
> 

### 질문도 같은 방식으로 처리됩니다

- 사용자가 질문하면, 그 질문도 똑같이 벡터화됩니다.
- 예: "서비스 특징이 뭐야?" → [0.14, -0.90, 0.51, ...]

- 그 벡터와 가장 가까운 문서 조각들을 찾아서, 그걸 바탕으로 AI가 답변을 생성합니다.
- 

---

## 왜 분할이 중요한가요?

분할이 정확하지 않으면 다음과 같은 문제가 생깁니다:

| 문제 상황 | 원인 | 결과 |
| --- | --- | --- |
| 너무 크게 분할됨 | 조각이 길어서 내용이 다양함 | 질문과 연결되지 않음 |
| 너무 작게 분할됨 | 문장이 끊김 | 의미가 불명확해짐 |
| 문단 구조 무시됨 | 의미 흐름이 단절됨 | 질문과 엉뚱한 연결 발생 |

- 벨루가는 이 과정을 최대한 자동으로, 효율적으로 처리하지만 
- 문서 구성(표, 제목, 문단 등)이 명확할수록 더 좋은 결과를 얻을 수 있어요.

---

## 분할과 벡터화를 이해하면 생기는 좋은 일

- 답변 정확도 향상: 질문이 정확히 연결될 문서 조각을 더 잘 찾습니다.

- 오답 방지: 관련 없는 내용이 섞이는 걸 줄일 수 있습니다.

- 문서 구조 최적화 힌트 제공: 향후 문서를 더 잘 작성하게 됩니다.
- 

---

## ✅ 정리

- 문서는 **작은 조각으로 분할**되고, 각 조각은 **벡터로 변환**됩니다.

- 질문도 벡터로 바꿔서, 가장 가까운 문서 조각을 찾습니다.

- 좋은 분할과 벡터화는 **정확한 검색**과 **자연스러운 답변 생성**의 핵심입니다.

For the site tree, see the [root Markdown](https://slashpage.com/velugadoc.md).
