Home

가격 및 요금제

💬 피드백 남기기

자주 묻는 질문

시작하기

채널설정

벨루가, 똑똑하게 쓰는 법

프롬프트 엔지니어링

벨루가 채널의 작동 원리와 최적화 팁 모음

MCP란?

블로그

벨루가 블로그

커뮤니티

Veluga Community

문서에 사용된 표현을 질문에도 반영하면 정확도가 올라감

문서를 그냥 저장하지 않습니다 — AI가 읽기 좋게 '쪼갭니다'

•

AI는 긴 문서를 한 번에 다 기억하고 처리하지 못합니다.

•

그래서 벨루가는 업로드된 문서를 작은 조각으로 나눕니다.

•

이를 문서 분할(Document Chunking)이라고 합니다.

•

예를 들어, 아래와 같은 문서가 있다면:

1. 회사 소개

서비스 개요

고객 사례

기술 사양

자주 묻는 질문

이 문서는 내부적으로 이렇게 나뉘어 저장됩니다:
- 조각 1: 회사 소개 (700자)
- 조각 2: 서비스 개요 (700자)
...
- 조각 N: 자주 묻는 질문의 일부

📌 중요: 너무 크게 나누면 검색이 부정확하고, 너무 작게 나누면 맥락이 끊깁니다.
벨루가는 문장의 흐름, 문단 구조 등을 고려해 적절히 분할합니다.

분할된 조각은 ‘숫자 덩어리’로 바뀝니다 — 벡터화(Vectorization)

•

분할된 조각은 각기 의미를 담은 수치 데이터(=벡터)로 변환됩니다.

•

이 과정을 벡터화라고 합니다.

•

예시:

"서비스 개요" 조각 → [0.13, -0.92, 0.55, ...] (768차원 벡터)

이 숫자 벡터는 AI가 "의미"를 수학적으로 비교할 수 있게 만들어주는 핵심 데이터입니다.

- 벡터는 AI의 ‘의미 지도’ 위에 조각들을 배치한 것과 같아요.
- 질문이 오면 이 지도 위에서 가장 가까운 위치의 조각을 찾습니다.

질문도 같은 방식으로 처리됩니다

•

사용자가 질문하면, 그 질문도 똑같이 벡터화됩니다.
예: "서비스 특징이 뭐야?" → [0.14, -0.90, 0.51, ...]

•

그 벡터와 가장 가까운 문서 조각들을 찾아서, 그걸 바탕으로 AI가 답변을 생성합니다.

왜 분할이 중요한가요?

분할이 정확하지 않으면 다음과 같은 문제가 생깁니다:

문제 상황	원인	결과
너무 크게 분할됨	조각이 길어서 내용이 다양함	질문과 연결되지 않음
너무 작게 분할됨	문장이 끊김	의미가 불명확해짐
문단 구조 무시됨	의미 흐름이 단절됨	질문과 엉뚱한 연결 발생

•

벨루가는 이 과정을 최대한 자동으로, 효율적으로 처리하지만
문서 구성(표, 제목, 문단 등)이 명확할수록 더 좋은 결과를 얻을 수 있어요.

분할과 벡터화를 이해하면 생기는 좋은 일

•

답변 정확도 향상: 질문이 정확히 연결될 문서 조각을 더 잘 찾습니다.

•

오답 방지: 관련 없는 내용이 섞이는 걸 줄일 수 있습니다.

•

문서 구조 최적화 힌트 제공: 향후 문서를 더 잘 작성하게 됩니다.

✅ 정리

•

문서는 작은 조각으로 분할되고, 각 조각은 벡터로 변환됩니다.

•

질문도 벡터로 바꿔서, 가장 가까운 문서 조각을 찾습니다.

•

좋은 분할과 벡터화는 정확한 검색과 자연스러운 답변 생성의 핵심입니다.

Made with Slashpage