
청킹 전략 | 장점 | 단점 | 적합한 상황 |
고정 크기 청킹 (Fixed-size) | 간단하고 빠른 구현 | 의미가 단절될 가능성이 큼 | 구조가 단순한 텍스트 |
의미 기반 청킹 (Semantic) | 의미적 일관성 유지, 중요한 정보 손실 적음 | 추가 계산 리소스 필요, 처리 속도 느림 | 복잡한 구조의 문서 |
재귀적 청킹 (Recursive) | 논리적 단위 유지, 크기 조절 가능 | 처리 시간이 오래 걸릴 수 있음 | 기본 청킹, 크기 조절 필요 시 |
문서 구조 기반 청킹 (Structure-based) | 문서의 논리적 구조 유지 | 문서 구조가 불명확하면 청킹 어려움, 모델 토큰 한계 문제 있음 | 보고서, 논문, 구조화된 매뉴얼 |
LLM 기반 청킹 (LLM-based) | 높은 의미적 정확도, 문맥 이해 우수 | 가장 높은 계산 비용, LLM의 한계 고려 필요 | 의미 이해가 중요한 복잡한 문서 |
https://story.baemin.com/6487/