CMDS Obsidian Settings

옵시디언을 설정하고 체계를 구축하는 단계에서 참고하면 좋을 팁
설계 단계
5
CMDS Architecture
  • 커맨드스페이스
CMDS 목차 구조
  • 커맨드스페이스
CMDS Guide
  • 커맨드스페이스
CMDS 폴더 구조
  • 커맨드스페이스
ChatGPT, Claude에게 내 목차 정리시키기
  • 커맨드스페이스
구체화 단계
3
Smart Composer System Prompt
  • 커맨드스페이스
Obsidian 필수 플러그인 (32개)
  • 커맨드스페이스
활용 단계
2
Markdown Syntax Guide for Researchers
  • 커맨드스페이스
CMDS 목차 연결하기
  • 커맨드스페이스

Gen AI Embedding Model 정리 (Smart Connections 플러그인 추천)

Status
구체화 단계
Created by
  • 커맨드스페이스
Created at
자주 사용하는 옵시디언 플러그인인 Smart Connections에서 선택 가능한 모델들에 대한 설명이다.

Transformers (Local, built-in)

BGE-micro-v2

"Sentence Embedding"에 최적화된 소형 모델
"Lightweight Architecture"로 빠른 추론 속도 제공
"Low Resource" 환경에서 간단한 분류(Classification), 검색(Retrieval) 등에 사용하기 좋음
단어, 문장 단위의 "Semantic Representation" 품질은 높지만 모델 크기가 작아 대규모 문맥에서는 제약이 있을 수 있음

BGE-small

"BGE-micro"보다 조금 더 큰 규모의 "Embedding Model"
모델 파라미터 수가 늘어난 만큼 표현력(Representation Power)이 향상됨
전반적인 "Precision" 향상으로 보다 정교한 검색(Retrieval) 혹은 추천(Recommender Systems) 등에 쓰임
서버나 GPU 환경에서 다루기에 비교적 가벼운 편이라 확장성(Scalability)도 괜찮은 편

BGE-small-4K

BGE-small 모델의 변형으로, "Context Window" 길이가 4K로 확장된 버전
대규모 문서나 긴 단락에서 정보를 추출하거나 "Document Embedding"을 적용할 때 유리
토큰(Token) 처리 한계가 늘어남으로써 긴 문맥(Context)에 대한 "Semantic Embedding" 가능

GTE-tiny

극도로 작게 설계된 "Tiny Embedding Model"
임베딩 크기가 제한적이지만, "Latency"와 "Resource"가 중요한 모바일 환경 등에서 사용하기 좋음
기본적인 "Semantic Similarity"나 "Classification"용으로 활용 가능
다만 지나치게 작은 모델이므로 복잡한 문맥 처리나 고정밀 태스크는 어려울 수 있음

IvySaur

"Ivy" 기반으로 추정되는 임베딩 모델 이름으로, 코드명 혹은 실험적 프로젝트명일 가능성이 높음
파라미터 규모나 "Architecture"에 대해 공개된 정보가 적으나, "Ivy 프레임워크"의 장점을 활용할 수 있을 것으로 추정
"Cross-Modal" 혹은 "Multi-Modal" 접근을 염두에 두었을 수 있음[^ivySaurNote]

Jina-v2-base-zh-8K

"Jina AI"에서 제공하는 "Base Model"로, 주로 중국어(zh)에 특화된 임베딩 모델
8K "Context Window"를 지원하므로 긴 중국어 문서 임베딩, 검색에 유리
"Language-Specific" 특화 모델이므로 영어 등 다른 언어에 사용 시 성능이 낮을 수 있음
중국어 텍스트 문서 검색, 분류, Q&A 시스템 등에 활용 가능

Jina-v2-small-en

"Jina AI"에서 제공하는 "Small Model"로, 영어 텍스트에 최적화됨
모델 크기를 줄여 비교적 빠른 추론이 가능하지만, 섬세한 "Semantic Representation"은 일부 제한적
검색, 분류, 유사도 측정 등 "NLP Pipeline"에서 간단한 형태로 활용 시 적합
"Efficient Resource Usage"가 필요한 상황에서 사용하기 좋음

Nomic-embed-text

"Nomic"에서 제공하는 임베딩 모델로, 광범위한 텍스트 임베딩을 지원
고품질 "Semantic Embedding"과 다양한 도구 연계성(Nomic 플랫폼 활용)이 장점
다양한 언어 및 태스크에서 안정적인 결과를 제공하며, "Topic Modeling"이나 "Clustering" 등에 활용 가능

Nomic-embed-text-v1.5

Nomic-embed-text 모델의 개선판으로, 기존 버전 대비 정확도(Accuracy)와 일관성(Consistency) 향상
"Versioning"을 통해 특정 태스크(예: 텍스트 군집화, 카테고리 분류)에서 더욱 세밀한 표현 제공
전 버전 대비 "Inference Speed" 최적화가 이뤄졌을 가능성이 있음
"Production-Ready" 시스템이나 "Enterprise-Grade" 솔루션에서 안정적으로 사용되기 좋음

Models

TaylorAI/bge-micro-v2

유형: sentence-transformers 모델
특징:
384차원 밀집 벡터 공간으로 매핑
BAAI/bge-small-en-v1.5에서 2단계 훈련 과정을 통해 증류
용도:
클러스터링
의미 검색
문장 유사성 평가

andersonbcdefg/bge-small-4096

유형: Hugging Face 호스팅 임베딩 모델
특징:
4096 토큰의 문맥 창 제공
성능:
MTEB 벤치마크에서 다양한 작업에 대해 좋은 성능
특히 분류 및 검색 작업에서 우수
용도:
긴 문서 처리
감정 분석
텍스트 분류

Xenova/jina-embeddings-v2-base-zh

유형: 다국어(중국어/영어) 임베딩 모델
특징:
768차원 임베딩 생성
최대 8192 토큰 처리 가능
용도:
중국어 텍스트 처리
긴 문서 분석
복잡한 쿼리 처리

text-embedding-3-small

유형: OpenAI의 새 임베딩 모델
특징:
1536차원 임베딩 생성
text-embedding-ada-002보다 성능 향상
이전 모델보다 5배 저렴한 가격
성능:
MIRACL(다국어 검색 벤치마크)에서 우수
MTEB(영어 작업 벤치마크)에서 우수

text-embedding-3-large

유형: OpenAI의 차세대 대형 텍스트 임베딩 모델
특징:
최대 3072차원 임베딩 생성
성능:
MIRACL과 MTEB 벤치마크에서 text-embedding-ada-002보다 훨씬 우수

text-embedding-3-small-512

유형: text-embedding-3-small의 변형
특징:
512차원 임베딩 생성
용도:
성능과 비용 사이의 균형 조절

text-embedding-3-large-256

유형: text-embedding-3-large의 변형
특징:
256차원 임베딩 생성
용도:
성능과 비용 사이의 균형 조절

text-embedding-ada-002

유형: OpenAI의 이전 세대 임베딩 모델
특징:
1536차원 임베딩 생성
성능:
새로운 모델들에 비해 낮지만 여전히 사용 가능

Xenova/jina-embeddings-v2-small-en

유형: 영어 텍스트용 소형 임베딩 모델
특징:
구체적인 정보 제한적

nomic-ai/nomic-embed-text-v1.5

유형: Nomic AI 개발 임베딩 모델
특징:
Matryoshka Representation Learning 사용
64에서 768 사이의 가변 임베딩 차원 지원
용도:
성능과 메모리 사용량 사이의 균형 조절

Xenova/bge-small-en-v1.5

유형: 영어 텍스트용 소형 임베딩 모델
특징:
384차원 임베딩 생성
최대 512 토큰 처리 가능

nomic-ai/nomic-embed-text-v1

유형: Nomic AI의 이전 버전 임베딩 모델
특징:
nomic-embed-text-v1.5와 성능 유사
가변 차원 미지원