특허 텍스트 임베딩은 선행 기술 검색, 기술 분석, 특허 분석에 기여하지만, 기존 벤치마크는 특허 관련 특정 과제를 제대로 반영하지 못함. PatenTEB는 검색, 분류, 패러프레이즈, 클러스터링을 포함하는 15개의 작업으로 구성된 포괄적인 벤치마크이며, 206만 개의 예시를 포함함. PatenTEB는 도메인별 분할, 도메인 특정 hard negative mining, 일반적인 임베딩 벤치마크에 없는 비대칭 단편-문서 매칭 시나리오를 체계적으로 다룸. patembed 모델 제품군은 멀티태스크 학습을 통해 개발되었으며, 67M에서 344M개의 파라미터와 최대 4096 토큰의 컨텍스트 길이를 가짐. 외부 검증에서 patembed-base는 MTEB BigPatentClustering.v2에서 최고 성능 (0.494 V-measure, 이전 최고 0.445)을 달성했고, patembed-large는 DAPFAM에서 0.377 NDCG@100을 달성. 멀티태스크 학습은 벤치마크 비용이 적음에도 불구하고 외부 일반화를 향상시키며, 도메인 사전 훈련 초기화는 모든 작업 영역에서 일관된 이점을 제공함.