본 논문은 기존 클래스와 새로운 클래스를 모두 포함하는 비표지 데이터셋에서 새로운 클래스를 정확하게 발견하고 기존 클래스를 올바르게 분류하는 일반화된 범주 발견(GCD) 문제를 다룹니다. 기존 GCD 방법들은 단일 시각 모달리티 정보만을 사용하여 시각적으로 유사한 클래스의 분류 성능이 저조하다는 한계점을 지닙니다. 본 논문에서는 보완적인 차별 정보를 제공하는 텍스트 정보를 GCD 작업에 도입하고자, 비표지 데이터 샘플에 대한 의사 텍스트 임베딩을 생성하는 텍스트 임베딩 합성기(TES)를 제안합니다. TES는 CLIP이 정렬된 시각-언어 특징을 생성하는 특성을 활용하여 시각적 임베딩을 CLIP의 텍스트 인코더 토큰으로 변환하여 의사 텍스트 임베딩을 생성합니다. 또한, 시각 및 의미 모달리티 분기의 공동 학습 및 인스턴스 일관성을 통해 이중 분기 프레임워크를 사용하여 시각 및 의미 정보가 서로 향상되도록 하여 시각 및 텍스트 지식의 상호 작용과 융합을 촉진합니다. 제안된 방법은 CLIP의 다중 모달리티 잠재력을 활용하여 모든 GCD 벤치마크에서 기준 방법보다 훨씬 우수한 성능을 달성하고 새로운 최첨단 기술을 달성합니다.
시사점, 한계점
•
시사점:
◦
CLIP의 시각-언어 정렬 특징을 활용하여 비표지 데이터의 의사 텍스트 임베딩을 생성하는 새로운 방법(TES)을 제시.