Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

DAM: Domain-Aware Module for Multi-Domain Dataset Condensation

Created by
  • Haebom

저자

Jaehyun Choi, Gyojin Han, Dong-Jae Lee, Sunghyun Baek, Junmo Kim

개요

본 논문은 딥러닝 모델 학습의 계산 및 저장 부담을 줄이기 위한 유망한 해결책으로 떠오른 데이터셋 축소(Dataset Condensation, DC) 방법을 다룬다. 기존 DC 방법들은 현대 데이터셋의 다중 도메인 특성을 크게 간과하는데, 이는 여러 도메인에 걸쳐 이질적인 이미지로 구성되는 경우가 점점 많아지고 있기 때문이다. 본 논문에서는 DC를 확장하여 단일 도메인과 다중 도메인 설정 모두에서 일반화되는 데이터를 축소하는 다중 도메인 데이터셋 축소(Multi-Domain Dataset Condensation, MDDC)를 제안한다. 이를 위해 도메인 관련 특징을 학습 가능한 공간 마스크를 통해 각 합성 이미지에 포함시키는 도메인 인식 모듈(Domain-Aware Module, DAM)을 제안한다. 실제 데이터셋에서는 명시적인 도메인 레이블이 대부분 없으므로 저주파 진폭 통계를 활용하는 주파수 기반 의사 도메인 라벨링을 사용한다. DAM은 축소 과정에서만 활성화되므로 기존 방법과 동일한 클래스당 이미지 수(IPC)를 유지한다. 실험 결과, DAM은 기준 데이터셋 축소 방법보다 도메인 내, 도메인 외 및 크로스 아키텍처 성능을 지속적으로 향상시키는 것으로 나타났다.

시사점, 한계점

시사점: 다중 도메인 데이터셋에 대한 효과적인 데이터 축소 방법인 MDDC와 DAM 모듈을 제시하여, 기존 DC 방법의 한계를 극복하고 성능 향상을 이끌어냄. 주파수 기반 의사 도메인 라벨링을 통해 실제 데이터셋의 도메인 정보 활용 가능성을 보임. 단일 도메인 및 다중 도메인 설정 모두에서 성능 향상을 보임.
한계점: 주파수 기반 의사 도메인 라벨링의 정확도에 따라 성능이 영향을 받을 수 있음. 다양한 종류의 다중 도메인 데이터셋에 대한 일반화 성능 검증이 추가적으로 필요함. DAM 모듈의 계산 비용 증가 가능성 존재. 명시적인 도메인 레이블이 없는 경우에 대한 성능 저하 가능성.
👍