본 논문은 기존의 데이터 거버넌스 방식인 데이터 샘플의 단순 제거(sieving)에서 벗어나, 샘플 내부의 정보를 더욱 세밀하게 관리하는 '주스 짜기'(juicing) 방식의 새로운 데이터 거버넌스 방법인 DataJuicer를 제안합니다. DataJuicer는 이미지와 텍스트 데이터에서 각각 중요한 패치와 토큰을 추출하고, 이를 결합하여 이미지-텍스트 정렬을 향상시키고 데이터셋의 효율성을 높입니다. 비전 분기는 중요한 이미지 패치와 관련 객체 클래스를 유지하고, 텍스트 분기는 이러한 클래스를 활용하여 캡션을 개선합니다. 다양한 데이터셋에 대한 실험 결과, DataJuicer는 기존의 데이터 거버넌스 방법보다 이미지-텍스트 검색, 분류, 밀집 시각 추론 작업에서 성능이 훨씬 우수함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기존의 단순한 데이터 샘플 제거 방식의 한계를 극복하고, 더욱 효율적인 데이터셋을 생성하는 새로운 방법 제시.