Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Squeeze Out Tokens from Sample for Finer-Grained Data Governance

Created by
  • Haebom
Category
Empty

저자

Weixiong Lin, Chen Ju, Haicheng Wang, Shengchao Hu, Shuai Xiao, Mengting Chen, Yuheng Jiao, Mingshuai Yao, Jinsong Lan, Qingwen Liu, Ying Chen

개요

본 논문은 기존의 데이터 거버넌스 방식인 데이터 샘플의 단순 제거(sieving)에서 벗어나, 샘플 내부의 정보를 더욱 세밀하게 관리하는 '주스 짜기'(juicing) 방식의 새로운 데이터 거버넌스 방법인 DataJuicer를 제안합니다. DataJuicer는 이미지와 텍스트 데이터에서 각각 중요한 패치와 토큰을 추출하고, 이를 결합하여 이미지-텍스트 정렬을 향상시키고 데이터셋의 효율성을 높입니다. 비전 분기는 중요한 이미지 패치와 관련 객체 클래스를 유지하고, 텍스트 분기는 이러한 클래스를 활용하여 캡션을 개선합니다. 다양한 데이터셋에 대한 실험 결과, DataJuicer는 기존의 데이터 거버넌스 방법보다 이미지-텍스트 검색, 분류, 밀집 시각 추론 작업에서 성능이 훨씬 우수함을 보여줍니다.

시사점, 한계점

시사점:
기존의 단순한 데이터 샘플 제거 방식의 한계를 극복하고, 더욱 효율적인 데이터셋을 생성하는 새로운 방법 제시.
이미지-텍스트 데이터에서 정보 추출 및 정렬을 향상시켜 다양한 작업 성능 개선.
더욱 정교한 데이터 거버넌스를 통한 데이터 효율성 증대 가능성 제시.
한계점:
DataJuicer의 성능 향상이 특정 데이터셋과 작업에 국한될 가능성 존재.
intra-sample governance의 복잡성 증가로 인한 계산 비용 증가 가능성.
'주스 짜기' 방식의 최적화 파라미터 설정에 대한 추가적인 연구 필요.
👍