Sign In

Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond

Created by
  • Haebom
Category
Empty

μ €μž

Minghao Liu, Zonglin Di, Jiaheng Wei, Zhongruo Wang, Hengxiang Zhang, Ruixuan Xiao, Haoyu Wang, Jinlong Pang, Hao Chen, Ankit Shah, Hongxin Wei, Xinlei He, Zhaowei Zhao, Haobo Wang, Lei Feng, Jindong Wang, James Davis, Yang Liu

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ 개인 λ§žμΆ€ν˜• ν•™μŠ΅ 데이터 ꡬ좕 및 μ „λ¬Έ λͺ¨λΈ νŒŒμΈνŠœλ‹μ— ν•„μˆ˜μ μ΄μ§€λ§Œ, μˆ˜μž‘μ—…μœΌλ‘œ μΈν•œ λΉ„μš©, μ‹œκ°„, 였λ₯˜ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•œ μžλ™ν™”λœ 데이터셋 ꡬ좕(ADC) 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. LLM을 ν™œμš©ν•˜μ—¬ 클래슀 섀계, μ½”λ“œ 생성, 검색 μ—”μ§„ μƒ˜ν”Œ μˆ˜μ§‘μ„ μžλ™ν™”ν•¨μœΌλ‘œμ¨ μˆ˜λ™ λ ˆμ΄λΈ”λ§μ˜ ν•„μš”μ„±μ„ 쀄이고 데이터 생성 속도λ₯Ό λ†’μž…λ‹ˆλ‹€. μ œμ•ˆλœ λ°©λ²•μœΌλ‘œ 1백만 개 μ΄μƒμ˜ μ΄λ―Έμ§€λ‘œ κ΅¬μ„±λœ Clothing-ADC 데이터셋을 κ΅¬μΆ•ν–ˆμœΌλ©°, 인간 μ£Όμ„κ°€μ™€μ˜ 79% 일치율, λ ˆμ΄λΈ” λ…Έμ΄μ¦ˆ 22.2%μ—μ„œ 10.7%둜 κ°μ†Œμ™€ 같은 μ„±κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μˆ˜λ™ λ ˆμ΄λΈ”λ§ 없이도 κ³ ν’ˆμ§ˆ ν•™μŠ΅ 데이터λ₯Ό 효율적이고 경제적으둜 ꡬ좕할 수 μžˆλŠ” μƒˆλ‘œμš΄ μžλ™ν™” 방법둠을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ ˆμ΄λΈ” λ…Έμ΄μ¦ˆ 탐지 및 클래슀 λΆˆκ· ν˜• ν•™μŠ΅μ„ μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크 데이터셋을 μ œκ³΅ν•˜μ—¬ κ΄€λ ¨ 연ꡬ λ°œμ „μ— κΈ°μ—¬ν•©λ‹ˆλ‹€.
β€’
λ ˆμ΄λΈ” 였λ₯˜(λ…Έμ΄μ¦ˆ)와 데이터 λΆˆκ· ν˜•(편ν–₯)κ³Ό 같은 μ‹€μ œ 데이터셋 κ΅¬μΆ•μ˜ ν•œκ³„λ₯Ό μ—¬μ „νžˆ κ°€μ§€κ³  μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘