Sign In

When Rubrics Fail: Error Enumeration as Reward in Reference-Free RL Post-Training for Virtual Try-On

Created by
  • Haebom
Category
Empty

μ €μž

Wisdom Ikezogwo, Mehmet Saygin Seyfioglu, Ranjay Krishna, Karim Bouyarmane

πŸ’‘ κ°œμš”

기쑴의 보상 섀계 방식은 λͺ…ν™•ν•œ 정닡이 μ‘΄μž¬ν•˜κ±°λ‚˜ 이상적인 μ°Έμ‘° λ‹΅λ³€μ—μ„œ 평가 기쀀을 ν•©μ„±ν•  수 μžˆλŠ” λΆ„μ•Όμ—μ„œ νš¨κ³Όμ μ΄μ—ˆμœΌλ‚˜, ν˜„μ‹€μ˜ λ§Žμ€ μ‹€μ œ μž‘μ—…μ€ 단일 이상적인 닡변이 μ—†λŠ” 상황을 λ‹€λ£Ήλ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ μ°Έμ‘°-μ—†λŠ”(reference-free) ν™˜κ²½μ—μ„œ λ°œμƒν•˜λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄, μ˜¬λ°”λ₯Έ 응닡을 ν™•μΈν•˜λŠ” λŒ€μ‹  였λ₯˜λ₯Ό μ—΄κ±°ν•˜κ³  κ°€μ€‘μΉ˜λ₯Ό λΆ€μ—¬ν•˜μ—¬ λ³΄μƒμœΌλ‘œ ν™œμš©ν•˜λŠ” 'μ•”μ‹œμ  였λ₯˜ 계산(Implicit Error Counting, IEC)' 기법을 μ œμ•ˆν•©λ‹ˆλ‹€. IECλŠ” 가상 의λ₯˜ 착용(Virtual Try-On, VTO)κ³Ό 같이 λ―Έλ¬˜ν•œ 였λ₯˜λŠ” μš©λ‚©λ˜μ§€ μ•Šμ§€λ§Œ λ‹€μ–‘ν•œ κ²°κ³Όκ°€ ν—ˆμš©λ˜λŠ” λ³΅μž‘ν•œ μž‘μ—…μ—μ„œ 특히 μœ μš©ν•¨μ„ λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
이상적인 μ°Έμ‘° 닡변이 μ‘΄μž¬ν•˜μ§€ μ•ŠλŠ” 경우, 였λ₯˜λ₯Ό μ„ΈλŠ” 방식이 루브릭 기반 평가보닀 더 κ°•λ ₯ν•œ μ‹ ν˜Έλ₯Ό μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ μ•”μ‹œμ  였λ₯˜ 계산(IEC)은 가상 의λ₯˜ 착용과 같은 ν˜„μ‹€μ μΈ λ¬Έμ œμ—μ„œ 기쑴의 루브릭 기반 μ ‘κ·Ό 방식을 λŠ₯κ°€ν•˜λŠ” μ„±λŠ₯을 λ³΄μ—¬μ£Όμ—ˆμŠ΅λ‹ˆλ‹€.
β€’
였λ₯˜ 계산 λ°©μ‹μ˜ μ•ˆμ •μ μΈ μ΅œμ ν™”λ₯Ό μœ„ν•΄μ„œλŠ” μ•”μ‹œμ  점수 방좜(implicit score emission)κ³Ό κ·Έλ£Ή 보정(group calibration)κ³Ό 같은 섀계 선택이 ν•„μˆ˜μ μž…λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” λ‹€μ–‘ν•œ μ‹€μ œ μž‘μ—…μ— IEC 기법을 ν™•μž₯ν•˜κ³ , 였λ₯˜ 심각도 κ°€μ€‘μΉ˜ λΆ€μ—¬μ˜ μΌλ°˜ν™” κ°€λŠ₯성을 탐색할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘