Sign In

What's In My Human Feedback? Learning Interpretable Descriptions of Preference Data

Created by
  • Haebom
Category
Empty

μ €μž

Rajiv Movva, Smitha Milli, Sewon Min, Emma Pierson

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 인간 ν”Όλ“œλ°± 데이터에 λ‹΄κΈ΄ μ„ ν˜Έλ„λ₯Ό λͺ…ν™•νžˆ μ΄ν•΄ν•˜κΈ° μ–΄λ ΅λ‹€λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž, ν¬μ†Œ μžλ™ 인코더λ₯Ό ν™œμš©ν•œ WIMHF(What's In My Human Feedback?) 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. WIMHFλŠ” 데이터셋이 μΈ‘μ •ν•  수 μžˆλŠ” μ„ ν˜Έλ„μ™€ μ‹€μ œ μ£Όμ„μžκ°€ ν‘œν˜„ν•˜λŠ” μ„ ν˜Έλ„λ₯Ό λͺ¨λ‘ νŒŒμ•…ν•˜λ©°, 이λ₯Ό 톡해 인간이 이해 κ°€λŠ₯ν•œ μ†Œμˆ˜μ˜ νŠΉμ§•μœΌλ‘œ λŒ€λΆ€λΆ„μ˜ μ„ ν˜Έλ„ 예츑 μ‹ ν˜Έλ₯Ό μ„€λͺ…ν•  수 μžˆμŒμ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΈκ°„μ˜ μ„ ν˜Έλ„λŠ” λ§₯락에 따라 맀우 λ‹€μ–‘ν•˜λ©°, Reddit μ‚¬μš©μžλ“€μ€ 비곡식적인 λ‚΄μš©κ³Ό 농담을 μ„ ν˜Έν•˜λŠ” 반면, νŠΉμ • RLHF λ°μ΄ν„°μ…‹μ—μ„œλŠ” 이λ₯Ό κΈ°ν”Όν•˜λŠ” κ²½ν–₯을 λ³΄μž…λ‹ˆλ‹€.
β€’
WIMHFλŠ” μœ ν•΄ν•˜κ±°λ‚˜ μ•ˆμ „ν•˜μ§€ μ•Šμ€ μ„ ν˜Έλ„λ₯Ό 식별할 수 있으며, 예λ₯Ό λ“€μ–΄ LMArena μ‚¬μš©μžλŠ” 독성 μ½˜ν…μΈ μ— μ°¬μ„±ν•˜μ—¬ κ±°μ ˆμ— λ°˜λŒ€ν‘œλ₯Ό λ˜μ§€λŠ” κ²½ν–₯이 μžˆμŒμ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•™μŠ΅λœ νŠΉμ§•μ€ 데이터 νλ ˆμ΄μ…˜κ³Ό λ―Έμ„Έ μ‘°μ •λœ κ°œμΈν™”λ₯Ό κ°€λŠ₯ν•˜κ²Œ ν•˜μ—¬, μœ ν•΄ν•œ μ˜ˆμ‹œμ„ μž¬λ ˆμ΄λΈ”λ§ν•¨μœΌλ‘œμ¨ μ•ˆμ „μ„±μ„ 크게 ν–₯μƒμ‹œν‚€κ³  일반 μ„±λŠ₯ μ €ν•˜ 없이 κ°œμΈν™”λœ μ„ ν˜Έλ„ μ˜ˆμΈ‘μ„ κ°œμ„ ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” 인간 μ€‘μ‹¬μ˜ 뢄석 방법을 μ œκ³΅ν•˜μ—¬ μ‹€λ¬΄μžλ“€μ΄ μ„ ν˜Έλ„ 데이터λ₯Ό 더 잘 μ΄ν•΄ν•˜κ³  ν™œμš©ν•˜λ„λ‘ λ•μ§€λ§Œ, ν¬μ†Œ μžλ™ μΈμ½”λ”μ˜ 해석 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 심측 연ꡬ가 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘