Sign In

Influencing Humans to Conform to Preference Models for RLHF

Created by
  • Haebom
Category
Empty

μ €μž

Stephane Hatgis-Kessell, W. Bradley Knox, Serena Booth, Peter Stone

πŸ’‘ κ°œμš”

λ³Έ 논문은 인간 ν”Όλ“œλ°± 기반 κ°•ν™”ν•™μŠ΅(RLHF) μ•Œκ³ λ¦¬μ¦˜μ΄ μΈκ°„μ˜ 보상 ν•¨μˆ˜λ₯Ό 효과적으둜 κ·Όμ‚¬ν•˜κΈ° μœ„ν•΄ μΈκ°„μ˜ μ„ ν˜Έλ„ λͺ¨λΈμ„ μ–΄λ–»κ²Œ κ°€μ •ν•˜λŠ”μ§€μ— μ£Όλͺ©ν•©λ‹ˆλ‹€. 연ꡬ진은 μΈκ°„μ˜ μ„ ν˜Έλ„ 생성 방식을 λ³€ν™”μ‹œμΌœ νŠΉμ • RLHF μ•Œκ³ λ¦¬μ¦˜μ˜ μ„ ν˜Έλ„ λͺ¨λΈ 가정을 더 잘 λ”°λ₯΄λ„둝 μœ λ„ν•˜λŠ” μ„Έ κ°€μ§€ 방법을 μ œμ•ˆν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ κ°œμž…λ“€μ€ μΈκ°„μ˜ μ‹€μ œ 보상 ν•¨μˆ˜λ₯Ό λ³€κ²½ν•˜μ§€ μ•ŠμœΌλ©΄μ„œλ„, 인간이 μƒμ„±ν•˜λŠ” μ„ ν˜Έλ„ λ°μ΄ν„°μ˜ μ§ˆμ„ ν–₯μƒμ‹œν‚€κ³  ν•™μŠ΅λœ 보상 ν•¨μˆ˜μ˜ 정렬을 κ°œμ„ ν•˜λŠ” μ‹€μ§ˆμ μΈ 도ꡬλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΈκ°„μ˜ μ„ ν˜Έλ„ 생성 방식을 μ‘°μ ˆν•˜μ—¬ RLHF μ•Œκ³ λ¦¬μ¦˜μ˜ κ°€μ •κ³Ό μΌμΉ˜μ‹œν‚€λŠ” μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ„ ν˜Έλ„ λͺ¨λΈμ˜ 근본적인 양을 λ³΄μ—¬μ£Όκ±°λ‚˜, νŠΉμ • λͺ¨λΈμ„ λ”°λ₯΄λ„둝 ν›ˆλ ¨μ‹œν‚€κ±°λ‚˜, μ„ ν˜Έλ„ 질문 방식을 μˆ˜μ •ν•˜λŠ” λ“± μ‹€μ§ˆμ μΈ κ°œμž… 방법을 μ œμ•ˆν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ κ°œμž…λ“€μ΄ μΈκ°„μ˜ μ„ ν˜Έλ„ ν‘œν˜„μ— μœ μ˜λ―Έν•œ 영ν–₯을 미침을 인간 연ꡬλ₯Ό 톡해 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬μ—μ„œλŠ” μ΄λŸ¬ν•œ κ°œμž…λ“€μ„ 톡해 ν•™μŠ΅λœ 보상 ν•¨μˆ˜μ˜ μ •λ ¬ κ°œμ„  효과λ₯Ό μ •λŸ‰μ μœΌλ‘œ ν‰κ°€ν•˜κ³ , λ‹€μ–‘ν•œ RLHF μ•Œκ³ λ¦¬μ¦˜μ— λŒ€ν•œ 적용 κ°€λŠ₯성을 탐색할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘