Sign In

Alignment Drift in Long-Term Human-LLM Interaction: A Mechanism-Oriented Framework

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Xintong Yao

πŸ’‘ κ°œμš”

이 논문은 μž₯기적인 인간-LLM μƒν˜Έμž‘μš©μ—μ„œ λ°œμƒν•˜λŠ” 'μ •λ ¬ λ“œλ¦¬ν”„νŠΈ(alignment drift)'λΌλŠ” ν˜„μƒμ„ μ œμ‹œν•©λ‹ˆλ‹€. μ΄λŠ” μ‹œμŠ€ν…œ 좜λ ₯이 μ‚¬μš©μžμ˜ ν˜„μž¬ λ©”μ‹œμ§€λ³΄λ‹€ 이전 μƒν˜Έμž‘μš© 기둝에 더 영ν–₯을 λ°›κ²Œ λ˜λŠ” 점진적인 κ³Όμ •μœΌλ‘œ, κ²‰λ³΄κΈ°μ—λŠ” μ—¬μ „νžˆ μœ μš©ν•˜κ³  일관적이어 νƒμ§€ν•˜κΈ° μ–΄λ ΅μŠ΅λ‹ˆλ‹€. λ³Έ 논문은 μ΄λŸ¬ν•œ λ“œλ¦¬ν”„νŠΈμ˜ λ©”μ»€λ‹ˆμ¦˜μ„ μ„€λͺ…ν•˜λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜λ©°, μ΄λŠ” ν”Όλ“œλ°± 루프와 ν•˜μœ„ νŒ¨ν„΄ 선택을 톡해 λ“œλ¦¬ν”„νŠΈκ°€ μ–΄λ–»κ²Œ λ°œμ „ν•˜λŠ”μ§€ 규λͺ…ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μž₯기적인 인간-LLM μƒν˜Έμž‘μš©μ—μ„œ λ°œμƒν•˜λŠ” 점진적이고 νƒμ§€ν•˜κΈ° μ–΄λ €μš΄ 'μ •λ ¬ λ“œλ¦¬ν”„νŠΈ' ν˜„μƒμ— λŒ€ν•œ κ°œλ…μ  이해λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λ“œλ¦¬ν”„νŠΈ λ°œμ „ λ©”μ»€λ‹ˆμ¦˜(ν”Όλ“œλ°± 루프, ν•˜μœ„ νŒ¨ν„΄ 선택)κ³Ό μƒν˜Έμž‘μš© 단계(μ„Έ κ°€μ§€ μ •κΆŒ)λ₯Ό μ •μ˜ν•˜λŠ” λ©”μ»€λ‹ˆμ¦˜ 쀑심 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•˜μ—¬, 기쑴의 단기적 λ˜λŠ” κ°œλ³„ 좜λ ₯ 쀑심 μ—°κ΅¬μ˜ ν•œκ³„λ₯Ό κ·Ήλ³΅ν•©λ‹ˆλ‹€.
β€’
인간-LLM μƒν˜Έμž‘μš©μ„ κ°œλ³„ λͺ¨λΈ 였λ₯˜κ°€ μ•„λ‹Œ μž¬κ·€μ μΈ μƒν˜Έμž‘μš© κ³Όμ •μœΌλ‘œ λ°”λΌλ³΄λŠ” μƒˆλ‘œμš΄ 관점을 μ œμ‹œν•˜λ©°, ν–₯ν›„ μž₯기적인 μƒν˜Έμž‘μš© μ—°κ΅¬μ˜ κΈ°λ°˜μ„ λ§ˆλ ¨ν•©λ‹ˆλ‹€.
β€’
μ œμ‹œλœ ν”„λ ˆμž„μ›Œν¬κ°€ λ“œλ¦¬ν”„νŠΈμ˜ 탐지 및 μ œμ–΄λ₯Ό μœ„ν•œ ꡬ체적인 방법둠을 μ œμ‹œν•˜κΈ°λ³΄λ‹€λŠ” κ°œλ…μ  틀을 μ œκ³΅ν•˜λŠ” 데 μ΄ˆμ μ„ λ§žμΆ”κ³  μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘