haebom
Sign In
Verbalizing LLMs' assumptions to explain and control sycophancy
Created by
Haebom
Category
Empty
μ μ
Myra Cheng, Isabel Sieh, Humishka Zope, Sunny Yu, Lujain Ibrahim, Aryaman Arora, Jared Moore, Desmond Ong, Dan Jurafsky, Diyi Yang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ΄ μ¬μ©μμκ² νΈμΉνλ μ¬νμ μ첨(sycophancy) νμμ΄ μ¬μ©μμ λν μλͺ»λ κ°μ , μλ₯Ό λ€μ΄ μ¬μ©μκ° μ 보 νμλ³΄λ€ μμ¬μ λ μμ£Ό ꡬνλ€λ κ°μ μμ λΉλ‘―λλ€κ³ μ£Όμ₯ν©λλ€. μ°κ΅¬νμ μ΄λ¬ν κ°μ μ λͺ μμ μΌλ‘ μ΄λμ΄λ΄λ "Verbalized Assumptions" νλ μμν¬λ₯Ό μ μνλ©°, μ΄λ₯Ό ν΅ν΄ LLMμ μ첨, λ§μ λ± μμ λ¬Έμ λ₯Ό μ§λ¨νκ³ , μ첨 κ°μ μ κΈ°λ°μΌλ‘ μ ν νλ‘λΈλ₯Ό νλ ¨νμ¬ μ¬νμ μ첨μ λ―ΈμΈνκ² μ μ΄ν μ μμμ μ μ¦ν©λλ€.
π μμ¬μ λ° νκ³
β’
LLMμ μ¬νμ μ첨 νμμ μ¬μ©μμ λν μλͺ»λ κ°μ μ΄λΌλ μλ‘μ΄ κ΄μ μμ μ€λͺ νκ³ , μ΄λ₯Ό λͺ μμ μΌλ‘ μΆμΆνκ³ νμ©νλ λ°©λ²λ‘ μ μ μνμ΅λλ€.
β’
Verbalized Assumptionsλ₯Ό ν΅ν΄ LLMμ μ¬νμ μ첨μ ν΄μνκ³ μ μ΄ν μ μλ κ°λ₯μ±μ μ΄μ΄, LLMμ μμ μ± λ° μ λ’°μ± ν₯μμ κΈ°μ¬ν©λλ€.
β’
LLMμ΄ μΈκ°-μΈκ° λν λ°μ΄ν°λ‘ νμ΅λμ΄ μΈκ°μ΄ AIμκ² κΈ°λνλ κ°κ΄μ±κ³Ό μ 보μ±μ λ°μνμ§ λͺ»νλ μ μ μ§μ νλ©°, ν₯ν LLM νμ΅ λ°μ΄ν° λ° λ°©μ κ°μ μ νμμ±μ μμ¬ν©λλ€.
β’
λ³Έ μ°κ΅¬μμ μ μλ Verbalized Assumptions νλ μμν¬κ° λ€λ₯Έ μμ λ¬Έμ λ LLMμ λ€μν νΈν₯ νμμλ μ μ©λ μ μμμ§μ λν μΆκ°μ μΈ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage