haebom
Sign In
ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Xiaoqiang Lin, Arun Verma, Zhongxiang Dai, Daniela Rus, See-Kiong Ng, Bryan Kian Hsiang Low
π‘ κ°μ
λ³Έ λ Όλ¬Έμ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM) μ λ ¬μ νμν μΈκ° μ νΈλ λ°μ΄ν° μμ§μ λΉμ©κ³Ό λΉν¨μ¨μ±μ ν΄κ²°νκΈ° μν΄ ActiveDPOλΌλ μλ‘μ΄ μκ³ λ¦¬μ¦μ μ μν©λλ€. ActiveDPOλ λΉμ ν 보μ ν¨μμ λν μ΄λ‘ μ μΌλ‘ ννν λ°μ΄ν° μ ν κΈ°μ€μ μ¬μ©νλ©°, λ°μ΄ν° μ νμ μν 보μ λͺ¨λΈμ μ§μ LLMμΌλ‘ λ§€κ°λ³μνν©λλ€. μ΄λ₯Ό ν΅ν΄ LLM μ체μ μν₯μ κ³ λ €ν ν¨μ¨μ μΈ λ°μ΄ν° μμ§μ κ°λ₯νκ² ν©λλ€.
π μμ¬μ λ° νκ³
β’
LLM μ체μ μν₯μ κ³ λ €ν μ΄λ‘ μ μΌλ‘ ννν λ°μ΄ν° μ ν κΈ°μ€μ ν΅ν΄ μν ν¨μ¨μ μΈ LLM μ λ ¬μ λ¬μ±ν©λλ€.
β’
κΈ°μ‘΄ λ°©λ² λλΉ λ€μν λͺ¨λΈκ³Ό μ€μ μ νΈλ λ°μ΄ν°μ μμ μ°μν μ±λ₯μ μ μ¦νμ΅λλ€.
β’
μ μλ λ°©λ²λ‘ μ μ΄λ‘ μ κΈ°λ°μ λ λμ λ²μμ 보μ ν¨μ λ° LLM μν€ν μ²λ‘ νμ₯ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage