haebom
Sign In
LiteResearcher: A Scalable Agentic RL Training Framework for Deep Research Agent
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Wanli Li, Bince Qu, Bo Pan, Jianyu Zhang, Zheng Liu, Pan Zhang, Wei Chen, Bo Zhang
π‘ κ°μ
λ³Έ λ Όλ¬Έμ μ€μ κ²μ λ₯λ ₯ κ°νμ νκ³κ° μλ κΈ°μ‘΄ κ°ννμ΅(RL) κΈ°λ° μ±λ΄ μ°κ΅¬ λ°©λ²λ‘ μ λ¬Έμ μ μ μ§μ ν©λλ€. μ€μ κ²μ μμ‘΄μ±μΌλ‘ μΈν λΆμμ μ±κ³Ό λμ λΉμ© λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄, μ€μ κ²μ νκ²½μ λͺ¨λ°©ν κ²½λ κ°μ μΈκ³λ₯Ό ꡬμΆνλ 'LiteResearcher' νλ μμν¬λ₯Ό μ μν©λλ€. μ΄ νλ μμν¬λ μ§μμ μΌλ‘ κ°μ λλ νμ΅ λ°©μμ ν΅ν΄ μμ κ·λͺ¨μ κ²μ μμ΄μ νΈκ° λκ·λͺ¨ μμ© λͺ¨λΈλ³΄λ€ λ°μ΄λ μ±λ₯μ 보μ΄λλ‘ ν©λλ€.
π μμ¬μ λ° νκ³
β’
νμ₯ κ°λ₯ν Agentic RL νλ ¨μ μ€μμ±:
λ³Έ μ°κ΅¬λ μ€μ λ°μ΄ν°μ μ μ½κ³Ό λΉμ© λ¬Έμ λ₯Ό 극볡νλ ν¨μ¨μ μΈ νλ ¨ νλ μμν¬λ₯Ό ν΅ν΄ Agentic RLμ νμ₯μ±μ ν보ν μ μμμ 보μ¬μ€λλ€.
β’
μμ μμ΄μ νΈμ κ°λ ₯ν μ±λ₯:
κ²½λ κ°μ μΈκ³μμμ νλ ¨λ§μΌλ‘λ κΈ°μ‘΄ λκ·λͺ¨ λͺ¨λΈμ λ₯κ°νλ μ°κ΅¬ λ₯λ ₯μ κ°μΆ μμ΄μ νΈ κ°λ°μ΄ κ°λ₯ν¨μ μ μ¦νμ΅λλ€.
β’
κ°μ μΈκ³μ μ€μ μΈκ³ κ°μ κ°κ·Ή:
LiteResearcherκ° μ μνλ κ²½λ κ°μ μΈκ³κ° μ€μ κ²μ νκ²½μ 볡μ‘μ±κ³Ό λ―Έλ¬ν μ°¨μ΄λ₯Ό μΌλ§λ μλ²½νκ² λ°μν μ μλμ§μ λν μΆκ°μ μΈ κ²μ¦μ΄ νμν©λλ€.
PDF 보기
Made with Slashpage