haebom
Sign In
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification
Created by
Haebom
Category
Empty
μ μ
Yuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu
π‘ κ°μ
λ³Έ λ Όλ¬Έμ κΈ°μ‘΄μ λ₯ 리μμΉ μμ΄μ νΈ(DRA)κ° μ μ± μλ κ°νλ₯Ό μν΄ μ¬ν νλ ¨μ μ§μ€νλ κ²κ³Ό λ¬λ¦¬, ν μ€νΈ μμ 루λΈλ¦ κ°μ΄λ κΈ°λ° κ²μ¦μ ν΅ν΄ μμ΄μ νΈ μ€μ€λ‘ λ°μ νλ μλ‘μ΄ ν¨λ¬λ€μμ μ μν©λλ€. DRAμ μ€ν¨ μ νμ 체κ³μ μΌλ‘ λΆλ₯ν 'DRA μ€ν¨ λΆλ₯λ²'μ κΈ°λ°μΌλ‘ μλ μμ±λ 루λΈλ¦μ νμ©νλ DeepVerifierλ μμ΄μ νΈκ° μμ±ν λ΅λ³μ νκ°νμ¬ λ°λ³΅μ μΈ νΌλλ°±κ³Ό κ°μ μ ν΅ν΄ μ€μ€λ‘ λ₯λ ₯μ ν₯μμν΅λλ€.
π μμ¬μ λ° νκ³
β’
λ₯ 리μμΉ μμ΄μ νΈμ μ체μ μΈ μ±λ₯ ν₯μμ μν μλ‘μ΄ ν μ€νΈ-νμ κ²μ¦ λ° κ°μ λ©μ»€λμ¦μ μ μν©λλ€.
β’
κΈ°μ‘΄μ 'μμ΄μ νΈ-νμ¬' λλ 'LLM νμ¬' λ°©μλ³΄λ€ λ°μ΄λ μ±λ₯μ 보μ΄λ 루λΈλ¦ κΈ°λ° κ²μ¦ λͺ¨λΈ(DeepVerifier)μ κ°λ°νκ³ , μ΄λ₯Ό ν΅ν΄ μ€μ λ²€μΉλ§ν¬ λ°μ΄ν°μ μμ μ νλλ₯Ό ν₯μμμΌ°μ΅λλ€.
β’
μ€νμμ€ λͺ¨λΈμ κ²μ¦ λ₯λ ₯ κ°νλ₯Ό μ§μνκΈ° μν λ°μ΄ν°μ (DeepVerifier-4K)μ 곡κ°νμ¬ κ΄λ ¨ μ°κ΅¬ λ°μ μ κΈ°μ¬ν©λλ€.
β’
루λΈλ¦ μ€κ³μ μλν λ° μΌλ°ν κ°λ₯μ±κ³Ό, 볡μ‘νκ³ λ―Έλ¬ν μ€ν¨ μ νμ λν κ²μ¦μ μ νλλ₯Ό λμ± λμ΄λ κ²μ΄ ν₯ν κ³Όμ λ‘ λ¨μ΅λλ€.
PDF 보기
Made with Slashpage