haebom
Sign In
NEX: Neuron Explore-Exploit Scoring for Label-Free Chain-of-Thought Selection and Model Ranking
Created by
Haebom
Category
Empty
μ μ
Kang Chen, Zhuoka Feng, Sihan Zhao, Kai Xiong, Junjie Nian, Yaoning Wang, Changyi Xiao, Yixin Cao
π‘ κ°μ
λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μΆλ‘ κ³Όμ μμ μ¬λ¬ μ²΄μΈ μ€λΈ μνΈ(Chain-of-Thought, CoT)λ₯Ό μνλ§νκ±°λ 체ν¬ν¬μΈνΈλ₯Ό λ³ν©νλ λ° κ³μ° μμμ λ§μ΄ μλͺ¨νλ©°, μ΄λ λ μ΄λΈ μμ΄ μ΅μ μ CoTλ₯Ό μ ννλ λ³λͺ© νμμ μΌκΈ°ν©λλ€. λ³Έ μ°κ΅¬λ μΆλ‘ κ³Όμ μ νμ(exploration)κ³Ό νμ©(exploitation) λ¨κ³λ₯Ό ꡬλΆνκ³ , MLP λ΄λ°μ νμ±ν ν¨ν΄μ λΆμνμ¬ CoTμ νμ§μ νκ°νλ NEX(Neuron Explore-Exploit Scoring)λΌλ μλ‘μ΄ λ μ΄λΈ μλ νλ μμν¬λ₯Ό μ μν©λλ€. NEXλ CoTμ μ νλλ₯Ό μμΈ‘νκ³ μ΅μ μ λͺ¨λΈ λ³νμ μλ³νλ λ° ν¨κ³Όμ μμ 보μ¬μ€λλ€.
π μμ¬μ λ° νκ³
β’
μλ―Έ μλ CoT μ νμ μν λ μ΄λΈ μλ νκ° λ°©λ² μ μ
: κΈ°μ‘΄μ CoT μ ν λ°©λ²μ΄ λ μ΄λΈ λ°μ΄ν°μ μμ‘΄νκ±°λ λΉν¨μ¨μ μΈ νμμΌλ‘ μΈν΄ μ±λ₯ μ νλ₯Ό κ²ͺλ λ¬Έμ λ₯Ό ν΄κ²°νκ³ , λͺ¨λΈ λ΄λΆμ λ΄λ° νμ±ν ν¨ν΄μ λΆμνμ¬ CoTμ νμ§μ κ°κ΄μ μΌλ‘ νκ°νλ μλ‘μ΄ λ°©ν₯μ μ μν©λλ€.
β’
μΆλ‘ κ³Όμ μ λ΄λΆ λ©μ»€λμ¦ μ΄ν΄ μ¦μ§
: CoT μΆλ‘ κ³Όμ μ νμ(E)κ³Ό νμ©(X) λ¨κ³λ‘ ꡬλΆνκ³ , κ° λ¨κ³μμμ λ΄λ° νμ±ν νΉμ±μ λΆμν¨μΌλ‘μ¨ LLMμ λ΄λΆμ μΈ μΆλ‘ λ©μ»€λμ¦μ λν κΉμ΄ μλ ν΅μ°°μ μ 곡ν©λλ€.
β’
μ νλ λ°μ΄ν° λ° λͺ¨λΈ μ’ λ₯μ λν μΆκ° κ²μ¦ νμ
: λ³Έ μ°κ΅¬λ νΉμ μΆλ‘ λ²€μΉλ§ν¬μ Qwen3 λͺ¨λΈ κ³μ΄μμ NEXμ μ ν¨μ±μ μ μ¦νμ§λ§, λ λ€μν λ°μ΄ν°μ κ³Ό LLM μν€ν μ²μ λν μΆκ°μ μΈ μ€νμ ν΅ν΄ μΌλ°ν κ°λ₯μ±μ κ²μ¦ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage