Sign In

NEX: Neuron Explore-Exploit Scoring for Label-Free Chain-of-Thought Selection and Model Ranking

Created by
  • Haebom
Category
Empty

μ €μž

Kang Chen, Zhuoka Feng, Sihan Zhao, Kai Xiong, Junjie Nian, Yaoning Wang, Changyi Xiao, Yixin Cao

πŸ’‘ κ°œμš”

λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)은 μΆ”λ‘  κ³Όμ •μ—μ„œ μ—¬λŸ¬ 체인 였브 쏘트(Chain-of-Thought, CoT)λ₯Ό μƒ˜ν”Œλ§ν•˜κ±°λ‚˜ 체크포인트λ₯Ό λ³‘ν•©ν•˜λŠ” 데 계산 μžμ›μ„ 많이 μ†Œλͺ¨ν•˜λ©°, μ΄λŠ” λ ˆμ΄λΈ” 없이 졜적의 CoTλ₯Ό μ„ νƒν•˜λŠ” 병λͺ© ν˜„μƒμ„ μ•ΌκΈ°ν•©λ‹ˆλ‹€. λ³Έ μ—°κ΅¬λŠ” μΆ”λ‘  κ³Όμ •μ˜ 탐색(exploration)κ³Ό ν™œμš©(exploitation) 단계λ₯Ό κ΅¬λΆ„ν•˜κ³ , MLP λ‰΄λŸ°μ˜ ν™œμ„±ν™” νŒ¨ν„΄μ„ λΆ„μ„ν•˜μ—¬ CoT의 ν’ˆμ§ˆμ„ ν‰κ°€ν•˜λŠ” NEX(Neuron Explore-Exploit Scoring)λΌλŠ” μƒˆλ‘œμš΄ λ ˆμ΄λΈ” μ—†λŠ” ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. NEXλŠ” CoT의 정확도λ₯Ό μ˜ˆμΈ‘ν•˜κ³  졜적의 λͺ¨λΈ λ³€ν˜•μ„ μ‹λ³„ν•˜λŠ” 데 νš¨κ³Όμ μž„μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
의미 μžˆλŠ” CoT 선택을 μœ„ν•œ λ ˆμ΄λΈ” μ—†λŠ” 평가 방법 μ œμ‹œ: 기쑴의 CoT 선택 방법이 λ ˆμ΄λΈ” 데이터에 μ˜μ‘΄ν•˜κ±°λ‚˜ λΉ„νš¨μœ¨μ μΈ νƒμƒ‰μœΌλ‘œ 인해 μ„±λŠ₯ μ €ν•˜λ₯Ό κ²ͺλŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ , λͺ¨λΈ λ‚΄λΆ€μ˜ λ‰΄λŸ° ν™œμ„±ν™” νŒ¨ν„΄μ„ λΆ„μ„ν•˜μ—¬ CoT의 ν’ˆμ§ˆμ„ κ°κ΄€μ μœΌλ‘œ ν‰κ°€ν•˜λŠ” μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μΆ”λ‘  κ³Όμ •μ˜ λ‚΄λΆ€ λ©”μ»€λ‹ˆμ¦˜ 이해 증진: CoT μΆ”λ‘  과정을 탐색(E)κ³Ό ν™œμš©(X) λ‹¨κ³„λ‘œ κ΅¬λΆ„ν•˜κ³ , 각 λ‹¨κ³„μ—μ„œμ˜ λ‰΄λŸ° ν™œμ„±ν™” νŠΉμ„±μ„ λΆ„μ„ν•¨μœΌλ‘œμ¨ LLM의 내뢀적인 μΆ”λ‘  λ©”μ»€λ‹ˆμ¦˜μ— λŒ€ν•œ 깊이 μžˆλŠ” 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
μ œν•œλœ 데이터 및 λͺ¨λΈ μ’…λ₯˜μ— λŒ€ν•œ μΆ”κ°€ 검증 ν•„μš”: λ³Έ μ—°κ΅¬λŠ” νŠΉμ • μΆ”λ‘  λ²€μΉ˜λ§ˆν¬μ™€ Qwen3 λͺ¨λΈ κ³„μ—΄μ—μ„œ NEX의 μœ νš¨μ„±μ„ μž…μ¦ν–ˆμ§€λ§Œ, 더 λ‹€μ–‘ν•œ 데이터셋과 LLM μ•„ν‚€ν…μ²˜μ— λŒ€ν•œ 좔가적인 μ‹€ν—˜μ„ 톡해 μΌλ°˜ν™” κ°€λŠ₯성을 검증할 ν•„μš”κ°€ μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘