NEX: Neuron Explore-Exploit Scoring for Label-Free Chain-of-Thought Selection and Model Ranking

Created by

Haebom

저자

Kang Chen, Zhuoka Feng, Sihan Zhao, Kai Xiong, Junjie Nian, Yaoning Wang, Changyi Xiao, Yixin Cao

💡 개요

대규모 언어 모델(LLM)은 추론 과정에서 여러 체인 오브 쏘트(Chain-of-Thought, CoT)를 샘플링하거나 체크포인트를 병합하는 데 계산 자원을 많이 소모하며, 이는 레이블 없이 최적의 CoT를 선택하는 병목 현상을 야기합니다. 본 연구는 추론 과정의 탐색(exploration)과 활용(exploitation) 단계를 구분하고, MLP 뉴런의 활성화 패턴을 분석하여 CoT의 품질을 평가하는 NEX(Neuron Explore-Exploit Scoring)라는 새로운 레이블 없는 프레임워크를 제안합니다. NEX는 CoT의 정확도를 예측하고 최적의 모델 변형을 식별하는 데 효과적임을 보여줍니다.

🔑 시사점 및 한계

•

의미 있는 CoT 선택을 위한 레이블 없는 평가 방법 제시: 기존의 CoT 선택 방법이 레이블 데이터에 의존하거나 비효율적인 탐색으로 인해 성능 저하를 겪는 문제를 해결하고, 모델 내부의 뉴런 활성화 패턴을 분석하여 CoT의 품질을 객관적으로 평가하는 새로운 방향을 제시합니다.

•

추론 과정의 내부 메커니즘 이해 증진: CoT 추론 과정을 탐색(E)과 활용(X) 단계로 구분하고, 각 단계에서의 뉴런 활성화 특성을 분석함으로써 LLM의 내부적인 추론 메커니즘에 대한 깊이 있는 통찰을 제공합니다.

•

제한된 데이터 및 모델 종류에 대한 추가 검증 필요: 본 연구는 특정 추론 벤치마크와 Qwen3 모델 계열에서 NEX의 유효성을 입증했지만, 더 다양한 데이터셋과 LLM 아키텍처에 대한 추가적인 실험을 통해 일반화 가능성을 검증할 필요가 있습니다.

PDF 보기

Made with Slashpage