Reasoning Models Know When They're Right: Probing Hidden States for Self-Verification
Created by
Haebom
저자
Anqi Zhang, Yulin Chen, Jane Pan, Chen Zhao, Aurojit Panda, Jinyang Li, He He
개요
본 논문은 추론 모델이 중간 단계의 답변의 정확성에 대한 정보를 은닉 상태에 저장하는지 여부를 연구합니다. 수학 및 논리적 추론과 같은 과제에서 뛰어난 성능을 보이는 추론 모델이라 할지라도 과도한 추론(overthinking)으로 인해 정답에 도달한 후에도 불필요한 단계를 수행하는 문제점을 가지고 있습니다. 본 연구는 모델의 은닉 상태를 조사하여 중간 답변의 정확성을 검증하는 프로브(probe)를 개발하고, 이를 통해 중간 답변의 정확성을 높은 정확도로 검증하고 잘 보정된 점수를 생성할 수 있음을 보여줍니다. 또한, 모델의 은닉 상태가 미래 답변의 정확성을 포함하고 있어 중간 답변이 완전히 형성되기 전에 정확성을 조기에 예측할 수 있음을 발견했습니다. 연구진은 이 프로브를 검증자로 사용하여 추론 중 중간 답변에서 추론을 종료할지 여부를 결정하여 추론 토큰 수를 24% 줄이면서 성능 저하 없이 효율성을 높였습니다. 이러한 결과는 추론 모델이 정확성 개념을 인코딩하지만 활용하지 못하고 있으며, 효율성을 높일 수 있는 상당한 미개발 가능성을 가지고 있음을 확인합니다.
시사점, 한계점
•
시사점:
◦
추론 모델의 은닉 상태가 중간 답변의 정확성 정보를 포함하고 있음을 밝힘.
◦
개발된 프로브를 이용하여 중간 답변의 정확성을 높은 정확도로 검증 가능.
◦
추론 과정에서 조기 종료 전략을 통해 추론 토큰 수를 24% 감소시키면서 성능 저하 없이 효율성 향상 가능.