Jintian Zhang, Yuqi Zhu, Mengshu Sun, Yujie Luo, Shuofei Qiao, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang
개요
본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 작업에서의 효율성을 높이기 위한 새로운 방법인 LightThinker를 제안합니다. LightThinker는 사람의 인지 과정에서 영감을 얻어, 추론 중 중간 단계의 생각들을 압축된 표현으로 변환하고 원래의 추론 과정을 버림으로써 컨텍스트 창에 저장되는 토큰 수를 크게 줄입니다. 이는 데이터 구성을 통한 압축 시점 및 방법 학습, 은닉 상태를 간결한 요약 토큰으로 매핑, 특수한 어텐션 마스크 생성을 통해 달성됩니다. 또한, 생성 과정에서 과거 토큰에 대한 의존성을 측정하여 압축 정도를 정량화하는 Dependency (Dep) 지표를 제시합니다. 네 개의 데이터셋과 두 개의 모델에 대한 광범위한 실험을 통해 LightThinker가 최대 메모리 사용량과 추론 시간을 줄이면서 경쟁력 있는 정확도를 유지함을 보여줍니다. 본 연구는 성능 저하 없이 복잡한 추론 작업에서 LLM의 효율성을 향상시키는 새로운 방향을 제시합니다. 코드는 https://github.com/zjunlp/LightThinker 에서 공개됩니다.