Thinker: Training LLMs in Hierarchical Thinking for Deep Search via Multi-Turn Interaction
Created by
Haebom
Category
Empty
저자
Jun Xu, Xinkai Du, Yu Ao, Peilong Zhao, Yang Li, Ling Zhong, Lin Yuan, Zhongpu Bo, Xiaorui Wang, Mengshu Sun, Zhengke Gui, Dalong Zhang, Zhaoyang Wang, Qiwei Wang, Yangyang Hou, Zhiying Yin, Haofen Wang, Huajun Chen, Lei Liang, Jun Zhou
개요
LLM의 추론 능력 향상을 위해 외부 지식 기반 및 웹 페이지 검색의 효율성이 중요하며, 기존 연구는 종종 종단 간 강화 학습을 사용했지만, 추론 과정에 대한 감독 부족으로 논리적 일관성과 엄격성을 보장하기 어려웠습니다. 이를 해결하기 위해, 본 논문은 다단계 상호 작용을 통해 심층 검색을 수행하는 계층적 사고 모델인 Thinker를 제안합니다. Thinker는 복잡한 문제를 독립적으로 해결 가능한 하위 문제로 분해하고, 각 하위 문제를 자연어와 동등한 논리적 함수로 이중 표현하여 지식 기반 및 웹 검색을 지원합니다. 또한, 하위 문제 간의 의존성을 논리적 함수를 통해 매개변수로 전달하여 문제 해결 과정의 논리적 일관성을 강화합니다. 불필요한 외부 검색을 피하기 위해, 하위 문제가 LLM의 내재적 지식 내에 있는지 확인하는 지식 경계 결정을 수행하여 직접 답변할 수 있도록 합니다. 실험 결과, Thinker는 적은 수의 훈련 샘플로도 기존 방법과 경쟁력 있는 성능을 보였으며, 전체 훈련 세트로 확장 시 다양한 데이터 세트와 모델 크기에서 기존 방법들을 크게 능가했습니다.
시사점, 한계점
•
시사점:
◦
Thinker는 LLM의 추론 과정에 대한 감독 및 검증을 가능하게 하여 논리적 일관성을 향상시켰습니다.
◦
계층적 사고 모델을 통해 복잡한 문제를 효율적으로 해결하도록 설계되었습니다.
◦
지식 경계 결정을 통해 불필요한 외부 검색을 줄이고 LLM의 내재적 지식을 활용합니다.
◦
적은 수의 훈련 데이터로도 경쟁력 있는 성능을 보이며, 규모가 커질수록 기존 방법을 능가합니다.
•
한계점:
◦
구체적인 한계점은 논문 요약에서 명시적으로 언급되지 않았습니다.
◦
논문은 모델의 특정 아키텍처나 구현 세부 사항에 대한 깊이 있는 분석을 제공하지 않을 수 있습니다.