Sign In

A Survey on Post-training of Large Language Models

Created by
  • Haebom
Category
Empty

저자

Guiyao Tie, Zeli Zhao, Dingjie Song, Fuyang Wei, Rong Zhou, Yurou Dai, Wen Yin, Zhejian Yang, Jiangyue Yan, Yao Su, Zhenhan Dai, Yifeng Xie, Yihan Cao, Lichao Sun, Pan Zhou, Lifang He, Hechang Chen, Yu Zhang, Qingsong Wen, Tianming Liu, Neil Zhenqiang Gong, Jiliang Tang, Caiming Xiong, Heng Ji, Philip S. Yu, Jianfeng Gao

개요

본 논문은 사후 학습 언어 모델(PoLMs)에 대한 최초의 종합적인 조사 연구이다. 대규모 언어 모델(LLMs)의 등장으로 자연어 처리 분야가 혁신적으로 변화했지만, 전문적인 맥락에서는 추론 능력의 제한, 윤리적 불확실성, 최적이 아닌 도메인 특정 성능 등의 한계가 드러난다. 이러한 한계를 극복하기 위해 등장한 PoLMs (예: OpenAI-o1/o3, DeepSeek-R1, 이들을 통틀어 대규모 추론 모델, LRMs라 함)를 다섯 가지 핵심 패러다임(미세 조정, 정렬, 추론, 효율성, 통합 및 적응)을 통해 체계적으로 분석한다. ChatGPT의 기본적인 정렬 전략부터 DeepSeek-R1의 혁신적인 추론 발전까지, PoLM이 데이터셋을 활용하여 편향을 완화하고 추론 능력을 강화하며 도메인 적응성을 향상시키는 과정을 보여준다. 본 논문의 기여는 PoLM 발전의 종합적 분석, 기법과 데이터셋을 분류하는 구조화된 분류 체계, 그리고 추론 능력과 도메인 유연성 향상에 있어 LRM의 역할을 강조하는 전략적 의제 제시이다. 이 연구는 최근 PoLM의 발전을 통합하고 미래 연구를 위한 엄격한 지적 틀을 마련하여 과학 및 사회적 응용 분야에서 정확성, 윤리적 강건성, 다양성이 뛰어난 LLM 개발을 촉진한다.

시사점, 한계점

시사점:
PoLMs의 발전을 종합적으로 분석하고, 그 발전 과정을 체계적으로 정리함으로써 향후 연구 방향을 제시한다.
PoLMs의 다섯 가지 핵심 패러다임(미세 조정, 정렬, 추론, 효율성, 통합 및 적응)을 제시하여 PoLM 연구의 체계적인 이해를 돕는다.
LRM의 중요성을 강조하며, 추론 능력과 도메인 유연성 향상을 위한 전략적 의제를 제시한다.
PoLM 연구에 대한 엄격한 지적 틀을 제공하여 향후 LLM 개발을 위한 기반을 마련한다.
한계점:
본 논문은 PoLM에 대한 최초의 종합적인 조사이지만, PoLM 분야의 급속한 발전으로 인해, 발표 시점 이후의 최신 연구 동향을 반영하지 못할 수 있다.
다양한 PoLM 방법론에 대한 심층적인 비교 분석이 부족할 수 있다.
특정 PoLM에 대한 편향된 분석 가능성이 존재한다. (예: 특정 연구 그룹의 연구에 치중)
👍