Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Post-training Large Language Models for Diverse High-Quality Responses

Created by
  • Haebom

저자

Yilei Chen, Souradip Chakraborty, Lorenz Wolf, Yannis Paschalidis, Aldo Pacchiano

개요

강화 학습(RL)은 대규모 언어 모델(LLM)의 post-training에 널리 사용되지만, 모델의 출력 다양성을 감소시키는 경향이 있다. 기존 다양성 향상 방법은 추론 시간에 작동하거나 표면적인 차이에 초점을 맞추는 한계가 있다. 본 논문은 DPP(determinantal point processes) 기반의 DQO(Diversity Quality Optimization)라는 새로운 훈련 방법을 제안하여 품질과 의미적 다양성을 공동으로 최적화한다. DQO는 각 프롬프트에 대해 응답 그룹을 샘플링하고 임베딩한 다음, 커널 기반 유사성 행렬의 행렬식을 사용하여 이러한 응답의 임베딩이 나타내는 볼륨으로 다양성을 측정한다. DQO는 유연하며 기존 RL 알고리즘에 적용할 수 있다. Instruction-following, 요약, 스토리 생성, 추론 작업에 대한 실험에서 DQO는 모델 품질을 저하시키지 않으면서 의미적 다양성을 크게 향상시켰음을 입증했다.

시사점, 한계점

DQO는 LLM의 출력 다양성 문제를 해결하기 위한 새로운 훈련 방법론을 제시한다.
DQO는 품질 저하 없이 의미적 다양성을 향상시키는 효과를 보였다.
DQO는 기존 RL 알고리즘에 쉽게 적용될 수 있다.
본 논문은 다양한 task에서 DQO의 효과를 입증했다.
본 논문에서는 DQO의 구체적인 한계점에 대한 언급은 없으나, DPP 기반의 방법론이 갖는 계산 복잡성이나 hyperparameter 튜닝의 어려움 등이 있을 수 있다.
👍