Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Preference Orchestrator: Prompt-Aware Multi-Objective Alignment for Large Language Models

Created by
  • Haebom
Category
Empty

저자

Biao Liu, Ning Xu, Junming Yang, Xin Geng

개요

대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 뛰어난 능력을 보여주지만, 여러 목표에 걸쳐 다양한 인간 선호도에 맞춰 모델을 조정하는 것은 여전히 어려운 과제입니다. 기존의 다중 목표 정렬 방법은 수동으로 지정된 선호도 가중치에 의존하며, 이는 사용자가 어려운 선호도 지정 작업을 해야 할 뿐만 아니라 관련 없는 선호도 조합을 탐색하여 최적의 훈련 효율성을 얻지 못합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 PRO(Preference Orchestrator)라는 새로운 프레임워크를 제안합니다. PRO는 훈련 및 배포 단계 모두에서 프롬프트별 선호도 가중치를 자동으로 추론하는 경량 선호도 어댑터를 특징으로 합니다. 구체적으로, 어댑터는 선호하는 응답에 대한 여러 보상 모델의 정규화된 보상 점수를 기반으로 훈련하여 각 프롬프트에 대한 적절한 선호도 가중치를 자동으로 학습하며, 이는 본질적으로 목표 간의 효과적인 선호도 균형을 반영합니다. 또한, 본 논문에서는 프롬프트 인식 선호 메커니즘이 고정 선호도 가중치보다 다중 목표 정렬 시나리오에서 우수한 성능을 달성함을 증명하는 이론적 분석을 제공합니다. 여러 작업에 걸친 광범위한 실험을 통해 기존 다중 목표 정렬 접근 방식에 비해 본 방법의 효과를 입증합니다.

시사점, 한계점

시사점:
PRO 프레임워크는 사용자가 수동으로 선호도 가중치를 지정할 필요 없이, 프롬프트별로 자동화된 선호도 조절을 제공하여 사용 편의성을 향상시킵니다.
경량 선호도 어댑터를 통해 훈련 및 배포 단계에서 효율적인 다중 목표 정렬을 가능하게 합니다.
이론적 분석을 통해 프롬프트 인식 선호 메커니즘의 우수성을 입증합니다.
다양한 작업에서 기존 방법론 대비 우수한 성능을 실험적으로 확인했습니다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없습니다.
👍