Sign In

Effectively Steer LLM To Follow Preference via Building Confident Directions

Created by
  • Haebom
Category
Empty

저자

Bingqing Song, Boran Han, Shuai Zhang, Hao Wang, Haoyang Fang, Bonan Min, Yuyang Wang, Mingyi Hong

개요

본 논문은 대규모 언어 모델(LLM)의 출력을 사용자 선호도에 맞추는 새로운 방법인 CONFST(Confident Direction Steering)를 제안합니다. 기존의 미세 조정이나 프롬프트 기반 방법과 달리, CONFST는 추론 시 모델의 활성화 값을 수정하여 출력을 조절하는 모델 조향 알고리즘을 사용합니다. 이는 사용자 선호도와 밀접하게 정렬된 "확신 방향"을 구축하여 LLM의 활성화 값에 추가함으로써 이루어집니다. CONFST는 기존의 이진 방향 조향 방법에 비해 여러 사용자 선호도를 동시에 조정하고, 구현이 간단하며, 명시적인 사용자 지시가 필요 없다는 장점을 제공합니다. GPT-2 XL, Mistral, Gemma-it 모델을 사용한 실험 결과, 다양한 주제와 스타일의 출력 조정 작업에서 기존 방법보다 우수한 성능을 달성했습니다.

시사점, 한계점

시사점:
LLM 출력을 효과적으로 조향하는 새로운 방법인 CONFST를 제시.
기존 이진 방향 조향 방법의 한계를 극복하고 다중 사용자 선호도 조정 가능.
구현이 간편하고 명시적 사용자 지시가 필요 없어 사용 편의성 향상.
다양한 LLM 모델에서 우수한 성능 검증.
한계점:
CONFST의 이론적 토대 및 성능 보장에 대한 추가적인 연구 필요.
사용된 LLM 모델의 크기 및 종류에 따른 성능 일반화 가능성에 대한 추가 연구 필요.
특정 작업이나 사용자 선호도에 대한 최적의 "확신 방향" 생성 방법에 대한 추가 연구 필요.
👍