# Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors

### 저자

Ren-Wei Liang, Chin-Ting Hsu, Chan-Hung Yu, Saransh Agrawal, Shih-Cheng Huang, Shang-Tse Chen, Kuan-Hao Huang, Shao-Hua Sun

### 개요

본 논문은 대규모 언어 모델(LLM)의 유용성과 무해성을 동시에 보장하는 새로운 프레임워크인 Preference Vector를 제안한다. 기존의 RLHF나 DPO 방식은 성능 충돌, 제한된 제어성, 확장성 저하 등의 문제를 가지고 있는데, Preference Vector는 작업 산술에서 영감을 받아 개별 선호도에 대한 모델을 별도로 학습하고, 선호도 벡터로 행동 변화를 추출하여 테스트 시점에 동적으로 병합하는 방식을 사용한다. 이를 통해 세밀한 사용자 제어가 가능하고, 재훈련 없이 새로운 선호도를 원활하게 통합할 수 있다. 실험 결과, Preference Vector는 과도한 보수성 없이 유용성을 향상시키고, 선호도 간의 절충을 원활하게 제어하며, 확장 가능한 다중 선호도 정렬을 지원함을 보여준다.

### 시사점, 한계점

- **시사점:**

    - 기존 RLHF 및 DPO 방식의 한계점인 성능 충돌, 제한된 제어성, 확장성 저하 문제를 효과적으로 해결

    - 사용자의 선호도에 대한 세밀한 조정 및 제어 가능

    - 새로운 선호도를 재훈련 없이 쉽게 통합 가능

    - 다양한 선호도를 효율적으로 조정하여 LLM의 유용성과 무해성을 동시에 향상

    - 작업 산술에 기반한 새로운 접근 방식 제시

- **한계점:**

    - 제안된 Preference Vector 프레임워크의 실제 적용 및 확장성에 대한 추가적인 연구 필요

    - 다양한 종류의 선호도 및 복잡한 상황에 대한 일반화 성능 검증 필요

    - 선호도 벡터 추출 및 병합 과정의 최적화 및 효율성 개선 필요

    - 실험 결과의 일반화 가능성 및 다양한 LLM에 대한 적용성 검토 필요

[PDF 보기](https://arxiv.org/pdf/2504.20106)

![https://i.imgur.com/glyJ1p6.jpeg](https://i.imgur.com/glyJ1p6.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).