본 논문은 대규모 언어 모델(LLM)의 강화 학습(RL) 기반 미세 조정에서 다중 목표 과제를 해결하는 데 있어 기존 방법들의 한계점(상반되는 목표의 균형, 낮은 훈련 효율성, 확장성 부족, 설명력 부족)을 지적하고, 이를 해결하기 위한 새로운 프레임워크인 EMORL(Ensemble Multi-Objective RL)을 제안한다. EMORL은 개별 목표를 가진 여러 모델을 미세 조정하고, 미세 조정 후 해당 모델들의 은닉 상태를 집계하여 효율성과 유연성을 향상시킨다. 특히, 다중 목표의 상황 정보를 통합하는 최초의 은닉 상태 집계 방식과 최적 가중치 조합을 찾는 계층적 그리드 탐색 알고리즘을 제시한다. 상담사 반응 생성 과제에 대한 실험을 통해 PAIR 및 Psych8k 데이터셋에서 기존 방법 대비 훈련 데이터 소모량 및 시간을 크게 줄이고(각각 $17,529\pm 1,650$ 데이터 포인트, $6,573\pm 147.43$ 초), 확장성 및 설명력을 향상시키면서 다중 목표에 대한 성능도 유사하게 유지함을 보여준다.