본 논문은 대규모 언어 모델(LLM)의 개인화를 위한 새로운 프레임워크인 CoPL(Collaborative Preference Learning)을 제안합니다. 기존 방법들의 유연성과 일반화 능력의 한계를 극복하기 위해, 그래프 기반의 협업 필터링을 사용하여 사용자-응답 관계를 모델링함으로써 특히 희소한 주석 설정에서 선호도 추정을 향상시킵니다. 혼합 LoRA 전문가를 통합하여 LLM을 효율적으로 미세 조정하는 동시에 공유된 선호도와 사용자 특유의 선호도 간의 균형을 동적으로 조절합니다. 또한, 최적화가 필요 없는 적응 전략을 통해 미세 조정 없이 새로운 사용자에게 일반화할 수 있습니다. UltraFeedback-P 데이터셋을 사용한 실험 결과, CoPL은 기존의 개인화된 보상 모델보다 우수한 성능을 보이며, 일반적인 선호도와 논쟁적인 선호도 모두 효과적으로 포착하여 LLM 개인화를 위한 확장 가능한 솔루션임을 입증합니다.