Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoPL: Collaborative Preference Learning for Personalizing LLMs

Created by
  • Haebom

저자

Youngbin Choi, Seunghyuk Cho, Minjong Lee, MoonJeong Park, Yesong Ko, Jungseul Ok, Dongwoo Kim

개요

본 논문은 사용자의 다양한 선호도에 맞춰 대규모 언어 모델(LLM)의 출력을 조정하는 개인화 방법의 유연성과 일반화 능력 부족 문제를 해결하기 위해, 그래프 기반의 협업 필터링 프레임워크인 CoPL(Collaborative Preference Learning)을 제안합니다. CoPL은 사용자-응답 관계를 모델링하여 특히 희소한 주석 설정에서 선호도 추정을 향상시킵니다. LoRA 전문가들의 혼합을 통합하여 LLM을 효율적으로 미세 조정하는 동시에 공유 및 사용자 특정 선호도 간의 균형을 동적으로 조정합니다. 또한, 최적화 없는 적응 전략을 통해 미세 조정 없이 보이지 않는 사용자에게 일반화할 수 있습니다. UltraFeedback-P에 대한 실험 결과, CoPL은 기존의 개인화된 보상 모델보다 우수한 성능을 보이며 일반적이고 논란이 되는 선호도 모두 효과적으로 포착하여 확장 가능한 개인화된 LLM 정렬 솔루션임을 보여줍니다. 코드는 https://github.com/ml-postech/CoPL 에서 이용 가능합니다.

시사점, 한계점

시사점:
희소한 데이터 환경에서도 효과적인 LLM 개인화를 가능하게 합니다.
LoRA 전문가 혼합을 통해 효율적인 미세 조정 및 공유/사용자 특정 선호도의 동적 균형 조정을 제공합니다.
최적화 없는 적응 전략으로 새로운 사용자에 대한 일반화 능력을 향상시킵니다.
기존 방법보다 우수한 성능을 보이며 일반적 및 논란의 여지가 있는 선호도를 모두 잘 포착합니다.
확장 가능한 개인화된 LLM 정렬 솔루션을 제공합니다.
한계점:
UltraFeedback-P 데이터셋에 대한 성능 평가만 제시되어 다른 데이터셋에 대한 일반화 성능은 추가적인 검증이 필요합니다.
LoRA 전문가의 수나 구조 등 하이퍼파라미터 최적화에 대한 자세한 논의가 부족할 수 있습니다.
최적화 없는 적응 전략의 일반화 능력에 대한 한계 및 그 이유에 대한 심층적인 분석이 필요할 수 있습니다.
👍