본 논문은 다수의 상호작용하는 구성요소(LLM, 기반 모델, 외부 도구 등)로 구성된 복합 AI 시스템이 다양한 작업에서 단일 모델에 비해 현저한 성능 향상을 보임을 설명합니다. 실제 응용 프로그램에 효과적으로 배포하려면 이러한 시스템을 인간의 선호도와 일치시키는 것이 중요합니다. 그러나 단일 모델과 달리 정책 최적화를 통한 복합 시스템 정렬은 구성 요소 간의 비미분 가능한 상호 작용과 시스템 수준의 선호도를 구성 요소 수준의 선호도로 직접 변환할 수 없다는 두 가지 주요 이유로 어렵습니다. 이러한 과제를 해결하기 위해, 본 논문은 먼저 복합 AI 시스템을 DAG(Directed Acyclic Graphs)로 공식화하여 구성 요소 상호 작용과 관련 데이터 흐름을 명시적으로 모델링합니다. 이 공식화를 기반으로, 본 논문은 Direct Preference Optimization (DPO)를 확장하여 공동 시스템 수준 정렬을 가능하게 하는 SysDPO 프레임워크를 소개합니다. 시스템별 선호도 데이터 세트를 구성하는지 여부에 따라 두 가지 변형인 SysDPO-Direct 및 SysDPO-Sampling을 제안합니다. 실험적으로 언어 모델과 확산 모델의 공동 정렬 및 LLM 협업 시스템의 공동 정렬이라는 두 가지 응용 프로그램에서 이 방법의 효과를 입증합니다.