본 논문은 대규모 언어 모델(LLM)의 복잡한 지시사항 따르기 능력 향상을 위한 벤치마크 TRACE와, 지시사항과 응답 선호도를 모두 고려하는 정렬 방법 IOPO를 제안한다. TRACE는 12만 개의 훈련 데이터와 1천 개의 평가 데이터로 구성되며, IOPO는 입력과 출력 선호도 쌍을 활용하여 LLM이 응답 선호도에 빠르게 맞추면서도 지시사항 선호도를 세밀하게 탐색하도록 한다. 실험 결과, IOPO는 기존 SFT 및 DPO 방법 대비 도메인 내 데이터에서 8.15%, 2.18% 향상, 도메인 외 데이터에서 6.29%, 3.13% 향상을 보였다.