Direct Preference Optimization (DPO)는 간단하고 효율적인 프레임워크이지만, 기각된 응답이 손실 함수에 미치는 영향이 지배적이어서 선택된 응답의 생성 확률을 높이고 기각된 응답의 생성 확률을 낮추는 주요 목표 달성에 어려움을 겪는다. 이러한 불균형은 선호되는 응답을 향상시키는 데 비효율적인 결과를 초래한다. 본 연구는 DPO와 기존 알고리즘의 한계를 체계적으로 분석하고, 기각된 응답의 영향을 제한하면서 DPO의 원래 최적화 구조를 유지하는 새로운 방법인 Bounded-DPO (BDPO)를 제안한다. 이론적 분석과 실험적 평가를 통해 BDPO가 선택된 응답과 기각된 응답의 균형 있는 최적화를 달성하고 기존 알고리즘보다 우수한 성능을 보임을 보여준다.