본 논문은 대규모 언어 모델(LLM) 정렬에서 인간의 주석 비용을 줄이기 위해 사전 훈련된 모델을 활용하여 선호도 데이터를 생성하는 기존 방법의 한계를 지적합니다. 기존 방법들은 능력이 크게 다른 모델의 응답을 비교하여 의미있는 지침을 제공하지 못하는 표면적인 차이만을 생성합니다. 이를 해결하기 위해, 본 논문은 유사한 역량을 가진 모델의 응답을 체계적으로 짝짓는 Kinship-Aware pReference MApping (KARMA) 프레임워크를 제안합니다. 유사한 복잡성과 품질의 출력에 대한 선호도 비교를 제한함으로써, KARMA는 선호도 데이터의 정보성을 높이고 정렬 신호의 세분성을 향상시킵니다. 실험적 평가는 본 연구의 친족 인식 접근 방식이 더 일관되고 해석 가능한 정렬 결과를 가져와 궁극적으로 LLM 동작을 인간의 선호도에 맞추는 더 원칙적이고 신뢰할 수 있는 경로를 용이하게 함을 보여줍니다.