본 논문은 대규모 언어 모델(LLM)을 인간과 정렬하는 과정에서 기존의 다목적 최적화 접근 방식이 인간의 의사결정 방식을 간과하는 문제를 지적한다. 인간의 제한된 합리성을 고려하여, 주요 목표를 최적화하면서 다른 목표는 허용 가능한 임계값을 충족하는 '만족화(satisficing)' 전략에 기반한 새로운 정렬 프레임워크인 SITAlign을 제안한다. SITAlign은 추론 시간에 주요 목표를 극대화하고 보조 기준에 대한 임계값 기반 제약 조건을 만족시키는 방식으로 작동한다. 이론적 분석을 통해 만족화 기반 추론 정렬 접근 방식의 최적화되지 않은 정도에 대한 경계를 도출하고, 다양한 벤치마크에 대한 실험을 통해 SITAlign의 성능을 검증한다. 특히, PKU-SafeRLHF 데이터셋에서 유용성을 극대화하고 무해성에 대한 임계값을 준수하는 실험에서, 기존 최고 성능의 다목적 디코딩 전략보다 GPT-4 승률 기준 유용성 보상에서 22.3%의 성능 향상을 보였다.
시사점, 한계점
•
시사점:
◦
인간의 제한된 합리성을 고려한 새로운 LLM 정렬 프레임워크 SITAlign 제시
◦
다목적 최적화의 한계를 극복하고, 만족화 전략을 통한 효율적인 정렬 가능성 제시
◦
실험 결과를 통해 SITAlign의 우수한 성능 검증 (PKU-SafeRLHF 데이터셋에서 유용성 측면에서 22.3% 성능 향상)
◦
이론적 분석을 통해 만족화 기반 접근 방식의 성능 한계에 대한 통찰력 제공
•
한계점:
◦
제안된 프레임워크의 일반화 가능성 및 다양한 데이터셋에 대한 추가적인 검증 필요
◦
임계값 설정에 대한 민감도 분석 및 최적 임계값 결정 방법에 대한 추가 연구 필요
◦
인간의 의사결정 과정에 대한 더욱 정교한 모델링 필요성
◦
특정 데이터셋에 대한 성능 향상이 다른 데이터셋에서도 일반화될 수 있는지에 대한 추가 연구 필요