SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization
Created by
Haebom
저자
Huashan Sun, Shengyi Liao, Yansen Han, Yu Bai, Yang Gao, Cheng Fu, Weizhou Shen, Fanqi Wan, Ming Yan, Ji Zhang, Fei Huang
개요
본 논문은 장문맥락 정보 활용에 어려움을 겪는 대규모 언어 모델(LLM)의 한계를 해결하기 위해, 단문맥락 선호도 최적화와 단문맥락-장문맥락 보상 정렬을 결합한 새로운 프레임워크인 SoLoPO(Short-to-Long Preference Optimization)를 제안합니다. SoLoPO는 단문맥락에서 선호도 쌍을 활용하여 모델의 맥락 정보 활용 능력을 향상시키고, 단문맥락과 장문맥락에서 동일한 작업 관련 정보에 대한 응답의 보상 점수 일관성을 강화하여 단문맥락 처리 능력을 장문맥락으로 전이시킵니다. 이를 통해 데이터 구축 및 학습 과정의 효율성을 크게 향상시키면서 다양한 장문맥락 벤치마크에서 길이 및 도메인 일반화 능력을 강화함을 실험적으로 보여줍니다.
시사점, 한계점
•
시사점:
◦
장문맥락 정보 활용에 어려움을 겪는 LLM의 한계점을 효과적으로 해결하는 새로운 프레임워크 SoLoPO 제시.
◦
단문맥락 선호도 최적화와 단문맥락-장문맥락 보상 정렬을 통해 데이터 효율성과 학습 효율성을 향상.
◦
다양한 장문맥락 벤치마크에서 길이 및 도메인 일반화 능력 향상을 실험적으로 검증.
•
한계점:
◦
SoLoPO의 성능 향상이 특정 데이터셋이나 벤치마크에 국한될 가능성.
◦
SoLoPO 프레임워크의 일반화 성능 및 다양한 LLM 아키텍처에 대한 적용성에 대한 추가적인 연구 필요.