본 논문은 대규모 언어 모델 및 다중 모달 시스템 훈련을 위한 주요 패러다임인 RLHF(Reinforcement Learning from Human Feedback)의 확장성 및 효율성 문제를 해결하기 위해 WeChat-YATT(Yet Another Transformer Trainer in WeChat) 프레임워크를 제시합니다. 기존 RLHF 프레임워크의 제한점인 복잡한 다중 모달 워크플로우 확장 및 동적 워크로드 적응 문제를 해결하기 위해, WeChat-YATT는 병렬 컨트롤러 프로그래밍 모델과 동적 배치 스키마를 도입했습니다. 병렬 컨트롤러는 복잡한 RLHF 워크플로우의 유연하고 효율적인 오케스트레이션을 가능하게 하며, 동적 배치 스키마는 계산 자원을 적응적으로 분할하고 워크로드를 스케줄링하여 하드웨어 유휴 시간을 줄이고 GPU 활용도를 향상시킵니다. 실험 결과, WeChat-YATT는 기존 최첨단 RLHF 훈련 프레임워크에 비해 처리량이 크게 향상되었음을 보여주며, WeChat 제품 기능을 지원하는 모델 훈련에도 성공적으로 배포되어 실제 애플리케이션에서의 효과와 강력함을 입증했습니다. 소스 코드는 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
복잡한 다중 모달 RLHF 워크플로우의 확장성 및 효율성 문제를 해결하는 새로운 프레임워크 WeChat-YATT 제시
◦
병렬 컨트롤러 프로그래밍 모델과 동적 배치 스키마를 통해 기존 RLHF 훈련의 병목 현상 해결 및 성능 향상