Segment-Aligned Policy Optimization for Multi-Modal Reasoning

작성자

Haebom

카테고리

Empty

저자

Lei Gao, Zhuoming Li, Mengxi Jia, Jiakang Yuan, Hongbo Sun, Hao Sun, Xuelong Li

💡 개요

본 논문은 대규모 언어 모델(LLM)의 다중 모드 추론 작업에서 발생하는 토큰 또는 전체 응답 시퀀스 단위의 정책 최적화 문제를 해결하기 위해 새로운 접근 방식인 Segment-Aligned Policy Optimization (SAPO)을 제안합니다. SAPO는 추론 과정을 자연스러운 단계별 구조로 보고, 이러한 '추론 세그먼트'를 정책 업데이트의 기본 단위로 삼습니다. 이를 통해 기존 방식보다 더 안정적이고 효과적인 학습을 달성하며, 대표적인 추론 벤치마크에서 상당한 정확도 향상을 보였습니다.

🔑 시사점 및 한계

•

추론 과정의 내재된 단계별 구조에 맞춰 강화학습 업데이트 단위를 조정하는 것이 다중 모드 추론 성능 향상에 매우 중요하다는 점을 시사합니다.

•

SAPO는 추론 세그먼트 단위의 가치 추정 및 이점 계산 메커니즘을 통해 기존 토큰 또는 시퀀스 단위 최적화 대비 더 나은 학습 안정성과 일관성을 제공합니다.

•

본 연구는 향후 복잡한 추론 작업에서 효율적이고 의미론적으로 기반한 정책 최적화를 위한 새로운 방향을 제시합니다.

•

앞으로 더 다양한 추론 작업 및 모델 아키텍처에 SAPO를 적용하고, 세그먼트 경계를 자동으로 탐지하는 방법에 대한 연구가 필요합니다.

PDF 보기

Made with Slashpage