LENS: Learning to Segment Anything with Unified Reinforced Reasoning
Created by
Haebom
Category
Empty
저자
Lianghui Zhu, Bin Ouyang, Yuxuan Zhang, Tianheng Cheng, Rui Hu, Haocheng Shen, Longjin Ran, Xiaoxin Chen, Li Yu, Wenyu Liu, Xinggang Wang
LENS: RL-driven Chain-of-Thought Reasoning for Text-Prompted Image Segmentation
개요: 텍스트 프롬프트 기반 이미지 분할은 정밀한 시각적 이해를 가능하게 하며, 인간-컴퓨터 상호 작용 및 로봇 공학과 같은 응용 분야에 필수적입니다. 본 논문에서는 테스트 시 명시적인 사고 과정(CoT) 추론을 무시하는 기존의 지도 기반 미세 조정 방법의 한계를 해결하기 위해, 종단간 방식으로 추론 과정과 분할을 함께 최적화하는 확장 가능한 강화 학습 프레임워크인 LENS를 제안합니다. LENS는 문장, 상자 및 세그먼트 수준의 단서를 포괄하는 통합 강화 학습 보상을 제안하여 모델이 마스크 품질을 개선하는 동시에 유익한 CoT 근거를 생성하도록 장려합니다. 30억 개의 파라미터를 가진 공개적으로 사용 가능한 비전-언어 모델인 Qwen2.5-VL-3B-Instruct를 사용하여, LENS는 RefCOCO, RefCOCO+, RefCOCOg 벤치마크에서 평균 cIoU 81.2%를 달성하여 강력한 미세 조정 방법인 GLaMM을 최대 5.6% 능가합니다.
시사점, 한계점:
•
강화 학습을 활용한 CoT 추론을 통해 텍스트 프롬프트 기반 분할 성능을 향상시킴.
•
일반화 능력이 향상된 Segment Anything 모델(SAM) 개발에 기여할 수 있는 가능성을 제시함.
•
RefCOCO, RefCOCO+, RefCOCOg 벤치마크에서 기존 SOTA 모델보다 우수한 성능을 보임.