Text2Grad는 자연어 피드백을 span-level gradient로 변환하여 언어 모델을 미세 조정하는 강화 학습 패러다임입니다. 기존 RLHF의 단점인 느리고 불투명한 학습 과정을 개선하기 위해, 사람 또는 프로그램으로부터 얻은 비판적 피드백을 토큰 스팬에 맞춰 매핑하고, 이를 미분 가능한 보상 신호로 변환하여 모델의 정책을 직접 수정합니다. 세 가지 주요 구성 요소로 이루어져 있는데, (1) 피드백과 토큰 스팬을 연결하는 고품질 피드백 주석 파이프라인, (2) 답변에 대한 스팬 수준의 보상을 예측하고 설명적인 비판을 생성하는 미세한 보상 모델, (3) 자연어 기울기를 역전파하는 스팬 수준의 정책 최적화기가 그것입니다. 요약, 코드 생성, 질문 응답 작업에서 Text2Grad는 스칼라 보상 RL 및 프롬프트 기반 기준 모델을 능가하며, 더 높은 작업 지표와 풍부한 해석성을 제공합니다.