본 논문은 대규모 언어 모델(LLM)의 도메인 특정 추론 및 논리적 정합성 문제를 해결하기 위해, 기호 추론 도구(예: 증명기)로부터 세분화된 피드백을 활용하는 새로운 미세 조정 패러다임인 강화 학습을 통한 기호 피드백(RLSF)을 제시합니다. RLSF는 기호 도구가 생성한 다항식 크기의 인증서(예: 증명)를 사용하여 모델 출력의 오류를 식별하고 수정하여 미분 가능한 추론 시스템 없이 토큰 수준의 안내를 제공합니다. 이는 기호 추론과 LLM 미세 조정 간의 격차를 해소하여 도메인 특정 제약 조건과의 정밀한 정렬을 가능하게 하고 기존 보상 신호의 주요 한계를 해결합니다. 실험 결과, RLSF 기반의 LLM 미세 조정은 프로그램 합성, 세 가지 화학 작업 및 24 게임 풀이 등 다섯 가지 응용 프로그램에서 기존 접근 방식을 능가하며, 상대적으로 작은 LLM이 훨씬 더 큰 독점 모델보다 성능이 뛰어나다는 것을 보여줍니다.