Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

From Reasoning to Code: GRPO Optimization for Underrepresented Languages

Created by
  • Haebom

저자

Federico Pennino, Bianca Raimondi, Massimo Rondelli, Andrea Gurioli, Maurizio Gabbrielli

개요

본 논문은 Python과 같은 인기 프로그래밍 언어에 비해 공개 학습 데이터가 제한적인 언어에서 정확하고 실행 가능한 코드를 생성하는 데 어려움을 극복하는 일반화 가능한 접근 방식을 제시합니다. 소규모 코드 버전의 Qwen 2.5 모델과 Group Relative Policy Optimization (GRPO)을 결합하여 명시적인 추론 단계를 통해 효과적인 코드 생성을 가능하게 합니다. Prolog을 대표적인 사용 사례로, 온라인 데이터 부족으로 인한 초기 모델의 실행 가능한 코드 생성의 어려움을 해결하고, 강화 학습 루프에 추론 기반 피드백을 직접 통합하여 논리적으로 일관되고 구문적으로 정확한 코드 생성에 성공하였습니다. 수학적 논리 문제 벤치마크를 이용한 실험 평가 결과, 추론 품질, 코드 정확성, 논리적 정확성이 크게 향상되었음을 보여주며, 광범위한 프로그래밍 언어에 적용 가능성을 시사합니다.

시사점, 한계점

시사점:
제한된 학습 데이터를 가진 프로그래밍 언어에서도 효과적인 코드 생성이 가능한 일반화 가능한 접근 방식 제시
소규모 모델과 GRPO를 결합하여 추론 기반 피드백을 활용한 강화 학습의 효과 입증
Prolog과 같은 언어에서 논리적 정확성과 코드 정확성을 향상시키는 데 성공
다양한 프로그래밍 언어에 적용 가능성 제시
한계점:
Prolog을 중심으로 한 실험 결과이므로 다른 프로그래밍 언어로의 일반화 가능성에 대한 추가 연구 필요
사용된 모델 및 알고리즘의 특성에 대한 자세한 분석 및 설명 부족
다양한 규모의 데이터셋에 대한 성능 비교 분석 부족
실제 응용 프로그램에 대한 적용 및 성능 평가 미흡
👍