본 논문은 대규모 언어 모델(LLM)의 자동 코드 생성 성능 향상을 위해 Feedback-driven Adaptive Long/short-term memory reinforced Coding Optimization (FALCON)을 제안합니다. 기존 LLM 기반 코드 생성 모델들이 다양성 부족, 전문화된 작업 및 예외 케이스 처리 미흡, 그리고 SFT 및 RLHF의 어려움으로 인해 사용자 의도와 정확하게 일치하는 코드 생성에 어려움을 겪는다는 점을 지적합니다. FALCON은 장기 기억(global level)과 단기 기억(local level)을 활용하는 계층적 구조를 가지며, 컴파일러 및 AI 시스템의 즉각적인 피드백을 통합하고 메타 강화 학습을 통해 다양한 코드 생성 작업에 대한 적응력을 향상시킵니다. 실험 결과, MBPP 벤치마크에서 4.5%p 이상, Humaneval 벤치마크에서 6.1%p 이상 기존 강화 학습 기반 방법들을 능가하는 최첨단 성능을 달성했습니다. 코드는 공개적으로 제공됩니다.