Sign In

From Informal to Formal -- Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs

Created by
  • Haebom
Category
Empty

저자

Jialun Cao, Yaojie Lu, Meiziniu Li, Haoyang Ma, Haokun Li, Mengda He, Cheng Wen, Le Sun, Hongyu Zhang, Shengchao Qin, Shing-Chi Cheung, Cong Tian

개요

본 논문은 AI 기반 형식적 수학 추론 분야의 발전과 그 응용 분야 중 하나인 형식적 검증에 초점을 맞추고 있다. GPT-4를 활용하여 Coq, Lean4, Dafny, ACSL, TLA+ 등 5가지 형식 명세 언어에 대한 18,000개의 고품질 instruction-response 쌍을 생성하고, DeepSeek-R1을 포함한 10개의 오픈소스 LLM을 대상으로 평가하였다. 또한, 7~8B 규모의 소형 모델들을 fine-tuning하여 DeepSeek-R1-671B와 유사한 성능을 달성하였으며, 형식적 데이터를 이용한 fine-tuning이 수학, 추론, 코딩 능력 향상에도 기여함을 확인하였다. Fine-tuning된 모델들은 Hugging Face에 공개되었다.

시사점, 한계점

시사점:
AI 기반 형식적 추론의 응용 가능성(형식적 검증)을 실증적으로 보여줌.
다양한 형식 명세 언어에 대한 고품질 데이터셋 구축 및 공개.
소규모 모델의 fine-tuning을 통해 대규모 모델과 유사한 성능 달성 가능성 제시.
형식적 데이터 fine-tuning의 다양한 능력 향상 효과 확인.
한계점:
사용된 데이터셋의 규모 및 다양성에 대한 추가적인 연구 필요.
다른 형식 명세 언어나 검증 문제에 대한 일반화 가능성에 대한 추가 연구 필요.
fine-tuning 과정 및 그 효과에 대한 더 자세한 분석 필요.
👍