Sign In

Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks

Created by
  • Haebom
Category
Empty

저자

Amal Abed, Ivan Lukic, Jorg K. H. Franke, Frank Hutter

개요

대규모 언어 모델(LLM)의 코드 생성 능력 향상을 위해, 다양하고 인간의 추론 방식에 부합하는 대규모 데이터셋 부족 문제를 해결하고자 함. 약 80만 개의 instruction-reasoning-code-test 4중 구조의 합성 데이터를 생성하는 확장 가능한 파이프라인을 제시. 이 데이터는 과제, 단계별 추론 과정, 작동하는 해결책, 실행 가능한 테스트를 포함하여 모델이 문제 해결의 '방법'을 학습할 수 있도록 함. 파이프라인은 큐레이션된 경진대회 문제, 관련성 분류기에 의해 필터링된 웹 마이닝 콘텐츠, 추론 패턴에 따른 데이터 확장, 다단계 실행 기반 검증을 결합. 유전자 변이 알고리즘을 통해 과제 다양성을 높이고 추론 과정과 코드 구현 간의 일관성을 유지함. 이 데이터셋으로 LLM을 미세 조정하면 코딩 벤치마크에서 일관된 성능 향상을 보이며, 모델 크기 확장, 아키텍처 간 일반화, 동일한 샘플 예산 하에서 기존의 오픈 소스 모델보다 우수한 성능을 보임.

시사점, 한계점

시사점:
추론 중심의 합성 데이터 생성이 LLM의 코딩 능력을 향상시키는 효율적인 접근 방식임을 제시.
단순한 정확도 향상을 넘어, 모델 크기 확장 없이도 성능을 개선하고, 다양한 아키텍처에서 일반화하며, 기존 오픈 소스 모델을 능가하는 결과를 달성.
연구 촉진을 위해 데이터셋과 생성 파이프라인을 공개.
한계점:
논문 자체에서 명시된 한계점은 제시되지 않음. (논문 요약에 한계점 관련 언급 없음)
👍