Beyond Code Pairs: Dialogue-Based Data Generation for LLM Code Translation

Created by

Haebom

저자

Le Chen, Nuo Xu, Winson Chen, Bin Lei, Pei-Hung Lin, Dunzhi Zhou, Rajeev Thakur, Caiwen Ding, Ali Jannesari, Chunhua Liao

개요

본 논문은 대규모 언어 모델(LLM)의 코드 번역 성능을 향상시키기 위해, 특히 자원 부족 프로그래밍 도메인(예: Fortran, CUDA)에서 성능 저하 문제를 해결하고자 함. 이를 위해 컴파일러 및 런타임 피드백을 활용하는 이중 LLM Questioner-Solver 설계를 기반으로 자동화된 데이터셋 생성 파이프라인을 제시함. 이 파이프라인은 소스-타겟 코드 쌍, 기능적 일관성을 평가하기 위한 단위 테스트가 있는 검증된 번역, 번역 개선 과정을 포착하는 다중 턴 대화를 생성함. Fortran -> C++ 및 C++ -> CUDA 번역에 적용하여 3.64k 및 3.93k 대화 데이터를 생성했으며, 이를 통해 7B 오픈 가중치 모델이 더 큰 독점 시스템보다 우수한 성능을 보였다.

시사점, 한계점

•

시사점:

◦

자원 부족 프로그래밍 도메인에서 LLM 기반 코드 번역 성능을 크게 향상시킴.

◦

단위 테스트 및 다중 턴 대화 생성을 통해 번역의 정확성과 추론 과정을 개선.

◦

오픈 소스 모델이 더 큰 독점 시스템을 능가하는 결과를 보여줌.

•

한계점:

◦

논문에 구체적인 한계점에 대한 언급은 없음.

PDF 보기

Made with Slashpage