Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LASSI: An LLM-based Automated Self-Correcting Pipeline for Translating Parallel Scientific Codes

Created by
  • Haebom
Category
Empty

저자

Matthew T. Dearing, Yiheng Tao, Xingfu Wu, Zhiling Lan, Valerie Taylor

개요

본 논문은 과학 및 공학 분야에 특화된 대규모 언어 모델(LLM)을 위한 방대한 양의 훈련 데이터 확보 문제를 해결하는 새로운 접근 방식을 제시한다. 수백만에서 수십억 개에 이르는 병렬 과학 코드를 확보하는 어려움을 해결하기 위해, 기존의 폐쇄형 또는 오픈소스 LLM을 활용하여 병렬 프로그래밍 언어 간 변환을 수행하는 자동화 파이프라인 프레임워크인 LASSI를 제안한다. LASSI는 생성된 코드의 컴파일 및 실행 중 발생하는 오류를 안내 프롬프팅을 통해 LLM에 다시 전달하여 디버깅 및 리팩토링하는 자기 수정 루프를 통해 자율적 향상을 통합한다. OpenMP target offload와 CUDA 간의 기존 GPU 벤치마크의 양방향 변환을 통해 LASSI의 유효성을 검증한다. 4개의 LLM을 사용하여 다양한 애플리케이션 코드로 LASSI를 평가한 결과, OpenMP에서 CUDA로의 변환의 80%, CUDA에서 OpenMP로의 변환의 85%가 예상대로 출력을 생성하는 것을 보여준다. 또한 OpenMP에서 CUDA로의 변환의 약 78%, CUDA에서 OpenMP로의 변환의 약 62%가 동일한 언어의 원래 벤치마크 코드보다 10% 이내 또는 더 빠른 실행 시간 내에 실행되는 것을 확인했다.

시사점, 한계점

시사점:
과학 및 공학 분야 LLM 훈련을 위한 대규모 병렬 코드 데이터셋 생성의 새로운 자동화된 파이프라인을 제시하였다.
LASSI는 자기 수정 루프를 통해 생성된 코드의 오류를 스스로 수정하며 성능을 향상시킨다.
OpenMP와 CUDA 간의 병렬 코드 변환에서 높은 성공률과 실행 속도 향상을 보였다.
다양한 LLM과 애플리케이션 코드에 대한 실험 결과를 통해 LASSI의 효과성을 검증하였다.
한계점:
LASSI의 성능은 사용된 LLM의 성능에 의존적일 수 있다.
매우 복잡하거나 특수한 경우의 병렬 코드 변환에 대한 성능은 추가 연구가 필요하다.
현재 지원하는 프로그래밍 언어가 제한적이며, 더 다양한 언어 지원이 필요하다.
실험에 사용된 코드의 범위가 제한적이어서 일반화 가능성에 대한 추가 검증이 필요하다.
👍