Sign In

SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair

Created by
  • Haebom
Category
Empty

저자

Zaoyu Chen, Haoran Qin, Nuo Chen, Xiangyu Zhao, Lei Xue, Xiapu Luo, Xiao-Ming Wu

개요

본 논문은 Solidity 스마트 계약 생성에 대한 코드 완성 모델의 기능적 정확성을 평가하기 위한 새로운 벤치마크인 SolBench를 제시합니다. SolBench는 Ethereum에 배포된 1,155개 계약의 4,178개 함수를 포함하며, 기존 지표인 BLEU와 달리 생성된 스마트 계약의 기능적 정확성을 효과적으로 평가합니다. Solidity 함수가 컨텍스트에 정의된 변수와 인터페이스에 의존하기 때문에 컨텍스트 없이 정확한 코드를 생성하는 데 어려움이 있음을 밝히고, 이를 해결하기 위해 실행기가 기능적 정확성을 검증하고 필요한 경우 검색된 코드 조각을 사용하여 LLM이 코드를 수정하는 Retrieval-Augmented Code Repair 프레임워크를 제안합니다. 다양한 크기와 시리즈의 오픈소스 및 클로즈드소스 LLM을 포괄적으로 평가하여 스마트 계약 완성 성능을 분석하고, 코드 수정 및 검색 기술이 스마트 계약 완성의 정확성을 향상시키고 계산 비용을 줄이는 데 효과적임을 보여줍니다.

시사점, 한계점

시사점:
Solidity 스마트 계약 생성 모델의 기능적 정확성 평가를 위한 새로운 벤치마크 SolBench 제시
컨텍스트 정보 활용의 중요성 강조 및 Retrieval-Augmented Code Repair 프레임워크 제안
코드 수정 및 검색 기술을 통한 스마트 계약 완성 정확도 향상 및 계산 비용 절감 효과 확인
다양한 LLM 모델에 대한 성능 비교 분석 제공
한계점:
SolBench의 범위가 Ethereum에 배포된 계약에 국한됨
Retrieval-Augmented Code Repair 프레임워크의 일반화 가능성 및 다른 프로그래밍 언어 적용 가능성에 대한 추가 연구 필요
평가에 사용된 LLM 모델의 종류 및 버전에 대한 자세한 정보 부족 가능성
실제 환경에서의 성능과의 차이에 대한 추가적인 검증 필요
👍