SmartEval: A Benchmark for Evaluating LLM-Generated Smart Contracts from Natural Language Specifications

작성자

Haebom

카테고리

Empty

저자

Abhinav Goel, Agostino Capponi, Alfio Gliozzo, Chaitya Shah

💡 개요

본 논문은 자연어 명세로부터 LLM이 생성한 Solidity 스마트 계약의 품질을 체계적으로 평가하기 위한 벤치마크인 SmartEval을 소개합니다. SmartEval은 9,000개의 생성된 계약과 전문가 작성의 정답 계약 쌍, 기능적 완전성, 변수 충실도, 상태 기계 정확성, 비즈니스 로직 충실도, 코드 품질을 포괄하는 5가지 차원의 평가 루브릭, 그리고 재현 가능한 생성 및 평가 파이프라인을 제공합니다.

🔑 시사점 및 한계

•

LLM은 명세를 문자 그대로 따르는 경향으로 인해 정답 구현 대비 약 8.29점의 복합 점수 우위를 보입니다.

•

생성된 계약에서 35.3%의 로직 누락, 23.4%의 상태 전이 오류와 같은 특징적인 실패 모드가 발견되었습니다.

•

제안된 SmartEval 벤치마크는 LLM 스마트 계약 합성 품질에 대한 경험적 연구를 위한 재현 가능하고 검증된 기반을 마련하며, 모든 데이터, 평가 코드, 생성된 계약은 공개적으로 제공됩니다.

•

인간 전문가 평가와 자동화된 점수가 0.34점 이내로 일치하는 것을 확인했으며, Slither 정적 분석기를 통한 외부 보안 분석에서도 LLM 감사와 비-LLM 규칙 기반 도구 간 79.4%의 일치율을 보였습니다.

•

벤치마크의 각 파이프라인 구성 요소의 기여도를 분리하기 위한 5가지 조건의 절제 연구를 통해 신뢰성을 검증했습니다.

•

복잡성이 증가할수록 LLM 생성 계약의 품질 저하 경향이 관찰되었습니다.

PDF 보기

Made with Slashpage