Sign In

SmartEval: A Benchmark for Evaluating LLM-Generated Smart Contracts from Natural Language Specifications

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Abhinav Goel, Agostino Capponi, Alfio Gliozzo, Chaitya Shah

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์ž์—ฐ์–ด ๋ช…์„ธ๋กœ๋ถ€ํ„ฐ LLM์ด ์ƒ์„ฑํ•œ Solidity ์Šค๋งˆํŠธ ๊ณ„์•ฝ์˜ ํ’ˆ์งˆ์„ ์ฒด๊ณ„์ ์œผ๋กœ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์ธ SmartEval์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. SmartEval์€ 9,000๊ฐœ์˜ ์ƒ์„ฑ๋œ ๊ณ„์•ฝ๊ณผ ์ „๋ฌธ๊ฐ€ ์ž‘์„ฑ์˜ ์ •๋‹ต ๊ณ„์•ฝ ์Œ, ๊ธฐ๋Šฅ์  ์™„์ „์„ฑ, ๋ณ€์ˆ˜ ์ถฉ์‹ค๋„, ์ƒํƒœ ๊ธฐ๊ณ„ ์ •ํ™•์„ฑ, ๋น„์ฆˆ๋‹ˆ์Šค ๋กœ์ง ์ถฉ์‹ค๋„, ์ฝ”๋“œ ํ’ˆ์งˆ์„ ํฌ๊ด„ํ•˜๋Š” 5๊ฐ€์ง€ ์ฐจ์›์˜ ํ‰๊ฐ€ ๋ฃจ๋ธŒ๋ฆญ, ๊ทธ๋ฆฌ๊ณ  ์žฌํ˜„ ๊ฐ€๋Šฅํ•œ ์ƒ์„ฑ ๋ฐ ํ‰๊ฐ€ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
LLM์€ ๋ช…์„ธ๋ฅผ ๋ฌธ์ž ๊ทธ๋Œ€๋กœ ๋”ฐ๋ฅด๋Š” ๊ฒฝํ–ฅ์œผ๋กœ ์ธํ•ด ์ •๋‹ต ๊ตฌํ˜„ ๋Œ€๋น„ ์•ฝ 8.29์ ์˜ ๋ณตํ•ฉ ์ ์ˆ˜ ์šฐ์œ„๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค.
โ€ข
์ƒ์„ฑ๋œ ๊ณ„์•ฝ์—์„œ 35.3%์˜ ๋กœ์ง ๋ˆ„๋ฝ, 23.4%์˜ ์ƒํƒœ ์ „์ด ์˜ค๋ฅ˜์™€ ๊ฐ™์€ ํŠน์ง•์ ์ธ ์‹คํŒจ ๋ชจ๋“œ๊ฐ€ ๋ฐœ๊ฒฌ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ SmartEval ๋ฒค์น˜๋งˆํฌ๋Š” LLM ์Šค๋งˆํŠธ ๊ณ„์•ฝ ํ•ฉ์„ฑ ํ’ˆ์งˆ์— ๋Œ€ํ•œ ๊ฒฝํ—˜์  ์—ฐ๊ตฌ๋ฅผ ์œ„ํ•œ ์žฌํ˜„ ๊ฐ€๋Šฅํ•˜๊ณ  ๊ฒ€์ฆ๋œ ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ•˜๋ฉฐ, ๋ชจ๋“  ๋ฐ์ดํ„ฐ, ํ‰๊ฐ€ ์ฝ”๋“œ, ์ƒ์„ฑ๋œ ๊ณ„์•ฝ์€ ๊ณต๊ฐœ์ ์œผ๋กœ ์ œ๊ณต๋ฉ๋‹ˆ๋‹ค.
โ€ข
์ธ๊ฐ„ ์ „๋ฌธ๊ฐ€ ํ‰๊ฐ€์™€ ์ž๋™ํ™”๋œ ์ ์ˆ˜๊ฐ€ 0.34์  ์ด๋‚ด๋กœ ์ผ์น˜ํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ์œผ๋ฉฐ, Slither ์ •์  ๋ถ„์„๊ธฐ๋ฅผ ํ†ตํ•œ ์™ธ๋ถ€ ๋ณด์•ˆ ๋ถ„์„์—์„œ๋„ LLM ๊ฐ์‚ฌ์™€ ๋น„-LLM ๊ทœ์น™ ๊ธฐ๋ฐ˜ ๋„๊ตฌ ๊ฐ„ 79.4%์˜ ์ผ์น˜์œจ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.
โ€ข
๋ฒค์น˜๋งˆํฌ์˜ ๊ฐ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์„ฑ ์š”์†Œ์˜ ๊ธฐ์—ฌ๋„๋ฅผ ๋ถ„๋ฆฌํ•˜๊ธฐ ์œ„ํ•œ 5๊ฐ€์ง€ ์กฐ๊ฑด์˜ ์ ˆ์ œ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•ด ์‹ ๋ขฐ์„ฑ์„ ๊ฒ€์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋ณต์žก์„ฑ์ด ์ฆ๊ฐ€ํ• ์ˆ˜๋ก LLM ์ƒ์„ฑ ๊ณ„์•ฝ์˜ ํ’ˆ์งˆ ์ €ํ•˜ ๊ฒฝํ–ฅ์ด ๊ด€์ฐฐ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘