Sign In

ContractEval: A Benchmark for Evaluating Contract-Satisfying Assertions in Code Generation

Created by
  • Haebom
Category
Empty

์ €์ž

Soohan Lim, Joonghyuk Hahn, Hyunwoo Park, Sang-Ki Ko, Yo-Sub Han

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ธฐ์กด ์ฝ”๋“œ ์ƒ์„ฑ ํ‰๊ฐ€ ๋ฐฉ์‹์ด ์ž…๋ ฅ ์ „์ œ ์กฐ๊ฑด(preconditions)์„ ๋งŒ์กฑํ•˜๋Š” ์ž…๋ ฅ์— ๋Œ€ํ•ด์„œ๋งŒ ๊ธฐ๋Šฅ์  ์ •ํ™•์„ฑ์„ ์ธก์ •ํ•˜๋Š” ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜๋ฉฐ, ์ƒ์„ฑ๋œ ์ฝ”๋“œ๊ฐ€ ์ด๋Ÿฌํ•œ ์ „์ œ ์กฐ๊ฑด์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋งŒ์กฑํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ ContractEval์„ ์ œ์•ˆํ•œ๋‹ค. ContractEval์€ ๋ช…ํ™•ํ•˜๊ฒŒ ๊ธฐ์ˆ ๋œ ๊ณ„์•ฝ(contracts)๊ณผ ํ•จ๊ป˜, ์‹ ๊ฒฝ-๊ธฐํ˜ธ์  ํŒŒ์ดํ”„๋ผ์ธ์„ ํ†ตํ•ด ํ•ฉ์„ฑ๋œ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ฝ”๋“œ์˜ ๊ณ„์•ฝ ๋งŒ์กฑ๋„๋ฅผ ํ‰๊ฐ€ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด LLM๋“ค์ด ๊ธฐ๋Šฅ์  ์ •ํ™•์„ฑ์€ ๋†’์œผ๋‚˜ ๊ณ„์•ฝ ๋งŒ์กฑ๋„๋Š” ํ˜„์ €ํžˆ ๋‚ฎ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๊ทœ๋ช…ํ•˜๊ณ , ์ฝ”๋“œ ์ƒ์„ฑ ํ’ˆ์งˆ ํ‰๊ฐ€์˜ ์ƒˆ๋กœ์šด ์ถ•์„ ์ œ์‹œํ•œ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
์ฝ”๋“œ ์ƒ์„ฑ ๋ชจ๋ธ์€ ๊ธฐ๋Šฅ์  ์ •ํ™•์„ฑ์„ ๋„˜์–ด์„œ, ๋ช…์‹œ์ ์œผ๋กœ ๋˜๋Š” ์•”๋ฌต์ ์œผ๋กœ ์š”๊ตฌ๋˜๋Š” ์ž…๋ ฅ ์ œ์•ฝ ์กฐ๊ฑด(๊ณ„์•ฝ)์„ ์ค€์ˆ˜ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ์ค‘์š”ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.
โ€ข
๊ธฐ์กด ์ฝ”๋“œ ์ƒ์„ฑ ๋ฒค์น˜๋งˆํฌ์™€ ํ‰๊ฐ€ ๋ฐฉ์‹์ด ์‹ค์ œ ์ฝ”๋“œ์˜ ๊ฒฌ๊ณ ์„ฑ ๋ฐ ์‹ ๋ขฐ์„ฑ ์ธก๋ฉด์—์„œ ๋†“์น˜๊ณ  ์žˆ๋Š” ๋ถ€๋ถ„์„ ๋ช…ํ™•ํžˆ ์ œ์‹œํ•œ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ContractEval ๋ฒค์น˜๋งˆํฌ๋Š” ํ–ฅํ›„ ์ฝ”๋“œ ์ƒ์„ฑ ๋ชจ๋ธ์˜ ๊ณ„์•ฝ ๋งŒ์กฑ๋„ ์ธก์ •์„ ์œ„ํ•œ ํ‘œ์ค€์œผ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ๋‹ค.
โ€ข
ํ˜„์žฌ LLM๋“ค์ด ๊ณ„์•ฝ ๋งŒ์กฑ๋„ ์ธก๋ฉด์—์„œ ์—ฌ์ „ํžˆ ํฐ ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ์œผ๋ฉฐ, ์ด ๋ถ€๋ถ„์„ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€์ ์ธ ์—ฐ๊ตฌ์™€ ๋ชจ๋ธ ๊ฐœ์„ ์ด ํ•„์š”ํ•˜๋‹ค.
๐Ÿ‘