haebom
Sign In
InteractScience: Programmatic and Visually-Grounded Evaluation of Interactive Scientific Demonstration Code Generation
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Qiaosheng Chen, Yang Liu, Lei Li, Kai Chen, Qipeng Guo, Gong Cheng, Fei Yuan
๐ก ๊ฐ์
์ด ์ฐ๊ตฌ๋ ๊ณผํ ๊ต์ก ๋ฐ ์ฐ๊ตฌ์์ ์ค์ํ ์ธํฐ๋ํฐ๋ธ ๊ณผํ ์์ฐ ์ฝ๋ ์์ฑ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ InteractScience๋ฅผ ์ ์ํฉ๋๋ค. InteractScience๋ ํ๋ก๊ทธ๋๋ฐ ๋ฐฉ์์ ๊ธฐ๋ฅ ํ ์คํธ์ ์๊ฐ์ ๊ธฐ๋ฐ์ ์ ์ฑ์ ํ ์คํธ๋ฅผ ๊ฒฐํฉํ์ฌ, LLM์ด ๊ณผํ ์ง์์ ์ ํํ๊ฒ ์ดํดํ๊ณ ์ฌ์ฉ์์ ์ํธ์์ฉ์ ๋ฐ์ํ๋ ์ธํฐ๋ํฐ๋ธ ํ๋ก ํธ์๋ ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ํ๊ฐํฉ๋๋ค. 30๊ฐ์ ์ต์ LLM์ ํ๊ฐํ ๊ฒฐ๊ณผ, ๋๋ฉ์ธ ์ง์๊ณผ ์ธํฐ๋ํฐ๋ธ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํตํฉ์์ ์ฌ์ ํ ๊ฐ์ ์ ์ฌ์ง๊ฐ ์์์ ๋ณด์ฌ์ค๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
LLM์ด ๊ณผํ์ ๊ฐ๋ ์ ์ค๋ช ํ๋ ์ธํฐ๋ํฐ๋ธ ์์ฐ ์ฝ๋๋ฅผ ์์ฑํ๋ ๋ฅ๋ ฅ์ ์ฒด๊ณ์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ์ต์ด์ ๋ฒค์น๋งํฌ๋ฅผ ์ ๊ณตํฉ๋๋ค.
โข
ํ๋ก๊ทธ๋๋ฐ ํ ์คํธ์ ์๊ฐ์ ํ ์คํธ๋ฅผ ๊ฒฐํฉํ ํ์ ์ ์ธ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ํตํด ์ค์ ์ ์ธ ์ํธ์์ฉ ๋ฅ๋ ฅ์ ์ธก์ ํฉ๋๋ค.
โข
ํ์ฌ LLM๋ค์ด ๊ณผํ ์ง์๊ณผ ์ธํฐ๋ํฐ๋ธ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํตํฉํ๋ ๋ฐ ์ด๋ ค์์ ๊ฒช๊ณ ์์์ ์ค์ฆ์ ์ผ๋ก ๋ณด์ฌ์ฃผ๋ฉฐ, ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
โข
๋ฒค์น๋งํฌ์ ๊ณผํ ๋๋ฉ์ธ์ด ์ ํ์ ์ด๊ฑฐ๋, ๋ณต์กํ๊ณ ๋น์ ํ์ ์ธ ์ฌ์ฉ์ ์ํธ์์ฉ์ ๋ํ ํ๊ฐ๊ฐ ๋ถ์กฑํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage