Sign In

Gen-n-Val: Agentic Image Data Generation and Validation

Created by
  • Haebom
Category
Empty

์ €์ž

Jing-En Huang, I-Sheng Fang, Tzuhsuan Huang, Yu-Lun Liu, Chih-Yu Wang, Jun-Cheng Chen

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๊ฐ์ฒด ํƒ์ง€ ๋ฐ ์ธ์Šคํ„ด์Šค ๋ถ„ํ•  ๋ถ„์•ผ์˜ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ, ๋ ˆ์ด๋ธ” ๋…ธ์ด์ฆˆ, ๊ธด ๊ผฌ๋ฆฌ ๋ฒ”์ฃผ ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Gen-n-Val์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Gen-n-Val์€ Layer Diffusion (LD), LLM, VLLM์„ ํ™œ์šฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ์˜ ๋‹ค์–‘ํ•˜๊ณ  ์ •ํ™•ํ•œ ์ธ์Šคํ„ด์Šค ๋งˆ์Šคํฌ์™€ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•˜๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐฉ๋ฒ•์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ณ ํ’ˆ์งˆ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ: Gen-n-Val์€ LLM ๊ธฐ๋ฐ˜ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™”์™€ VLLM ๊ธฐ๋ฐ˜ ๊ฒ€์ฆ์„ ํ†ตํ•ด ๊ธฐ์กด ๋ฐฉ๋ฒ• ๋Œ€๋น„ ํ˜„์ €ํžˆ ๋‚ฎ์€ ๋ถˆ๋Ÿ‰ ๋ฐ์ดํ„ฐ ๋น„์œจ(50%์—์„œ 7%๋กœ ๊ฐ์†Œ)์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ, ๊ฐ์ฒด ํƒ์ง€ ๋ฐ ์ธ์Šคํ„ด์Šค ๋ถ„ํ•  ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํฌ๊ท€ ํด๋ž˜์Šค ์„ฑ๋Šฅ ํ–ฅ์ƒ: ํŠนํžˆ LVIS ๋ฐ COCO์™€ ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์—์„œ ํฌ๊ท€ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์„ ํฌ๊ฒŒ ๊ฐœ์„ ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ์— ํšจ๊ณผ์ ์œผ๋กœ ๋Œ€์‘ํ•จ์„ ์ž…์ฆํ•ฉ๋‹ˆ๋‹ค.
โ€ข
๊ฐœ๋ฐฉํ˜• ๋‹จ์–ด ๊ฐ์ฒด ํƒ์ง€ ๋Šฅ๋ ฅ ๊ฐ•ํ™”: YOLO-Worldv2-M๊ณผ ๊ฐ™์€ ๊ธฐ์กด ๋ชจ๋ธ ๋Œ€๋น„ ๊ฐœ๋ฐฉํ˜• ๋‹จ์–ด ๊ฐ์ฒด ํƒ์ง€ ์„ฑ๋Šฅ์„ ํš๊ธฐ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋ฉฐ, ๋ชจ๋ธ ์šฉ๋Ÿ‰ ๋ฐ ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ์— ๋”ฐ๋ฅธ ํ™•์žฅ์„ฑ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
ํ•œ๊ณ„์ : ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋ฐ ๊ฒ€์ฆ ๊ณผ์ •์—์„œ LLM ๋ฐ VLLM์˜ ์—ฐ์‚ฐ ์ž์› ์†Œ๋ชจ๊ฐ€ ํด ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์˜ ๋ณต์žก์„ฑ์ด ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–ฅํ›„ ๋”์šฑ ํšจ์œจ์ ์ธ ์—์ด์ „ํŠธ ๊ฐ„ ์ƒํ˜ธ์ž‘์šฉ ๋ฐ ์ž๋™ํ™”๋œ ํ”„๋กฌํ”„ํŠธ ์ตœ์ ํ™” ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘