Sign In

SCMAPR: Self-Correcting Multi-Agent Prompt Refinement for Complex-Scenario Text-to-Video Generation

Created by
  • Haebom
Category
Empty

์ €์ž

Chengyi Yang, Pengzhen Li, Jiayin Qi, Aimin Zhou, Ji Wu, Ji Liu

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ๋ณต์žกํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์—์„œ์˜ ํ…์ŠคํŠธ-๋น„๋””์˜ค(T2V) ์ƒ์„ฑ ์‹œ ๋ฐœ์ƒํ•˜๋Š” ํ”„๋กฌํ”„ํŠธ์˜ ๋ชจํ˜ธ์„ฑ๊ณผ ๋ถˆ์™„์ „์„ฑ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด SCMAPR์ด๋ผ๋Š” ์ž๊ธฐ ๊ต์ • ๋‹ค์ค‘ ์—์ด์ „ํŠธ ํ”„๋กฌํ”„ํŠธ ์ •์ œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. SCMAPR์€ ์‹œ๋‚˜๋ฆฌ์˜ค ๋ถ„๋ฅ˜, ์ •์ฑ… ๊ธฐ๋ฐ˜ ์ˆ˜์ •, ๊ตฌ์กฐํ™”๋œ ์˜๋ฏธ ๊ฒ€์ฆ์„ ํ†ตํ•ด ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋‹จ๊ณ„์ ์œผ๋กœ ๊ฐœ์„ ํ•˜๋ฉฐ, ๋ณต์žกํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค T2V ์ƒ์„ฑ์„ ์œ„ํ•œ ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ์ธ T2V-Complexity๋„ ํ•จ๊ป˜ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ, SCMAPR์€ ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ก  ๋Œ€๋น„ T2V ์ƒ์„ฑ ํ’ˆ์งˆ๊ณผ ํ…์ŠคํŠธ-๋น„๋””์˜ค ์ •๋ ฌ์„ ์œ ์˜๋ฏธํ•˜๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋ณต์žกํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค T2V ์ƒ์„ฑ์—์„œ ํ”„๋กฌํ”„ํŠธ ์ •์ œ์˜ ์ค‘์š”์„ฑ์„ ๋ถ€๊ฐํ•˜๊ณ , ์ด๋ฅผ ์œ„ํ•œ ์ฒด๊ณ„์ ์ธ ๋‹ค์ค‘ ์—์ด์ „ํŠธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
T2V-Complexity ๋ฒค์น˜๋งˆํฌ๋Š” ๋ณต์žกํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค T2V ์ƒ์„ฑ ์—ฐ๊ตฌ ๋ฐ ํ‰๊ฐ€์˜ ํ•„์š”์„ฑ์„ ๊ฐ•์กฐํ•˜๋ฉฐ, ํ–ฅํ›„ ๊ด€๋ จ ์—ฐ๊ตฌ ๋ฐœ์ „์— ๊ธฐ์—ฌํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์—ฌ์ „ํžˆ ๋ณต์žกํ•œ ์‹œ๋‚˜๋ฆฌ์˜ค์˜ ๋ชจ๋“  ์ธก๋ฉด์„ ์™„์ „ํžˆ ํฌ๊ด„ํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์—์ด์ „ํŠธ ๊ฐ„์˜ ํšจ์œจ์ ์ธ ํ˜‘์—… ๋ฐ ์˜์‚ฌ๊ฒฐ์ • ๋ฉ”์ปค๋‹ˆ์ฆ˜ ๊ฐœ์„ ์€ ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘