Sign In

FAGER: Factually Grounded Evaluation and Refinement of Text-to-Image Models

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Youngsun Lim, Cusuh Ham, Pin-Yu Chen, Deepti Ghadiyaram

๐Ÿ’ก ๊ฐœ์š”

๊ธฐ์กด ํ…์ŠคํŠธ-์ด๋ฏธ์ง€(T2I) ๋ชจ๋ธ ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” ํ”„๋กฌํ”„ํŠธ์— ๋ช…์‹œ์ ์œผ๋กœ ์–ธ๊ธ‰๋œ ์ •๋ณด์™€์˜ ์ผ์น˜ ์—ฌ๋ถ€๋งŒ ์ฃผ๋กœ ํ‰๊ฐ€ํ•˜์—ฌ, ๋‚ด์žฌ์ ์ด๊ฑฐ๋‚˜ ์™ธ๋ถ€์ ์œผ๋กœ ๊ทผ๊ฑฐํ•ด์•ผ ํ•˜๋Š” ์‚ฌ์‹ค์  ์š”๊ตฌ์‚ฌํ•ญ์„ ํฌ์ฐฉํ•˜์ง€ ๋ชปํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด FActually Grounded Evaluation and Refinement (FAGER)๋ผ๋Š” ์—์ด์ „ํŠธ ๊ธฐ๋ฐ˜ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. FAGER๋Š” ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๊ฐ€ ํ”„๋กฌํ”„ํŠธ์— ์˜ํ•ด ์•”์‹œ๋˜๊ฑฐ๋‚˜ ๊ทผ๊ฑฐ๋œ ์‹œ๊ฐ์ ์œผ๋กœ ๊ฒ€์ฆ ๊ฐ€๋Šฅํ•œ ์‚ฌ์‹ค์„ ์ •ํ™•ํ•˜๊ฒŒ ๋ฐ˜์˜ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๊ณ , ๊ฐœ์„ ์„ ์œ„ํ•œ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ํ”ผ๋“œ๋ฐฑ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด T2I ํ‰๊ฐ€ ์ง€ํ‘œ์˜ ํ•œ๊ณ„๋ฅผ ๊ทน๋ณตํ•˜๊ณ , ๊ณผํ•™, ์—ญ์‚ฌ, ์ œํ’ˆ, ๋ฌธํ™” ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ์š”๊ตฌ๋˜๋Š” ์•”๋ฌต์ ์ด๊ณ  ์™ธ๋ถ€์ ์œผ๋กœ ๊ทผ๊ฑฐ๋œ ์‚ฌ์‹ค์  ์ •ํ™•์„ฑ์„ ํšจ๊ณผ์ ์œผ๋กœ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
FAGER๋Š” ํ•™์Šต ์—†์ด๋„ T2I ๋ชจ๋ธ์˜ ์ถœ๋ ฅ ๊ฒฐ๊ณผ๋ฌผ์„ ๊ฐœ์„ ํ•˜์—ฌ ์‚ฌ์‹ค์„ฑ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
FAGER์˜ ํ‰๊ฐ€ ๋ฐ ๊ฐœ์„  ์„ฑ๋Šฅ์„ ๊ฐ๊ด€์ ์œผ๋กœ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ์ƒˆ๋กœ์šด "Factual A/B ํ…Œ์ŠคํŠธ"๋ฅผ ์ œ์•ˆํ•˜๊ณ , ์ด๋ฅผ ํ†ตํ•ด ๊ธฐ์กด ์ง€ํ‘œ ๋Œ€๋น„ ์šฐ์ˆ˜์„ฑ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
FAGER์˜ ํ‰๊ฐ€ ๋ฃจ๋ธŒ๋ฆญ ์ƒ์„ฑ ๊ณผ์ •์—์„œ LLM ๊ธฐ๋ฐ˜ ์‚ฌ์‹ค ์ œ์•ˆ๊ณผ ์ฐธ์กฐ ๊ธฐ๋ฐ˜ ์‹œ๊ฐ์  ์‚ฌ์‹ค ์ถ”์ถœ ๋ฐ ๊ฒ€์ฆ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ์ •ํ™•์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” FAGER์˜ ํ‰๊ฐ€ ๋ฃจ๋ธŒ๋ฆญ ๊ตฌ์ถ• ๊ณผ์ •์˜ ํšจ์œจ์„ฑ๊ณผ ๋‹ค์–‘ํ•œ T2I ๋ชจ๋ธ ๋ฐ ๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉ์•ˆ์„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘