๋ณธ ๋
ผ๋ฌธ์ ๋ฉํฐ๋ชจ๋ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐ์ง Vision-Language Models (VLMs)์ ์ ์ฌ์ ์ ํด ์์
์ํ ๊ฐ๋ฅ์ฑ์ ์ฃผ๋ชฉํ์ฌ, ๊ธฐ์กด ๋ธ๋๋ฐ์ค ๊ณต๊ฒฉ ๋ฐฉ์์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๋ ์๋ก์ด ๊ณต๊ฒฉ ๋ฐฉ๋ฒ๋ก ์ธ CrossTALK๋ฅผ ์ ์ํฉ๋๋ค. CrossTALK๋ ์ง์ ํ์ฅ, ๊ต์ฐจ ๋ชจ๋ฌ ๋จ์ ์ฝํ, ์๋๋ฆฌ์ค ์ค์ฒฉ์ ํตํด VLM์ ์์ ์ ๋ ฌ ํจํด์ ์ฐํํ์ฌ ์ ํดํ ๊ฒฐ๊ณผ๋ฌผ์ ๋์ถํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ ์๋ ๋ฐฉ๋ฒ์ด ์ต์ฒจ๋จ ๊ณต๊ฒฉ ์ฑ๊ณต๋ฅ ์ ๋ฌ์ฑํ์์ ๋ณด์ฌ์ค๋๋ค.