haebom
Sign In
Trifuse: Enhancing Attention-Based GUI Grounding via Multimodal Fusion
Created by
Haebom
Category
Empty
์ ์
Longhui Ma, Di Zhao, Siwei Wang, Zhao Lv, Miao Wang
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ์์ฐ์ด ์ง์๋ฅผ GUI ์์์ ์ฐ๊ฒฐํ๋ GUI ๊ทธ๋ผ์ด๋ฉ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Trifuse๋ผ๋ ์๋ก์ด ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. Trifuse๋ ๊ธฐ์กด MLLM ๊ธฐ๋ฐ ๋ฐฉ๋ฒ์ ๋ฐ์ดํฐ ์์กด์ฑ๊ณผ ์ผ๋ฐํ ์ฑ๋ฅ ์ ํ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ณ ์, ์ดํ ์ ๋ฉ์ปค๋์ฆ์ OCR ํ ์คํธ ์ ๋ณด์ ์์ด์ฝ ์บก์ ์๋ฏธ๋ก ์ ์ตํฉํ๋ Consensus-SinglePeak (CS) ์ ๋ต์ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๋ณ๋์ ํ์คํฌ๋ณ ๋ฏธ์ธ ์กฐ์ ์์ด๋ ๋ค ๊ฐ์ง ๋ฒค์น๋งํฌ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ฉฐ GUI ๊ทธ๋ผ์ด๋ฉ์ ๋ํ ๋ฐ์ดํฐ ๋ถ๋ด์ ์ค์ ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
๋ฐ์ดํฐ ํจ์จ์ ์ธ GUI ๊ทธ๋ผ์ด๋ฉ:
Trifuse๋ ํ์คํฌ๋ณ ๋ฏธ์ธ ์กฐ์ ์์ด๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ฌ, ๋๊ท๋ชจ ์ฃผ์ ๋ฐ์ดํฐ ๊ตฌ์ถ์ ํ์์ฑ์ ํฌ๊ฒ ์ค์ผ ์ ์์ต๋๋ค.
โข
๋ค์ค ๋ชจ๋ฌ ์ตํฉ์ ํจ๊ณผ์ฑ ์ ์ฆ:
OCR ํ ์คํธ ์ ๋ณด์ ์์ด์ฝ ์บก์ ์๋ฏธ๋ก ์ ์ดํ ์ ๋ฉ์ปค๋์ฆ๊ณผ ํจ๊ณผ์ ์ผ๋ก ์ตํฉํจ์ผ๋ก์จ GUI ๊ทธ๋ผ์ด๋ฉ ์ฑ๋ฅ์ ์ผ๊ด๋๊ฒ ํฅ์์ํฌ ์ ์์์ ๋ณด์ฌ์ค๋๋ค.
โข
์ผ๋ฐํ ๊ฐ๋ฅํ ํ๋ ์์ํฌ:
Trifuse๋ ๋ค์ํ ๋ฐฑ๋ณธ์์๋ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ ธ์ค๋ฏ๋ก, GUI ๊ทธ๋ผ์ด๋ฉ์ ์ํ ์ผ๋ฐ์ ์ธ ํ๋ ์์ํฌ๋ก์์ ๊ฐ๋ฅ์ฑ์ ์ ์ํฉ๋๋ค.
โข
CS ์ตํฉ ์ ๋ต์ ์ต์ ํ:
Consensus-SinglePeak (CS) ์ตํฉ ์ ๋ต์ด ์ค์ GUI ํ๊ฒฝ์์ ์ผ๋ง๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๋์ง์ ๋ํ ์ถ๊ฐ์ ์ธ ๋ถ์ ๋ฐ ๋ค์ํ ์ตํฉ ์ ๋ต๊ณผ์ ๋น๊ต ์ฐ๊ตฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage