Sign In

Trifuse: Enhancing Attention-Based GUI Grounding via Multimodal Fusion

Created by
  • Haebom
Category
Empty

์ €์ž

Longhui Ma, Di Zhao, Siwei Wang, Zhao Lv, Miao Wang

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ ์ž์—ฐ์–ด ์ง€์‹œ๋ฅผ GUI ์š”์†Œ์— ์—ฐ๊ฒฐํ•˜๋Š” GUI ๊ทธ๋ผ์šด๋”ฉ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด Trifuse๋ผ๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. Trifuse๋Š” ๊ธฐ์กด MLLM ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•์˜ ๋ฐ์ดํ„ฐ ์˜์กด์„ฑ๊ณผ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ๋ฅผ ๊ทน๋ณตํ•˜๊ณ ์ž, ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์— OCR ํ…์ŠคํŠธ ์ •๋ณด์™€ ์•„์ด์ฝ˜ ์บก์…˜ ์˜๋ฏธ๋ก ์„ ์œตํ•ฉํ•˜๋Š” Consensus-SinglePeak (CS) ์ „๋žต์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ณ„๋„์˜ ํƒœ์Šคํฌ๋ณ„ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด๋„ ๋„ค ๊ฐ€์ง€ ๋ฒค์น˜๋งˆํฌ์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ GUI ๊ทธ๋ผ์šด๋”ฉ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ ๋ถ€๋‹ด์„ ์ค„์ž…๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๋ฐ์ดํ„ฐ ํšจ์œจ์ ์ธ GUI ๊ทธ๋ผ์šด๋”ฉ: Trifuse๋Š” ํƒœ์Šคํฌ๋ณ„ ๋ฏธ์„ธ ์กฐ์ • ์—†์ด๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜์—ฌ, ๋Œ€๊ทœ๋ชจ ์ฃผ์„ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์˜ ํ•„์š”์„ฑ์„ ํฌ๊ฒŒ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
๋‹ค์ค‘ ๋ชจ๋‹ฌ ์œตํ•ฉ์˜ ํšจ๊ณผ์„ฑ ์ž…์ฆ: OCR ํ…์ŠคํŠธ ์ •๋ณด์™€ ์•„์ด์ฝ˜ ์บก์…˜ ์˜๋ฏธ๋ก ์„ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ํšจ๊ณผ์ ์œผ๋กœ ์œตํ•ฉํ•จ์œผ๋กœ์จ GUI ๊ทธ๋ผ์šด๋”ฉ ์„ฑ๋Šฅ์„ ์ผ๊ด€๋˜๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
โ€ข
์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ํ”„๋ ˆ์ž„์›Œํฌ: Trifuse๋Š” ๋‹ค์–‘ํ•œ ๋ฐฑ๋ณธ์—์„œ๋„ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ฐ€์ ธ์˜ค๋ฏ€๋กœ, GUI ๊ทธ๋ผ์šด๋”ฉ์„ ์œ„ํ•œ ์ผ๋ฐ˜์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ์„œ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
โ€ข
CS ์œตํ•ฉ ์ „๋žต์˜ ์ตœ์ ํ™”: Consensus-SinglePeak (CS) ์œตํ•ฉ ์ „๋žต์ด ์‹ค์ œ GUI ํ™˜๊ฒฝ์—์„œ ์–ผ๋งˆ๋‚˜ ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ๋ถ„์„ ๋ฐ ๋‹ค์–‘ํ•œ ์œตํ•ฉ ์ „๋žต๊ณผ์˜ ๋น„๊ต ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘