haebom
Sign In
Mobile-R1: Towards Interactive Capability for VLM-Based Mobile Agent via Systematic Training
์์ฑ์
Haebom
์นดํ ๊ณ ๋ฆฌ
Empty
์ ์
Jihao Gu, Qihang Ai, Yingyao Wang, Pi Bu, Jingxuan Xing, Zekun Zhu, Wei Jiang, Ziming Wang, Yingxiu Zhao, Ming-Liang Zhang, Jun Song, Yuning Jiang, Bo Zheng
๐ก ๊ฐ์
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด ๋น์ -์ธ์ด ๋ชจ๋ธ(VLM) ๊ธฐ๋ฐ ๋ชจ๋ฐ์ผ ์์ด์ ํธ๊ฐ ๋ก์ปฌ ์ต์ ์ ์ ๋น ์ง๊ฑฐ๋ ํฌ์ํ ๋ณด์์ผ๋ก ์ธํด ํ์ต์ ์ด๋ ค์์ ๊ฒช๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด "Mobile-R1"์ด๋ผ๋ ์ฒด๊ณ์ ์ธ ํ๋ จ ๋ฐฉ์์ ์ ์ํฉ๋๋ค. Mobile-R1์ ๊ณ์ธต์ ์ปค๋ฆฌํ๋ผ ํ์ต์ ํตํด ์์์ ํ๋ ์คํ๋ถํฐ ์ ๋ต์ ์ธ ์์ ์๋ฃ๊น์ง๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฐ๊ฒฐํ๋ฉฐ, ์ด๋ฅผ ํตํด ์์ด์ ํธ์ ํ์ ๋ฐ ์ค๋ฅ ์์ ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
VLM ๊ธฐ๋ฐ ๋ชจ๋ฐ์ผ ์์ด์ ํธ์ ๋ก์ปฌ ์ต์ ์ ๋ฌธ์ ๋ฅผ ๊ทน๋ณตํ๊ณ ํ์ ๋ฐ ์๊ฐ ์์ ๋ฅ๋ ฅ์ ๊ฐํํ๋ ์๋ก์ด ํ๋ จ ํจ๋ฌ๋ค์์ ์ ์ํฉ๋๋ค.
โข
๋ค๊ตญ์ด ํ๊ฒฝ, ํนํ ์์ด ์ธ ์ํ๊ณ์์์ GUI ๋ฐ์ดํฐ ๋ถ์กฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋๊ท๋ชจ ์ค๊ตญ์ด ๋ชจ๋ฐ์ผ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ๊ณ ๋ฒค์น๋งํฌ๋ฅผ ์ ์ํฉ๋๋ค.
โข
๋ณธ ๋ ผ๋ฌธ์ ํ๋ จ ๋ฐฉ์์ ๋ณต์กํ GUI ํ๊ฒฝ์์์ ์์ด์ ํธ ํ์ต์ ์ํ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ๋ก ์ ์ ๊ณตํ์ง๋ง, ์ค์ ๋ค์ํ ๋ชจ๋ฐ์ผ ํ๊ฒฝ์์์ ์ผ๋ฐํ ์ฑ๋ฅ ๋ฐ ๋ณต์กํ ํ์คํฌ ์ํ ๋ฅ๋ ฅ์ ๋ํ ์ถ๊ฐ์ ์ธ ๊ฒ์ฆ์ด ํ์ํ ์ ์์ต๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage