위 포스팅에서도 한 번 다룬적이 있습니다만, 현재의 인공지능 사용법은 과도기에 가깝다고 생각합니다. 분명 더 나은 방법이 있다고 생각하기에 스터디도 하고 많은 분들의 의견을 들어보고 있는데요. 애플이 최근 재밌는 논문을 게재해 가져와 봤습니다.
Ferret-UI- Grounded Mobile UI Understanding with Multimodal LLMs.pdf1.08MB
이번에 Ferret-UI라는 모델은 공개된 모바일 UI 화면을 더 잘 이해하고, 자연어 지시에 따라 특정 UI 요소를 참조하거나 위치를 특정할 수 있는 멀티모달 대형 언어 모델(MLLM) 기반의 새로운 접근 방법 입니다. 좀 더 쉽게 말하면 사용자가 현재 보고 있는 화면을 이해하고 사용자 행동을 추측하여 더 나은 선택을 할 수 있게 돕는다는 것 입니다.
•
UI의 복잡성 극복: 현대의 모바일 앱은 다양하고 복잡한 UI로 구성되어 있으며, 사용자는 이러한 UI를 통해 정보를 얻거나 명령을 실행해야 합니다. Ferret-UI는 이러한 복잡한 UI 구조를 이해하고 사용자의 지시에 따라 정확한 UI 요소를 식별하도록 돕습니다.
•
접근성 향상: Ferret-UI는 시각적 이해에 기반하여 UI의 접근성을 크게 향상시킬 수 있습니다. 이는 특히 시각 장애가 있는 사용자들에게 앱 사용의 편의성을 제공합니다.
•
멀티스텝 UI 내비게이션 간소화: 사용자가 앱 내에서 복잡한 작업을 수행할 때, Ferret-UI는 필요한 UI 요소를 정확히 식별하고 지시할 수 있도록 지원합니다. 이를 통해 사용자는 더 효율적으로 목표를 달성할 수 있습니다.
애플의 Ferret-UI 기술은 멀티모달 대형 언어 모델을 활용하여 모바일 UI의 이해를 극대화하고, 이를 통해 사용자의 경험을 향상시키는 혁신적인 접근을 제공합니다. 이 기술은 앱의 복잡성을 극복하고, 접근성을 높이며, 앱 개발 과정의 효율성을 증가시키는 등 다방면에서 좋은 접근방법이라고 생각됩니다.
다만, 역시나 등장하는 프라이버시 보안 문제 그리고 불완전한 자동완성 기능처럼 되지 않을까?하는 걱정도 같이 있는 상태 같습니다. 애플의 경우, 모델을 공개하거나 인공지능 기술에 대한 선제적 조치보다는 자신들이 늘 잘하던 iOS, MacOS에 적절하게 녹이고 실용적으로 접근하려는 의도가 보이는 듯 합니다.
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!