마이크로소프트가 컴퓨터 화면과 상호작용이 가능한 차세대 AI 모델 '옴니파서 2(OmniParser 2)'를 선보여 AI 업계의 이목을 집중시켰다. 특히 이번 모델은 OpenAI의 GPT-4V를 능가하는 성능으로 화제를 모으고 있다.
옴니파서 2의 가장 큰 특징은 단순한 이미지 인식을 넘어선 UI 요소들과의 실질적인 상호작용 능력이다. 예를 들어 "항공권을 예약해줘"라는 간단한 명령어만으로도 실제 웹사이트에서 예약 과정을 자동으로 진행할 수 있다. 마이크로소프트는 이 혁신적인 기술을 자사의 에이전트 서비스에 적용했으며, 더 나아가 오픈소스로 공개하여 전 세계 개발자들이 활용할 수 있도록 했다.
업계 전문가들은 옴니파서 2가 보여주는 스크린샷 분석 능력과 UI 요소 간 관계 파악 기술이 혁신적이라고 평가하고 있다. 이는 향후 사용자들이 컴퓨터와 상호작용하는 방식을 획기적으로 변화시킬 것으로 전망된다.
핵심 요약
•
마이크로소프트, GPT-4V 성능을 뛰어넘는 AI 모델 '옴니파서 2' 발표
•
UI 요소 이해 및 자동화된 상호작용 가능한 혁신 기술 탑재
•
오픈소스로 공개되어 개발자들의 자유로운 활용 가능
이처럼 옴니파서 2의 등장은 AI 기술의 새로운 지평을 열었으며, 인간과 컴퓨터의 상호작용 방식에 혁신적인 변화를 가져올 것으로 기대를 모으고 있다.