Sign In
🆕AI 뉴스/정보

MS, 어느 LLM이든 에이전트화해주는 OmniParser V2 출시

디오
Category
Empty
출처
Empty
Created by
  • 디오
Created at
Activity
마이크로소프트의 새로운 혁신, AI 모델 '옴니파서 2' 출시
마이크로소프트가 컴퓨터 화면과 상호작용이 가능한 차세대 AI 모델 '옴니파서 2(OmniParser 2)'를 선보여 AI 업계의 이목을 집중시켰다. 특히 이번 모델은 OpenAI의 GPT-4V를 능가하는 성능으로 화제를 모으고 있다.
옴니파서 2의 가장 큰 특징은 단순한 이미지 인식을 넘어선 UI 요소들과의 실질적인 상호작용 능력이다. 예를 들어 "항공권을 예약해줘"라는 간단한 명령어만으로도 실제 웹사이트에서 예약 과정을 자동으로 진행할 수 있다. 마이크로소프트는 이 혁신적인 기술을 자사의 에이전트 서비스에 적용했으며, 더 나아가 오픈소스로 공개하여 전 세계 개발자들이 활용할 수 있도록 했다.
업계 전문가들은 옴니파서 2가 보여주는 스크린샷 분석 능력과 UI 요소 간 관계 파악 기술이 혁신적이라고 평가하고 있다. 이는 향후 사용자들이 컴퓨터와 상호작용하는 방식을 획기적으로 변화시킬 것으로 전망된다.
핵심 요약
마이크로소프트, GPT-4V 성능을 뛰어넘는 AI 모델 '옴니파서 2' 발표
UI 요소 이해 및 자동화된 상호작용 가능한 혁신 기술 탑재
오픈소스로 공개되어 개발자들의 자유로운 활용 가능
이처럼 옴니파서 2의 등장은 AI 기술의 새로운 지평을 열었으며, 인간과 컴퓨터의 상호작용 방식에 혁신적인 변화를 가져올 것으로 기대를 모으고 있다.
👍