본 논문은 AI 기반의 사람-GUI 상호작용 자동화 분야에서 기존의 다중 모달 대규모 언어 모델 및 강화 학습 기법이 자연스러운 사람-GUI 의사소통 패턴과 상당한 차이를 보이는 문제점을 해결하기 위해, 인간의 인지 과정을 모방한 "Blink-Think-Link (BTL)" 프레임워크를 제안합니다. BTL은 상호작용을 (1) 시각적 주의 집중 단계인 Blink, (2) 고차원적 추론 및 의사결정 단계인 Think, (3) 실행 가능한 명령 생성 단계인 Link의 세 단계로 분해합니다. 또한, Blink 데이터 자동 생성 파이프라인 및 프로세스와 결과 모두를 기반으로 하는 강화 학습을 위한 BTL 보상 메커니즘이라는 두 가지 기술적 혁신을 제시합니다. BTL 프레임워크를 기반으로 개발된 GUI 에이전트 모델인 BTL-UI는 다양한 벤치마크에서 정적 GUI 이해 및 동적 상호작용 작업 모두에서 최첨단 성능을 보여주며, 프레임워크의 효과를 실증적으로 검증합니다.
시사점, 한계점
•
시사점:
◦
인간의 인지 과정을 모방한 BTL 프레임워크를 통해 사람-GUI 상호작용 자동화의 성능을 향상시킬 수 있음을 보여줍니다.
◦
Blink 데이터 자동 생성 파이프라인과 BTL 보상 메커니즘은 강화 학습 기반 GUI 에이전트 개발에 기여할 수 있는 중요한 기술적 혁신입니다.
◦
BTL-UI 모델은 다양한 벤치마크에서 최첨단 성능을 달성하여 BTL 프레임워크의 효과를 입증합니다.
•
한계점:
◦
BTL 프레임워크의 일반화 성능 및 다양한 GUI 환경에 대한 적용 가능성에 대한 추가 연구가 필요합니다.
◦
현재 제시된 BTL 보상 메커니즘의 복잡성 및 최적화 가능성에 대한 추가 연구가 필요합니다.