Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models via Human Feedback

Created by
  • Haebom
Category
Empty

저자

Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou

개요

기존 벤치마크는 범용 인공지능 비서 개발에 필수적인 LMM(Large Multimodal Models)의 인간 사용자 상호 작용 지능을 테스트하지 못합니다. 본 논문은 모든 LMM과 데이터셋에 적용하여 이 능력을 자율적으로 평가할 수 있는 상호 작용 프레임워크인 InterFeedback를 설계했습니다. 이를 기반으로, MMMU-Pro 및 MathVerse 두 개의 대표적인 데이터셋을 사용하여 10개의 오픈 소스 LMM의 상호 작용 지능을 평가하는 InterFeedback-Bench를 소개합니다. 또한, OpenAI-o1 및 Claude-Sonnet-4와 같은 주요 모델의 상호 작용 성능을 수동으로 테스트하기 위해 설계된 120개의 사례로 구성된 새로운 데이터셋인 InterFeedback-Human을 제시합니다. 평가 결과, 최첨단 LMM인 OpenAI-o1조차 인간 피드백을 기반으로 응답을 개선하는 데 어려움을 겪어 평균 50% 미만의 점수를 기록했습니다. 본 연구는 LMM이 피드백을 해석하고 활용하는 능력을 향상시키는 방법의 필요성을 제시합니다.

시사점, 한계점

시사점:
LMM의 상호 작용 지능 평가를 위한 새로운 프레임워크 및 데이터셋 제시.
오픈 소스 LMM의 상호 작용 능력 평가.
최첨단 모델의 한계점을 제시하고 개선 방향 제시.
한계점:
OpenAI-o1 및 Claude-Sonnet-4와 같은 특정 모델에 대한 제한적인 평가.
피드백 기반 개선 방법의 부재.
👍