기존 벤치마크는 범용 인공지능 비서 개발에 필수적인 LMM(Large Multimodal Models)의 인간 사용자 상호 작용 지능을 테스트하지 못합니다. 본 논문은 모든 LMM과 데이터셋에 적용하여 이 능력을 자율적으로 평가할 수 있는 상호 작용 프레임워크인 InterFeedback를 설계했습니다. 이를 기반으로, MMMU-Pro 및 MathVerse 두 개의 대표적인 데이터셋을 사용하여 10개의 오픈 소스 LMM의 상호 작용 지능을 평가하는 InterFeedback-Bench를 소개합니다. 또한, OpenAI-o1 및 Claude-Sonnet-4와 같은 주요 모델의 상호 작용 성능을 수동으로 테스트하기 위해 설계된 120개의 사례로 구성된 새로운 데이터셋인 InterFeedback-Human을 제시합니다. 평가 결과, 최첨단 LMM인 OpenAI-o1조차 인간 피드백을 기반으로 응답을 개선하는 데 어려움을 겪어 평균 50% 미만의 점수를 기록했습니다. 본 연구는 LMM이 피드백을 해석하고 활용하는 능력을 향상시키는 방법의 필요성을 제시합니다.