Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning

Created by
  • Haebom

저자

Ji Hyeok Jung, Eun Tae Kim, Seoyeon Kim, Joo Ho Lee, Bumsoo Kim, Buru Chang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 객체 방향 이해 능력 향상을 위한 새로운 방법인 자기중심적 지시 조정(egocentric instruction tuning)을 제안합니다. 기존 MLLM은 훈련 데이터의 일관되지 않은 방향 주석으로 인해 객체 방향을 정확하게 해석하는 데 어려움을 겪는데, 이를 해결하기 위해 사용자의 자기중심적 관점에서 도출된 일관된 주석 표준을 기반으로 MLLM의 방향 이해를 사용자의 관점과 정렬하는 방법을 제시합니다. MLLM의 객체 세부 사항 인식 능력과 사전 지식을 활용하여 자기중심적 지시 데이터를 생성하고, 이를 사용하여 지시 조정을 수행하여 모델의 정확한 방향 해석 능력을 향상시킵니다. 또한 다양한 도메인에서 수집한 이미지를 사용하여 세 가지 과제에 걸쳐 MLLM의 방향 이해를 평가하는 벤치마크인 EgoOrientBench를 소개합니다. 실험 결과, 자기중심적 지시 조정은 전체 MLLM 성능을 저해하지 않으면서 방향 이해를 크게 향상시키는 것을 보여줍니다. 생성된 지시 데이터와 벤치마크 데이터셋은 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
사용자 중심의 일관된 주석 표준을 기반으로 MLLM의 객체 방향 이해 능력 향상
자기중심적 지시 조정을 통한 MLLM의 정확한 방향 해석 능력 향상
다양한 도메인의 이미지를 포함하는 새로운 벤치마크 EgoOrientBench 제시
개선된 MLLM의 객체 방향 이해를 위한 새로운 훈련 데이터 및 벤치마크 데이터셋 공개
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 유형의 객체 및 복잡한 시각적 환경에 대한 성능 평가 필요
EgoOrientBench의 범용성 및 다른 MLLM 모델에 대한 적용성 추가 검증 필요
👍