RICO는 기존의 이미지 재캡션 방법들이 가진 환각 및 불완전성 문제를 해결하기 위해 시각적 재구성을 활용하는 새로운 프레임워크입니다. 텍스트-이미지 모델을 이용해 캡션을 참조 이미지로 재구성하고, MLLM을 통해 원본 이미지와 재구성 이미지 간의 차이점을 파악하여 캡션을 개선하는 반복적인 과정을 통해 더욱 정확하고 포괄적인 설명을 생성합니다. 계산 비용을 줄이기 위해 DPO를 사용하는 RICO-Flash도 제시합니다. CapsBench와 CompreCap에서 기존 방법들보다 약 10% 향상된 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
시각적 재구성을 통해 이미지 재캡션의 정확성과 완전성을 크게 향상시켰습니다.
◦
기존 방법들의 한계점인 환각 및 불완전성 문제를 효과적으로 해결했습니다.
◦
DPO를 활용한 RICO-Flash는 계산 효율성을 높였습니다.
◦
CapsBench와 CompreCap에서 우수한 성능을 입증했습니다.
◦
코드 공개를 통해 재현성을 확보했습니다.
•
한계점:
◦
반복적인 과정으로 인해 계산 비용이 증가할 수 있습니다 (RICO-Flash로 일부 해결).
◦
텍스트-이미지 모델과 MLLM의 성능에 의존적일 수 있습니다.
◦
특정 유형의 이미지에 대해서는 성능이 저하될 가능성이 있습니다.
◦
DPO를 사용한 RICO-Flash의 성능이 RICO와 비교하여 얼마나 저하되는지는 명시적으로 언급되지 않았습니다.