See and Fix the Flaws: Enabling VLMs and Diffusion Models to Comprehend Visual Artifacts via Agentic Data Synthesis

Created by

Haebom

저자

Jaehyun Park, Minyoung Ahn, Minkyu Kim, Jonghyun Lee, Jae-Gil Lee, Dongmin Park

💡 개요

본 논문은 AI 생성 이미지의 사실성을 저해하는 시각적 결함(artifacts)을 식별하고 수정하는 데 중점을 둡니다. 기존의 결함 완화 방법은 비용이 많이 드는 수동 레이블링 데이터셋에 의존했지만, 본 연구는 'ArtiAgent'라는 에이전트 기반 데이터 합성 시스템을 제안하여 사실적인 이미지와 결함이 주입된 이미지를 효율적으로 생성합니다. 이를 통해 10만 개의 풍부한 결함 주석이 달린 이미지를 합성하고 다양한 응용 분야에서 효과와 활용성을 입증했습니다.

🔑 시사점 및 한계

•

AI 생성 이미지의 시각적 결함 문제를 해결하기 위한 자동화된 데이터 합성 방법론을 제시합니다.

•

에이전트 기반의 접근 방식을 통해 이미지 인식, 결함 주입, 필터링 및 설명 생성까지 포괄하는 강력한 데이터 합성 파이프라인을 구축했습니다.

•

합성된 대규모 데이터셋은 다양한 시각 모델(VLMs, Diffusion Models)의 결함 이해 및 완화 성능 향상에 기여할 수 있습니다.

•

생성된 결함의 종류와 복잡성이 실제 생성 이미지에서 발생하는 모든 종류의 결함을 포괄하는지에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage