이 논문은 이미지 기반 문서에서 다국어 정보 추출 및 처리를 위한 엔드투엔드 시스템을 제시합니다. 영어, 힌디어, 타밀어와 같은 언어의 텍스트를 추출하기 위해 광학 문자 인식(Tesseract)을 사용하고, 그 후 대규모 언어 모델 API(Gemini)를 이용한 크로스 링구얼 번역, 추상적 요약, 그리고 목표 언어로의 재번역 파이프라인을 구축합니다. 추가적으로 감정 분석(TensorFlow), 주제 분류(Transformers), 날짜 추출(Regex) 모듈을 추가하여 문서 이해도를 높였습니다. 접근 가능한 Gradio 인터페이스로 제공되며, 다양한 언어 환경에서 이미지 미디어에 대한 정보 접근성을 향상시키기 위한 라이브러리, 모델 및 API의 실제 응용 사례를 보여줍니다.