본 논문은 교육 환경에서의 정확한 의미 정합과 과제 특정 문서 검색이 중요한 교과서 질문 답변(TQA) 문제를 해결하기 위해 다중 목표 결합 학습을 통해 의미 표현을 향상시키는 새로운 방법을 제안합니다. 제안된 모델인 JETRTQA는 검색-생성 아키텍처를 기반으로 하는 다중 모달 학습 프레임워크로, 다중 모달 대규모 언어 모델을 사용하여 답변을 생성합니다. 기존의 직접적인 점수 매기기 방식과 달리, JETRTQA는 쌍별 순위 지정과 답변에서 파생된 암묵적 감독을 결합한 감독 신호를 통해 질문과 문서의 의미 표현을 개선합니다. CK12-QA 데이터셋을 사용한 실험 결과, 길고 복잡하며 다중 모달인 문서에서도 유용한 문서와 무관한 문서 간의 차별성을 크게 향상시키는 것을 보여주며, 검증 세트에서 2.4%, 테스트 세트에서 11.1%의 정확도 향상을 달성하여 기존 최고 성능을 능가합니다.