본 논문은 복잡한 작업 계획을 위한 에이전트로서 대규모 언어 모델(LLM)을 활용하는 데 초점을 맞춥니다. 기존의 사고-행동-관찰(TAO) 방식은 LLM의 제한된 지식으로 인해 복잡한 작업 계획에 어려움을 겪는다는 점을 지적하며, 외부 데이터베이스를 활용하는 검색 증강 생성(RAG) 방식을 제안합니다. RAG 적용의 확장성과 전이성 문제를 해결하기 위해, 다중 에이전트 메타 강화 학습 프레임워크 기반의 InstructRAG를 제시합니다. InstructRAG는 과거 명령 경로를 구성하는 그래프, 확장성을 위한 강화 학습 에이전트(RL-Agent), 전이성을 위한 메타 학습 에이전트(ML-Agent)로 구성되며, 두 에이전트는 전체 계획 성능을 최적화하도록 종단 간 학습됩니다. 실험 결과, InstructRAG는 네 가지 작업 계획 데이터셋에서 기존 최고 성능보다 최대 19.2% 향상된 성능을 보였습니다.