본 논문은 대규모 언어 모델(LLM)의 다중 지시사항 처리 능력에 대한 체계적인 연구를 제시합니다. 실제 시나리오에서 여러 지시사항 간의 일관성 유지는 중요한 과제이며, 이는 여러 차례의 지시사항을 통합하고 상충하는 목표 간의 균형을 신중하게 맞춰야 함을 의미합니다. 연구진은 인간 참여 방식을 통해 약 1,100개의 고품질 다중 턴 대화로 구성된 MultiTurnInstruct 데이터셋을 구축하고, 정적/동적 능력, 추론, 멀티태스킹 등 9가지 능력 범주를 제시합니다. 실험 결과, 다양한 능력 간의 흥미로운 상충 관계를 발견하였습니다. GPT 모델은 우수한 기억력을 보이지만, 선택적 정보 은닉이 필요한 개인 정보 보호 작업에서는 효과가 떨어집니다. 더 큰 모델은 더 강력한 추론 능력을 보이지만, 여전히 상충하는 지시사항을 해결하는 데 어려움을 겪습니다. 또한, 모델의 성능 차이는 정보 손실 때문만이 아니며, 기억력 작업에서는 높은 BLEU 점수를 보이지만, 주의 메커니즘이 여러 관련 지시사항을 효과적으로 통합하지 못함을 보여줍니다. 이러한 결과는 다중 턴 지시사항이 포함된 복잡한 실제 작업에서 개선이 필요한 중요한 영역을 강조합니다.