본 논문은 대규모 언어 모델(LLM)의 여러 지시사항 처리 능력에 대한 체계적인 연구를 제시합니다. 실제 시나리오에서 여러 지시사항은 종종 상호 연관되거나 상충될 수 있으며, 일관성 유지를 위해서는 여러 차례의 지시사항을 통합하고 상충되는 목표 간의 균형을 신중하게 맞춰야 합니다. 연구진은 인간 참여 방식을 통해 약 1,100개의 고품질 다중 턴 대화로 구성된 MultiTurnInstruct 데이터셋을 구축하고, 정보 검색, 턴 간 추적 및 추론, 지시사항 간 충돌 해결 등 세 가지 난이도 수준에 걸쳐 LLM의 능력을 평가했습니다. 평가 결과, GPT 모델은 우수한 기억 능력을 보이지만 개인 정보 보호와 같은 선택적 정보 은닉이 필요한 작업에서는 효율성이 떨어지는 반면, 더 큰 모델은 더 강력한 추론 능력을 보이지만 여전히 상충되는 지시사항을 해결하는 데 어려움을 겪는다는 것을 발견했습니다. 이는 단순한 정보 손실 때문이 아니며, 모델이 기억 작업에서 높은 BLEU 점수를 보임에도 불구하고 주의 메커니즘이 여러 관련 지시사항을 효과적으로 통합하지 못하기 때문임을 밝혔습니다.