본 논문은 대규모 언어 모델(LLM)의 패턴 인식 능력을 평가하기 위한 새로운 벤치마크인 MIR-Bench를 제안합니다. 기존 벤치마크들이 소량의 예시(few-shot)에만 초점을 맞추고 긴 문맥에서 다수의 정보를 종합하는 능력을 평가하지 못하는 한계를 극복하기 위해, MIR-Bench는 다양한 데이터 형식을 가진 함수의 입력-출력 예시를 통해 LLM의 출력을 예측하는 다량의 예시(many-shot)를 사용하는 문맥 내 추론(ICL)을 평가합니다. MIR-Bench를 통해 다양한 데이터 형식에 대한 패턴 인식 능력을 평가하고, 규모 효과, 강건성, 귀납적/연역적 추론, 검색 증강 생성(RAG), 귀납적 추론을 위한 코딩, 도메인 간 일반화 성능 등에 대한 통찰력 있는 발견을 제시합니다.