대규모 언어 모델(LLM)이 복잡하고 세밀한 어휘 지침을 정확하게 따르는 능력은 그 유용성과 제어 가능성의 핵심이다. 이 능력을 평가하는 것은 여전히 중요한 과제이다. 현재의 방법은 주관적이고 비용이 많이 드는 인간 평가나, 내재적 편향과 신뢰성 부족을 겪는 자동화된 LLM-as-a-judge 시스템에 의존한다. 기존의 프로그래밍 가능한 벤치마크는 객관적이지만, 복잡하고 구성적인 제약을 세분화된 수준에서 테스트할 수 있는 표현력이 부족하다. 이러한 한계를 해결하기 위해, 본 논문에서는 세밀한 어휘 지침 준수를 위한 새로운 벤치마크 및 평가 프레임워크인 LexInstructEval을 소개한다. 이 프레임워크는 복잡한 지침을 표준 삼중항으로 분해하는 공식적이고 규칙 기반의 문법을 기반으로 한다. 이 문법은 다단계, 인간 참여 파이프라인을 통해 다양한 데이터 세트를 체계적으로 생성하고, 투명하고 프로그래밍 가능한 엔진을 통해 객관적인 검증을 용이하게 한다. LLM의 제어 가능성과 신뢰성에 대한 추가 연구를 용이하게 하기 위해 데이터 세트와 오픈 소스 평가 도구를 공개한다.