본 논문은 대규모 언어 모델(LLM)이 기업 환경에서 계층적 구조와 역할 기반 접근 제어(RBAC)를 기반으로 한 복잡한 권한 시스템 내에서 안정적으로 작동할 수 있는지 평가하는 것을 목표로 한다. 실제 기업 데이터의 기밀성으로 인해 평가가 어려운 점을 고려하여, 40가지 유형의 권한을 포함하는 합성 벤치마크 OrgAccess를 제시한다. 이 벤치마크는 난이도에 따라 쉬움(1개 권한), 보통(3개 권한 조합), 어려움(5개 권한 조합)의 세 가지 유형으로 구성되며, LLM이 복잡한 권한 상황에서도 규칙을 준수하는 능력을 평가한다. 실험 결과, 최첨단 LLM인 GPT-4.1조차도 가장 어려운 벤치마크에서 F1 점수 0.27에 그치는 등 복잡한 규칙 준수 및 추론 능력에 한계를 드러냈다. 이는 LLM의 실제 구조화된 환경 적용 가능성을 평가하는 새로운 기준을 제시한다.