본 논문은 정부의 이중 언어 정책 시나리오에서 작동하는 LLM을 위한 최초의 엄격하고 체계적인 평가 도구인 POLIS-Bench를 소개한다. 기존 벤치마크와 비교하여 세 가지 주요 발전 사항을 포함한다: (i) 최신 이중 언어 코퍼스 구축, (ii) 조항 검색 및 해석, 해결책 생성, 규정 준수 판단 등 시나리오 기반 작업 설계, (iii) 내용 정렬과 작업 요구 사항 준수를 모두 측정하는 이중 메트릭 평가 프레임워크 구축. POLIS-Bench에 대한 최첨단 LLM의 대규모 평가 결과, 추론 모델이 우수한 성능을 보였고, 규정 준수 작업의 어려움을 강조했다. 또한, 이 벤치마크를 활용하여 경량 오픈 소스 모델을 미세 조정하여 POLIS 시리즈 모델을 개발하였으며, 이는 강력한 독점 모델과 동등하거나 능가하는 성능을 보이며, 비용 효율적이고 규정을 준수하는 방식으로 실제 정부 배포를 가능하게 한다.