본 논문은 대규모 언어 모델(LLM)의 세금 영역에서의 능력을 평가하기 위한 새로운 벤치마크인 PLAT를 소개합니다. 기존 연구들은 세금 영역에 대한 연구가 부족하고, 사용된 데이터셋이 단순화되어 현실 세계의 복잡성을 반영하지 못하거나 공개 소스로 제공되지 않는다는 한계를 가지고 있습니다. PLAT는 추가 세금 벌금의 정당성을 예측하는 LLM의 능력을 평가하도록 설계되었으며, 관련 법령을 적용하는 것 이상의 이해를 필요로 하는 경우에 LLM의 세법 이해도를 평가합니다. 6개의 LLM을 대상으로 한 실험 결과, 상반되는 문제를 다룰 때 LLM의 기본적인 능력은 제한적이지만, 정보 검색, 자기 추론, 특정 역할을 가진 여러 에이전트 간의 토론을 가능하게 함으로써 이러한 한계를 완화할 수 있음을 보여줍니다.