자연어(NL)로 표현된 개념을 1차 논리(FOL)로 표현하는 문제는 오랫동안 도전 과제였다. 대규모 언어 모델(LLM)의 등장으로 돌파구가 기대되었지만, NL-FOL 변환 능력에 대한 상반된 결과가 나타났다. 본 논문에서는 기존 데이터셋과 평가 프로토콜의 한계를 지적하고, LLM의 실제 능력을 오해할 수 있음을 밝힌다. 새로운 평가 프로토콜을 제안하여 진정한 의미론적 수준의 논리적 이해를 파악하고, 최첨단 대화형 LLM이 문장 수준의 논리를 잘 이해함을 입증한다.