본 논문은 대규모 언어 모델(LLM)의 학술 논문 고차원 의미 및 언어 분석을 위한 개념 증명(PoC) 구조화된 워크플로 프롬프트를 제시하고 평가한다. 프롬프트는 학술 요약(초록 및 결론) 내 두 가지 비자명 분석 작업, 즉 근거 없는 주장 식별(정보 무결성)과 의미적으로 모호한 대명사 참조 플래깅(언어적 명확성)을 목표로 한다. Gemini Pro 2.5 Pro와 ChatGPT Plus o3 두 가지 최첨단 모델을 대상으로 다양한 맥락 조건 하에서 체계적인 다중 실행 평가를 수행했다. 정보 무결성 작업에 대한 결과는 모델 성능의 상당한 차이를 보여준다. 두 모델 모두 명사구의 근거 없는 머리를 성공적으로 식별(95% 성공률)했지만, ChatGPT는 Gemini가 정확하게 플래깅한(95% 성공률) 근거 없는 형용사 수식어를 지속적으로 식별하지 못했다(0% 성공률). 이는 대상의 구문 역할의 잠재적 영향에 대한 의문을 제기한다. 언어 분석 작업에서 두 모델 모두 전체 원고 맥락에서 우수한 성능(80-90% 성공률)을 보였다. 놀랍게도, 요약 전용 설정에서 Gemini의 성능은 상당히 저하된 반면, ChatGPT는 완벽한(100%) 성공률을 달성했다. 결과는 구조화된 프롬프팅이 복잡한 텍스트 분석에 대한 실행 가능한 방법론이지만, 프롬프트 성능은 모델, 작업 유형 및 맥락 간의 상호 작용에 크게 의존할 수 있으며, 엄격한 모델별 테스트의 필요성을 강조한다.