본 논문은 과학적 발견을 위한 인공지능(AI)의 능력을 향상시키는 새로운 접근 방식인 CLIO(Cognitive Loop via In-situ Optimization)를 제시합니다. 기존 AI 개발 방식의 한계(비추론 모델 기반 프레임워크 또는 추론 과정에 대한 사용자 제어가 부족한 추론 모델)를 극복하고자, CLIO는 대규모 언어 모델(LLM)이 문제 해결 방식을 자체적으로 공식화하고, 자신감이 낮을 때 행동을 조정하며, 최종 결론을 제시할 수 있도록 합니다. CLIO의 개방형 설계를 통해 과학자들은 불확실성 수준을 관찰하고, 그래프 구조를 이용하여 최종 신념 상태가 어떻게 형성되는지 이해하며, 수정을 개입할 수 있습니다. GPT-4.1에 CLIO를 적용한 결과, Humanity's Last Exam(HLE)의 텍스트 기반 생물학 및 의학 질문에서 22.37%의 정확도를 달성하여 기본 GPT-4.1 모델 대비 13.82% 향상(161.64% 상대적 증가)을 보였고, OpenAI의 o3 성능을 능가했습니다. 내부 불확실성 측정의 진동이 CLIO 결과의 정확도를 결정하는 데 중요한 역할을 한다는 사실도 발견했습니다.