본 논문은 대규모 언어 모델(LLM) 기반의 디지털 도구 에이전트가 외부 API의 기능을 이해하기 위해 문서화에 의존하는 문제점을 지적하고, 문서화 없이 문맥 내 데모로부터 API 기능을 학습하는 새로운 연구 방향을 제시한다. API 벤치마크를 사용하여 전문가 에이전트 및 자기 탐색으로부터 데모를 수집하고, 데모 수, LLM 생성 요약 및 평가의 사용이 에이전트의 성공률에 미치는 영향을 연구한다. 3개의 데이터 세트와 6개의 모델에 대한 실험을 통해 문맥 내 데모로부터의 기능 학습이 여전히 어려운 과제임을 밝히고, 명시적인 함수 호출과 자연어 비평이 정확한 매개변수 채우기를 통해 에이전트의 성공률을 향상시킨다는 것을 확인했다. 또한 실패 모드를 분석하고 오류의 원인을 파악하여 문서화 없는, 자기 개선형 API 기반 에이전트 분야의 주요 과제를 제시한다.