대규모 언어 모델(LLM)을 이용한 영상 인식은 영상에서 데이터를 추출하는 강력한 도구이지만, 정확도는 프롬프트에 충분한 단서를 제공하는 데 의존하며, 전문적인 작업에는 전문가의 개입이 필요합니다. 본 논문에서는 정확한 인식을 위한 진화적 단서 학습(CLEAR)이라는 방법을 제시합니다. CLEAR는 LLM과 진화적 계산을 결합하여 특수한 영상 특징의 인식을 향상시키는 단서를 생성하고 최적화합니다. 이는 새로운 도메인 특정 표현을 자동 생성한 다음, 유전 알고리즘을 사용하여 적절한 텍스트 단서를 최적화함으로써 달성됩니다. 본 논문에서는 건물의 내외부 이미지에서 지속 가능성 데이터를 식별하는 실제 작업에 CLEAR를 적용합니다. 가변 길이 표현을 고정 길이 표현과 비교하여 그 효과를 조사하고, 범주형 추정에서 실수 추정으로 재구성하여 LLM 일관성을 향상시키는 방법을 보여줍니다. CLEAR는 모든 작업에서 전문가의 인식 및 사람이 작성한 프롬프트보다 높은 정확도를 달성하며, 오류율은 최대 두 자릿수까지 향상되고, 에이블레이션 연구를 통해 솔루션의 간결성을 보여줍니다.