본 연구는 대규모 언어 모델(LLM)이 과학 논문으로부터 미래 연구 아이디어를 생성하는 능력을 조사한다. 아이디어 생성은 요약이나 번역과 달리 명확한 참조 세트나 구조가 없어 수동 평가가 일반적이다. 그러나 이 분야의 인간 평가는 시간 소모적이고 비용이 많이 들며 확장성이 떨어진다. 이러한 문제를 해결하기 위해, 본 연구는 아이디어 정렬 점수(IAScore)와 아이디어 차별성 지수를 포함한 두 가지 자동 평가 지표를 제안한다. 또한, 생성된 미래 연구 아이디어의 참신성, 관련성 및 실현 가능성을 평가하기 위해 인간 평가를 수행했다.