haebom
Sign In

GeoAgentBench: A Dynamic Execution Benchmark for Tool-Augmented Agents in Spatial Analysis

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Bo Yu, Cheng Yang, Dongyang Hou, Chengfu Liu, Jiayao Liu, Chi Wang, Zhiming Zhang, Haifeng Li, Wentao Yang

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM 기반 GIS μ—μ΄μ „νŠΈμ˜ λ³΅μž‘ν•˜κ³  동적인 곡간 뢄석 평가λ₯Ό μœ„ν•΄ GeoAgentBench(GABench)λΌλŠ” μƒˆλ‘œμš΄ 동적 μ‹€ν–‰ 벀치마크λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. GABenchλŠ” 117개의 GIS 도ꡬλ₯Ό ν†΅ν•©ν•˜κ³ , λ§€κ°œλ³€μˆ˜ μ‹€ν–‰ 정확도(PEA)와 VLM 기반 검증을 톡해 μ‹€μ œ μ‹€ν–‰ κ²°κ³Όλ₯Ό ν‰κ°€ν•˜λ©°, μ „λ¬Έκ°€μ˜ 인지 μ›Œν¬ν”Œλ‘œμš°λ₯Ό λͺ¨λ°©ν•œ Plan-and-React μ—μ΄μ „νŠΈ μ•„ν‚€ν…μ²˜λ₯Ό κ°œλ°œν•˜μ—¬ κΈ°μ‘΄ ν”„λ ˆμž„μ›Œν¬ λŒ€λΉ„ λ›°μ–΄λ‚œ μ„±λŠ₯을 λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM 기반 GIS μ—μ΄μ „νŠΈμ˜ 평가에 μžˆμ–΄ 동적 μ‹€ν–‰ 결과와 λ©€ν‹°λͺ¨λ‹¬ νŠΉμ„±μ„ κ³ λ €ν•œ μƒˆλ‘œμš΄ 벀치마크의 ν•„μš”μ„±μ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ§€κ°œλ³€μˆ˜ μ‹€ν–‰ 정확도(PEA) 및 VLM 기반 검증 방식이 GIS μ—μ΄μ „νŠΈμ˜ μ‹€μ œ μž‘μ—… μˆ˜ν–‰ λŠ₯λ ₯ 평가에 νš¨κ³Όμ μž„μ„ μž…μ¦ν•©λ‹ˆλ‹€.
β€’
Plan-and-React μ•„ν‚€ν…μ²˜κ°€ 닀단계 μΆ”λ‘  및 였λ₯˜ 볡ꡬ λŠ₯λ ₯ ν–₯상에 κΈ°μ—¬ν•˜λ©°, GIS μ—μ΄μ „νŠΈμ˜ μ‹€μš©μ„±μ„ 높일 수 μžˆμŒμ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
ν˜„μž¬ LLM의 곡간 뢄석 λŠ₯λ ₯의 ν•œκ³„λ₯Ό λ“œλŸ¬λ‚΄λ©°, ν–₯ν›„ GeoAI 연ꡬ λ°œμ „μ„ μœ„ν•œ κ²¬κ³ ν•œ 기쀀을 μ œκ³΅ν•©λ‹ˆλ‹€.
PDF 보기
πŸ‘
Made with Slashpage