Sign In

TemporalBench: A Benchmark for Evaluating LLM-Based Agents on Contextual and Event-Informed Time Series Tasks

Created by
  • Haebom
Category
Empty

์ €์ž

Muyan Weng, Defu Cao, Wei Yang, Yashaswi Sharma, Yan Liu

๐Ÿ’ก ๊ฐœ์š”

๋ณธ ๋…ผ๋ฌธ์€ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹œ๊ณ„์—ด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์ง„์ •ํ•œ ์‹œ๊ฐ„์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด TemporalBench๋ผ๋Š” ์ƒˆ๋กœ์šด ๋ฒค์น˜๋งˆํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฒค์น˜๋งˆํฌ๋Š” ์—ญ์‚ฌ์  ๊ตฌ์กฐ ํ•ด์„, ๋งฅ๋ฝ์„ ๊ณ ๋ คํ•œ ์‹œ๊ณ„์—ด ์˜ˆ์ธก, ์ด๋ฒคํŠธ ๊ธฐ๋ฐ˜ ์˜ˆ์ธก ๋“ฑ ์ ์ง„์ ์œผ๋กœ ํ’๋ถ€ํ•ด์ง€๋Š” ์ •๋ณด ํ™˜๊ฒฝ์—์„œ ์‹œ๊ฐ„์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋„ค ๋‹จ๊ณ„๋กœ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์˜ˆ์ธก ์„ฑ๋Šฅ๋งŒ์œผ๋กœ๋Š” ์—์ด์ „ํŠธ์˜ ๋งฅ๋ฝ ๋ฐ ์ด๋ฒคํŠธ ์ธ์ง€ ๋Šฅ๋ ฅ ๋ถ€์กฑ์ด ๋“œ๋Ÿฌ๋‚ฌ์œผ๋ฉฐ, TemporalBench๋Š” ์ด๋Ÿฌํ•œ ๋ชจ๋ธ์˜ ํŒŒํŽธํ™”๋œ ๊ฐ•์ ๊ณผ ์ˆจ๊ฒจ์ง„ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ์ง„๋‹จํ•˜๋Š” ๋ฐ ์œ ์šฉํ•จ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
๊ธฐ์กด ์‹œ๊ณ„์—ด ์˜ˆ์ธก ๋ฒค์น˜๋งˆํฌ๋Š” ๋ชจ๋ธ์˜ ๋งฅ๋ฝ ๋ฐ ์ด๋ฒคํŠธ ๊ธฐ๋ฐ˜ ์‹œ๊ฐ„ ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ์ œ๋Œ€๋กœ ํ‰๊ฐ€ํ•˜์ง€ ๋ชปํ•˜๋ฉฐ, LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹ค์ œ์ ์ธ ์‹œ๊ฐ„์  ์ดํ•ด ๋Šฅ๋ ฅ์„ ์ธก์ •ํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
โ€ข
TemporalBench๋Š” ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ๊ณผ ์ •๋ณด ์ˆ˜์ค€์„ ํฌ๊ด„ํ•˜๋Š” ๋‹ค์ธต์ ์ธ ํ‰๊ฐ€๋ฅผ ํ†ตํ•ด LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์˜ ์‹œ๊ฐ„์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ณ  ์ง„๋‹จ์ ์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
โ€ข
ํ–ฅํ›„ ๊ณผ์ œ๋กœ๋Š” LLM ์—์ด์ „ํŠธ๊ฐ€ ๋‹ค์–‘ํ•œ ์ •๋ณด ํ™˜๊ฒฝ ๋ณ€ํ™”์— ๋งž์ถฐ ์˜ˆ์ธก์„ ์„ฑ๊ณต์ ์œผ๋กœ ์กฐ์ •ํ•˜๊ณ , ๋ณด๋‹ค ์ผ๋ฐ˜ํ™”๋œ ์‹œ๊ฐ„์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก  ๊ฐœ๋ฐœ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ‘