Sign In

LemonadeBench: Evaluating the Economic Intuition of Large Language Models in Simple Markets

Created by
  • Haebom
Category
Empty

μ €μž

Aidan Vyas

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” LLM의 경제적 직관, μž₯κΈ° κ³„νš, λΆˆν™•μ‹€μ„± ν•˜μ˜ μ˜μ‚¬κ²°μ • λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ 'LemonadeBench v0.5'λΌλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ†Œκ°œν•©λ‹ˆλ‹€. 이 λ²€μΉ˜λ§ˆν¬λŠ” LLM이 μœ ν†΅κΈ°ν•œμ΄ μžˆλŠ” 재고 관리, 가격 μ±…μ •, μ˜μ—…μ‹œκ°„ κ²°μ • 등을 톡해 30일간 μˆ˜μ΅μ„ κ·ΉλŒ€ν™”ν•˜λ„λ‘ μš”κ΅¬ν•©λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, λͺ¨λ“  LLM이 μˆ˜μ΅μ„±μ„ λ‹¬μ„±ν–ˆμ§€λ§Œ, μΌλΆ€λŠ” 이둠적 졜적치의 70%κΉŒμ§€ λ„λ‹¬ν•˜λŠ” 반면, μ „λ°˜μ μœΌλ‘œ μ§€μ—­ μ΅œμ ν™”μ— μΉ˜μ€‘ν•˜μ—¬ νŠΉμ • μ˜μ—­μ—μ„œλŠ” μš°μˆ˜ν•˜μ§€λ§Œ λ‹€λ₯Έ μ˜μ—­μ—μ„œλŠ” μ˜ˆμƒμΉ˜ λͺ»ν•œ 약점을 λ³΄μ΄λŠ” νŒ¨ν„΄μ„ λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM은 기본적인 경제적 μ˜μ‚¬κ²°μ • λŠ₯λ ₯을 λ³΄μ—¬μ£Όμ§€λ§Œ, μ΅œμ²¨λ‹¨ λͺ¨λΈλ§Œμ΄ 높은 μˆ˜μ€€μ˜ μ΅œμ ν™” μ„±κ³Όλ₯Ό 달성할 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
LLM은 전역적인 μ΅œμ ν™”λ³΄λ‹€λŠ” κ΅­μ†Œμ μΈ μ΅œμ ν™”μ— 강점을 보이며, νŠΉμ • λΉ„μ¦ˆλ‹ˆμŠ€ μΈ‘λ©΄μ—μ„œλŠ” λ›°μ–΄λ‚˜μ§€λ§Œ λ‹€λ₯Έ μΈ‘λ©΄μ—μ„œλŠ” 뢀쑱함을 λ‚˜νƒ€λƒ…λ‹ˆλ‹€.
β€’
LLM의 μ˜μ‚¬κ²°μ • κ³Όμ •μ—μ„œ λ°œμƒν•˜λŠ” '깜깜이(blind spots)' ν˜„μƒμ„ μ΄ν•΄ν•˜κ³  κ°œμ„ ν•˜κΈ° μœ„ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•˜λ©°, μ΄λŠ” LLM의 μ „λ°˜μ μΈ μ‹€μš©μ„±μ„ λ†’μ΄λŠ” 데 μ€‘μš”ν•©λ‹ˆλ‹€.
πŸ‘