Sign In

DialToM: A Theory of Mind Benchmark for Forecasting State-Driven Dialogue Trajectories

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Neemesh Yadav, Palakorn Achananuparp, Jing Jiang, Ee-Peng Lim

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 인간 λŒ€ν™”μ—μ„œ λ°œμƒν•˜λŠ” μ‚¬νšŒμ  μΆ”λ‘  λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 벀치마크인 DialToM을 μ†Œκ°œν•©λ‹ˆλ‹€. DialToM은 λŒ€ν™” λ§₯락 없이 였직 ν™”μžμ˜ 심리 μƒνƒœ μ •λ³΄λ§Œμ„ λ°”νƒ•μœΌλ‘œ ν–₯ν›„ λŒ€ν™” 흐름을 μ˜ˆμΈ‘ν•˜λŠ” 'μƒνƒœ 주도 진단 평가'λ₯Ό 톡해 λͺ¨λΈμ˜ 이둠적 사고(Theory of Mind, ToM) λŠ₯λ ₯을 μΈ‘μ •ν•©λ‹ˆλ‹€. 평가 κ²°κ³Ό, λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)은 심리 μƒνƒœλ₯Ό νŒŒμ•…ν•˜λŠ” λ°λŠ” λŠ₯ν•˜μ§€λ§Œ, 이λ₯Ό ν™œμš©ν•˜μ—¬ μ‚¬νšŒμ  μƒν˜Έμž‘μš©μ„ μ˜ˆμΈ‘ν•˜λŠ” λ°λŠ” 어렀움을 κ²ͺλŠ”λ‹€λŠ” 사싀이 λ°ν˜€μ‘ŒμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈμ€ 심리 μƒνƒœλ₯Ό μΈμ‹ν•˜λŠ” λŠ₯λ ₯(Literal ToM)은 λ›°μ–΄λ‚˜μ§€λ§Œ, 이λ₯Ό μ‹€μ œ λŒ€ν™” 흐름 μ˜ˆμΈ‘μ— μ μš©ν•˜λŠ” κΈ°λŠ₯적 λŠ₯λ ₯(Functional ToM)은 λΆ€μ‘±ν•©λ‹ˆλ‹€.
β€’
인간 μ „λ¬Έκ°€λŠ” λ³Έ ν‰κ°€μ—μ„œ 100%의 정확도λ₯Ό λ‹¬μ„±ν•˜μ—¬, ν˜„μž¬ AI 기술과 μΈκ°„μ˜ μ‚¬νšŒμ  μΆ”λ‘  λŠ₯λ ₯ κ°„μ˜ 격차λ₯Ό λͺ…ν™•νžˆ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
Gemini 3 Pro λͺ¨λΈμ€ λ§₯락 μ—†λŠ” μ˜ˆμΈ‘μ—μ„œ κ°•λ ₯ν•œ κΈ°λŠ₯적 ToM λŠ₯λ ₯을 λ³΄μ—¬μ£Όμ—ˆμœΌλ©°, μ΄λŠ” λ‹€λ₯Έ μ•½ν•œ λͺ¨λΈλ‘œ 전이될 수 μžˆμŒμ„ ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν–₯ν›„ μ—°κ΅¬λŠ” LLM이 λ§₯락 정보λ₯Ό 효과적으둜 ν™œμš©ν•˜μ—¬ κΈ°λŠ₯적 ToM λŠ₯λ ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆλŠ” λ°©ν–₯에 집쀑해야 ν•©λ‹ˆλ‹€.
πŸ‘