Sign In

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Haolin Chen, Deon Metelski, Leon Qi, Tao Xia, Joonyul Lee, Steve Brown, Kevin Riley, Frank Wang, T. Y. Alvin Liu, Hank Capps MD, Zeyu Tang, Xiangchen Song, Lingjing Kong, Fan Feng, Tianyi Zeng, Zhiwei Liu, Zixian Ma, Hang Jiang, Fangli Geng, Yuan Yuan, Chenyu You, Qingsong Wen, Hua Wei, Yanjie Fu, Yue Zhao, Carl Yang, Biwei Huang, Kun Zhang, Caiming Xiong, Sanmi Koyejo, Eric P. Xing, Philip S. Yu, Weiran Yao

πŸ’‘ κ°œμš”

λ³Έ 논문은 의료 λΆ„μ•Όμ˜ λ³΅μž‘ν•˜κ³  μž₯기적인 μ›Œν¬ν”Œλ‘œμš° μžλ™ν™”λ₯Ό AI μ—μ΄μ „νŠΈκ°€ μ–Όλ§ˆλ‚˜ 잘 μˆ˜ν–‰ν•  수 μžˆλŠ”μ§€ ν‰κ°€ν•˜λŠ” 벀치마크인 $\chi$-Benchλ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 이 λ²€μΉ˜λ§ˆν¬λŠ” 의료, λ³΄ν—˜, 운영 κ·œμΉ™μ˜ λ°©λŒ€ν•œ λΌμ΄λΈŒλŸ¬λ¦¬μ— κΈ°λ°˜ν•œ μ˜μ‚¬ κ²°μ •, 닀쀑 μ—­ν•  μˆ˜ν–‰ 및 μƒν˜Έ μž‘μš©, λ‹€μžκ°„ λŒ€ν™”λ₯Ό ν¬ν•¨ν•˜λŠ” ν˜„μ‹€μ μΈ 의료 μ›Œν¬ν”Œλ‘œμš°μ˜ μžλ™ν™”μ— μ΄ˆμ μ„ 맞μΆ₯λ‹ˆλ‹€. μ‹€ν—˜ κ²°κ³Ό, 졜고의 AI μ—μ΄μ „νŠΈμ‘°μ°¨ 28.0%의 μž‘μ—…λ§Œ μ„±κ³΅μ μœΌλ‘œ μ™„λ£Œν–ˆμœΌλ©°, μ΄λŠ” ν˜„μž¬ AI μ—μ΄μ „νŠΈμ˜ ν•œκ³„λ₯Ό λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬κ°€ κ°„κ³Όν–ˆλ˜ 의료 μ›Œν¬ν”Œλ‘œμš°μ˜ μ •μ±… 밀도, 닀쀑 μ—­ν• , λ‹€μžκ°„ μƒν˜Έ μž‘μš©κ³Ό 같은 λ³΅μž‘μ„±μ„ 평가할 수 μžˆλŠ” μƒˆλ‘œμš΄ 벀치마크λ₯Ό μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
AI μ—μ΄μ „νŠΈκ°€ μ‹€μ œ μ—”ν„°ν”„λΌμ΄μ¦ˆ 도메인, 특히 정책이 ν’λΆ€ν•˜κ³  μ—­ν•  ꡬ성이 λ³΅μž‘ν•œ μ˜μ—­μ—μ„œ μž₯기적인 μž‘μ—…μ„ μžλ™ν™”ν•˜λŠ” λ°λŠ” μƒλ‹Ήν•œ μ„±λŠ₯ 격차가 μ‘΄μž¬ν•¨μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν˜„μž¬ AI μ—μ΄μ „νŠΈλŠ” ν˜„μ‹€μ μΈ 의료 μ›Œν¬ν”Œλ‘œμš°λ₯Ό μ—”λ“œ-투-μ—”λ“œλ‘œ μžλ™ν™”ν•˜λŠ” 데 μžˆμ–΄ 아직 초기 단계에 있으며, 더 λ³΅μž‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ™€ 더 높은 μ„±λŠ₯ 달성을 μœ„ν•΄ 지속적인 연ꡬ 개발이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘