Sign In

Clinical Validation of Medical-based Large Language Model Chatbots on Ophthalmic Patient Queries with LLM-based Evaluation

Created by
  • Haebom
Category
Empty

μ €μž

Ting Fang Tan, Kabilan Elangovan, Andreas Pollreisz, Kevin Bryan Dy, Wei Yan Ng, Joy Le Yi Wong, Jin Liyuan, Chrystie Quek Wan Ning, Ashley Shuen Ying Hong, Arun James Thirunavukarasu, Shelley Yin-His Chang, Jie Yao, Dylan Hong, Wang Zhaoran, Amrita Gupta, Daniel SW Ting

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ•ˆκ³Ό ν™˜μž μ§ˆλ¬Έμ— λŒ€ν•œ 4κ°€μ§€ μ†Œν˜• 의료 LLM (Meerkat-7B, BioMistral-7B, OpenBioLLM-8B, MedLLaMA3-v20)의 μ„±λŠ₯을 ν‰κ°€ν•˜κ³ , LLM 기반 ν‰κ°€μ˜ μœ νš¨μ„±μ„ μž„μƒ μ˜μ‚¬ 평가와 λΉ„κ΅ν–ˆμŠ΅λ‹ˆλ‹€. Meerkat-7B λͺ¨λΈμ΄ κ°€μž₯ 높은 μ„±λŠ₯을 λ³΄μ˜€μœΌλ‚˜, 일뢀 λͺ¨λΈμ€ ν™˜μžμ—κ²Œ μ˜€ν•΄λ₯Ό μœ λ°œν•  수 μžˆλŠ” μ •λ³΄λ‚˜ ν™˜κ°μ„ ν¬ν•¨ν•˜λŠ” 응닡을 μƒμ„±ν–ˆμŠ΅λ‹ˆλ‹€. LLM 기반 ν‰κ°€λŠ” μž„μƒ μ˜μ‚¬ 평가와 높은 상관관계λ₯Ό λ³΄μ˜€μœΌλ©°, μ΄λŠ” λŒ€κ·œλͺ¨ λ²€μΉ˜λ§ˆν‚Ήμ— LLM ν‰κ°€μ˜ ν™œμš© κ°€λŠ₯성을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
의료 LLM은 μ•ˆκ³Ό ν™˜μž 질문 닡변에 잠재λ ₯을 κ°€μ§€κ³  μžˆμœΌλ‚˜, μž„μƒμ  κΉŠμ΄μ™€ 일관성 μΈ‘λ©΄μ—μ„œ κ°œμ„ μ΄ ν•„μš”ν•©λ‹ˆλ‹€.
β€’
LLM 기반 ν‰κ°€λŠ” λŒ€κ·œλͺ¨ λ²€μΉ˜λ§ˆν‚Ήμ— 효과적인 도ꡬ가 될 수 있으며, μž„μƒ μ˜μ‚¬ 평가와 높은 μΌμΉ˜λ„λ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.
β€’
μ•ˆμ „ν•˜κ³  효과적인 μž„μƒ μ μš©μ„ μœ„ν•΄μ„œλŠ” LLM 평가와 μž„μƒ μ˜μ‚¬ κ²€ν† λ₯Ό κ²°ν•©ν•œ ν•˜μ΄λΈŒλ¦¬λ“œ ν”„λ ˆμž„μ›Œν¬κ°€ ν•„μš”ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” νŠΉμ • μ•ˆκ³Ό μ§ˆν™˜μ— λŒ€ν•œ μ§ˆλ¬Έλ§Œμ„ λ‹€λ£¨μ—ˆμœΌλ©°, λ‹€μ–‘ν•œ μ•ˆκ³Ό λΆ„μ•Ό 및 λ³΅μž‘ν•œ ν™˜μž μ‹œλ‚˜λ¦¬μ˜€μ— λŒ€ν•œ LLM의 μ„±λŠ₯은 좔가적인 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘