Sign In

LP-Eval: Rubric and Dataset for Measuring the Quality of Legal Proposition Generation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Shanshan Xu, Johan Lindholm, Amogh Raina, Henrik Palmer Olsen, Daniel Hershcovich

πŸ’‘ κ°œμš”

λ³Έ 논문은 유럽 μ—°ν•© 사법 μž¬νŒμ†Œ νŒκ²°λ¬Έμ„ λ°”νƒ•μœΌλ‘œ λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)을 ν™œμš©ν•˜μ—¬ 법λ₯  λͺ…μ œ μƒμ„±μ˜ ν’ˆμ§ˆμ„ μΈ‘μ •ν•˜κΈ° μœ„ν•œ μƒˆλ‘œμš΄ 평가 루브릭과 데이터셋인 LP-Eval을 μ œμ•ˆν•©λ‹ˆλ‹€. LP-Eval은 법λ₯  전문가와 곡동 μ„€κ³„λœ 3단계 평가 λ£¨λΈŒλ¦­μ„ 톡해 법λ₯  λͺ…μ œμ˜ ν˜•μ‹μ  타당성과 μ‹€μ§ˆμ  차원을 ν‰κ°€ν•˜λ©°, 이λ₯Ό λ°”νƒ•μœΌλ‘œ μƒμ„±λœ LLM λͺ…μ œμ— λŒ€ν•œ μ „λ¬Έκ°€ 주석 데이터셋을 κ³΅κ°œν•©λ‹ˆλ‹€. 연ꡬ κ²°κ³Ό, LLM이 λŒ€μ²΄λ‘œ 잘 κ΅¬μ„±λ˜κ³  높은 ν’ˆμ§ˆμ˜ 법λ₯  λͺ…μ œλ₯Ό 생성할 수 μžˆμŒμ„ 보여주며, μ „λ¬Έκ°€ ν‰κ°€λŠ” μ΅œμ‹  νŒκ²°λ³΄λ‹€λŠ” ν™•λ¦½λœ νŒλ‘€μ—μ„œ λ„μΆœλœ λͺ…μ œκ°€ 더 높은 ν’ˆμ§ˆμ„ κ°–λŠ”λ‹€λŠ” 점을 λ°νž™λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM을 ν™œμš©ν•œ 법λ₯  λͺ…μ œ 생성은 μƒλ‹Ήν•œ ν’ˆμ§ˆμ„ 달성할 수 있으며, 법λ₯  NLP λΆ„μ•Όμ˜ λ°œμ „μ— κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ LP-Eval λ£¨λΈŒλ¦­μ€ 법λ₯  λͺ…μ œ ν’ˆμ§ˆμ„ λ‹€κ°μ μœΌλ‘œ ν‰κ°€ν•˜λŠ” 데 μœ μš©ν•˜λ©°, 법λ₯  μ „λ¬Έκ°€μ™€μ˜ ν˜‘λ ₯을 톡해 μ‹€μ œμ μΈ 평가 기쀀을 λ§ˆλ ¨ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
LLM이 ν‰κ°€μžλ‘œμ„œ κΈ°λŠ₯ν•  수 μžˆμ§€λ§Œ, 인간 μ „λ¬Έκ°€μ˜ λ―Έλ¬˜ν•œ νŒλ‹¨μ„ ν¬μ°©ν•˜λŠ” λ°λŠ” ν•œκ³„κ°€ μžˆμ–΄ ν–₯ν›„ LLM 평가 λŠ₯λ ₯ ν–₯상 및 인간과 LLM κ°„ 평가 ν˜‘μ—… λ°©μ•ˆ λͺ¨μƒ‰μ΄ ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘