Sign In

BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Sebastian Nagl, Ann-Kristin Mayrhofer, Martin Heidebach, Aleyna Ko\c{c}ak, Anne Zettelmeier, Elly Breu, Angelina Greiner, Sofija Milijas, Matthias Grabmair

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” 독일 법λ₯ μ˜ ν•˜μœ„ λ²”μ£Όν™” 기반 법λ₯  좔둠에 λŒ€ν•œ LLM μ‹œμŠ€ν…œ 평가λ₯Ό μœ„ν•œ "BenGER (Benchmark for German Law)" 데이터셋을 μ†Œκ°œν•©λ‹ˆλ‹€. 이 데이터셋은 λ‹€μ–‘ν•œ ꡐ윑 μˆ˜μ€€μ˜ 596개 μ‹œν—˜ μŠ€νƒ€μΌ 법λ₯  사둀 κ³Όμ œμ™€ 531개의 짧은 ꡐ리 μΆ”λ‘  과제λ₯Ό ν¬ν•¨ν•˜λ©°, 12개의 μ΅œμ‹  LLM μ‹œμŠ€ν…œμ„ ν‰κ°€ν–ˆμŠ΅λ‹ˆλ‹€. 연ꡬ κ²°κ³Ό, LLM 기반 ν‰κ°€μžκ°€ 인간 ν‰κ°€μžμ™€ μœ μ‚¬ν•œ 일관성을 λ³΄μ˜€μœΌλ©°, μ΅œμ²¨λ‹¨ νμ‡„ν˜• LLM이 κ°€μž₯ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€κ³ , 인간-AI ν˜‘μ—…μ΄ 독립적인 인간 μž‘μ—…λ³΄λ‹€ μ›”λ“±νžˆ 뛰어남을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
BenGER 데이터셋은 독일 법λ₯  λΆ„μ•Όμ—μ„œ LLM μ‹œμŠ€ν…œμ˜ ν•˜μœ„ λ²”μ£Όν™” μΆ”λ‘  λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ μ€‘μš”ν•œ 벀치마크λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
LLM 기반 ν‰κ°€μž(LLM-as-a-Judge)λŠ” 인간 ν‰κ°€μžλ§ŒνΌμ˜ 일관성을 보일 수 μžˆμ–΄, λŒ€κ·œλͺ¨ 평가 μžλ™ν™” κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
인간-AI ν˜‘μ—…μ€ 법λ₯  μΆ”λ‘  μž‘μ—…μ—μ„œ 독립적인 인간 μž‘μ—…λ³΄λ‹€ 훨씬 더 λ‚˜μ€ μ„±λŠ₯을 보여, ν–₯ν›„ 법λ₯  λΆ„μ•Όμ—μ„œμ˜ AI ν™œμš© κ°€λŠ₯성을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ˜ ν•œκ³„λŠ” 평가 λŒ€μƒ LLM이 주둜 νμ‡„ν˜• λͺ¨λΈμ— μ§‘μ€‘λ˜μ–΄ μžˆμ–΄, μ˜€ν”ˆ μ›¨μ΄νŠΈ λͺ¨λΈμ˜ 잠재λ ₯을 μΆ©λΆ„νžˆ νƒκ΅¬ν•˜μ§€ λͺ»ν–ˆλ‹€λŠ” 점이며, ν–₯ν›„ 더 λ‹€μ–‘ν•œ μ˜€ν”ˆ μ›¨μ΄νŠΈ λͺ¨λΈμ— λŒ€ν•œ 평가 및 독일 법λ₯  μ™Έ λ‹€λ₯Έ 법λ₯  μ²΄κ³„λ‘œμ˜ ν™•μž₯ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘