haebom
Sign In
BenGER: Benchmarking LLM Systems on Subsumption-Based Legal Reasoning in German Law
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Sebastian Nagl, Ann-Kristin Mayrhofer, Martin Heidebach, Aleyna Ko\c{c}ak, Anne Zettelmeier, Elly Breu, Angelina Greiner, Sofija Milijas, Matthias Grabmair
π‘ κ°μ
λ³Έ μ°κ΅¬λ λ μΌ λ²λ₯ μ νμ λ²μ£Όν κΈ°λ° λ²λ₯ μΆλ‘ μ λν LLM μμ€ν νκ°λ₯Ό μν "BenGER (Benchmark for German Law)" λ°μ΄ν°μ μ μκ°ν©λλ€. μ΄ λ°μ΄ν°μ μ λ€μν κ΅μ‘ μμ€μ 596κ° μν μ€νμΌ λ²λ₯ μ¬λ‘ κ³Όμ μ 531κ°μ μ§§μ κ΅λ¦¬ μΆλ‘ κ³Όμ λ₯Ό ν¬ν¨νλ©°, 12κ°μ μ΅μ LLM μμ€ν μ νκ°νμ΅λλ€. μ°κ΅¬ κ²°κ³Ό, LLM κΈ°λ° νκ°μκ° μΈκ° νκ°μμ μ μ¬ν μΌκ΄μ±μ 보μμΌλ©°, μ΅μ²¨λ¨ νμν LLMμ΄ κ°μ₯ μ°μν μ±λ₯μ 보μκ³ , μΈκ°-AI νμ μ΄ λ 립μ μΈ μΈκ° μμ λ³΄λ€ μλ±ν λ°μ΄λ¨μ μ μ¦νμ΅λλ€.
π μμ¬μ λ° νκ³
β’
BenGER λ°μ΄ν°μ μ λ μΌ λ²λ₯ λΆμΌμμ LLM μμ€ν μ νμ λ²μ£Όν μΆλ‘ λ₯λ ₯μ νκ°νκΈ° μν μ€μν λ²€μΉλ§ν¬λ₯Ό μ 곡ν©λλ€.
β’
LLM κΈ°λ° νκ°μ(LLM-as-a-Judge)λ μΈκ° νκ°μλ§νΌμ μΌκ΄μ±μ λ³΄μΌ μ μμ΄, λκ·λͺ¨ νκ° μλν κ°λ₯μ±μ μ μν©λλ€.
β’
μΈκ°-AI νμ μ λ²λ₯ μΆλ‘ μμ μμ λ 립μ μΈ μΈκ° μμ λ³΄λ€ ν¨μ¬ λ λμ μ±λ₯μ 보μ¬, ν₯ν λ²λ₯ λΆμΌμμμ AI νμ© κ°λ₯μ±μ μμ¬ν©λλ€.
β’
λ³Έ μ°κ΅¬μ νκ³λ νκ° λμ LLMμ΄ μ£Όλ‘ νμν λͺ¨λΈμ μ§μ€λμ΄ μμ΄, μ€ν μ¨μ΄νΈ λͺ¨λΈμ μ μ¬λ ₯μ μΆ©λΆν νꡬνμ§ λͺ»νλ€λ μ μ΄λ©°, ν₯ν λ λ€μν μ€ν μ¨μ΄νΈ λͺ¨λΈμ λν νκ° λ° λ μΌ λ²λ₯ μΈ λ€λ₯Έ λ²λ₯ 체κ³λ‘μ νμ₯ μ°κ΅¬κ° νμν©λλ€.
PDF 보기
Made with Slashpage