Sign In

Beyond String Matching: Semantic Evaluation of PDF Table Extraction

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Pius Horn, Janis Keuper

πŸ’‘ κ°œμš”

λ³Έ 논문은 PDFμ—μ„œ ν…Œμ΄λΈ”μ„ μΆ”μΆœν•˜λŠ” κΈ°μ‘΄ 평가 방식이 λ‚΄μš©μ˜ 의미적 동등성을 μ œλŒ€λ‘œ ν¬μ°©ν•˜μ§€ λͺ»ν•˜λŠ” 문제λ₯Ό ν•΄κ²°ν•˜κ³ μž ν•©λ‹ˆλ‹€. 이λ₯Ό μœ„ν•΄ μ‹€μ œ arXiv λ…Όλ¬Έμ—μ„œ μΆ”μΆœν•œ ν…Œμ΄λΈ”μ˜ λ³΅μž‘μ„±κ³Ό 닀양성을 λ°˜μ˜ν•œ ν•©μ„± PDFκ³Ό μ •ν™•ν•œ LaTeX 기반 정닡을 ν™œμš©ν•˜λŠ” λ²€μΉ˜λ§ˆν‚Ή ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. 핡심 λ°©λ²•λ‘ μœΌλ‘œ LLM을 ν‰κ°€μžλ‘œ ν™œμš©ν•˜μ—¬ 의미둠적 ν…Œμ΄λΈ” 평가λ₯Ό μˆ˜ν–‰ν•˜λ©°, μ΄λŠ” κΈ°μ‘΄ 방식보닀 μΈκ°„μ˜ νŒλ‹¨κ³Ό 훨씬 높은 상관관계λ₯Ό λ³΄μž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
κΈ°μ‘΄ κ·œμΉ™ 기반 평가 μ§€ν‘œ(TEDS, GriTS)의 ν•œκ³„λ₯Ό λ„˜μ–΄, LLM을 ν™œμš©ν•œ 의미둠적 평가가 μΈκ°„μ˜ νŒλ‹¨κ³Ό 높은 일관성을 λ³΄μž„μ„ μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
ν•©μ„± 데이터λ₯Ό μ‚¬μš©ν•œ λ²€μΉ˜λ§ˆν‚Ή ν”„λ ˆμž„μ›Œν¬λ₯Ό 톡해 PDF ν…Œμ΄λΈ” μΆ”μΆœ μž‘μ—…μ˜ μž¬ν˜„ κ°€λŠ₯ν•˜κ³  ν™•μž₯ κ°€λŠ₯ν•œ 평가 방법둠을 μ œμ‹œν–ˆμŠ΅λ‹ˆλ‹€.
β€’
21개의 μ΅œμ‹  PDF νŒŒμ„œ μ„±λŠ₯을 ν‰κ°€ν•˜μ—¬ μ‹€μ§ˆμ μΈ ν…Œμ΄λΈ” 데이터 μΆ”μΆœμ„ μœ„ν•œ νŒŒμ„œ 선택에 μ‹€μ§ˆμ μΈ κ°€μ΄λ“œλΌμΈμ„ μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
LLM 기반 ν‰κ°€μ˜ λΉ„μš© νš¨μœ¨μ„± 및 λŒ€κ·œλͺ¨ 적용 κ°€λŠ₯성에 λŒ€ν•œ μΆ”κ°€ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘