Sign In

ReaderLM-v2: Small Language Model for HTML to Markdown and JSON

Created by
  • Haebom
Category
Empty

저자

Feng Wang, Zesheng Shi, Bo Wang, Nan Wang, Han Xiao

개요

ReaderLM-v2는 웹 콘텐츠 추출을 위해 설계된 15억 파라미터의 소형 언어 모델입니다. 최대 512K 토큰의 문서를 처리하여 정돈되지 않은 HTML을 정리된 Markdown 또는 JSON 형식으로 높은 정확도로 변환합니다. 이는 대규모 언어 모델을 기반으로 하는 도구에 이상적입니다. 세 단계 데이터 합성 파이프라인(웹 콘텐츠 추출의 반복적인 초안 작성, 개선, 비평)과 연속적 사전 훈련과 다중 목표 최적화를 결합한 통합 훈련 프레임워크를 통해 효율성을 달성합니다. 기존의 GPT-4o-2024-08-06 및 다른 대규모 모델보다 15-20% 향상된 성능을 보이며, 특히 100K 토큰을 초과하는 문서에서 뛰어난 성능을 나타냅니다. 계산 요구 사항은 상당히 낮습니다.

시사점, 한계점

시사점:
소형 모델임에도 불구하고 대규모 모델보다 웹 콘텐츠 추출 성능이 우수함을 보여줌.
특히 긴 문서 처리에 효율적임.
다중 목표 최적화와 세 단계 데이터 합성 파이프라인을 통한 효과적인 훈련 방법 제시.
대규모 언어 모델을 위한 효율적인 기반 도구로 활용 가능성 제시.
한계점:
구체적인 벤치마크의 종류와 구성에 대한 정보 부족.
모델의 한계점이나 향후 개선 방향에 대한 언급 부족.
15-20% 성능 향상이 모든 유형의 웹 콘텐츠에 대해 일관되게 나타나는지에 대한 추가 정보 필요.
👍