ReaderLM-v2는 웹 콘텐츠 추출을 위해 설계된 15억 파라미터의 소형 언어 모델입니다. 최대 512K 토큰의 문서를 처리하여 정돈되지 않은 HTML을 정리된 Markdown 또는 JSON 형식으로 높은 정확도로 변환합니다. 이는 대규모 언어 모델을 기반으로 하는 도구에 이상적입니다. 세 단계 데이터 합성 파이프라인(웹 콘텐츠 추출의 반복적인 초안 작성, 개선, 비평)과 연속적 사전 훈련과 다중 목표 최적화를 결합한 통합 훈련 프레임워크를 통해 효율성을 달성합니다. 기존의 GPT-4o-2024-08-06 및 다른 대규모 모델보다 15-20% 향상된 성능을 보이며, 특히 100K 토큰을 초과하는 문서에서 뛰어난 성능을 나타냅니다. 계산 요구 사항은 상당히 낮습니다.