Pap2Pat: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs
Created by
Haebom
Category
Empty
저자
Valentin Knappich, Simon Razniewski, Anna Hatty, Annemarie Friedrich
개요
본 논문은 대규모 언어 모델(LLM)을 활용한 특허 명세서 작성 지원의 어려움, 특히 긴 기술 문서 처리의 어려움에 초점을 맞춥니다. 특허 명세서의 대부분을 차지하는 설명 부분의 자동 생성은 아직 미개척 분야이며, 기존 연구는 기밀성 문제로 인해 어려움을 겪었습니다. 이에 본 논문에서는 동일한 발명을 설명하는 1,800쌍의 특허-논문 데이터셋 PAP2PAT을 구축하여, LLM 기반 특허 명세서 작성 과제를 위한 현실적인 벤치마크를 제시합니다. 연구 논문을 발명 설명으로 활용하는 청크 기반 개요 유도 생성 방식을 제안하고, PAP2PAT 및 인간 참여 연구를 통해 LLM이 논문 정보를 효과적으로 활용할 수 있지만, 세부적인 내용 생성에는 어려움을 겪는다는 것을 보여줍니다. 미세 조정을 통해 특허 스타일 언어 사용은 개선되지만, 환각 현상이 증가하는 문제점도 발견하였습니다. 본 연구의 데이터와 코드는 공개적으로 제공됩니다 (https://github.com/boschresearch/Pap2Pat).