Sign In

Pap2Pat: Benchmarking Outline-Guided Long-Text Patent Generation with Patent-Paper Pairs

Created by
  • Haebom
Category
Empty

저자

Valentin Knappich, Simon Razniewski, Anna Hatty, Annemarie Friedrich

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 특허 명세서 작성 지원의 어려움, 특히 긴 기술 문서 처리의 어려움에 초점을 맞춥니다. 특허 명세서의 대부분을 차지하는 설명 부분의 자동 생성은 아직 미개척 분야이며, 기존 연구는 기밀성 문제로 인해 어려움을 겪었습니다. 이에 본 논문에서는 동일한 발명을 설명하는 1,800쌍의 특허-논문 데이터셋 PAP2PAT을 구축하여, LLM 기반 특허 명세서 작성 과제를 위한 현실적인 벤치마크를 제시합니다. 연구 논문을 발명 설명으로 활용하는 청크 기반 개요 유도 생성 방식을 제안하고, PAP2PAT 및 인간 참여 연구를 통해 LLM이 논문 정보를 효과적으로 활용할 수 있지만, 세부적인 내용 생성에는 어려움을 겪는다는 것을 보여줍니다. 미세 조정을 통해 특허 스타일 언어 사용은 개선되지만, 환각 현상이 증가하는 문제점도 발견하였습니다. 본 연구의 데이터와 코드는 공개적으로 제공됩니다 (https://github.com/boschresearch/Pap2Pat).

시사점, 한계점

시사점:
LLM을 활용한 특허 명세서 자동 생성에 대한 현실적인 벤치마크(PAP2PAT) 제공.
청크 기반 개요 유도 생성 방식을 통한 LLM의 특허 명세서 작성 성능 향상 가능성 제시.
LLM 기반 특허 명세서 자동 생성의 가능성과 한계를 실증적으로 보여줌.
공개 데이터셋 및 코드 제공을 통한 후속 연구 지원.
한계점:
LLM이 여전히 세부적인 내용 생성에 어려움을 겪음.
미세 조정을 통한 특허 스타일 향상은 환각 현상 증가라는 부작용을 야기함.
현재 벤치마크 데이터셋의 규모가 더욱 확장될 필요가 있음.
👍