Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Large Language Models Understand As Well As Apply Patent Regulations to Pass a Hands-On Patent Attorney Test?

Created by
  • Haebom

저자

Bhakti Khera, Rezvan Alamian, Pascal A. Scherz, Stephan M. Goetz

개요

본 논문은 다양한 오픈소스 및 독점형 대규모 언어 모델(LLM)들을 유럽 특허 변호사 시험(EQE)의 일부 과제에 적용하여 정량적 성능을 평가한 연구이다. GPT 계열, Anthropic, Deepseek, Llama-3 등의 모델들을 평가한 결과, OpenAI의 GPT-4가 가장 높은 정확도(0.82)와 F1 점수(0.81)를 기록했지만, 전문가 수준의 합격 기준(0.90)에는 미치지 못했다. AWS Llama 3.1 8B와 Python으로 배포된 Llama 3.1 8B는 단순 추측 수준의 정확도(0.50, 0.55)를 보였다. 모델 출력은 온도 변화와 프롬프트 표현에 민감하게 반응했으며, 전문가 평가에서는 정답의 정확성보다 명확성과 법적 근거에 대한 평가가 중요하게 작용했다. 결론적으로, 최신 LLM의 성능이 뛰어나지만 일반 대중의 기대치보다 현실적인 수준은 낮으며, 가상 특허 변호사 개발에는 상당한 시간이 필요하다는 점을 시사한다.

시사점, 한계점

시사점:
최신 LLM의 유럽 특허 변호사 시험 성적을 정량적으로 평가하여 현실적인 성능 수준을 제시하였다.
LLM의 성능이 자동 평가 지표와 전문가 판단 사이에 차이가 있음을 보여주었다.
프롬프트 엔지니어링 및 모델 파라미터 조정의 중요성을 강조하였다.
LLM 기반 가상 특허 변호사 개발의 어려움과 향후 연구 방향을 제시하였다.
한계점:
평가에 사용된 EQE 과제의 범위가 제한적이다.
평가에 사용된 LLM의 종류와 버전이 다양하지 않을 수 있다.
전문가 평가의 주관성이 존재할 수 있다.
논리적 일관성, 강력한 다중 모달리티, 적응형 프롬프팅 등 향후 개선이 필요한 부분이 남아있다.
👍