Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Can Large Language Models Understand As Well As Apply Patent Regulations to Pass a Hands-On Patent Attorney Test?

Created by
  • Haebom

저자

Bhakti Khera, Rezvan Alamian, Pascal A. Scherz, Stephan M. Goetz

개요

본 논문은 다양한 오픈소스 및 독점형 대규모 언어 모델(LLM)들을 유럽 특허 변호사 시험(EQE)의 일부 과제에 적용하여 정량적 성능을 평가한 연구이다. GPT 계열, Anthropic, Deepseek, Llama-3 등 여러 모델들을 평가한 결과, OpenAI의 GPT-4가 가장 높은 정확도(0.82)와 F1 점수(0.81)를 기록하였으나, 전문가 수준(0.90)에는 미치지 못했다. AWS Llama 3.1 8B와 Python으로 배포된 Llama 3.1 8B는 단순 추측 수준의 성능을 보였다. 모델들은 텍스트와 그래픽 통합, 서식 유지 등에서도 한계를 드러냈으며, 전문가 평가에서도 논리적 일관성, 명확성, 법적 근거 부족 등의 문제점이 드러났다. 모델 출력은 온도 변화나 프롬프트 표현에 민감하게 반응하여 전문가 감독의 필요성을 시사했다.

시사점, 한계점

시사점: 최신 LLM의 우수한 성능에도 불구하고, 일반 대중의 기대치가 과도하게 높을 수 있음을 시사한다. LLM의 법률 분야 적용 가능성을 정량적으로 평가함으로써 현실적인 한계를 제시한다. GPT-4의 텍스트 및 그래픽 통합 능력이 우수함을 보여준다. 자동 평가 지표와 전문가 판단 간의 차이를 보여준다.
한계점: 평가에 사용된 시험의 일부분만 사용하여 일반화에 한계가 있다. 모든 LLM이 전문가 수준에 도달하지 못했다. 모델 출력이 프롬프트와 온도 설정에 민감하여 신뢰성이 떨어진다. 논리적 일관성, 견고한 다중 모달리티, 적응형 프롬프팅 등의 개선이 필요하다. 현재 기술로는 완전한 가상 특허 변호사를 개발하는 데는 상당한 기술적 진전이 필요하다.
👍