Comparative Analysis of OpenAI GPT-4o and DeepSeek R1 for Scientific Text Categorization Using Prompt Engineering
Created by
Haebom
Category
Empty
저자
Aniruddha Maiti, Samuel Adewumi, Temesgen Alemayehu Tikure, Zichun Wang, Niladri Sengupta, Anastasiia Sukhanova, Ananya Jana
개요
본 연구는 프롬프트 엔지니어링을 활용하여 대규모 언어 모델이 과학 논문의 문장을 어떻게 분류하는지 조사합니다. OpenAI의 GPT-4o와 DeepSeek R1이라는 두 가지 고급 웹 기반 모델을 사용하여 문장을 미리 정의된 관계 범주로 분류합니다. DeepSeek R1은 기술 보고서에서 벤치마크 데이터 세트에 대해 테스트되었지만, 과학적 텍스트 분류에서의 성능은 아직 탐구되지 않았습니다. 이러한 간극을 해결하기 위해 본 연구는 이 작업을 위해 특별히 고안된 새로운 평가 방법을 제시합니다. 또한 다양한 분야의 정제된 과학 논문 데이터 세트를 컴파일합니다. 이 데이터 세트는 두 모델을 비교할 수 있는 플랫폼을 제공합니다. 이 데이터 세트를 사용하여 분류에서의 효과성과 일관성을 분석합니다.
시사점, 한계점
•
시사점: 과학 논문 문장 분류를 위한 새로운 평가 방법 제시, GPT-4o와 DeepSeek R1의 과학적 텍스트 분류 성능 비교 및 분석, 다양한 과학 분야를 포괄하는 새로운 데이터 세트 제공.
•
한계점: 사용된 모델의 종류가 제한적일 수 있음, 새로운 평가 방법의 일반화 가능성에 대한 추가 검증 필요, 데이터 세트의 규모 및 다양성에 대한 추가적인 개선 필요.