Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks

Created by
  • Haebom

저자

Marios Kokkodis, Richard Demsyn-Jones, Vijay Raghavan

개요

본 논문은 AI의 과대광고 시대에도 전통적인 분류 접근 방식이 여전히 유효함을 보여줍니다. Thumbtack 고객이 제공한 홈 서비스 프로젝트 설명의 텍스트와 이미지를 사용하여 임베딩 기반 소프트맥스 모델을 구축하여 각 문제 설명과 관련된 전문 분야(예: 수리공, 욕실 개조)를 예측합니다. 이를 최첨단 LLM 모델을 사용한 프롬프트 방식과 비교하여 정확도, 보정, 지연 시간 및 재정적 비용 측면에서 임베딩 접근 방식이 우수함을 보여줍니다. 특히, 임베딩 방식은 프롬프트 방식보다 정확도가 49.5% 높았으며, 텍스트 전용, 이미지 전용 및 텍스트-이미지 문제 설명에서 일관되게 우수한 성능을 보였습니다. 또한, 잘 보정된 확률을 제공하며, 이는 배포 중에 문맥에 맞는 사용자 경험을 제공하는 데 사용됩니다. 반면, 프롬프트 점수는 정보가 부족했습니다. 마지막으로, 임베딩 방식은 이미지 및 텍스트 처리 속도가 프롬프트 방식보다 각각 14배 및 81배 빨랐으며, 현실적인 배포 가정 하에서 최대 10배 저렴할 수 있습니다. A/B 테스트를 통해 오프라인 분석 결과와 일치하는 성능을 확인하여 임베딩 접근 방식의 변형을 배포했습니다. 본 연구는 독점 데이터 세트를 활용할 수 있는 다중 클래스 분류 문제의 경우 임베딩 기반 접근 방식이 더 나은 결과를 제공할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
독점 데이터셋을 활용하는 다중 클래스 분류 문제에서 임베딩 기반 접근 방식이 LLM 프롬프트 기반 방식보다 정확도, 보정, 속도, 비용 측면에서 우수함을 증명했습니다.
임베딩 기반 모델이 생성하는 잘 보정된 확률은 사용자 경험 향상에 활용될 수 있습니다.
LLM 프롬프트 방식의 과대평가를 경계하고, 문제에 적합한 예측 모델을 선택해야 함을 시사합니다.
한계점:
본 연구는 특정 데이터셋(Thumbtack 홈 서비스 프로젝트 설명)에 기반한 결과이므로 일반화에는 제한이 있습니다.
다른 유형의 다중 클래스 분류 문제에 대한 일반성을 검증하기 위한 추가 연구가 필요합니다.
LLM 프롬프트 엔지니어링의 발전에 따라 결과가 달라질 수 있습니다.
👍