Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond the Hype: Embeddings vs. Prompting for Multiclass Classification Tasks

Created by
  • Haebom

저자

Marios Kokkodis, Richard Demsyn-Jones, Vijay Raghavan

개요

본 논문은 AI의 과대 광고 시대에도 전통적인 분류 접근 방식이 여전히 유용함을 보여줍니다. Thumbtack 고객이 제공한 홈 서비스 프로젝트 설명의 텍스트와 이미지를 사용하여 임베딩 기반 softmax 모델을 구축하여 각 문제 설명과 관련된 전문 분야(예: 수리공, 욕실 개조)를 예측합니다. 이를 최첨단 LLM 모델을 사용한 프롬프트 기반 접근 방식과 비교하여 정확도, 보정, 지연 시간 및 비용 측면에서 임베딩 접근 방식이 우수함을 보여줍니다. 특히, 임베딩 방식은 프롬프트 방식보다 정확도가 49.5% 높았으며, 텍스트 전용, 이미지 전용 및 텍스트-이미지 문제 설명에서 일관되게 우수한 성능을 보였습니다. 또한, 잘 보정된 확률을 생성하여 배포 중에 상황에 맞는 사용자 경험을 제공하는 데 사용했습니다. 반면, 프롬프트 점수는 정보가 부족했습니다. 마지막으로, 임베딩 접근 방식은 이미지 및 텍스트 처리 속도가 프롬프트 방식보다 각각 14배 및 81배 빨랐으며, 현실적인 배포 가정 하에서 최대 10배 저렴할 수 있습니다. 이러한 결과를 바탕으로 임베딩 접근 방식의 변형을 배포하여 A/B 테스트를 통해 오프라인 분석 결과와 일치하는 성능을 확인했습니다. 본 연구는 독점 데이터 세트를 활용할 수 있는 다중 클래스 분류 문제의 경우 임베딩 기반 접근 방식이 훨씬 더 나은 결과를 얻을 수 있음을 보여줍니다.

시사점, 한계점

시사점:
다중 클래스 분류 문제에서 임베딩 기반 접근 방식이 LLM 프롬프트 기반 방식보다 정확도, 보정, 속도, 비용 면에서 우수함을 입증.
독점 데이터 세트를 활용할 수 있는 경우, 전통적인 분류 모델이 LLM보다 효과적일 수 있음을 시사.
임베딩 기반 모델의 잘 보정된 확률은 사용자 경험 개선에 활용 가능.
실제 배포 환경에서의 A/B 테스트를 통해 오프라인 분석 결과 검증.
한계점:
본 연구는 Thumbtack의 특정 데이터 세트에 기반하므로, 다른 데이터 세트에 대한 일반화 가능성은 제한적일 수 있음.
LLM 프롬프트 엔지니어링의 최적화 여지가 고려되지 않았을 가능성. 더욱 정교한 프롬프트 엔지니어링을 통해 성능 개선 가능성 존재.
다양한 LLM 모델에 대한 비교 분석이 부족. 다른 LLM 모델의 성능 비교를 통해 일반화 가능성을 높일 필요.
데이터셋의 특성(홈 서비스 프로젝트)이 결과에 영향을 미쳤을 가능성. 다른 도메인의 데이터셋으로의 확장성 검증 필요.
👍