Sign In

Semantic Operators: A Declarative Model for Rich, AI-based Data Processing

Created by
  • Haebom
Category
Empty

저자

Liana Patel, Siddharth Jha, Melissa Pan, Harshit Gupta, Parth Asawa, Carlos Guestrin, Matei Zaharia

개요

본 논문은 자연어 명세를 기반으로 선언적이고 범용적인 AI 기반 변환을 위한 최초의 형식인 의미 연산자(semantic operators)를 제시한다. 기존 시스템의 한계인 비용 최적화의 성능 보장 부족 및 제한적인 행 단위 LLM 연산 제공을 극복하기 위해, 필터링, 정렬, 조인, 집계 등의 레코드 조작을 자연어 기준으로 수행하는 의미 연산자를 제안한다. 각 연산자는 관계형 연산자와 유사하게 다양한 실행 계획을 허용하며, 고품질 골드 알고리즘으로 각 연산자의 예상 동작을 명시하고, 골드 알고리즘에 대한 정확도 보장과 함께 비용을 절감하는 최적화 프레임워크를 개발하였다. 이를 통해 의미 필터링, 조인, 그룹화, top-k 연산을 최대 1,000배까지 가속화하는 여러 가지 새로운 최적화 기법을 제안한다. LOTUS 시스템에 의미 연산자를 구현하고, 사실 확인, 생의학 다중 레이블 분류, 검색, 주제 분석 등 실제 대량 의미 처리 애플리케이션에서 LOTUS의 효과를 보여준다. 몇몇 연산자 호출만으로 최첨단 AI 파이프라인을 포착하고, 최신 LLM 기반 분석 시스템의 품질을 최대 170%까지 능가하는 새로운 파이프라인을 쉽게 표현할 수 있음을 보여주며, 정확도 보장을 제공한다. 각 작업에 대해 최첨단 AI 파이프라인의 정확도를 충족하거나 능가하는 LOTUS 프로그램은 최고 품질의 기준보다 최대 3.6배 빠르게 실행된다. LOTUS는 https://github.com/lotus-data/lotus 에서 공개적으로 이용 가능하다.

시사점, 한계점

시사점:
자연어 기반의 선언적이고 범용적인 AI 기반 데이터 변환을 위한 새로운 형식인 의미 연산자 제시.
기존 LLM 기반 시스템의 성능 및 표현력 한계 극복.
고품질 골드 알고리즘 기반의 정확도 보장과 비용 절감 최적화 프레임워크 개발.
다양한 실제 애플리케이션에서 최첨단 AI 파이프라인 대비 성능 및 정확도 향상 증명.
LOTUS 시스템의 공개를 통한 접근성 확보.
한계점:
골드 알고리즘의 성능에 대한 의존도. 골드 알고리즘의 개발 및 유지보수 비용.
자연어 명세의 모호성으로 인한 오류 가능성. 명세의 정확성에 대한 의존도.
특정 유형의 데이터나 작업에 대한 최적화의 일반화 가능성에 대한 추가 연구 필요.
대규모 데이터셋에 대한 확장성 및 스케일업에 대한 추가적인 실험 및 분석 필요.
👍