Pandora는 다양한 구조화된 지식 소스(테이블, 데이터베이스, 지식 그래프)를 통합적으로 활용하여 자연어 질문에 답하는 새로운 통합 구조화 지식 추론(USKR) 프레임워크입니다. 기존 USKR 방법들은 특정 작업 전략이나 사용자 정의 표현에 의존하여, 다른 SKR 작업 간의 지식 전이를 활용하거나 LLM의 사전 지식과 연계하는 데 어려움을 겪어 성능이 제한적이었습니다. Pandora는 Python의 Pandas API를 활용하여 LLM 사전 훈련과의 정렬을 위한 통합 지식 표현을 구축합니다. LLM을 사용하여 각 질문에 대한 텍스트 기반 추론 단계와 실행 가능한 Python 코드를 생성하며, 다양한 SKR 작업을 다루는 훈련 예제 메모리를 활용하여 지식 전이를 용이하게 합니다.
시사점, 한계점
•
시사점:
◦
Pandas API를 활용한 통합 지식 표현으로 LLM 사전 훈련과의 정렬을 향상시켰습니다.
◦
LLM 기반 텍스트 추론과 실행 가능한 Python 코드 생성을 통해 다양한 SKR 작업에 대한 유연성을 확보했습니다.
◦
훈련 예제 메모리를 활용한 지식 전이를 통해 성능 향상을 이끌었습니다.
◦
네 가지 벤치마크에서 기존 통합 프레임워크를 능가하고 특정 작업 방식과 효과적으로 경쟁하는 성능을 보였습니다.
•
한계점:
◦
Pandas API에 대한 의존성이 높아 다른 프로그래밍 언어나 API로의 확장성이 제한될 수 있습니다.
◦
LLM의 성능에 의존적이므로, LLM의 한계가 Pandora의 성능에도 영향을 미칠 수 있습니다.
◦
다양한 SKR 작업에 대한 훈련 예제의 균형있는 구성이 중요하며, 데이터 편향이 성능에 영향을 줄 수 있습니다.