LLMs4SchemaDiscovery: A Human-in-the-Loop Workflow for Scientific Schema Mining with Large Language Models
Created by
Haebom
저자
Sameer Sadruddin, Jennifer D'Souza, Eleni Poupaki, Alex Watkins, Hamed Babaei Giglou, Anisa Rula, Bora Karasulu, Soren Auer, Adrie Mackus, Erwin Kessels
개요
본 논문은 비정형 텍스트에서 구조화된 정보를 추출하는 새로운 도구인 schema-miner를 제시합니다. 기존의 스키마 마이닝은 준구조화 데이터에 의존하여 확장성이 제한적이었던 반면, schema-miner는 대규모 언어 모델과 사람의 피드백을 결합하여 스키마 추출을 자동화하고 개선합니다. 반복적인 작업 흐름을 통해 텍스트에서 속성을 구성하고, 전문가의 의견을 통합하며, 도메인 특정 온톨로지를 통합하여 의미적 깊이를 더합니다. 특히, 원자층 증착(atomic layer deposition)이라는 재료 과학 분야에 적용하여 전문가가 안내하는 대규모 언어 모델이 다양한 실제 응용 프로그램에 적합한 의미적으로 풍부한 스키마를 생성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
대규모 언어 모델과 인간 피드백을 결합하여 비정형 텍스트에서 스키마를 자동으로 추출하는 새로운 방법을 제시합니다.
◦
기존의 스키마 마이닝의 확장성 문제를 해결할 수 있는 가능성을 보여줍니다.
◦
도메인 특정 온톨로지를 통합하여 의미적으로 풍부한 스키마를 생성할 수 있습니다.
◦
실제 응용 프로그램(재료 과학 분야의 원자층 증착)에 적용 가능성을 입증합니다.
•
한계점:
◦
현재는 특정 도메인(재료 과학)에만 적용되었으므로, 다른 도메인으로의 일반화 가능성은 추가 연구가 필요합니다.
◦
전문가의 피드백에 의존하는 부분이 있어, 전문가의 참여가 어려운 경우 적용이 어려울 수 있습니다.
◦
대규모 언어 모델의 성능에 의존하므로, 모델의 한계가 스키마 추출의 정확도에 영향을 미칠 수 있습니다.