Can Large Language Models Understand Symbolic Graphics Programs?
Created by
Haebom
저자
Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Scholkopf
개요
본 논문은 대규모 언어 모델(LLM)의 공간-의미 추론 능력을 평가하기 위해 기호 그래픽 프로그램을 활용한 새로운 벤치마크를 제안합니다. 기호 그래픽 프로그램은 시각 데이터를 절차적으로 생성하며, LLM이 시각 인코더 없이 이미지나 3D 기하학에 대한 의미 질문에 답하는 능력을 평가할 수 있도록 합니다. LLM이 기호 프로그램을 의미적으로 이해하려면, 기호적 설명만으로 그래픽 콘텐츠가 어떻게 보일지 "상상하고" 추론해야 합니다. 논문에서는 최소한의 인력으로 절차적으로 생성된 대규모 벤치마크를 만들어 상용 및 오픈소스 LLM을 평가하고, 이미지 수준의 의미는 불변이지만 기본 프로그램에는 상당한 변화를 가져오는 이미지 변환에 특히 중점을 둡니다. 또한, 기호 그래픽 프로그램에 대한 사전 수집된 지시 데이터로 LLM을 미세 조정하는 새로운 방법인 기호 지시 조정(SIT)을 제시하고, 이를 통해 LLM의 기호 프로그램 이해 능력과 일반 추론 능력이 향상됨을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기호 그래픽 프로그램을 이용한 LLM의 공간-의미 추론 능력 평가에 대한 새로운 벤치마크 제시.
◦
시각 인코더 없이 의미적 시각 이해 능력 평가 가능성 제시.
◦
LLM의 추론 능력과 기호 프로그램 이해 능력 간의 상관관계 확인.
◦
기호 지시 조정(SIT)이 LLM의 기호 프로그램 이해 능력 및 일반 추론 능력 향상에 효과적임을 증명.
•
한계점:
◦
제시된 벤치마크의 일반화 가능성에 대한 추가 연구 필요.
◦
SIT의 효과가 모든 유형의 LLM에 적용 가능한지에 대한 추가 연구 필요.
◦
기호 그래픽 프로그램이 모든 유형의 공간-의미 추론 능력을 포괄적으로 평가할 수 있는지에 대한 추가 검토 필요.