Sign In

Parameterized Argumentation-based Reasoning Tasks for Benchmarking Generative Language Models

Created by
  • Haebom
Category
Empty

저자

Cor Steging, Silja Renooij, Bart Verheij

개요

본 논문은 법률 분야에서 생성형 대형 언어 모델(LLM)의 활용 가능성을 다루면서, 현재 모델들의 취약하고 불명확한 추론 능력으로 인해 법률 및 증거 영역에의 안전한 적용이 어렵다는 점을 지적합니다. 이에 따라, 생성형 언어 모델의 추론 능력을 평가하기 위한 벤치마크 생성 방법을 제시합니다. 이 벤치마크는 동적으로 변화하며, 복잡성을 확장할 수 있고, 공식적으로 모호하지 않은 해석을 제공합니다. 증인 증언을 중심으로, 선형 및 비선형 논증 공격 그래프를 동적으로 생성하여 자연어로 표현된 추론 퍼즐로 변환하는 방식을 제시합니다. 실험 결과, 최첨단 LLM들도 저 복잡도의 퍼즐에서조차 자주 실패하며, 일관성 없는 성능을 보임으로써 추론 능력의 취약성을 드러냅니다. 고 복잡도에서는 추론 능력을 위해 특별히 고안된 최첨단 모델조차 실수를 저지릅니다. 결론적으로, 본 연구는 다양한 복잡도를 가진 매개변수화된 벤치마크를 사용하여 생성형 언어 모델의 추론 능력을 평가할 수 있음을 보여주며, 법률 분야에서 책임감 있는 AI 시스템 설계에 필수적인 생성형 모델의 추론 능력 한계에 대한 이해를 증진시킵니다.

시사점, 한계점

시사점:
생성형 LLM의 추론 능력 평가를 위한 새로운 벤치마크 접근 방식 제시
증인 증언 분석을 통한 LLM의 추론 능력 취약성 규명
법률 분야에서의 책임감 있는 AI 시스템 설계를 위한 중요한 통찰력 제공
LLM의 추론 능력의 복잡도에 따른 성능 변화 분석 가능
한계점:
제시된 벤치마크가 증인 증언에 국한되어 다른 법률 영역으로의 일반화 가능성에 대한 추가 연구 필요
현재 LLM의 추론 능력 한계를 명확히 보여주지만, 이를 극복하기 위한 구체적인 해결 방안 제시는 부족
벤치마크의 복잡도 설정 및 측정에 대한 객관적인 기준 마련 필요
다양한 유형의 LLM에 대한 광범위한 실험이 필요
👍