BR-TaxQA-R: A Dataset for Question Answering with References for Brazilian Personal Income Tax Law, including case law
Created by
Haebom
저자
Juvenal Domingos Junior, Augusto Faria, E. Seiti de Oliveira, Erick de Brito, Matheus Teotonio, Andre Assump\c{c}ao, Diedre Carmo, Roberto Lotufo, Jayr Pereira
개요
BR-TaxQA-R은 브라질 개인 소득세법 관련 참고자료를 이용한 질의응답을 지원하기 위해 고안된 새로운 데이터셋입니다. 브라질 국세청이 2024년에 발표한 공식 Q&A 문서의 질문 715개를 바탕으로, Conselho Administrativo de Recursos Fiscais (CARF)의 법규 및 행정 판결을 추가하여 구성되었습니다. OpenAI 임베딩을 사용한 검색과 GPT-4o-mini를 사용한 답변 생성을 포함하는 RAG(Retrieval-Augmented Generation) 파이프라인을 구현하여, 다양한 텍스트 분할 전략을 비교하고 ChatGPT 및 Perplexity.ai와 같은 상용 도구와 RAGAS 기반 지표를 사용하여 성능을 벤치마킹했습니다. 결과적으로, 자체 개발 RAG 파이프라인이 사용자 질의와의 정합성이 더 높은 응답 관련성 측면에서 상용 시스템보다 우수한 성능을 보였지만, 상용 모델은 사실 정확성 및 유창성 측면에서 더 높은 점수를 얻었습니다. 이는 법적 근거가 있는 생성과 언어적 유창성 사이의 상충 관계를 보여줍니다. 결정적으로, 세금과 같이 중요한 영역에서 AI 생성 답변의 법적 유효성을 보장하기 위해서는 전문가의 평가가 필수적이라는 점을 강조합니다. BR-TaxQA-R 데이터셋은 https://huggingface.co/datasets/unicamp-dl/BR-TaxQA-R 에서 공개적으로 이용 가능합니다.