[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

HATS: Hindi Analogy Test Set for Evaluating Reasoning in Large Language Models

Created by
  • Haebom

저자

Ashray Gupta, Rohan Joseph, Sunny Rai

개요

본 논문은 인도어(Hindi)의 유추 능력 평가를 위한 새로운 데이터셋인 HATS(Hindi Analogy Test Set)를 제시합니다. HATS는 인도 정부 시험에서 발췌한 405개의 객관식 문제로 구성되며, 다양한 언어 모델의 유추 능력을 평가하는 데 활용됩니다. 논문에서는 최첨단 다국어 LLM들을 다양한 프롬프팅 전략과 인지 이론에 기반한 grounded Chain of Thought 접근 방식을 사용하여 평가하고, Hindi 유추 문제에서 모델 성능을 향상시키는 방법을 제시합니다. 실험 결과, 프롬프팅 전략에 관계없이 영어 프롬프트를 사용했을 때 모델 성능이 가장 우수한 것으로 나타났습니다. 본 연구는 Hindi 언어의 LLM 추론 능력 평가를 위한 중요한 자원 부족 문제를 해결합니다.

시사점, 한계점

시사점:
Hindi 언어의 LLM 추론 능력 평가를 위한 새로운 데이터셋 HATS를 제공합니다.
grounded Chain of Thought 접근 방식이 Hindi 유추 문제에서 모델 성능 향상에 기여함을 보여줍니다.
다국어 LLM의 유추 능력을 평가하고, 언어 간 일반화 능력을 분석하는 데 기여합니다.
영어 프롬프트의 효과를 확인하여 향후 연구 방향을 제시합니다.
한계점:
현재 HATS는 인도 정부 시험 문제에 국한되어 있어, Hindi 언어의 다양한 유추 유형을 완전히 반영하지 못할 수 있습니다.
평가에 사용된 LLM의 종류와 크기가 제한적일 수 있습니다.
영어 프롬프트가 가장 효과적이라는 결과는 언어 간 편향을 고려해야 할 필요성을 시사합니다.
grounded Chain of Thought 접근 방식의 일반화 가능성에 대한 추가 연구가 필요합니다.
👍