본 논문은 바스크어, 카탈루냐어, 갈리시아어, 스페인어로 된 TruthfulQA 벤치마크의 전문 번역 확장판을 소개합니다. 대규모 언어 모델(LLM)의 진실성 평가는 주로 영어로 수행되었으나, 본 연구는 12개의 최첨단 오픈 LLM을 평가하여 언어 간 진실성 유지 능력을 조사합니다. 인간 평가, 객관식 지표, LLM-as-a-Judge 스코어링을 사용하여 기본 모델과 지시어 튜닝 모델을 비교 분석하며, LLM의 성능은 영어에서 가장 우수하고 바스크어(자원이 가장 부족한 언어)에서 가장 저조하지만, 언어 간 진실성 차이는 예상보다 작다는 것을 밝힙니다. LLM-as-a-Judge가 객관식 지표보다 인간 판단과 더 높은 상관관계를 보이며, 정보성이 진실성 평가에 중요한 역할을 한다는 점도 제시합니다. 기계 번역이 진실성 벤치마크를 다른 언어로 확장하는 실행 가능한 방법임을 보여주고, 보편적인 지식 질문이 맥락 및 시간 의존적 질문보다 언어 간 성능이 더 우수하다는 점을 강조하며, 문화적, 시간적 변동성을 고려한 진실성 평가의 필요성을 제기합니다. 데이터셋과 코드는 오픈 라이선스로 공개됩니다.