본 논문은 대규모 언어 모델(LLM)의 환각(hallucination) 문제를 다국어 및 다모달 상황에서 조사하여 실제 응용 프로그램의 대규모 배포를 크게 발전시킬 수 있음을 보여줍니다. 기존 연구는 다국어 또는 다모달 시나리오 중 하나에만 국한되어 있었으나, 본 논문에서는 다국어 및 다모달 시나리오를 결합한 새로운 벤치마크인 CCHall을 제시합니다. CCHall은 다국어 및 다모달 환각 시나리오를 동시에 포함하여 LLM의 다국어 및 다모달 기능을 평가하는 데 사용될 수 있습니다. 본 논문에서는 주요 오픈소스 및 클로즈드소스 LLM을 대상으로 CCHall에 대한 포괄적인 평가를 수행하며, 그 결과 현재 LLM이 CCHall에서 여전히 어려움을 겪고 있음을 보여줍니다. CCHall은 다국어 및 다모달 시나리오에서 LLM을 평가하는 귀중한 자료로 활용될 수 있을 것으로 기대됩니다.
시사점, 한계점
•
시사점: 다국어 및 다모달 환각 문제를 동시에 고려하는 새로운 벤치마크 CCHall을 제시함으로써, LLM의 실제 세계 적용 가능성을 높이는 데 기여. 다양한 LLM에 대한 포괄적인 평가를 통해 현재 LLM의 한계를 명확히 제시.
•
한계점: CCHall 벤치마크 자체의 범위와 일반화 가능성에 대한 추가적인 연구 필요. 평가에 사용된 LLM의 종류 및 버전에 따라 결과가 달라질 수 있음. 환각 문제에 대한 정의 및 측정 방식에 대한 추가적인 논의 필요.