haebom
Sign In
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
Created by
Haebom
Category
Empty
์ ์
Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee
๐ก ๊ฐ์
๊ธฐ์กด ์์ ๊ธฐ๋ฐ ๋ฉํฐ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM) ๋ฒค์น๋งํฌ๋ ์ธ๊ฐ์ ์์ฑ์ ๋ํ ๋ฏธ์ธํ ์ถ๋ก ๋ฅ๋ ฅ์ ์ถฉ๋ถํ ํ๊ฐํ์ง ๋ชปํฉ๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋๊ฐ ๋งํ๊ณ , ๋ฌด์์ ๋งํ๋ฉฐ, ์ธ์ ๋งํ๋์ง์ ๋ํ ํ์ ์ค์ฌ์ ์์-์์ฑ ์ถ๋ก ์ ํ๊ฐํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ์ธ AV-SpeakerBench๋ฅผ ์ ์ํฉ๋๋ค. AV-SpeakerBench๋ 3,212๊ฐ์ ๊ฐ๊ด์ ๋ฌธ์ ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ํ์๋ฅผ ํต์ฌ ์ถ๋ก ๋จ์๋ก ์ผ๊ณ , ์์-์์ฑ ์ข ์์ฑ์ ์ง๋ฌธ ์๋ฏธ์ ํฌํจ์ํค๋ฉฐ, ์ ๋ฌธ๊ฐ ์์ค์ ์ ๋ฐํ ์ฃผ์์ ํน์ง์ผ๋ก ํฉ๋๋ค.
๐ ์์ฌ์ ๋ฐ ํ๊ณ
โข
AV-SpeakerBench๋ MLLM์ ๋ฏธ์ธํ ์์ฑ ์ดํด ๋ฐ ํ์ ์ค์ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐ ์์ด ์ค์ํ ์๋ก์ด ๊ธฐ์ค์ ์ ์ ์ํฉ๋๋ค.
โข
Gemini ๋ชจ๋ธ์ด ํ์ฌ ์คํ ์์ค ๋ชจ๋ธ๋ณด๋ค ์๋ฑํ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, ํนํ Gemini 2.5 Pro๊ฐ ์ต์์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ ๋ชจ๋ธ์ ์์-์์ฑ ์ตํฉ ๋ฅ๋ ฅ์ด ์ฑ๋ฅ์ ์ค์ํ ์ํฅ์ ๋ฏธ์นจ์ ์์ฌํฉ๋๋ค.
โข
ํ์ฌ ๋ฒค์น๋งํฌ๋ ์ค์ ๋ณต์กํ ์ํฉ์์์ MLLM ์์ฑ ์ดํด ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์์์ ์ด๋ฉฐ, ํฅํ ๋ค์ํ ์์ฑ ํน์ง ๋ฐ ๋ณตํฉ์ ์ธ ์ถ๋ก ๋ฅ๋ ฅ์ ํ๊ฐํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ์ด ํ์ํฉ๋๋ค.
PDF ๋ณด๊ธฐ
Made with Slashpage