haebom
Sign In
OASIS: A Multilingual and Multimodal Dataset for Culturally Grounded Spoken Visual QA
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Firoj Alam, Ali Ezzat Shahroor, Md. Arid Hasan, Zien Sheikh Ali, Hunzalah Hassan Bhatti, Mohamed Bayan Kmainasi, Shammur Absar Chowdhury, Basel Mousi, Fahim Dalvi, Nadir Durrani, Natasa Milic-Frayling
π‘ κ°μ
κΈ°μ‘΄ λκ·λͺ¨ λ€μ€λͺ¨λ¬ λͺ¨λΈμ λ¬Έν λ° μΌμ μμ, νΉν μ μμ μΈμ΄μμμ μ§μμ μ΄λ €μμ κ²ͺμ΅λλ€. λ³Έ λ Όλ¬Έμ μ΄λ―Έμ§, ν μ€νΈ, μμ±μ ν¬κ΄νλ λκ·λͺ¨ λ¬Έν κΈ°λ° λ€μ€λͺ¨λ¬ QA λ°μ΄ν°μ μΈ OASISλ₯Ό μ μνλ©°, μ΄λ μΌμμ μΈ λ§₯λ½μμ λͺ¨λΈμ μ€μ©μ , μμμ , λ¬Ένμ μΆλ‘ λ₯λ ₯μ νκ°ν©λλ€. OASISλ 0.92Mκ°μ μ€μ μ΄λ―Έμ§μ 14.8Mκ°μ QA μμ ν¬ν¨νλ©°, 42λͺ μ νμκ° λ Ήμν 3.7Mκ°μ μμ± μ§λ¬Έ(383μκ°)κ³Ό μμ± λ³΅μ (20Kμκ°)λ₯Ό μ§μν©λλ€.
π μμ¬μ λ° νκ³
β’
λ€μν μΈμ΄(μμ΄, νλ νμ€ μλμ΄ λ° λ°©μΈ λ±)μ λ¬ΈνκΆ(18κ°κ΅)μ μμ°λ₯΄λ λ°μ΄ν°μ μ ꡬμΆνμ¬, λ€κ΅μ΄ λ° λ€λ¬Έν νκ²½μμμ VQA λͺ¨λΈ μ±λ₯ ν₯μμ κΈ°μ¬ν μ μμ΅λλ€.
β’
λ¨μν κ°μ²΄ μΈμμ λμ΄, μ€μν μλ리μ€μμ μꡬλλ 볡μ‘νκ³ λ¬Ένμ μΈ μΆλ‘ λ₯λ ₯μ νκ°ν μ μλ μλ‘μ΄ λ²€μΉλ§ν¬λ₯Ό μ 곡ν©λλ€.
β’
μμ± μ λ ₯κ³Ό μ΄λ―Έμ§ μ λ ₯μ μ‘°ν©νκ±°λ λ 립μ μΌλ‘ νμ©ν μ μλ λ€μν μ λ ₯ μ€μ μ λμ± νμ€μ μΈ VQA νκ²½μ λͺ¨μ¬ν©λλ€.
β’
μμ± λ°μ΄ν°μ μλΉ λΆλΆμ΄ μμ± λ³΅μ λ‘ μ΄λ£¨μ΄μ Έ μμ΄, μ€μ μ¬λμ μμ±κ³Ό 볡μ λ μμ± κ°μ λͺ¨λΈ μ±λ₯ μ°¨μ΄μ λν μΆκ°μ μΈ λΆμμ΄ νμν μ μμ΅λλ€.
PDF 보기
Made with Slashpage