Sign In

AudioCapBench: Quick Evaluation on Audio Captioning across Sound, Music, and Speech

Created by
  • Haebom
Category
Empty

μ €μž

Jielin Qiu, Jianguo Zhang, Zixiang Chen, Liangwei Yang, Ming Zhu, Juntao Tan, Haolin Chen, Wenting Zhao, Rithesh Murthy, Roshan Ram, Akshara Prabhakar, Shelby Heinecke, Caiming, Xiong, Silvio Savarese, Huan Wang

πŸ’‘ κ°œμš”

λ³Έ 논문은 λŒ€κ·œλͺ¨ λ©€ν‹°λͺ¨λ‹¬ λͺ¨λΈμ˜ μ˜€λ””μ˜€ 캑셔닝 λŠ₯λ ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ 벀치마크인 AudioCapBenchλ₯Ό μ œμ•ˆν•œλ‹€. 이 λ²€μΉ˜λ§ˆν¬λŠ” ν™˜κ²½μŒ, μŒμ•…, μŒμ„± λ“± μ„Έ κ°€μ§€ μ˜€λ””μ˜€ λ„λ©”μΈμ—μ„œ 1,000개의 평가 μƒ˜ν”Œμ„ ν¬ν•¨ν•˜λ©°, μ°Έμ‘° 기반 μ§€ν‘œμ™€ LLM-as-Judge ν”„λ ˆμž„μ›Œν¬λ₯Ό μ‚¬μš©ν•˜μ—¬ 13개 λͺ¨λΈμ„ ν‰κ°€ν•œλ‹€. 연ꡬ κ²°κ³Ό, Gemini λͺ¨λΈμ΄ μ „λ°˜μ μΈ 캑셔닝 ν’ˆμ§ˆμ—μ„œ OpenAI λͺ¨λΈλ³΄λ‹€ μš°μˆ˜ν–ˆμœΌλ©°, λͺ¨λ“  λͺ¨λΈμ΄ μŒμ„± μΊ‘μ…”λ‹μ—μ„œ κ°€μž₯ 쒋은 μ„±λŠ₯을 λ³΄μ˜€λ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
AudioCapBenchλŠ” λ‹€μ–‘ν•œ μ˜€λ””μ˜€ 도메인에 걸쳐 μ˜€λ””μ˜€ 캑셔닝 λͺ¨λΈμ˜ μ„±λŠ₯을 μ²΄κ³„μ μœΌλ‘œ 평가할 수 μžˆλŠ” ν‘œμ€€ν™”λœ 방법둠을 μ œκ³΅ν•œλ‹€.
β€’
Gemini λͺ¨λΈμ΄ OpenAI λͺ¨λΈλ³΄λ‹€ μ „λ°˜μ μœΌλ‘œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ©°, 특히 μŒμ„± μΊ‘μ…”λ‹μ—μ„œ 강점을 λ‚˜νƒ€λƒˆλ‹€.
β€’
μŒμ•… 캑셔닝은 λͺ¨λ“  λͺ¨λΈμ—κ²Œ κ°€μž₯ μ–΄λ €μš΄ κ³Όμ œμ˜€μœΌλ©°, μ΄λŠ” μŒμ•…μ˜ λ³΅μž‘μ„±κ³Ό 주관성에 기인할 수 μžˆλ‹€.
β€’
hallucination(ν™˜κ°) ν‰κ°€λŠ” λͺ¨λΈμ˜ 신뒰성을 μΈ‘μ •ν•˜λŠ” 데 μ€‘μš”ν•œ μ§€ν‘œλ‘œ ν™œμš©λ  수 μžˆλ‹€.
β€’
λ³Έ 벀치마크 및 평가 μ½”λ“œλ₯Ό κ³΅κ°œν•˜μ—¬ ν–₯ν›„ μ˜€λ””μ˜€ 이해 μ—°κ΅¬μ˜ μž¬ν˜„μ„±μ„ 높이고 λ°œμ „μ„ 촉진할 수 μžˆλ‹€.
β€’
평가 μƒ˜ν”Œμ˜ 양이 μƒλŒ€μ μœΌλ‘œ 적고, νŠΉμ • μœ ν˜•μ˜ μ˜€λ””μ˜€μ— νŽΈμ€‘λ  κ°€λŠ₯성이 μžˆμ–΄ 더 포괄적인 데이터셋 ꡬ좕이 ν•„μš”ν•˜λ‹€.
β€’
LLM-as-Judge ν”„λ ˆμž„μ›Œν¬λŠ” ν‰κ°€μž κ°„ 일관성 및 ν‰κ°€μ˜ 객관성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•˜λ‹€.
πŸ‘