Sign In

Pseudocode-Guided Structured Reasoning for Automating Reliable Inference in Vision-Language Models

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Weicong Ni, Tianbao Jiang, Linlin Wang

πŸ’‘ κ°œμš”

λ‘œλ΄‡ μžλ™ν™”μ˜ ν•΅μ‹¬μœΌλ‘œ λΆ€μƒν•˜λŠ” Vision-Language Models(VLMs)λŠ” ν™˜κ°(hallucination) ν˜„μƒμœΌλ‘œ 인해 μ˜μ‚¬ κ²°μ •μ—μ„œ 치λͺ…적인 였λ₯˜λ₯Ό μœ λ°œν•˜λ©° μ•ˆμ „ 및 μ‹ λ’°μ„± μœ„ν—˜μ„ μ΄ˆλž˜ν•©λ‹ˆλ‹€. μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λ³Έ 논문은 PStar(Pseudocode-guided Structured Reasoning) ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•˜λ©°, μ΄λŠ” 좔상적 μΆ”λ‘  ν•¨μˆ˜μ™€ λͺ¨λ“ˆμ‹ μΆ”λ‘  μ „λž΅μ„ ν‘œν˜„ν•˜λŠ” κ΅¬μ‘°ν™”λœ μœ μ‚¬μ½”λ“œ 라이브러리λ₯Ό ν™œμš©ν•©λ‹ˆλ‹€. 질문의 λ‚œμ΄λ„λ₯Ό ν‰κ°€ν•˜κ³  μ μ ˆν•œ μΆ”λ‘  μ „λž΅μ„ λ™μ μœΌλ‘œ μ„ νƒν•˜λŠ” Difficulty Feature Vector(DFV)λ₯Ό μ„€κ³„ν•˜μ—¬ VLM의 견고성과 해석 κ°€λŠ₯성을 ν–₯μƒμ‹œν‚΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
PStar ν”„λ ˆμž„μ›Œν¬λŠ” VLM의 ν™˜κ° ν˜„μƒμ„ 크게 쀄여 μ‹ λ’°ν•  수 μžˆλŠ” 좔둠을 μžλ™ν™”ν•˜λŠ” 데 νš¨κ³Όμ μž…λ‹ˆλ‹€.
β€’
POPE 및 MMStar와 같은 λ²€μΉ˜λ§ˆν¬μ—μ„œ GPT-4Vλ₯Ό λŠ₯κ°€ν•˜λŠ” μ΅œμ²¨λ‹¨ μ„±λŠ₯을 λ‹¬μ„±ν•˜μ—¬ μ‹€μ œ ν™˜κ²½μ—μ„œμ˜ VLM 적용 κ°€λŠ₯성을 λ†’μ˜€μŠ΅λ‹ˆλ‹€.
β€’
질문 λ‚œμ΄λ„μ— 따라 μ μ‘μ μœΌλ‘œ μΆ”λ‘  μ „λž΅μ„ μ„ νƒν•˜λŠ” λ©”μ»€λ‹ˆμ¦˜μ„ 톡해 VLM의 견고성과 해석 κ°€λŠ₯성을 ν–₯μƒμ‹œν‚€λŠ” μƒˆλ‘œμš΄ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
PStar ν”„λ ˆμž„μ›Œν¬μ˜ μΌλ°˜ν™” μ„±λŠ₯κ³Ό 더 λ³΅μž‘ν•˜κ³  동적인 μ‹€μ œ μž‘μ—… ν™˜κ²½μ—μ„œμ˜ 적용 κ°€λŠ₯성에 λŒ€ν•œ 좔가적인 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘