haebom
Sign In
OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL
μμ±μ
Haebom
μΉ΄ν κ³ λ¦¬
Empty
μ μ
Jinjie Shen, Jing Wu, Yaxiong Wang, Lechao Cheng, Shengeng Tang, Tianrui Hui, Nan Pu, Zhun Zhong
π‘ κ°μ
λ³Έ λ Όλ¬Έμ ν μ€νΈ, μ΄λ―Έμ§, λΉλμ€κ° νΌν©λ 볡μ‘ν λ―Έλμ΄ νκ²½μμ λ°μνλ νμ μ 보 νμ§λ₯Ό μν ν΅ν© νλ μμν¬μΈ OmniVL-Guardλ₯Ό μ μν©λλ€. κΈ°μ‘΄ μ°κ΅¬μ νκ³λ₯Ό 극볡νκΈ° μν΄, OmniVL-Guardλ λ€μ€ λͺ¨λ¬λ¦¬ν° κ°μ μνΈμμ©κ³Ό νμ§ λ° μμΉ νμ μ΄λΌλ λ κ°μ§ μꡬμ¬ν μ¬μ΄μ κ· νμ λ§μΆλ "λμ΄λ νΈν₯" λ¬Έμ λ₯Ό ν΄κ²°ν©λλ€. μ΄λ₯Ό μν΄ μ체 μ§νν CoT μμ±κ³Ό μ μν 보μ μ€μΌμΌλ§ μ μ± μ΅μ ν(ARSPO)λ₯Ό νμ©νμ¬ νμ μ 보 νμ§μ κ·Έ μΆμ²λ₯Ό λμμ νμ νλ μ±λ₯μ ν₯μμν΅λλ€.
π μμ¬μ λ° νκ³
β’
λ€μ€ λͺ¨λ¬λ¦¬ν° νμ μ 보 νμ§ λ° μΆμ² νμ μ ν΅ν©:
ν μ€νΈ, μ΄λ―Έμ§, λΉλμ€κ° λ€μμΈ λ³΅μ‘ν νμ€ μΈκ³μ νμ μ 보λ₯Ό λ¨μΌ νλ μμν¬μμ ν¨κ³Όμ μΌλ‘ νμ§νκ³ μΆμ²λ₯Ό νμ ν μ μλ κ°λ₯μ±μ μ μν©λλ€.
β’
λμ΄λ νΈν₯ λ¬Έμ ν΄κ²°μ ν΅ν μ±λ₯ ν₯μ:
λ¨μν μ§μ νλ³ μμ μ΄ λ―ΈμΈν μμΉ νμ μ±λ₯μ μ ν΄νλ "λμ΄λ νΈν₯" λ¬Έμ λ₯Ό ν΄κ²°ν¨μΌλ‘μ¨, λ μμ μ λμμ μ΅μ ννλ λ° μ±κ³΅νμ΅λλ€.
β’
μ λ‘μ· μΌλ°ν λ₯λ ₯:
νμ΅ λ°μ΄ν°μ μ ν¬ν¨λμ§ μμ μλ‘μ΄ λλ©μΈμ νμ μ 보μ λν΄μλ κ°κ±΄ν μ λ‘μ· μΌλ°ν μ±λ₯μ 보μ¬μ€λλ€.
β’
νκ³μ :
μ μλ λ°©λ²λ‘ μ 볡μ‘μ±μΌλ‘ μΈν΄ μ€μ μλΉμ€μ μ μ©νκΈ° μν μΆκ°μ μΈ μ΅μ ν λ° ν¨μ¨μ± κ°μ μ°κ΅¬κ° νμν μ μμ΅λλ€. λν, λ€μν μ νμ νμ μ 보(μ: λ₯νμ΄ν¬, μ‘°μλ ν μ€νΈ)μ λν μ±λ₯μ λ νλκ² κ²μ¦ν νμκ° μμ΅λλ€.
PDF 보기
Made with Slashpage