Sign In

Beyond Overlap Metrics: Rewarding Reasoning and Preferences for Faithful Multi-Role Dialogue Summarization

Created by
  • Haebom
Category
Empty

μ €μž

Xiaoyong Mei, Tingting Zuo, Da Chen, Guangyu Hu, Xiangyu Wen, Chao Duan, Mingyan Zhang, Fudan Zheng

πŸ’‘ κ°œμš”

λ³Έ 논문은 μ—¬λŸ¬ ν™”μžκ°€ μ°Έμ—¬ν•˜λŠ” 닀쀑 μ—­ν•  λŒ€ν™” μš”μ•½μ—μ„œ ν‘œλ©΄μ μΈ μœ μ‚¬μ„±λ§Œμ„ ν‰κ°€ν•˜λŠ” κΈ°μ‘΄ λ°©μ‹μ˜ ν•œκ³„λ₯Ό μ§€μ ν•˜λ©°, 인지적 μΆ”λ‘ κ³Ό 인간 μ„ ν˜Έλ„λ₯Ό λ°˜μ˜ν•˜λŠ” μƒˆλ‘œμš΄ ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆ 방식은 λŒ€κ·œλͺ¨ λͺ¨λΈλ‘œλΆ€ν„° μΆ”μΆœλœ κ΅¬μ‘°ν™”λœ μΆ”λ‘  과정을 보쑰 지도 ν•™μŠ΅μœΌλ‘œ ν™œμš©ν•˜κ³ , 이후 GRPOλ₯Ό 톡해 핡심 정보, μΆ”λ‘ , 사싀성, 간결성을 κ³ λ €ν•œ 보상 λͺ¨λΈμ„ μ μš©ν•˜μ—¬ μš”μ•½κΈ°λ₯Ό μ΅œμ ν™”ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 κΈ°μ‘΄ μ§€ν‘œμ—μ„œ 경쟁λ ₯ μžˆλŠ” μ„±λŠ₯을 μœ μ§€ν•˜λ©΄μ„œλ„ 사싀적 좩싀도와 인간 μ„ ν˜Έλ„μ— 더 잘 λΆ€ν•©ν•˜λŠ” μš”μ•½μ„ μƒμ„±ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
인지적 μΆ”λ‘  κ°•ν™”: λͺ…μ‹œμ μΈ μΆ”λ‘  과정을 ν•™μŠ΅μ— ν†΅ν•©ν•¨μœΌλ‘œμ¨, λ‹¨μˆœνžˆ μ°Έμ‘° ν…μŠ€νŠΈλ₯Ό λͺ¨λ°©ν•˜λŠ” 것이 μ•„λ‹ˆλΌ λŒ€ν™” λ‚΄μš©μ„ 깊이 μ΄ν•΄ν•˜κ³  μš”μ•½ν•˜λŠ” λŠ₯λ ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
인간 μ„ ν˜Έλ„ 반영: λ‹¨μˆœ μ§€ν‘œλ₯Ό λ„˜μ–΄ 인간이 μ€‘μš”ν•˜κ²Œ μ—¬κΈ°λŠ” 정보 포함, μ•”μ‹œμ  μΆ”λ‘ , 사싀적 μ •ν™•μ„± 등을 보상 κΈ°μ€€μœΌλ‘œ μ‚Όμ•„ λ”μš± μœ μš©ν•˜κ³  μ‹ λ’°ν•  수 μžˆλŠ” μš”μ•½μ„ μƒμ„±ν•©λ‹ˆλ‹€.
β€’
데이터 및 λͺ¨λΈ λ³΅μž‘μ„±: μΆ”λ‘  과정을 μΆ”μΆœν•˜κ³ , 단계별 지도 ν•™μŠ΅μ„ μˆ˜ν–‰ν•˜λ©°, κ°•ν™” ν•™μŠ΅μ„ μ μš©ν•˜λŠ” 과정이 λ³΅μž‘ν•˜κ³  좔가적인 데이터 및 μ—°μ‚° μžμ›μ„ μš”κ΅¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘