Sign In

Revisiting the Reliability of Language Models in Instruction-Following

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Jianshuo Dong, Yutong Zhang, Yan Liu, Zhenyu Zhong, Tao Wei, Chao Zhang, Han Qiu

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ΅œμ‹  μ–Έμ–΄ λͺ¨λΈμ΄ λ²€μΉ˜λ§ˆν¬μ—μ„œ 높은 μ§€μ‹œ μˆ˜ν–‰ 정확도λ₯Ό λ³΄μ΄μ§€λ§Œ, μ‹€μ œ μ‚¬μš© ν™˜κ²½μ—μ„œλŠ” μ‚¬μš©μž μž…λ ₯의 λ―Έλ¬˜ν•œ 변화에 λŒ€ν•΄ μΌκ΄€λœ μ„±λŠ₯을 보이지 λͺ»ν•˜λŠ” 문제λ₯Ό μ œκΈ°ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ "λ‰˜μ•™μŠ€ μ§€ν–₯ μ‹ λ’°μ„±"을 μ •μ˜ν•˜κ³ , μƒˆλ‘œμš΄ 평가 μ§€ν‘œμΈ reliable@k와 μžλ™ν™”λœ μ‚¬μ΄Œ ν”„λ‘¬ν”„νŠΈ 생성 νŒŒμ΄ν”„λΌμΈμ„ κ°œλ°œν•˜μ—¬ IFEval++ 벀치마크λ₯Ό κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€. 연ꡬ κ²°κ³Ό, ν˜„μž¬ μ–Έμ–΄ λͺ¨λΈλ“€μ€ μ‚¬μ΄Œ ν”„λ‘¬ν”„νŠΈμ— λŒ€ν•œ 신뒰성이 ν˜„μ €νžˆ λΆ€μ‘±ν•˜λ©°, μ„±λŠ₯이 μ΅œλŒ€ 61.8%κΉŒμ§€ ν•˜λ½ν•˜λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
ν˜„μž¬ μ–Έμ–΄ λͺ¨λΈμ€ μ‚¬μš©μž μž…λ ₯의 λ―Έλ¬˜ν•œ 변화에 λŒ€ν•œ 신뒰성이 맀우 λΆ€μ‘±ν•˜λ©°, μ‹€μ œ μ„œλΉ„μŠ€ μ μš©μ— λŒ€ν•œ μ‹ μ€‘ν•œ 접근이 ν•„μš”ν•©λ‹ˆλ‹€.
β€’
"λ‰˜μ•™μŠ€ μ§€ν–₯ μ‹ λ’°μ„±"은 μ–Έμ–΄ λͺ¨λΈμ˜ μ‹ λ’°μ„±κ³Ό 견고성을 ν–₯μƒμ‹œν‚€κΈ° μœ„ν•œ μ€‘μš”ν•œ 연ꡬ λ°©ν–₯을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ•ˆλœ μžλ™ν™”λœ νŒŒμ΄ν”„λΌμΈκ³Ό IFEval++ λ²€μΉ˜λ§ˆν¬λŠ” ν–₯ν›„ λͺ¨λΈμ˜ λ‰˜μ•™μŠ€ μ§€ν–₯ 신뒰성을 ν‰κ°€ν•˜κ³  κ°œμ„ ν•˜λŠ” 데 κΈ°μ—¬ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
λͺ¨λΈμ˜ λ‰˜μ•™μŠ€ μ§€ν–₯ 신뒰성을 높이기 μœ„ν•œ κ°œμ„  방법둠에 λŒ€ν•œ 좔가적인 탐색과 검증이 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘