Sign In

LFQA-HP-1M: A Large-Scale Human Preference Dataset for Long-Form Question Answering

Created by
  • Haebom
Category
Empty

μ €μž

Rafid Ishrak Jahan, Fahmid Shahriar Iqbal, Sagnik Ray Choudhury

πŸ’‘ κ°œμš”

λ³Έ 논문은 닀쀑 λ¬Έμž₯으둜 κ΅¬μ„±λœ μ„€λͺ…ν˜• λ‹΅λ³€μ˜ λ―Έλ¬˜ν•œ 평가가 μš”κ΅¬λ˜λŠ” μž₯λ¬Έ μ§ˆμ˜μ‘λ‹΅(LFQA) λΆ„μ•Όμ—μ„œ μΈκ°„μ˜ νŒλ‹¨μ„ μ œλŒ€λ‘œ λ°˜μ˜ν•˜μ§€ λͺ»ν•˜λŠ” κΈ°μ‘΄ 평가 μ§€ν‘œμ˜ ν•œκ³„λ₯Ό μ§€μ ν•©λ‹ˆλ‹€. 이λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ 130만 건의 인간 μŒλŒ€ μ„ ν˜Έλ„ 주석을 ν¬ν•¨ν•˜λŠ” λŒ€κ·œλͺ¨ LFQA-HP-1M 데이터셋을 μ œμ•ˆν•˜λ©°, λ‹΅λ³€ ν’ˆμ§ˆ 평가λ₯Ό μœ„ν•œ 9κ°€μ§€ λ£¨λΈŒλ¦­μ„ μ œμ‹œν•˜μ—¬ κ°„λ‹¨ν•œ μ„ ν˜• λͺ¨λΈμ΄ μ΅œμ‹  LLM 평가 λͺ¨λΈκ³Ό μœ μ‚¬ν•œ μ„±λŠ₯을 λ³΄μž„μ„ μž…μ¦ν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LFQA λΆ„μ•Όμ—μ„œ μΈκ°„μ˜ μ„ ν˜Έλ„λ₯Ό λ°˜μ˜ν•˜λŠ” λŒ€κ·œλͺ¨ 데이터셋(LFQA-HP-1M)을 κ΅¬μΆ•ν•˜κ³  κ³΅κ°œν•˜μ—¬ κ΄€λ ¨ 연ꡬλ₯Ό μ΄‰μ§„ν•©λ‹ˆλ‹€.
β€’
λͺ…ν™•ν•œ 루브릭 기반 평가 ν”„λ ˆμž„μ›Œν¬λ₯Ό μ œμ‹œν•˜μ—¬ LFQA λͺ¨λΈ ν‰κ°€μ˜ 투λͺ…μ„±κ³Ό 신뒰성을 높일 수 μžˆλŠ” κ°€λŠ₯성을 λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
LLM 평가 λͺ¨λΈμ˜ κ³Όλ„ν•œ κΈ΄ λ‹΅λ³€ μ„ ν˜Έ κ²½ν–₯(verbosity bias), μœ„μΉ˜ 편ν–₯, μ λŒ€μ  곡격에 λŒ€ν•œ 취약성을 λΆ„μ„ν•˜κ³  이에 λŒ€ν•œ κ°œμ„ μ˜ ν•„μš”μ„±μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
πŸ‘