Sign In

Investigating Thinking Behaviours of Reasoning-Based Language Models for Social Bias Mitigation

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Guoqing Luo, Iffat Maab, Lili Mou, Junichi Yamagishi

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μΆ”λ‘  기반 λŒ€κ·œλͺ¨ μ–Έμ–΄ λͺ¨λΈ(LLM)이 λ³΅μž‘ν•œ μž‘μ—…μ„ μˆ˜ν–‰ν•  λ•Œ λ‚΄μž¬λœ 사고 과정을 톡해 μ‚¬νšŒμ  νŽΈκ²¬μ„ μ¦ν­μ‹œν‚€λŠ” ν˜„μƒμ„ νƒκ΅¬ν•©λ‹ˆλ‹€. 두 κ°€μ§€ μ£Όμš” μ‹€νŒ¨ νŒ¨ν„΄, 즉 편견 μ •λ‹Ήν™”λ₯Ό μœ„ν•œ 고정관념 반볡과 편ν–₯된 μ„œμ‚¬λ₯Ό λ’·λ°›μΉ¨ν•˜κΈ° μœ„ν•œ λ¬΄κ΄€ν•œ 정보 μ£Όμž…μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. 이λ₯Ό λ°”νƒ•μœΌλ‘œ λͺ¨λΈμ΄ 자체 좔둠을 νŠΉμ • μ‹€νŒ¨ νŒ¨ν„΄μ— λŒ€ν•΄ κ²€ν† ν•˜λ„λ‘ μœ λ„ν•˜λŠ” κ²½λŸ‰μ˜ ν”„λ‘¬ν”„νŠΈ 기반 μ™„ν™” 방법을 μ œμ•ˆν•©λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μΆ”λ‘  기반 LLMμ—μ„œ λ°œμƒν•˜λŠ” μ‚¬νšŒμ  편견 증폭 λ©”μ»€λ‹ˆμ¦˜μ„ λͺ…ν™•νžˆ 규λͺ…ν–ˆμŠ΅λ‹ˆλ‹€.
β€’
편견 μ™„ν™”λ₯Ό μœ„ν•œ 효과적인 ν”„λ‘¬ν”„νŠΈ 기반 μ ‘κ·Ό λ°©μ‹μ˜ κ°€λŠ₯성을 μ œμ‹œν•©λ‹ˆλ‹€.
β€’
μ œμ•ˆλœ λ°©λ²•λ‘ μ˜ νš¨κ³Όμ„±μ„ λ‹€μ–‘ν•œ λ²€μΉ˜λ§ˆν¬μ—μ„œ μž…μ¦ν–ˆμ§€λ§Œ, μ‹€μ œ λ³΅μž‘ν•œ μ‹œλ‚˜λ¦¬μ˜€μ—μ„œμ˜ 적용 κ°€λŠ₯μ„± 및 λ‹€λ₯Έ 편ν–₯ μ™„ν™” κΈ°λ²•κ³Όμ˜ 비ꡐ 연ꡬ가 ν•„μš”ν•©λ‹ˆλ‹€.
πŸ‘