Sign In

Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Governance Benchmark for Large Language Models

Created by
  • Haebom
Category
Empty

μ €μž

G. Madan Mohan, Veena Kiran Nambiar, Kiranmayee Janardhan

πŸ’‘ κ°œμš”

λ³Έ 논문은 κ±°λŒ€ μ–Έμ–΄ λͺ¨λΈ(LLM)의 행동을 μ œμ–΄ν•˜κΈ° μœ„ν•œ 졜초의 κ²½ν—˜μ  평가 ν”„λ ˆμž„μ›Œν¬μΈ Dynamic Behavioral Constraint (DBC) 벀치마크λ₯Ό μ œμ•ˆν•©λ‹ˆλ‹€. μ œμ•ˆλœ 150개 μ œμ–΄λ‘œ κ΅¬μ„±λœ MDBC(Madan DBC) μ‹œμŠ€ν…œμ€ μΆ”λ‘  μ‹œμ μ— LLM에 μ μš©λ˜λŠ” μ‹œμŠ€ν…œ ν”„λ‘¬ν”„νŠΈ 레벨의 κ±°λ²„λ„ŒμŠ€ κ³„μΈ΅μœΌλ‘œ, λͺ¨λΈμ— 독립적이고, κ΄€ν• κΆŒμ— λ§€ν•‘ κ°€λŠ₯ν•˜λ©°, 감사 κ°€λŠ₯ν•©λ‹ˆλ‹€. 30개 도메인 μœ„ν—˜ λΆ„λ₯˜ 및 5κ°€μ§€ μ λŒ€μ  곡격 μ „λž΅μ„ μ‚¬μš©ν•œ 평가 κ²°κ³Ό, DBC 계측은 μ „λ°˜μ μΈ μœ„ν—˜ λ…ΈμΆœμœ¨(RER)을 36.8% κ°μ†Œμ‹œν‚€λŠ” κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
LLM κ±°λ²„λ„ŒμŠ€μ˜ μƒˆλ‘œμš΄ νŒ¨λŸ¬λ‹€μž„ μ œμ‹œ: ν›ˆλ ¨ μ‹œμ  μ •λ ¬ λ°©μ‹μ΄λ‚˜ 사후 μ½˜ν…μΈ  μ‘°μ • API와 달리, μ‹œμŠ€ν…œ ν”„λ‘¬ν”„νŠΈ λ ˆλ²¨μ—μ„œ λͺ¨λΈμ— λ…λ¦½μ μœΌλ‘œ 적용 κ°€λŠ₯ν•œ 효과적인 κ±°λ²„λ„ŒμŠ€ λ°©μ•ˆμ„ μ œμ‹œν•©λ‹ˆλ‹€.
β€’
싀증적 μœ„ν—˜ κ°μ†Œ 효과 μž…μ¦: μ œμ•ˆλœ DBC ν”„λ ˆμž„μ›Œν¬κ°€ λ‹€μ–‘ν•œ μœ„ν—˜ μ˜μ—­μ—μ„œ LLM의 μœ ν•΄ν•œ 행동을 μ‹€μ§ˆμ μœΌλ‘œ 쀄일 수 μžˆμŒμ„ μ‹€ν—˜μ μœΌλ‘œ λ³΄μ—¬μ€λ‹ˆλ‹€.
β€’
EU AI Act λ“± 규제 μ€€μˆ˜ κ°€λŠ₯μ„± μ‹œμ‚¬: DBC 계측 적용 μ‹œ EU AI Act와 같은 규제 μš”κ΅¬μ‚¬ν•­ μ€€μˆ˜μœ¨μ΄ ν–₯μƒλ˜μ–΄, LLM의 μ•ˆμ „ν•˜κ³  μ±…μž„κ° μžˆλŠ” 배포λ₯Ό μœ„ν•œ κΈ°λ°˜μ„ μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
μ™„λ²½ν•œ λ°©μ–΄λŠ” μ•„λ‹˜: νšŒμƒ‰ μƒμž(graybox) μ λŒ€μ  곡격에 λŒ€ν•΄ 4.83%의 DBC 우회율이 κ΄€μ°°λ˜μ–΄, 지속적인 연ꡬ 및 κ°œμ„ μ΄ ν•„μš”ν•¨μ„ μ‹œμ‚¬ν•©λ‹ˆλ‹€.
πŸ‘