Sign In

Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Igor Bogdanov, Chung-Horng Lung, Thomas Kunz, Jie Gao, Adrian Taylor, Marzia Zaman

πŸ’‘ κ°œμš”

λ³Έ μ—°κ΅¬λŠ” μ λŒ€μ μ΄κ³  λΆ€λΆ„μ μœΌλ‘œλ§Œ κ΄€μ°° κ°€λŠ₯ν•œ ν™˜κ²½μ—μ„œ 볡합 LLM μ—μ΄μ „νŠΈ 섀계λ₯Ό μœ„ν•œ λΉ„μš©-μ„±λŠ₯ 연ꡬλ₯Ό μˆ˜ν–‰ν–ˆμŠ΅λ‹ˆλ‹€. μ—μ΄μ „νŠΈκ°€ 무엇을 보고, μ–΄λ–»κ²Œ μΆ”λ‘ ν•˜λ©°, μž‘μ—…μ„ μ–΄λ–»κ²Œ λΆ„ν•΄ν•˜λŠ”μ§€μ— λŒ€ν•œ λ””μžμΈ 선택이 μ„±λŠ₯κ³Ό μΆ”λ‘  λΉ„μš©μ— λ―ΈμΉ˜λŠ” 영ν–₯을 CybORG CAGE-2 ν™˜κ²½μ—μ„œ ν‰κ°€ν–ˆμŠ΅λ‹ˆλ‹€. μ£Όμš” κ²°κ³ΌλŠ” ν”„λ‘œκ·Έλž¨ 기반 μƒνƒœ 좔상화가 κ°€μž₯ 높은 토큰당 수읡λ₯ (RPTS)을 μ œκ³΅ν•˜λ©°, μΆ”λ‘  도ꡬλ₯Ό 계측 ꡬ쑰에 λΆ„λ°°ν•˜λŠ” 것은 μ„±λŠ₯을 μ €ν•˜μ‹œν‚€λŠ” 'μΆ”λ‘  μΊμŠ€μΌ€μ΄λ“œ' ν˜„μƒμ„ μΌμœΌν‚€κ³ , 계측적 λΆ„ν•΄κ°€ 일반적으둜 더 λ‚˜μ€ μ„±λŠ₯을 λ³΄μΈλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
효율적인 μƒνƒœ μΆ”μƒν™”μ˜ μ€‘μš”μ„±: μ›μ‹œ 관찰보닀 ν”„λ‘œκ·Έλž¨ 기반 μƒνƒœ 좔상화가 훨씬 더 λ‚˜μ€ μ„±λŠ₯을 μ œκ³΅ν•˜λ©°, 토큰당 λΉ„μš© λŒ€λΉ„ νš¨μœ¨μ„±μ΄ λ†’μŠ΅λ‹ˆλ‹€.
β€’
μΆ”λ‘  λ„κ΅¬μ˜ 계측적 적용 μ‹œ 주의 ν•„μš”: μΆ”λ‘  도ꡬλ₯Ό κ³„μΈ΅μ μœΌλ‘œ μ μš©ν•˜λ©΄ 였히렀 μ„±λŠ₯ μ €ν•˜λ₯Ό μ΄ˆλž˜ν•  수 μžˆμœΌλ―€λ‘œ, μ‹ μ€‘ν•œ 섀계가 ν•„μš”ν•©λ‹ˆλ‹€.
β€’
μ»¨ν…μŠ€νŠΈ μ—”μ§€λ‹ˆμ–΄λ§κ³Ό 계측적 λΆ„ν•΄μ˜ μš°μ„ μˆœμœ„: 심측적인 κ°œλ³„ μ—μ΄μ „νŠΈ 좔둠보닀 ν”„λ‘œκ·Έλž¨ 인프라 및 κΉ”λ”ν•œ μž‘μ—… 뢄해에 νˆ¬μžν•˜λŠ” 것이 κ΅¬μ‘°ν™”λœ μ λŒ€μ  POMDP ν™˜κ²½μ—μ„œ 더 효과적인 섀계 μ›μΉ™μž…λ‹ˆλ‹€.
β€’
μ œν•œλœ ν™˜κ²½ 및 λͺ¨λΈ: 연ꡬ κ²°κ³ΌλŠ” CybORG CAGE-2λΌλŠ” νŠΉμ • ν™˜κ²½κ³Ό μ œν•œλœ λͺ¨λΈ ꡰ에 λŒ€ν•œ κ²ƒμ΄λ―€λ‘œ, λ‹€λ₯Έ μœ ν˜•μ˜ ν™˜κ²½μ΄λ‚˜ 더 κ΄‘λ²”μœ„ν•œ LLM λͺ¨λΈμ— λŒ€ν•œ μΌλ°˜ν™”μ—λŠ” 좔가적인 검증이 ν•„μš”ν•  수 μžˆμŠ΅λ‹ˆλ‹€.
πŸ‘