Sign In

STAR: A Stage-attributed Triage and Repair framework for RCA Agents in Microservices

์ž‘์„ฑ์ž
  • Haebom
์นดํ…Œ๊ณ ๋ฆฌ
Empty

์ €์ž

Junle Wang, Xingchuang Liao, Wenjun Wu

๐Ÿ’ก ๊ฐœ์š”

๋งˆ์ดํฌ๋กœ์„œ๋น„์Šค ํ™˜๊ฒฝ์—์„œ LLM ๊ธฐ๋ฐ˜์˜ ๊ทผ๋ณธ ์›์ธ ๋ถ„์„(RCA) ์—์ด์ „ํŠธ๋Š” ์•„์ง ์‹ ๋ขฐ์„ฑ์ด ๋‚ฎ๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ RCA ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ 4๊ฐœ์˜ ๋‹จ๊ณ„(์ฆ๊ฑฐ ํŒจํ‚ค์ง€, ๊ฐ€์„ค ์ง‘ํ•ฉ, ๋ถ„์„ ๊ตฌ์กฐ, ๊ฒฐ์ • ๋ณด๊ณ ์„œ)๋กœ ๋ถ„ํ•ดํ•˜๊ณ , ๊ฐ ๋‹จ๊ณ„์—์„œ ๋ฐœ์ƒํ•˜๋Š” ์˜ค๋ฅ˜๋ฅผ ๊ตญ์†Œํ™”ํ•˜์—ฌ ์ˆ˜์ •ํ•˜๋Š” STAR ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. STAR์€ ๋‹จ๊ณ„๋ณ„ ๊ฐ์‚ฌ, ์˜ˆ์‚ฐ ๊ธฐ๋ฐ˜ ๋ผ์šฐํŒ…, ๋ฐ˜์‚ฌ์‹ค์  ํ‰๊ฐ€๋ฅผ ํ†ตํ•œ ๊ฒฐ์ •์  ๋‹จ๊ณ„ ์‹๋ณ„, ๋‹จ๊ณ„๋ณ„ ๋ณต๊ตฌ ๋ฐ ์žฌ์‹คํ–‰์„ ํ†ตํ•ด RCA ์—์ด์ „ํŠธ์˜ ์‹ ๋ขฐ์„ฑ์„ ๋†’์ž…๋‹ˆ๋‹ค.

๐Ÿ”‘ ์‹œ์‚ฌ์  ๋ฐ ํ•œ๊ณ„

โ€ข
RCA ์—์ด์ „ํŠธ์˜ ์˜ค๋ฅ˜๋ฅผ ์ „์ฒด ์‹œ์Šคํ…œ ์˜ค๋ฅ˜๊ฐ€ ์•„๋‹Œ ๋‹จ๊ณ„๋ณ„ ๊ตญ์†Œํ™” ๊ฐ€๋Šฅํ•œ ๋ฌธ์ œ๋กœ ์ ‘๊ทผํ•˜๋Š” ๊ฒƒ์ด ์‹ ๋ขฐ์„ฑ ํ™•๋ณด์— ํšจ๊ณผ์ ์ž…๋‹ˆ๋‹ค.
โ€ข
STAR ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋ช…์‹œ์ ์ธ ๋‹จ๊ณ„ ๋ชจ๋ธ๋ง๊ณผ stage-specific patch-and-replay ๊ธฐ๋ฒ•์„ ํ†ตํ•ด RCA ๊ฒฐ๊ณผ์˜ ์ •ํ™•๋„์™€ ๋””๋ฒ„๊น… ๊ฐ€๋Šฅ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค.
โ€ข
์ œ์•ˆ๋œ ๋ฐฉ๋ฒ•๋ก ์€ ๋Œ€๊ทœ๋ชจ ๊ณต๊ฐœ ๋ฒค์น˜๋งˆํฌ ๋ฐ ์‹ค์ œ ํ”„๋กœ๋•์…˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์œผ๋ฉฐ, ํŠนํžˆ Fast/Slow Routing ๋ฐ ๋ฐ˜์‚ฌ์‹ค์  ํ‰๊ฐ€ ๊ธฐ๋ฒ•์˜ ์ด์ ์„ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
โ€ข
ํ˜„์žฌ ์—ฐ๊ตฌ๋Š” ํŠน์ • RCA ์›Œํฌํ”Œ๋กœ์šฐ ๋ฐ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ‰๊ฐ€์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ  ์žˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ ๋ณต์žก์„ฑ์˜ ๋งˆ์ดํฌ๋กœ์„œ๋น„์Šค ํ™˜๊ฒฝ ๋ฐ ๋” ๊ด‘๋ฒ”์œ„ํ•œ LLM ๊ธฐ๋ฐ˜ ์—์ด์ „ํŠธ์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™” ๋ฐ ์„ฑ๋Šฅ ์ตœ์ ํ™”๋Š” ํ–ฅํ›„ ๊ณผ์ œ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ‘