Sign In

The Effective Depth Paradox: Evaluating the Relationship between Architectural Topology and Trainability in Deep CNNs

μž‘μ„±μž
  • Haebom
μΉ΄ν…Œκ³ λ¦¬
Empty

μ €μž

Manfred M. Fischer, Joshua Pitts

πŸ’‘ κ°œμš”

이 논문은 VGG, ResNet, GoogLeNet λ“± λ‹€μ–‘ν•œ CNN μ•„ν‚€ν…μ²˜ 계열을 비ꡐ λΆ„μ„ν•˜μ—¬ μ‹ κ²½λ§μ˜ ν† ν΄λ‘œμ§€μ™€ 이미지 인식 μ„±λŠ₯ κ°„μ˜ 관계λ₯Ό νƒκ΅¬ν•©λ‹ˆλ‹€. 물리적인 측의 개수인 λͺ…λͺ©μƒ 깊이($D_{\mathrm{nom}}$)와 μ‹€μ œ μ—°μ‚°μ˜ 순차적 흐름을 λ‚˜νƒ€λ‚΄λŠ” 유효 깊이($D_{\mathrm{eff}}$)λ₯Ό κ΅¬λΆ„ν•˜κ³ , ν•­λ“± μ—°κ²°(identity shortcuts)μ΄λ‚˜ λΆ„κΈ° λͺ¨λ“ˆμ΄ 유효 깊이λ₯Ό λͺ…λͺ©μƒ κΉŠμ΄λ‘œλΆ€ν„° λΆ„λ¦¬ν•˜μ—¬ μ΅œμ ν™” μ•ˆμ •μ„±μ„ λ†’μž„μ„ μ‹€ν—˜μ μœΌλ‘œ μž…μ¦ν•©λ‹ˆλ‹€. 결과적으둜, λͺ¨λΈμ˜ ν•™μŠ΅ κ°€λŠ₯μ„±κ³Ό ν™•μž₯성은 λ‹¨μˆœν•œ 측의 μ–‘λ³΄λ‹€λŠ” μ•„ν‚€ν…μ²˜ ν† ν΄λ‘œμ§€μ— 더 크게 μ’Œμš°λ¨μ„ λ³΄μ—¬μ€λ‹ˆλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
심측 CNN의 ν•™μŠ΅ κ°€λŠ₯성은 λ‹¨μˆœν•œ 측의 개수(λͺ…λͺ©μƒ 깊이)보닀 μ‹€μ œ μ—°μ‚° 흐름(유효 깊이)에 μ˜ν•΄ 더 잘 예츑될 수 μžˆμŠ΅λ‹ˆλ‹€.
β€’
ν•­λ“± μ—°κ²°κ³Ό λΆ„κΈ° λͺ¨λ“ˆμ€ 유효 깊이λ₯Ό κ΄€λ¦¬ν•˜μ—¬ κΉŠμ€ λ„€νŠΈμ›Œν¬μ˜ 기울기 λΆˆμ•ˆμ •μ„± 문제λ₯Ό μ™„ν™”ν•˜λŠ” 데 핡심적인 역할을 ν•©λ‹ˆλ‹€.
β€’
λ³Έ μ—°κ΅¬λŠ” μ•„ν‚€ν…μ²˜ ν† ν΄λ‘œμ§€κ°€ λͺ¨λΈμ˜ ν™•μž₯μ„±κ³Ό μ‹€μ§ˆμ μΈ ν•™μŠ΅ μ„±λŠ₯을 κ²°μ •ν•˜λŠ” μ£Όμš” μš”μΈμž„μ„ μ œμ‹œν•˜λ©°, ν–₯ν›„ 더 깊고 효과적인 CNN 섀계에 λŒ€ν•œ 톡찰을 μ œκ³΅ν•©λ‹ˆλ‹€.
β€’
λ‹€μ–‘ν•œ μ•„ν‚€ν…μ²˜μ™€ 데이터셋에 λŒ€ν•œ 좔가적인 μ‹€ν—˜μ„ 톡해 λ³Έ 연ꡬ 결과의 μΌλ°˜ν™” κ°€λŠ₯성을 κ²€μ¦ν•˜κ³ , 유효 깊이의 μ΅œμ ν™”λ₯Ό μœ„ν•œ 보닀 ꡬ체적인 방법둠을 μ œμ‹œν•˜λŠ” 것이 ν–₯ν›„ κ³Όμ œμž…λ‹ˆλ‹€.
πŸ‘