Residual_Learning_and_1x1_Convolution

๐Ÿ“„ Residual_Learning_and_1x1_Convolution

ResNet์˜ ํ•ต์‹ฌ ๊ฐœ๋…์ธ Residual Learning๊ณผ 1x1 Convolution์€ ๊นŠ์€ ์‹ ๊ฒฝ๋ง์˜ ํšจ์œจ์ ์ธ ํ•™์Šต์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ์ค‘์š”ํ•œ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค.

1. Residual Learning (์ž”์ฐจ ํ•™์Šต)

1.1 ํ•ต์‹ฌ ๊ฐœ๋…

  • ์ž”์ฐจ ํ•จ์ˆ˜ ํ•™์Šต: ๋„คํŠธ์›Œํฌ๊ฐ€ ์›ํ•˜๋Š” ํ•จ์ˆ˜

H(x)H(x)H(x)

๋ฅผ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ๋Œ€์‹ , ์ž…๋ ฅ

xxx

์— ๋Œ€ํ•œ ์ž”์ฐจ

F(x)=H(x)โˆ’xF(x) = H(x) - xF(x)=H(x)โˆ’x

๋ฅผ ํ•™์Šต.

  • Shortcut ์—ฐ๊ฒฐ: ์ž…๋ ฅ

xxx

๋ฅผ ๋‹ค์Œ ๋ ˆ์ด์–ด์— ์ง์ ‘ ๋”ํ•˜์—ฌ

H(x)=F(x)+xH(x) = F(x) + xH(x)=F(x)+x

๋ฅผ ๊ตฌ์„ฑ.

  • ํ•™์Šต ๋‚œ์ด๋„ ๊ฐ์†Œ: โ€œ์ „์ฒด ํ•จ์ˆ˜โ€ ๋Œ€์‹  โ€œ์ž…๋ ฅ ๋Œ€๋น„ ๋ณด์ •๊ฐ’โ€๋งŒ ํ•™์Šตํ•˜์—ฌ ํ•™์Šต์ด ๋‹จ์ˆœํ™”๋˜๊ณ  ๊ธฐ์šธ๊ธฐ ์ „ํŒŒ๊ฐ€ ์šฉ์ด.

1.2 ์žฅ์  ๋ฐ ํšจ๊ณผ

  • ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ์™„ํ™”: ๊นŠ์€ ๋„คํŠธ์›Œํฌ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ค„์ž„.

  • ํ•™์Šต ํšจ์œจ์„ฑ ์ฆ๋Œ€: ๋„คํŠธ์›Œํฌ๊ฐ€ ๋” ๊นŠ์–ด์ ธ๋„ ์•ˆ์ •์ ์ด๊ณ  ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ด ๊ฐ€๋Šฅ.

  • ๊นŠ์€ ๋„คํŠธ์›Œํฌ ๊ตฌ์ถ•: ์ˆ˜๋ฐฑ ๊ฐœ ์ด์ƒ์˜ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ€์ง„ ๋งค์šฐ ๊นŠ์€ ์‹ ๊ฒฝ๋ง ์„ค๊ณ„ ๋ฐ ํ•™์Šต ๊ฐ€๋Šฅ.

2. 1x1 Convolution (1x1 ์ปจ๋ณผ๋ฃจ์…˜)

2.1 ์ •์˜ ๋ฐ ์—ญํ• 

  • ์ฑ„๋„ ๋ฐฉํ–ฅ ์—ฐ์‚ฐ: 1x1 ํฌ๊ธฐ์˜ ํ•„ํ„ฐ๋กœ ๊ณต๊ฐ„ ์ •๋ณด(Height, Width)๋Š” ์œ ์ง€ํ•œ ์ฑ„ ์ฑ„๋„ ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์—ฐ์‚ฐ ์ˆ˜ํ–‰.

  • ์ฑ„๋„ ๊ฐ„ ์„ ํ˜• ๊ฒฐํ•ฉ: ๊ฐ ํ”ฝ์…€ ์œ„์น˜์—์„œ ์ฑ„๋„๋ณ„ ๊ฐ€์ค‘ํ•ฉ์„ ๊ณ„์‚ฐํ•˜์—ฌ ์ฑ„๋„ ๊ฐ„์˜ ์„ ํ˜• ๊ฒฐํ•ฉ ์ˆ˜ํ–‰.

  • ์ฐจ์› ์ถ•์†Œ/ํ™•์žฅ: ์ฑ„๋„ ์ˆ˜๋ฅผ ์ค„์ด๊ฑฐ๋‚˜ ๋Š˜๋ ค ์—ฐ์‚ฐ๋Ÿ‰ ๋ฐ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์ตœ์ ํ™”.

2.2 Bottleneck Block์—์„œ์˜ ํ™œ์šฉ

  • ๊ตฌ์กฐ: โ€œ1x1 Conv โ†’ 3x3 Conv โ†’ 1x1 Convโ€์˜ ์ˆœ์„œ๋กœ ๊ตฌ์„ฑ.

  • ์ฑ„๋„ ์ถ•์†Œ: ์ฒซ ๋ฒˆ์งธ 1x1 Conv๋กœ ์ฑ„๋„์„ ์ถ•์†Œํ•˜์—ฌ 3x3 Conv์˜ ์—ฐ์‚ฐ๋Ÿ‰ ๊ฐ์†Œ.

  • ์ฑ„๋„ ๋ณต์›: ๋งˆ์ง€๋ง‰ 1x1 Conv๋กœ ์ฑ„๋„์„ ๋ณต์›ํ•˜์—ฌ ์ •๋ณด ์†์‹ค ์ตœ์†Œํ™”.

  • ํšจ์œจ์ ์ธ ๊นŠ์ด: ์ ์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊นŠ์€ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ ๋ฐ ํ‘œํ˜„๋ ฅ ๋™์‹œ ํ™•๋ณด.

3. ํ•ต์‹ฌ ๊ฐœ๋… ๋น„๊ต

3.1 ๋ชฉํ‘œ ๋ฐ ๊ธฐ๋Šฅ

  • Residual Learning: ๊นŠ์€ ๋„คํŠธ์›Œํฌ์˜ ํ•™์Šต ๋‚œ์ด๋„๋ฅผ ๋‚ฎ์ถ”๊ณ  ๊ธฐ์šธ๊ธฐ ์†Œ์‹ค ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐ.

  • 1x1 Convolution: ์ฑ„๋„ ์ฐจ์› ์กฐ์ ˆ์„ ํ†ตํ•ด ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ  ๋„คํŠธ์›Œํฌ์˜ ํ‘œํ˜„๋ ฅ์„ ๊ฐ•ํ™”.

3.2 ResNet์—์„œ์˜ ์‹œ๋„ˆ์ง€

  • Residual Block: 1x1 Conv๋ฅผ ํฌํ•จํ•œ Bottleneck Block์ด Residual Learning๊ณผ ๊ฒฐํ•ฉ๋˜์–ด ๊นŠ๊ณ  ํšจ์œจ์ ์ธ ResNet ๊ตฌ์กฐ๋ฅผ ํ˜•์„ฑ.

  • ํ•™์Šต ์•ˆ์ •์„ฑ: Residual Learning์œผ๋กœ ํ•™์Šต ์•ˆ์ •์„ฑ์„ ํ™•๋ณดํ•˜๊ณ , 1x1 Conv๋กœ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”.

  • ์„ฑ๋Šฅ ํ–ฅ์ƒ: ๋‘ ๊ธฐ์ˆ ์˜ ๊ฒฐํ•ฉ์„ ํ†ตํ•ด ์ด๋ฏธ์ง€ ์ธ์‹ ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ ๋‹ฌ์„ฑ.