Podręcznik
4. Sieci konwolucyjne
4.8. Typowe architektury sieci konwolucyjnych
Przyjrzyjmy się jeszcze raz pełnej architekturze sieci konwolucyjnej (rys. 15). Zazwyczaj:
-
stosujemy na przemian warstwy konwolucyjne i poolingu (pooling może być raz na kilka wartw konwolucyjnych),
-
potem warstwa flatten,
-
a następnie warstwy gęsto połączone i wyjściowa.
Często korzystne jest również dodanie warstw służących regularyzacji w celu zapobiegania przeuczeniu (rozdział 3.7). Sieci konwolucyjne rozwijają się dynamicznie i często dobrym pomysłem jest wykorzystanie architektury z literatury. Do najpopularniejszych należą (oraz ich kolejne wersje): LeNet-5 [Lecun et al., 1998], AlexNet [Krizhevsky et al., 2012], VGG [Simonyan and Zisserman, 2015], ResNet [He et al., 2015] oraz Inception [Szegedy et al., 2014]. Często dostępne są również wagi dla popularnych architektur uczonych na dużych bazach obrazów. Pozwala to szybko i skutecznie budować własne aplikacje przetwarzania obrazów. Więcej na ten temat w rozdziale 5.5.
Literatura
[Krizhevsky et al., 2012]
|
Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Pereira, F., Burges, C. J. C., Bottou, L., and Weinberger, K. Q., editors, Advances in Neural Information Processing Systems 25, pages 1097--1105. Curran Associates, Inc. [ | .pdf ] |
[Lecun et al., 1998]
|
Lecun, Y., Bottou, L., Bengio, Y., and Haffner, P. (1998). Gradient-based learning applied to document recognition. In Proceedings of the IEEE, pages 2278--2324. |
[Simonyan and Zisserman, 2015]
|
Simonyan, K. and Zisserman, A. (2015). Very deep convolutional networks for large-scale image recognition. [ | arXiv ] |
[He et al., 2015]
|
He, K., Zhang, X., Ren, S., and Sun, J. (2015). Deep residual learning for image recognition. [ | arXiv ] |
[Szegedy et al., 2014]
|
Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., and Rabinovich, A. (2014). Going deeper with convolutions. [ | arXiv ] |