Podręcznik
4. Sieci konwolucyjne
4.2. Architektura sieci konwolucyjnej
Na rysunku 15 przedstawiona została architektura całej sieci konwolucyjnej. Przedstawiona przykładowa sieć realizuje klasyfikację binarną - czy na obrazie znajduje się ogórek czy nie. Końcowe warstwy sieci (neuron wyjściowy i warstwa gęsto połączona przed nim) odpowiadają temu co znamy z perceptronu wielowarstwowego. Działanie warstw konwolucyjnych zostanie objaśnione w dalszych częściach tego rozdziału. Możemy zaobserwować, że warstwy konwolucyjne przetwarzają objętość 3D: szerokość x wysokość x liczba kanałów. Liczba kanałów obrazu wejściowego wynosi 3 w przypadku standardowych kolorowych obrazów. Liczba kanałów w kolejnych warstwach sieci zazwyczaj zwiększa się, a szerokość i wysokość przetwarzanego obrazu maleją. Kolejne kanały wyjścia warstwy konwolucyjnej odpowiadają różnym filtrom i reprezentują różne cechy obrazu. W pierwszej warstwie mogę to być bardzo proste cechy jak występowanie krawędzi pionowych. W kolejnych warstwach filtry wykrywają coraz bardziej złożone cechy.

Zaletą sieci konwolucyjnych w przetwarzaniu obrazów jest zachowanie korelacji przestrzennej - obraz przetwarzany jest w postaci macierzy pikseli. Filtr (i jego wagi) stosowany jest w takiej samej postaci do wielu miejsc na obrazie, co radykalnie zmniejsza liczbę parametrów sieci w zastosowaniach dla większych obrazów. Dodatkowo zapewnia to detekcję cech i obiektów niezależnie od ich położenia.