Podręcznik
4. Sieci konwolucyjne
4.5. Przetwarzanie dla wielu kanałów
Do tej pory nasze rozważania prowadziliśmy w 2D. Teraz jest czas, aby dodać do tego trzeci wymiar. Wiemy, że obrazy wejściowe najczęściej mają trzy kanały RGB, a wraz z przechodzeniem wgłąb sieci liczba kanałów rośnie (rys. 15). Operacja splotu dla wielu kanałów została przedstawiona na rysunku 19. Tak naprawdę, kiedy mówimy o filtrze 3 × 3 to mamy do czynienia z filtrem 3 × 3 × liczba kanałów obrazu wejściowego. Daje to sieci większe możliwości: w celu znalezienia krawędzi pionowych dla wszystkich kanałów powtarzamy dla każdego kanału ten sam filtr krawędziowy; w celu detekcji obszarów czerwonych możemy ustawić wartości 1 dla filtra dla kanału R i zera dla pozostałych kanałów. Wagi filtrów są oczywiście uczone, celem przykładów jest zobrazowanie możliwości modelu. W dalszych warstwach sieci, gdzie występują bardziej złożone cechy, wymiar głębokości filtra pozwala na łączenie wyników z różnych kanałów.

Do obrazu wynikowego dodawany jest wyraz wolny (jedna wartość dla całego obrazu). Następnie do wartości pikseli stosowana jest funkcja aktywacji element po elemencie. Do wyboru mamy taki sam zestaw funkcji aktywacji jak w perceptronie wielowarstwowym. Operacje te zostały przedstawione na rysunku 20.
Wynik splotu obrazu i pojedynczego filtra jest obrazem 2D (o jednym kanale). W warstwach sieci konwolucyjnej stosujemy wiele filtrów (zazwyczaj od kilku do kilkuset). Wynik kolejnych filtrów są dodawane jako kolejne kanały obrazu wyjściowego (rys. 21). Zatem wyjściem warstwy konwolucyjnej jest obraz 3D o głębokości równej liczbie filtrów w poprzedzającej warstwie.
