Podręcznik: Selekcja cech diagnostycznych

3. Zdolności generalizacyjne sieci neuronowych

3.6. Selekcja cech diagnostycznych

Ważnym elementem poprawy generalizacji sieci jest minimalizacja liczby parametrów (wag) podlegających adaptacji, Jak zostało pokazane w punkcie poprzednim realizuje się to poprzez obcinanie wag połączeń między-neuronowych. Podobny efekt można osiągnąć poprzez zastosowanie na wejściu sieci ograniczonej liczby sygnałów (cech diagnostycznych) generowanych ze zbioru sygnałów pomiarowych. Zwykle przetwarzanie sygnałów pomiarowych w deskryptory numeryczne procesu odbywa się w sposób automatyczny na podstawie algorytmów opracowanych przez użytkownika. W wyniku takiej procedury liczba deskryptorów jest nadmiarowa i powinna podlegać redukcji poprzez właściwą selekcję, zmniejszając w ten sposób wymiar wektora wejściowego dla sieci i redukując liczbę połączeń neuronowych. Selekcja deskryptorów powinna wytworzyć zbiór cech diagnostycznych podawanych na wejście sieci dobrze charakteryzujących modelowany proces i reprezentować tylko te deskryptory które są najlepiej skorelowane z decyzją ostateczną podejmowaną przez model sieci. Dozwolone jest stosowanie różnych metod przetwarzania, które pozwolą reprezentować modelowany proces w sposób umożliwiający podjęcie jednoznacznej decyzji.

W praktyce stosowane są różne metody selekcji, prowadzące, w zależności od rodzaju procesu, do lepszych lub gorszych wyników działania sieci neuronowej [49]. W ogólności wyróżnić można metody dostosowane do oceny pojedynczej cechy odseparowanej od zbioru pozostałych, bądź ocena jakości danej cechy działającej w otoczeniu innych. Stosowane są różnorodne podejścia do selekcji, między innymi [49]: metoda dyskryminacyjna Fishera, metoda korelacji cechy z klasą, zastosowanie liniowej sieci SVM do walidacji cech, liniowa regresja krokowa, zastosowanie algorytmu genetycznego, zastosowanie lasu drzew decyzyjnych, testy statystyczne chi2, Kołmogorowa-Smirnowa czy Wilcoxona-Manna-Whitneya, algorytm Relieff, analiza najbliższych sąsiadów (NCA) czy metoda maksymalnego znaczenia i jednocześnie minimalnej redundancji (MRMR). W wyniku zastosowania takich metod ze zbioru deskryptorów wyłaniany jest ich ograniczony zbiór (cechy diagnostyczne są utożsamiane z wyselekcjonowanymi deskryptorami).

Innym podejściem do redukcji wymiaru wektora wejściowego jest zastosowanie transformacji liniowej przetwarzającej oryginalny zbiór deskryptorów w wektor o ograniczonym wymiarze, będący sumą wagową deskryptorów oryginalnych. Taka technika jest stosowana między innymi w transformacji według składników głównych (PCA) lub dyskryminacyjnej analizie Fishera (LDA).

Niezależnie od zastosowanego podejścia do selekcji cech w wyniku ich zastosowania wyłaniany jest zredukowany zbiór tworzący cechy diagnostyczne procesu. W ten sposób zmniejszany jest wymiar wektora wejściowego sieci $(N)$ pociągający za sobą zmniejszoną liczbę połączeń wagowych sieci (efekt regularyzacji sieci).