Podręcznik

1. Sieci radialne RBF

1.7. Porównanie sieci radialnych z sieciami sigmoidalnymi

Sieci neuronowe radialne należą do tej samej grupy sieci trenowanych pod nadzorem co sieci sigmoidalne MLP. W stosunku do sieci wielowarstwowych o sigmoidalnych funkcjach aktywacji wyróżniają się pewnymi własnościami szczególnymi, pozwalającymi na łatwiejsze odwzorowanie cech charakterystycznych modelowanego procesu. Sieć sigmoidalna, w której niezerowa wartość funkcji sigmoidalnej rozciąga się od określonego punktu w przestrzeni aż do nieskończoności, reprezentuje aproksymację globalną funkcji zadanej, podczas gdy sieć radialna, opierająca się na funkcjach mających wartość niezerową jedynie w wąskiej przestrzeni wokół centrów, realizuje aproksymację typu lokalnego, której zasięg działania jest zwykle bardziej ograniczony. W efekcie należy się spodziewać, że zdolności generalizacyjne sieci radialnych są gorsze niż sieci sigmoidalnych, zwłaszcza na granicach obszaru danych uczących.

Sieci MLP ze względu na globalny charakter funkcji sigmoidalnej nie mają wbudowanego mechanizmu pozwalającego zidentyfikować region, na który najsilniej odpowiada dany neuron. Wobec niemożliwości fizycznego powiązania obszaru aktywności neuronu z odpowiednim obszarem danych uczących, w sieciach sigmoidalnych trudno jest określić optymalny punkt startowy w procesie uczenia. Biorąc pod uwagę wielomodalność funkcji celu, osiągnięcie minimum globalnego w tych warunkach jest trudne nawet przy wyrafinowanych metodach uczenia.

Sieci radialne radzą sobie z tym problemem znacznie lepiej. Funkcje radialne typu gaussowskiego, najczęściej używane w praktyce, są z natury funkcjami lokalnymi o wartościach niezerowych jedynie wokół określonego centrum. To pozwala łatwo powiązać parametry funkcji bazowych z fizycznym rozmieszczeniem danych uczących w przestrzeni wielowymiarowej. Stąd możliwe jest stosunkowo uzyskanie dobrych wartości startowych w procesie uczenia pod nadzorem. Zastosowanie podobnych algorytmów uczących przy wartościach startowych bliskich optymalnym zwielokrotnia prawdopodobieństwo uzyskania sukcesu dla sieci radialnych.

Uważa się, że sieci radialne lepiej niż sieci sigmoidalne nadają się do takich zadań klasyfikacyjnych, jak wykrywanie uszkodzeń w różnego rodzaju systemach, rozpoznawanie wzorców itp. Zastosowanie sieci radialnych w predykcji tak skomplikowanych szeregów czasowych, jak przewidywanie comiesięcznych zmian zatrudnienia w skali kraju, przewidywanie trendów ekonomicznych itp. pozwala uzyskać dobre rezultaty, porównywalne lub lepsze niż przy zastosowaniu sieci sigmoidalnych.

Ważną zaletą sieci radialnych jest znacznie uproszczony algorytm uczenia. Przy istnieniu tylko jednej warstwy ukrytej i ścisłym powiązaniu aktywności neuronu z odpowiednim obszarem przestrzeni danych uczących, punkt startowy uczenia jest znacznie bliżej rozwiązania optymalnego niż jest to możliwe do uzyskania w sieciach MLP. Dodatkowo możliwe jest oddzielenie etapu doboru parametrów funkcji bazowych od doboru wartości wag sieci (algorytm hybrydowy), co znacznie upraszcza i przyspiesza proces uczenia. Zysk czasowy jest znacznie większy, jeśli uwzględni się procedurę kształtowania optymalnej pod względem zdolności generalizacyjnych struktury sieci. W odniesieniu do sieci MLP jest to zagadnienie bardzo czasochłonne, wymagające zwykle wielokrotnego uczenia lub douczania. W sieciach radialnych przy zastosowaniu zwłaszcza ortogonalizacji, proces optymalnego kształtowania struktury sieci jest stałym fragmentem uczenia, nie wymagającym żadnego dodatkowego wysiłku.