Podręcznik

2. Komputerowa obróbka danych

2.12. Redukcja przestrzeni cech

Termin redukcja przestrzeni cech oznacza wybór ograniczonego, istotnego dla rozwiązania danego problemu analizy czy klasyfikacji danych, podzbioru początkowego zestawu cech w celu:

poprawy efektywności klasyfikacji, przy czym efektywność ta (mierzona za pomocą takich parametrów jak czułość, specyficzność, trafność) zależy od kilku czynników:
- wielkości i reprezentatywności zbioru uczącego, proporcji liczby przykładów do wymiaru przestrzeni cech,
- jakości przestrzeni cech (liczby i efektywności deskryptorów cech obiektów) -- włączenie do przestrzeni cech deskryptorów nieefektywnych obniża skuteczność klasyfikacji -- efekt ten odgrywa szczególnie dużą rolę, gdy zbiór danych uczących jest niewielki w stosunku do liczby cech;
- rodzaju klasyfikatora; klasyfikatory estymują swoje parametry na podstawie wektora cech określonych rozmiarów, dlatego przy ustalonym zbiorze uczącym wraz ze wzrostem liczby cech, wzrasta liczba parametrów do estymacji dla klasyfikatora, a wiec zwiększa się błąd estymacji -- w konsekwencji, dla ustalonego zbioru uczącego zwiększa się błąd klasyfikacji;
minimalizacji nakładów obliczeniowych związanych z ekstrakcją, klasyfikacją i przechowywaniem cech;
poprawy przejrzystości procesu klasyfikacji, większego zrozumienia relacji między cechami obliczeniowymi, semantycznymi czy postrzegania rozpoznawanych obiektów, co sprzyja uogólnieniom otrzymywanych rezultatów czy też łatwości ich interpretacji;
unikania problemów dużej wymiarowości analizowanych przestrzeni danych, związanych m.in. z rzadką reprezentacją danych w takich przestrzeniach, technikami przeszukiwania czy organizacji danych, statystyczną reprezentatywnością wydzielanych regionów itp.

Procedury redukcji wymiarowości przestrzeni cech stosowane są więc przed etapem klasyfikacji lub też iteracyjnie, naprzemiennie z klasyfikacją o dobieranej przestrzeni cech.

Redukcja przestrzeni cech obejmuje dwa zasadnicze podejścia:

selekcja cech reprezentatywnych, inaczej dobór ograniczonego, istotnego dla rozwiązania danego problemu podzbioru początkowego zestawu cech, realizowana przede wszystkim za pomocą metod:
- rankingowych, porządkujących cechy za pomocą ustalonej funkcji oceny (np. szacowanego współczynnika korelacji czy średniej informacji wzajemnej), liczonej na podstawie rozkładu wartości poszczególnych cech oraz docelowych przyporządkowań (klas wyjściowych) i odrzucającej cechy o najniżej ocenie końcowej; wybór cech odbywa się niezależnie od metody klasyfikacji na podstawie oceny ich zdolności przewidywania właściwej klasy opisywanych cechami obiektów;
- przeszukiwania z kryterium dokładnej klasyfikacji (\emph{wrapper method}), gdzie kolejne kombinacje możliwych podzbiorów zestawu cech są weryfikowane według przyjętej strategii, na podstawie miar dokładności wykonywanej klasyfikacji (wynik zależy więc od zastosowanego klasyfikatora); procedura jest powtarzana aż do spełnienia zdefiniowanego w metodzie kryterium stopu; główną wadą tego typu rozwiązania jest wysoki koszt obliczeniowy, zwłaszcza dla dużych zestawów cech;
- filtracji -- tutaj podzbiory cech wybierane są na etapie wstępnym, oceniane pojedynczo, a funkcja oceny bazuje jedynie na właściwościach danych, niezależnie od metody klasyfikacji, na podstawie ich związku z daną klasą; związek ten jest oceniany za pomocą różnych, często heurystycznych kryteriów (np. poziom średniej informacji wzajemnej) i wyrażany np. przy użyciu wag -- wynikiem działania jednej z grup algorytmów (tzw. \emph{rankers}) jest lista podzbiorów cech wraz z przypisanymi im wagami; prostą metodą wyboru optymalnego zbioru cech na podstawie wskazanych wag jest eliminacja cech na podstawie uzyskanej dokładności klasyfikacji; zaletą metod tej grupy jest szybkość działania nawet dla dużych zbiorów cech, przy czym metody te nie dają pewności co do optymalności rozwiązań;
- metody wbudowane (\emph{embedded}) -- w tej grupie algorytmów selekcja cech jest wykonywana w fazie uczenia klasyfikatora i są zazwyczaj dopasowane do mechanizmów uczenia klasyfikatora;
ekstrakcja cech poprzez transformację przestrzeni o wyższym wymiarze w przestrzeń o zredukowanej wymiarowości -- następuje więc zmiana charakteru cech nowej przestrzeni; stosowane są w tym przypadku najczęściej: metoda analizy składowych głównych PCA (\emph{Principal Component Analysis}), zbliżona w koncepcji transformacja Karhunen'a-Loeve'a KLT, liniowa analiza dyskryminacyjna LDA (\emph{Linear Discriminant Analysis}), połączenie KLT+LDA, analiza składowych niezależnych ICA (\emph{Independent Component Analysis}), a także nieliniowa wersja PCA -- Kernel PCA czy lokalna PCA -- LPCA; wykorzystywane mogą być także rozwinięcia w bazach ortogonalnych, falkowych, ogólnie wieloskalowych itp.