Doskonalenie odbioru informacji multimedialnych
2. Komputerowa obróbka danych
2.12. Redukcja przestrzeni cech
Termin redukcja przestrzeni cech oznacza wybór ograniczonego, istotnego dla rozwiązania danego problemu analizy czy klasyfikacji danych, podzbioru początkowego zestawu cech w celu:
- poprawy efektywności klasyfikacji, przy czym efektywność ta (mierzona za pomocą takich parametrów jak czułość, specyficzność, trafność) zależy od kilku czynników:
- wielkości i reprezentatywności zbioru uczącego, proporcji liczby przykładów do wymiaru przestrzeni cech,
- jakości przestrzeni cech (liczby i efektywności deskryptorów cech obiektów) -- włączenie do przestrzeni cech deskryptorów nieefektywnych obniża skuteczność klasyfikacji -- efekt ten odgrywa szczególnie dużą rolę, gdy zbiór danych uczących jest niewielki w stosunku do liczby cech;
- rodzaju klasyfikatora; klasyfikatory estymują swoje parametry na podstawie wektora cech określonych rozmiarów, dlatego przy ustalonym zbiorze uczącym wraz ze wzrostem liczby cech, wzrasta liczba parametrów do estymacji dla klasyfikatora, a wiec zwiększa się błąd estymacji -- w konsekwencji, dla ustalonego zbioru uczącego zwiększa się błąd klasyfikacji;
- minimalizacji nakładów obliczeniowych związanych z ekstrakcją, klasyfikacją i przechowywaniem cech;
- poprawy przejrzystości procesu klasyfikacji, większego zrozumienia relacji między cechami obliczeniowymi, semantycznymi czy postrzegania rozpoznawanych obiektów, co sprzyja uogólnieniom otrzymywanych rezultatów czy też łatwości ich interpretacji;
- unikania problemów dużej wymiarowości analizowanych przestrzeni danych, związanych m.in. z rzadką reprezentacją danych w takich przestrzeniach, technikami przeszukiwania czy organizacji danych, statystyczną reprezentatywnością wydzielanych regionów itp.
Procedury redukcji wymiarowości przestrzeni cech stosowane są więc przed etapem klasyfikacji lub też iteracyjnie, naprzemiennie z klasyfikacją o dobieranej przestrzeni cech.
Redukcja przestrzeni cech obejmuje dwa zasadnicze podejścia:
- selekcja cech reprezentatywnych, inaczej dobór ograniczonego, istotnego dla rozwiązania danego problemu podzbioru początkowego zestawu cech, realizowana przede wszystkim za pomocą metod:
- rankingowych, porządkujących cechy za pomocą ustalonej funkcji oceny (np. szacowanego współczynnika korelacji czy średniej informacji wzajemnej), liczonej na podstawie rozkładu wartości poszczególnych cech oraz docelowych przyporządkowań (klas wyjściowych) i odrzucającej cechy o najniżej ocenie końcowej; wybór cech odbywa się niezależnie od metody klasyfikacji na podstawie oceny ich zdolności przewidywania właściwej klasy opisywanych cechami obiektów;
- przeszukiwania z kryterium dokładnej klasyfikacji (\emph{wrapper method}), gdzie kolejne kombinacje możliwych podzbiorów zestawu cech są weryfikowane według przyjętej strategii, na podstawie miar dokładności wykonywanej klasyfikacji (wynik zależy więc od zastosowanego klasyfikatora); procedura jest powtarzana aż do spełnienia zdefiniowanego w metodzie kryterium stopu; główną wadą tego typu rozwiązania jest wysoki koszt obliczeniowy, zwłaszcza dla dużych zestawów cech;
- filtracji -- tutaj podzbiory cech wybierane są na etapie wstępnym, oceniane pojedynczo, a funkcja oceny bazuje jedynie na właściwościach danych, niezależnie od metody klasyfikacji, na podstawie ich związku z daną klasą; związek ten jest oceniany za pomocą różnych, często heurystycznych kryteriów (np. poziom średniej informacji wzajemnej) i wyrażany np. przy użyciu wag -- wynikiem działania jednej z grup algorytmów (tzw. \emph{rankers}) jest lista podzbiorów cech wraz z przypisanymi im wagami; prostą metodą wyboru optymalnego zbioru cech na podstawie wskazanych wag jest eliminacja cech na podstawie uzyskanej dokładności klasyfikacji; zaletą metod tej grupy jest szybkość działania nawet dla dużych zbiorów cech, przy czym metody te nie dają pewności co do optymalności rozwiązań;
- metody wbudowane (\emph{embedded}) -- w tej grupie algorytmów selekcja cech jest wykonywana w fazie uczenia klasyfikatora i są zazwyczaj dopasowane do mechanizmów uczenia klasyfikatora;
- ekstrakcja cech poprzez transformację przestrzeni o wyższym wymiarze w przestrzeń o zredukowanej wymiarowości -- następuje więc zmiana charakteru cech nowej przestrzeni; stosowane są w tym przypadku najczęściej: metoda analizy składowych głównych PCA (\emph{Principal Component Analysis}), zbliżona w koncepcji transformacja Karhunen'a-Loeve'a KLT, liniowa analiza dyskryminacyjna LDA (\emph{Linear Discriminant Analysis}), połączenie KLT+LDA, analiza składowych niezależnych ICA (\emph{Independent Component Analysis}), a także nieliniowa wersja PCA -- Kernel PCA czy lokalna PCA -- LPCA; wykorzystywane mogą być także rozwinięcia w bazach ortogonalnych, falkowych, ogólnie wieloskalowych itp.