Podręcznik
2. Transformacja i sieci neuronowe PCA
2.1. Transformacja PCA
Analiza składników głównych PCA jest metodą statystyczną określającą przekształcenie liniowe transformujące opis stacjonarnego procesu stochastycznego dany w postaci zbioru N-wymiarowych wektorów
w zbiór wektorów



Dla zachowania maksimum informacji oryginalnej w zbiorze wektorów o zredukowanym wymiarze macierz transformacji
powinna być dobrana w taki sposób, aby zmaksymalizować wartość wyznacznika
[49]
![]() |
(8.1) |
W wyrażeniu tym oznacza macierz kowariancji wektorów
(przy zerowych wartościach średnich zbioru
macierz kowariancji jest równa macierzy korelacji). W praktyce centrowanie wektorów nie jest konieczne i można posługiwać się macierzą korelacji, niezależnie od zerowania się wartości średnich. Rozwiązanie powyższego problemu optymalizacyjnego uzyskuje się na podstawie rozkładu macierzy kowariancji zbioru wektorów
według wartości własnych.
Przyjmijmy, że oznacza wektor losowy o zerowej wartości średniej, a
oznacza wartość oczekiwaną (średnią) macierzy autokorelacji (autokowariancji) po wszystkich wektorach
. Macierz tę, przy skończonej liczbie
wektorów
, można estymować przy pomocy zależności
![]() |
(8.2) |
gdzie macierz danych tworzą kolejne wektory uczące
. Oznaczmy przez
wartości własne macierzy autokorelacji
, a przez
ortogonalne wektory wartości własnych, skojarzone z nimi, przy czym
. Wartości własne oraz wektory własne macierzy
powiązane są zależnością
![]() |
(8.3) |
dla . Wartości własne symetrycznej, nieujemnie określonej macierzy korelacji
są rzeczywiste i nieujemne. Uporządkujmy je w kolejności malejącej poczynając od wartości największej
. W identycznej kolejności ustawimy wektory własne
skojarzone z odpowiednimi wartościami własnymi
. Przy ograniczeniu się do
największych wartości własnych macierz
przekształcenia PCA definiuje się w postaci
![]() |
(8.4) |
Macierz ta określa transformację PCA jako przekształcenie liniowe
![]() |
(8.5) |
Wektor y =[y1, y2,…, yK]T stanowi wektor składników głównych PCA, mających największy wpływ na rekonstrukcję oryginalnego wektora danych x =[x1, x2,…, xN]T. Transformacja PCA jest więc ściśle związana z rozkładem macierzy korelacji według wartości własnych. Uwzględnia zatem jedynie powiązania liniowe między wektorami danych.
Oznaczmy przez macierz diagonalną utworzoną z wartości własnych
uwzględnionych w odwzorowaniu, to jest
. Przy takich oznaczeniach macierz korelacji można przedstawić w postaci zdekomponowanej
![]() |
(8.6) |
gdzie znak przybliżenia wynika z uwzględnienia skończonej liczby (mniejszej niż wymiar macierzy korelacji) składników głównych. Przy zależność (8.6) będzie spełniona ze znakiem równości. Uwzględniając symetrię macierzy korelacji zależność tę można jednocześnie przedstawić w postaci
![]() |
(8.7) |
Z punktu widzenia statystycznego transformacja PCA określa zbiór wektorów ortogonalnych (kolejne wiersze macierzy
), mających największy wkład w wariancję danych wejściowych. Pierwszy składnik główny odpowiadający wektorowi
jest równy iloczynowi skalarnemu wektora własnego
i wektora wejściowego
![]() |
(8.8) |
Wektor własny określa zatem kierunek w przestrzeni wielowymiarowej w którym występuje największa wariancja (zmienność wartości) danych wejściowych zawartych w wektorach
. Wariancja ta jest równa wartości własnej
![]() |
(8.9) |
Celem transformacji PCA jest określenie kierunków (zwanych kierunkami głównymi) w taki sposób, aby zmaksymalizować wielkość iloczynu skalarnego
dla kolejnych wartości
przy spełnieniu warunku ortogonalności kolejnych wektorów
ze sobą, to jest
oraz
.
Rekonstrukcja wektora na podstawie znajomości wektora składników głównych
oraz macierzy ortogonalnej
przekształcenia PCA odbywa się zgodnie z zależnością [46]
![]() |
(8.10) |
Macierz dekompozycji PCA i macierz rekonstrukcji (
) stanowią wzajemne transpozycje. PCA minimalizuje wartość oczekiwaną błędu rekonstrukcji danych, przy czym błąd ten określony jest wzorem ogólnym
![]() |
(8.11) |
Przy ograniczeniu się do największych wartości własnych (
składników głównych), błąd ten jest proporcjonalny do sumy odrzuconych wartości własnych
.
Ze wzoru tego wynika, że minimalizacja błędu rekonstrukcji danych przy uwzględnieniu składników jest równoważna maksymalizacji wariancji rzutowania
na etapie rozkładu PCA
![]() |
(8.12) |
Zarówno , jak i
są nieujemne, gdyż wszystkie wartości własne macierzy korelacji, jako macierzy symetrycznej i nieujemnie określonej, są dodatnie bądź zerowe. Wnosimy stąd, że reprezentacja wektora danych
przez największe składniki główne
tworzące wektor
jest równoważna zachowaniu informacji o największej porcji energii zawartej w zbiorze danych.
Pierwszy (największy) składnik główny powiązany z przez swój wektor własny
określa kierunek w przestrzeni wielowymiarowej, w którym wariancja danych jest maksymalna. Ostatni najmniejszy składnik główny (ang. Minor Principal Component) wskazuje kierunek, w którym wariancja jest najmniejsza. Na rys. 8.1 przedstawiono interpretację geometryczną najbardziej znaczącego i najmniej znaczącego składnika głównego transformacji PCA dla danych 2-wymiarowych. Pierwszy składnik główny odpowiada kierunkowi największej zmienności mierzonej poprzez wariancję (energię) sygnałów. Dokonując reprezentacji danych tylko za pomocą jednego składnika głównego oraz skojarzonego z nim wektora własnego i wybierając jako reprezentanta największy ze składników głównych (
), popełnia się najmniejszy błąd rekonstrukcji, maksymalizując jednocześnie wariancję transformacji. Najmniej znaczący składnik główny ma najmniejszy wpływ na dokładność odtworzenia danych. Stąd kompresja danych (zmniejszenie ilości informacji z najmniejszą stratą dla rekonstrukcji) wymaga reprezentowania tych danych przez zbiór największych składników głównych. Pominięcie składników najmniejszych ma najmniej znaczący wpływ na dokładność rekonstrukcji danych.

Transformacja PCA jest ściśle związana z korelacją zachodzącą między wieloma zmiennymi w zbiorze danych. Jeśli te zmienne są skorelowane ze sobą, to znajomość jedynie części z nich wystarczy do określenia pozostałych. Stąd taki zbiór danych może być reprezentowany przez mniejszą liczbę zmiennych. W przypadku gdy nie występuje korelacja między zmiennymi tworzącymi wektor x, predykcja części z nich na podstawie pozostałych jest niemożliwa.
8.1.2 Przykład zastosowania PCA w ekonomii
Jako przykład ilustrujący właściwości rozkładu danych na składniki główne rozpatrzone będą dane GUS-u dotyczące wielkości związanych z miesięcznymi wartościami odpowiadającymi wskaźnikowi cen i usług konsumpcyjnych (wcu), stopie bezrobocia (sb), wartości produkcji sprzedanej w przemyśle (wps) oraz średniej płacy miesięcznej (spm) w Polsce. Przykład ten wykorzystuje dane statystyczne GUS z 10.5 lat (126 wartości).
Wektory pomiarowe x tworzą w tym przypadku cztery składowe, kolejno: wcu, sb, wps oraz spm. Stosując definicję macierzy korelacji (wzór 10.2) w wyniku obliczeń otrzymano macierz korelacji Rxx w postaci
Dokonując dekompozycji tej macierzy według wartości własnych uzyskuje się następujące wartości własne (w kolejności malejącej):
oraz skojarzone z nimi wektory własne
Na tej podstawie określa się pełną macierz transformacji PCA, zawierającą wszystkie wektory własne ułożone według największego znaczenia (w zależności od wielkości wartości własnych ):
w postaci
oraz macierz diagonalną złożoną z wartości własnych macierzy
ułożonych według malejących wielkości
. Największa wartość własna
skojarzona jest z pierwszym składnikiem głównym odpowiadającym wektorowi własnemu
, stanowiącemu pierwszy wiersz macierzy
. Składnik ten przy wektorze wejściowym
złożonym z czterech elementów (
) opisany jest relacją
, która w tym przypadku przybiera konkretną postać:
. Jak widać największy wpływ na składnik główny
ma zmienna
. Każda z wartości własnych
odpowiada wariancji jaką reprezentuje dany składnik główny. Względny wkład poszczególnych składników głównych w łączną wariancję danych (energię) można określić wzorem:
Wartości te są następujące: . Jak wynika z rozkładu tych wartości, największy składnik główny ma
udziału w łącznej wariancji danych. Przy odtwarzaniu wszystkich składników (
) na podstawie wektora
można ograniczyć się jedynie do jego największej składowej
, pomijając pozostałe jako nie wnoszące istotnego wkładu informacyjnego. Oznacza to 3-krotną redukcję ilości przetworzonej informacji. Po odtworzeniu w ten sposób danych uzyskano odtworzony zbiór danych, ze średnim błędem względnym równym
(zdefiniowanym jako stosunek normy euklidesowej macierzy błędu do normy euklidesowej danych przyjętych w postaci macierzy
).