Podręcznik
1. Matematyczna modelowanie informacji
1.2. Modelowanie źródeł informacji
Źródło informacji jest matematycznym modelem bytu fizycznego, który w sposób losowy generuje (dostarcza, emituje) sukcesywnie symbole. Przyjmując stochastyczny model źródła informacji dobrze opisujący niepewność zakładamy, iż informacja jest realizacją pewnej zmiennej losowej (procesu losowego czy dokładniej łańcucha (Łańcuchem stochastycznym nazwiemy proces stochastyczny z argumentem ziarnistym) o określonych właściwościach statystycznych. Model informacji, w którym zakładamy, że ma on charakter realizacji zmiennej, łańcucha lub procesu stochastycznego o znanych właściwościach statystycznych (istnieją i są znane rozkłady prawdopodobieństwa informacji), nazywany jest modelem z pełną informacją statystyczną lub krócej - modelem probabilistycznym.
Ze względów praktycznych szczególnie interesujące są probabilistyczne modele źródeł informacji, a analiza została ograniczona do dyskretnych źródeł informacji. Dla takich modeli obowiązują twierdzenia graniczne, w tym prawa wielkich liczb, z których wynika, że przy dostatecznie dużej liczbie niezależnych obserwacji częstości występowania określonych postaci informacji będą zbliżone do prawdopodobieństw ich występowania. Częstościowe określanie prawdopodobieństw jest tym dokładniejsze, im liczniejsze zbiory są podstawą wyznaczenia prawdopodobieństw.
W kontekście implementacji metod kodowania wygodniej jest mówić o wagach symboli. Jest to liczba wystąpień danego symbolu wogóle lub też w określonym kontekście. Podzielona przez liczbę wystąpień wszystkich symboli jest miarą częstości występowania symbolu, przybliżeniem (estymacją) prawdopodobieństwa.
Proces generacji informacji modelowany za pomocą źródła informacji polega na dostarczaniu przez źródło sekwencji (ciągu) symboli
) wybranych ze skończonego alfabetu
(czyli
) według pewnych reguł opisanych zmienną losową o wartościach
. Bardziej ogólnie probabilistycznym modelem ciągu informacji elementarnych jest sekwencja zmiennych losowych
traktowana jako proces stochastyczny (dokładniej łańcuch). Właściwości źródła określone są wtedy przez parametry procesu stochastycznego (prawdopodobieństwa łączne, charakterystyka stacjonarności itd.). Stacjonarność źródła w naszych rozważaniach jest rozumiana w kontekście procesu, którego realizacją jest dana informacja. Rozważmy przestrzeń symboli (dyskretnych próbek) generowanych ze źródła jako zbiór wszystkich możliwych sekwencji symboli wraz z prawdopodobieństwami zdarzeń rozumianych jako występowanie rozmaitych zestawów tych sekwencji. Zdefiniujmy także przesunięcie jako transformację
określoną na tej przestrzeni sekwencji źródła, która przekształca daną sekwencję na nową poprzez jej przesunięcie o pojedynczą jednostkę czasu w lewo (jest to modelowanie wpływu czasu na daną sekwencję), czyli
. Jeśli prawdopodobieństwo dowolnego zdarzenia (zestawu sekwencji) nie ulegnie zmianie poprzez przesunięcie tego zdarzenia, czyli przesunięcie wszystkich sekwencji składających się na to zdarzenie, wtedy transformacja przesunięcia jest zwana niezmienniczą (inwariantną), a proces losowy jest stacjonarny. Teoria stacjonarnych procesów losowych może być więc traktowana jako podzbiór teorii procesów ergodycznych, odnoszącej się do śledzenia zachowania średniej po czasie oraz po próbkach procesów w całej definiowanej przestrzeni.
Warto przypomnieć, że w źródle będącym realizacją procesu ergodycznego każda generowana sekwencja symboli ma te same właściwości statystyczne. Momenty statystyczne procesu, rozkłady prawdopodobieństw itp. wyznaczone z poszczególnych sekwencji zbiegają do określonych postaci granicznych przy zwiększaniu długości sekwencji, niezależnie od wyboru sekwencji. W rzeczywistości nie jest to prawdziwe dla każdej sekwencji procesu ergodycznego, ale zbiór przypadków, dla których jest to fałszywe, występuje z prawdopodobieństwem równym 0. Stąd dla stacjonarnych procesów ergodycznych możliwe jest wyznaczenie parametrów statystycznych (średniej, wariancji, funkcji autokorelacji itp.) na podstawie zarejestrowanej sekwencji danych (symboli, próbek) , co jest wykorzystywane w praktycznych algorytmach kodowania, opartych na przedstawionych poniżej uproszczonych modelach źródeł informacji.
Model bez pamięci - DMS
Najprostszą postacią źródła informacji jest dyskretne źródło bez pamięci DMS (discrete memoryless source), w którym sukcesywnie emitowane przez źródło symbole są statystycznie niezależne. Źródło DMS jest całkowicie zdefiniowane przez zbiór wszystkich możliwych wartości
zmiennej losowej, tj. zbiór symboli tworzących alfabet
, oraz zbiór wartości prawdopodobieństw występowania poszczególnych symboli alfabetu:
, gdzie
,
i
.
Można sobie wyobrazić, że źródło o alfabecie zamiast pojedynczych symboli generuje bloki
symboli z alfabetu źródła, czyli struktura pojedynczej informacji jest ciągiem
dowolnych symboli źródła. W takim przypadku można zdefiniować nowe źródło
o
elementowym alfabecie, zawierającym wszystkie możliwe
- elementowe ciągi symboli. Rozszerzony alfabet takiego źródła jest następujący:
, czyli
. Prawdopodobieństwo i-tego elementu alfabetu wynosi
(mamy do czynienia ze źródłem bez pamięci). Źródło
jest nazywane rozszerzeniem stopnia
źródła
.
Model z pamięcią (warunkowy) - CSM
Jakkolwiek model DMS spełnia założenia prostej, wygodnej w analizie struktury, to jednak w wielu zastosowaniach jest nieprzydatny ze względu na małą zgodność z charakterem opisywanej informacji. Założenie o statystycznej niezależności kolejnych zdarzeń emisji symbolu jest bardzo rzadko spełnione w praktyce. Aby lepiej wyrazić rzeczywistą informację zawartą w zbiorze danych, konstruuje się tzw. model warunkowy źródła - CSM (conditional source model), zwany także modelem z pamięcią w odróżnieniu od modelu DMS. Jest to ogólna postać modelu źródła informacji, którego szczególnym przypadkiem jest DMS, a także często wykorzystywany model źródła Markowa.
Modele źródeł z pamięcią, najczęściej ograniczoną, pozwalają z większą dokładnością przewidzieć pojawienie się poszczególnych symboli alfabetu źródła (strumień danych staje się lepiej określony przez model źródła). Koncepcja pamięci źródła jest realizowana poprzez określenie kontekstu (czasowego), który ma wpływ na prawdopodobieństwo wyemitowania przez źródło konkretnych symboli w danej chwili. W każdej kolejnej chwili czasowej t, po wcześniejszym odebraniu ze źródła sekwencji symboli , można na podstawie \mathbf{s}^{t} (tj. przeszłości) wnioskować o postaci kolejnego oczekiwanego symbolu poprzez określenie rozkładu prawdopodobieństw warunkowych P(\cdot |\mathbf{s}^{t}).
Zbiór wszystkich dostępnych z przeszłości danych stanowi pełny kontekst wystąpienia symbolu
. Kontekst C wykorzystywany w obliczanym rozkładzie
do modelowania lokalnych zależności danych dla różnych źródeł informacji stanowi zwykle skończony podzbiór
. Może być także wynikiem redukcji alfabetu źródła, przekształceń wykonanych na symbolach
itp. Reguły określenia C mogą być stałe w całym procesie generacji symboli przez źródło lub też mogą ulegać adaptacyjnym zmianom (np. w zależności od postaci ciągu symboli wcześniej wyemitowanych przez źródło).
Model źródła S z pamięcią jest określony poprzez:
- alfabet symboli źródła
,
- zbiór kontekstów C dla źródła S postaci
,
- prawdopodobieństwa warunkowe
dla i =1,2,...,n oraz j =1,2,...,k, często wyznaczane metodą częstościową z zależności
![]() |
(1.2) |
gdzie - liczba łącznych wystąpień symbolu
i kontekstu
- liczba wystąpień kontekstu
, przy czym jeśli
dla pewnych j (taki kontekst wystąpienia symbolu jeszcze się nie pojawił), wtedy można przyjąć każdy dowolny rozkład przy tym kontekście (wykorzystując np. wiedzę a priori do modelowania źródła w takich przypadkach),
- zasadę określania kontekstu C w każdej 'chwili czasowej' t jako funkcję f(\cdot ) symboli wcześniej wyemitowanych przez źródło.
Załóżmy, że źródło emituje sekwencję danych wejściowych \, gdzie
. Sekwencja kontekstów wystąpienia tych symboli jest określona przez funkcję
oraz
i przyjmuje postać:
, gdzie
dla
(w przypadku symbolu
brak jest symboli wcześniej wyemitowanych przez źródło, można więc przyjąć dowolny kontekst
. W ogólności
wyznaczająca kontekst następnego symbolu
musi być określona jako przekształcenie wszystkich możliwych sekwencji symboli z
o długości t lub mniejszej w
. Ponieważ
jest jedyną dostępną sekwencją symboli wygenerowaną przez źródło S prawdopodobieństwa warunkowe określane są na podstawie
według zależności (1.2).
Istotnym parametrem modelu CSM jest rząd kontekstu C, który określa liczbę symboli tworzących kontekst dla kolejnych symboli emitowanych przez źródło. Rozważmy prosty przykład sekwencji
ze źródła
modelowanego rozkładem
przy kontekstach kolejnych symboli
rzędu 1. Niech kontekst C stanowi symbol bezpośrednio poprzedzający kodowaną wartość
oraz
dla pewnego
. Wtedy
, a ten model CSM jest modelem źródła Markowa pierwszego rzędu. Generalnie, model źródła Markowa rzędu m jest bardzo powszechnie stosowaną realizacją CSM (model DMS jest modelem źródła Markowa rzędu 0).
Model źródła Markowa
Źródło Markowa rzędu m jest źródłem, w którym kontekst wystąpienia kolejnych symboli
generowanych przez źródło S stanowi skończona liczba m poprzednich symboli
, czyli dla dowolnych wartości l oraz
. Zatem prawdopodobieństwo wystąpienia symbolu
z alfabetu źródła zależy jedynie od m symboli, jakie pojawiły się bezpośrednio przed nim, przy czym określone jest przez zbiór prawdopodobieństw warunkowych (oznaczenia jak przy definicji źródła CSM):
![]() |
(1.3) |
Często źródło Markowa analizowane jest za pomocą diagramu stanów, jako znajdujące się w pewnym stanie, zależnym od skończonej liczby występujących poprzednio symboli - zobacz rys. 1. Dla źródła Markowa pierwszego rzędu jest n takich stanów, dla źródła rzędu m mamy nm stanów.
Rys. 1 Diagramy stanów prostych modeli Markowa z alfabetem binarnym: a) ogólny model rzędu 1 z przejściami pomiędzy poszczególnymi stanami, b) model rzędu 2 z przykładowymi wartościami prawdopodobieństw warunkowych. Stany opisane są wszystkimi możliwymi kombinacjami kontekstów, zaś odpowiednie przejścia pomiędzy stanami źródła odzwierciedlają wystąpienie kolejnej danej źródłowej; w kontekście prawy symbol oznacza ten bezpośrednio poprzedzający, zaś lewy - to symbol jeszcze wcześniejszy.
Przy kompresji danych obrazowych efektywny kontekst budowany jest zwykle z najbliższych w przestrzeni obrazu pikseli, przy czym sposób określenia kontekstu może zmieniać się dynamicznie w trakcie procesu kodowania, np. zależnie od lokalnej statystyki. Popularną techniką jest taka kwantyzacja kontekstu (tj. zmniejszanie kontekstu w celu uzyskania bardziej wiarygodnego modelu prawdopodobieństw warunkowych), kiedy to liniowa kombinacja pewnej liczby sąsiednich symboli warunkuje wystąpienie symbolu, dając de facto model warunkowy pierwszego rzędu, zależny jednak od kilku- czy kilkunastoelementowego sąsiedztwa.
\subsection{Miary ilości informacji} \label{Punkt_miary_infor}