Podręcznik: Entropia modelu źródła z pamięcią

1. Matematyczna modelowanie informacji

1.4. Entropia modelu źródła z pamięcią

Zależności pomiędzy danymi w strumieniu zwykle lepiej opisuje model z pamięcią, a wartość entropii tego źródła (tzw. entropii warunkowej) jest bliższa rzeczywistej ilości informacji zawartej w kompresowanym zbiorze danych. Zależność pomiędzy entropią łączną $H(C,S)$ źródła o zdefiniowanym kontekście $C$ , warunkową $H(S|C)$ oraz tzw. entropią brzegową (entropią źródła obliczoną dla rozkładu brzegowego) $H(C)$ jest następująca:

$H(C,S)=H(S|C)+H(C)$

(1.6)

Przykładem miary ilości informacji źródeł z pamięcią będzie entropia wyznaczona dla źródeł Markowa, znajdujących bardzo częste zastosowanie w praktyce kompresji.

Entropia modelu źródła Markowa
Aby za pomocą modelu źródła Markowa rzędu $m$ obliczyć ilość informacji (średnio na symbol źródła) zawartą w kodowanym zbiorze danych, wykorzystuje się zbiór prawdopodobieństw warunkowych i określa tzw. entropię warunkową źródła znajdującego się w pewnym stanie $(a_{j_{1}},a_{j_{2}},\ldots,a_{j_{m}})$ jako:

$H(S|a_{j_{1}},a_{j_{2}},\ldots,a_{j_{m}})=-\sum_{i=1}^{n}P(a_{i}|a_{j_{1}},\ldots,a_{j_{m}})\log_{2}P(a_{i}|a_{j_{1}},\ldots,a_{j_{m}})$

(1.7)

Następnie oblicza się średnią entropię warunkową źródła S jako sumę ważoną entropii warunkowych po kolejnych stanach źródła wynikających ze wszystkich możliwych konfiguracji (stanów) kontekstu $C^{(m)}$ : $\quad A_{C^{(m)}}^{S}=\{\mathbf{b}_{1},\mathbf{b}_{2},\ldots,\mathbf{b}_{j},\ldots,\mathbf{b}_{k}\}$ , gdzie $\mathbf{b}_{j}=(a_{j_{1}},\ldots,a_{j_{m}})$ oraz $\forall_{l\in \{1,\ldots,m\}}a_{j_{l}}\in A_{S}$ , przy czym wagami są prawdopodobieństwa przebywania źródła w danym stanie:

$H(S|C^{(m)})=\sum_{A_{C^{(m)}}^{S}}P(a_{j_{1}},\ldots,a_{j_{m}})H(S|a_{j_{1}},\ldots,a_{j_{m}})$

(1.8)

czyli

$H(S|C^{(m)})=-\sum_{j_{1}=1}^{n}\cdots \sum_{j_{m}=1}^{n}\sum_{i=1}^{n}P(a_{j_{1}},\ldots,a_{j_{m}},a_{i})\log_{2}P(a_{i}|a_{j_{1}},\ldots,a_{j_{m}})$

Tak określona średnia entropia warunkowa modelu źródła Markowa rzędu $m$ jest mniejsza lub równa entropii bezwarunkowej. Jest ona pomniejszona o średnią ilość informacji zawartą w kontekście wystąpienia każdego symbolu strumienia danych. Jednocześnie entropia warunkowa danych przybliżanych źródłem Markowa rzędu $m$ jest niemniejsza niż entropia łączna źródła emitującego tę sekwencję danych (według równania (1.4)). Zależność pomiędzy postaciami entropii związanymi z przedstawionymi modelami źródeł informacji, opisującymi z większym lub mniejszym przybliżeniem informację zawartą w konkretnym zbiorze danych, jest następująca:

$H(S)\leq H(S|C^{(m)})\leq H(S_{\textrm{DMS}})$

(1.9)

Zastosowanie modeli CSM wyższych rzędów zazwyczaj lepiej określa rzeczywistą informację zawartą w zbiorze danych, co pozwala zwiększyć potencjalną efektywność algorytmów kompresji wykorzystujących te modele. W zależności od charakteru kompresowanych danych właściwy dobór kontekstu może wtedy zmniejszyć graniczną długość reprezentacji kodowej. Stosowanie rozbudowanych modeli CSM w konkretnych implementacjach napotyka jednak na szereg trudności, wynikających przede wszystkim z faktu, iż ze wzrostem rzędu kontekstu liczba współczynników opisujących model rośnie wykładniczo. Wiarygodne statystycznie określenie modeli zaczyna być wtedy problemem. Trudniej jest także zrealizować algorytmy adaptacyjne, co w efekcie może zmniejszyć skuteczność kompresji w stosunku do rozwiązań wykorzystujących prostsze modele.