Podręcznik

1. Matematyczna modelowanie informacji

1.7. Kodowanie odwracalne

Zwykle w procesie kompresji odwracalnej (bezstratnej) występują dwa zasadnicze etapy procesu kodowania, które odnoszą się do całej sekwencji danych lub poszczególnych jej części. W pierwszej fazie modelowania tworzony jest opis, charakterystyka źródła informacji, jego podstawowych właściwości. Wierność, wiarygodność i prostota modelu decyduje o efektywności zasadniczego etapu binarnego kodowania sekwencji źródłowej. Kodowanie binarne polega na tworzeniu możliwie oszczędnej reprezentacji kodowej w postaci bitowej sekwencji jednoznacznie reprezentującej dane źródłowe.

Modelowanie pełni rolę ''inteligencji'' sterującej ''silnikiem kodowania'', czyli koderem binarnym. Utworzenie modelu o w.w. wymaganiach jest niekiedy zbyt trudne ze względu na złożoność źródła informacji i brak stabilności (stacjonarności) jego charakterystyki. Wówczas wykorzystywana jest dodatkowa, wstępna dekompozycja danych, czyli proste przekształcenie reprezentacji lub też transformacja do nowej dziedziny. Celem jest stworzenie pośredniej reprezentacji źródła informacji, uproszczonej, o przewidywalnych właściwościach, generalnie o większej podatności na kodowanie. Przykładem takiego przekształcenia może być policzenie różnic pomiędzy kolejnymi danymi ciągu źródłowego lub też zastąpienie serii powtarzających się symboli liczbą ich powtórzeń. Przekształcając dane z przestrzeni oryginalnej w inną przestrzeń reprezentacji pośredniej z wykorzystaniem metrycznych (odległościowych) zależności danych, określonego sposobu porządkowania danych lub zmniejszenia wymiarowości oryginalnej dziedziny danych itp. można uzyskać w niektórych przypadkach znaczące zwiększenie stopnia kompresji.

Modelowanie można zrealizować na dwa zasadnicze sposoby:

opracowując uogólniony model probabilistyczny (przy założeniu określonej stacjonarności źródła danych) na podstawie przyjętej postaci kontekstu (sąsiedztwa) wystąpienia danych, przy dostępnej statystyce zliczeń -- stosowany przede wszystkim w metodach entropijnych;
tworząc model deterministyczny opisujący relacje identyczności danych (ciągów danych powtarzających się) w odniesieniu do chwilowych czy lokalnych zależności danych lub też funkcyjne wzory zależności z obliczeniem odstępstw od przyjętego modelu -- stosowany przede wszystkim w metodach kodowania długości serii, słownikowych, predykcyjnych;

Możliwe jest również łączenie realizowanych w różnej formie sposobów modelowania kodowanej sekwencji danych w celu uzyskania dokładniejszej charakterystyki źródła, o większej wiarygodości i zwartości opisu (tj. przy możliwie małej liczbie parametrów modelu). Model powinien być dobrze określony, z większym zróżnicowaniem prawdopodobieństw symboli czy też dłuższymi ciągami jednakowych bądź podobnych symboli.

Wstępna dekompozycja, modelowanie oraz kodowanie binarne tworzą odwracalne odwzorowanie (tj. bijekcję) metod odwracalnej kompresji na wiele różnych sposobów. Te rozdzielone etapy kodowania mogą być niekiedy przeplatane, zintegrowane, przenikające się, a w niektórych rozwiązaniach wręcz komplementarne. Ogólny paradygmat kodowania odwracalnego przedstawiono na rys. 2, zaś w przykładzie 1.2.3 opisano proste jego realizacje.

Rys. 2 Ogólny paradygmat odwracalnych metod kompresji.