Podręcznik

2. Kompresja i porządkowanie danych

2.3. Ograniczenia

Głównym ograniczeniem efektywności metod kompresji są zbyt uproszczone modele źródeł informacji wskutek dalece niedoskonałego modelowania rzeczywistości (założenia stacjonarności, gaussowskiej statystyki źródeł). Względność ''optymalnych'' dziś rozwiązań wynika także ze sposobu definiowania informacji bez odniesienia do warstwy semantycznej. Często nie sposób przełożyć posiadanej wiedzy a priori, dotyczącej analizowanego procesu, na parametry modelu statystycznego. Nie ma jednoznacznych definicji nadmiarowości, która może występować tak na poziomie pojedynczych danych, jak też obiektowym i semantycznym. Opisując informację trudno jest stwierdzić, jak zmiana parametrów modelu obiektu decyduje o utracie przez niego ''tożsamości'' wpływającej na ilość przesyłanej informacji. Wymaga to definicji pojęcia informacji na wyższym poziomie abstrakcji, a jest to przecież poziom użytkowy typowego odbiorcy.

Interesująca staje się postać reprezentacji danych optymalnej nie w kontekście przyjętych założeń, ale wobec bogatej rzeczywistości form, jakie przyjmuje informacja we współczesnym świecie. Rozważmy prosty przykład. W telewizyjnym teleturnieju uczestnicy zabawy odkrywają kolejno fragmenty obrazu próbując możliwie szybko rozpoznać jego treść. Niekiedy potrzeba bardzo niewiele odsłoniętych elementów, by zidentyfikować znany obraz. Cyfrowy obraz Mona Lisa skompresowany według standardu JPEG z zachowaniem wysokiej jakości rekonstrukcji to 150 kilobajtów danych. Jeśli zaczniemy stopniowo odsłaniać ten obraz rekonstruując progresywnie kolejne bity skompresowanej reprezentacji, to już po dekompresji 1000 bajtów większość specjalistów potrafi rozpoznać ten obraz. Do rozpoznania obrazu Abrahama Lincolna w podobnym teście przeprowadzonym przez L. Harmona wystarczyło 756 bitów. 

Problemem jest włączenie wiedzy o świecie dostępnej a priori w poszukiwanie optymalnej reprezentacji informacji obrazowej. Zniekształcona, cyfrowa rekonstrukcja Mona Lisy według JPEG jest tylko przybliżeniem, aproksymacją oryginału. O poziomie stratności (nieodwracalności) metody kompresji decyduje poziom aproksymacji danych źródłowych wymagany przez odbiorcę. Niekiedy informację może stanowić jedynie adres internetowy (wskaźnik odpowiedniego obiektu) lub też tekst "Obraz Mona Lisa" powodując reakcję odbiorcy adekwatną do upodobań, posiadanej wiedzy i dostępnych środków (np. wizytę w muzeum Louvre, obejrzenie wysokiej jakości reprodukcji posiadanej w domu czy też książki o dziełach sztuki etc). W innym przypadku odbiorca wymaga reprodukcji najwyższej jakości, co daje kompresja bezstratna cyfrowej postaci obrazu o najwyższej jakości. Występuje tutaj duże podobieństwo z zagadnieniem indeksowania.