Podręcznik

3. Definiowanie informacji

3.4. Reprezentacja informacji

W różnego typu zastosowaniach teleinformatycznych, multimedialnych, widzenia maszynowego, obrazowania medycznego, przemysłowych, itd. metody reprezentacji danych obrazowych nabierają szczególnego znaczenia. Reprezentacja źródłowa, czyli pozyskana w procesie akwizycji/rejestracji danych, jest z natury nadmiarowa, bo zakłada \emph{a priori} maksymalny zakres dopuszczalnych zmian , zgodnie z naturalnie zróżnicowaną dynamiką rejestrowanego sygnału oraz realiami systemu akwizycji. Przykładowo, reprezentacja danych obrazowych ma zwykle postać ciągu słów kodu dwójkowego o rozmiarze 8 bitów/piksel przy założeniu skali szarości lub 24 bitów/piksel dla formy obrazu w skali barw RGB. Odpowiada to dynamice  przetworników a/c, ośmiobitowych dla każdego komponentu, często stosowanych w urządzenia rejestracji obrazów. Rejestracja dźwięku przy typowej częstości próbkowania 44 lub 96 kHz daje typowo ciąg 16 lub 24 bitowych próbek zapisanych w kodzie dwójkowym. Przy ograniczonej dynamice rejestrowanego sygnału redundantna reprezentacja danych utrudnia ich przekaz, archiwizację, analizę, a nawet wizualizację czy odsłuch. Taką nadmiarowość nazywamy syntaktyczną.

Kody, czyli reguły tworzenia nowych, bardziej upakowanych sekwencji bitowych reprezentujących dane, pozwalają uzyskać nowe formy reprezentacji danych -- o zredukowanym rozmiarze, o większej odporności na zakłócenia, porządkujące występowanie danych w strumieniu (np. w formie progresji od ogółu treści do szczegółu) itp.

Metody kodowania wykorzystują proste mechanizmy modelowania danych, jak powtarzające się serie identycznych symboli (metoda kodowania długości serii) czy też zróżnicowana częstość występowania poszczególnych symboli alfabetu źródła danych (kod Huffmana). Bardziej zaawansowane kody bazują na transformacji danych do nowej dziedziny, dającej reprezentacje upakowaną, skalowalną, a nawet naturalnie uporządkowaną w sensie przyjętego kryterium progresji jakości danych (dziedzina falkowa w algorytmie kodowania standardu JPEG2000(http://www.jpeg.org/jpeg2000/). Możliwa jest też ingerencja odbiorcy w proces kodowania danych, gdzie za pomocą interaktywnego protokołu nadaje on kształt przekazu strumienia informacji definiując swoje potrzeby (interaktywny protokół JPIP(http://www.jpeg.org/jpeg2000/j2kpart9.html).

Rozumienie danych, czyli treść

Treść przypisana do ciągu, zbioru lub strumienia danych, odgrywająca kluczową rolę w przekazie informacji, związana jest bezpośrednio z naturą danych, techniką akwizycji i formowania postaci wyjściowej, określonym przeznaczeniem, intencjami nadawcy czy specyfiką rejestrowanego zjawiska. Treść rozumiana jest jako sens przekazu danych, jego wymowa koncepcyjna, ideologiczna. To wszystko, co można odkryć, zrozumieć, odczytać, analizując określony ciąg danych. Odczytanie znaczenia słów, w które układa się forma danych, właściwe ich skojarzenie w znaczenie, semantykę przekazu stanowi podstawę właściwej interpretacji danych.

Warunkiem rozumienia treści jest rozpoznanie szczegółów przekazu, percepcja wszystkich istotnych właściwości występujących elementów składowych, detekcja obiektów o rozpoznanym znaczeniu czy też grupy obiektów wraz z ich wzajemnymi odniesieniami. Rozpoznanie komputerowe naśladuje ludzkie poprzez wstępne wydzielenie obiektów i opisanie ich właściwości za pomocą dobranych deskryptorów, a następnie algorytmiczną realizację rezonansu poznawczego. Chodzi tutaj o skojarzenia parametrycznych charakterystyk obiektów ze sformalizowaną wiedzą specjalistyczną danej dziedziny, doświadczeniem gromadzonym latami w podobnych okolicznościach. 

Jeśli rozpoznanie treści dokonujące się w głowach odbiorców nie sposób przełożyć na formalny model wiedzy i doświadczenia, obiektywny opis znaczeniowy treści staje się praktycznie niemożliwy. Rola, jaką przy czytaniu treści odgrywa intuicja czy intelekt odbiorcy, nie została opisana formalnie. Pozostaje jedynie naśladowanie rozumowego wnioskowania.

Odbiór informacji bazuje na rozumieniu treści, przy czym ważną role odgrywa także właściwa jej interpretacja. 
Znajdująca się na  wyższym poziomie abstrakcji interpretacja treści przekazu, czyli ocena zasadniczej wymowy odczytanej treści stanowi jedno z najbardziej ambitnych zadań inteligencji obliczeniowej, a właściwie obliczeniowej mądrości. 

Informacja, czyli chciana treść

Kluczowym warunkiem udanego przekazu informacji jest znaczenie przesyłanych za pomocą danych treści, której reprezentacja winna umożliwić skuteczny jej odbiór na sposób zgodny ze zdolnościami percepcji treści przez odbiorcę. Semantyka, czyli znaczenie danych formułuje treść przekazu, a ta w mniejszym lub większym stopniu staje się użyteczną dla odbiorcy informacją. Informacja z założenia stanowi istotę każdego sensownego przekazu danych, służy odbiorcy w zaspokojeniu określonych potrzeb. Personifikowany nadawca zaspokaja potrzeby odbiorcy realizując swoje cele. Gdy nadawcą jest ''natura'', podglądana, rejestrowana -- odkrywamy wtedy jej tajemnice zdobywając informacje i budując wiedzę.  Wymiana informacji jest podstawową funkcją życiową, wydaje się warunkiem koniecznym istnienia każdej społeczności, która trwa.

Informacja wynika z treści przekazu strumienia danych, która okazuje się znacząca dla odbiorcy. Znacząca, czyli coś daje, do czegoś się przydaje, zaspokaja określone potrzeby. Nie zawsze chodzi tutaj o dostarczenie nowych wiadomości, zobaczenie nowego filmu czy spektaklu, wideorozmowę z osobą, której nie widzieliśmy kilka lat.  Czasami chcemy posłuchać ulubionej muzyki, przypomnieć sobie wzruszający serial sprzed lat, powtórzyć czy odświeżyć wiedzę, bo tego właśnie nam potrzeba, bo taki jest nastrój czy wymóg chwili. Można także dokonać wyboru treści znaczących w sposób arbitralny, niekiedy nawet wbrew woli odbiorcy, by uświadomić mu pewne fakty, pouczyć, narzucić konieczność konfrontacji z określoną tematyką, itp. 

Takie subiektywne rozumienie informacji jest w dużym stopniu niejednoznaczne, z trudem poddaje się formalizacji zobiektywizowanego opisu, algorytmicznej procedurze ustalania warunków przekazu np. multimedialnego\ {Przekaz multimedialny znaczy wielostrumieniowy, ze znacznikami czasu rzeczywistego, synchronizacją treści poszczególnych strumieni, naśladujący w pewnym stopniu uwarunkowania przekazu ludzkiego.}. Selekcja treści, uporządkowanie, ustalenie względności używanych pojęć i liczb, hierarchia opisu  wymaga przyjęcia pewnego modelu odbiorcy, który z natury musi być uproszczony, uogólniony, schematyczny. Brakuje formalnych rozwiązań, które dostosowują się do potrzeb indywidualnego odbiorcy. Przekaz jest więc często wspomagany  różnymi formami interakcji.

Nieco inne rozumienie informacji, zakładające pewne ujednolicenie opinii dotyczących wartości przesyłanych danych, bazuje na fakcie, że pozyskanie informacji związane jest z pewnym kosztem. Koszt ten, wynikający z charakteru przekazywanych treści oraz przyjętej reprezentacji danych, jest zazwyczaj mniejszy od korzyści wynikających z jej użytkowania. Zysk mierzony różnicą wartości korzyści uzyskanych wskutek przekazu informacji w odniesieniu do poniesionych kosztów jest miarą ilości informacji. Stąd jeśli koszty przerosły zyski, przekazane dane nie były informacją. Ocena ilości informacji jest  w tym przypadku możliwa jedynie w analizie retrospektywnej.

Matematyczna teoria informacji, której podstawy sformułowano pod koniec lat czterdziestych zeszłego wieku, zakłada zobiektywizowane pojęcie informacji, umożliwiające ilościową  charakterystykę informacji, tworzenie modeli źródeł informacji oraz zasad zniekształceń tych źródeł, a także konstruowanie kodów dopasowanych do specyfiki danych. Claude E. Shannon, uznawany za twórcę matematycznej teorii informacji, wprowadził rozdzielenie pojęcia  informacji oraz semantyki przekazu twierdząc, że semantyka nie jest istotna przy rozwiązywaniu inżynierskich problemów komunikacji. Informacja przekazu dotyczy jedynie wyboru jednej z dostępnych możliwości źródłowych. Stąd informacja została zdefiniowana jako poziom niepewności odbiorcy dotyczącej przekazywanych danych. Wśród transmitowanych danych tylko te zawierają informacje, które pozostają nieokreślone czy nieprzewidywalne (odbiorca nie ma pewności, jakie dane otrzyma). Po ich otrzymaniu poziom niepewności odbiorcy maleje.  

W matematycznej teorii informacji rozważany jest więc jedynie transmisyjny (syntaktyczny, z analizą postaci informacji), a nie semantyczny aspekt informacji. Znaczy to, że nie prowadzi się formalnych rozważań dotyczących prawdziwości czy znaczenia tego, co jest przesyłane. Informacja rozumiana jest wtedy jako ciąg danych -- symboli nad ustalonym alfabetem, z określonym prawdopodobieństwem ich występowania. Przyjęto więc probabilistyczny model źródła informacji. Podstawy matematycznej teorii informacji określają metody opisu źródeł informacji, kodowania tych źródeł oraz teorie zniekształceń źródeł informacji.  

Źródło informacji opisane jest w pierwszym przybliżeniu parą zbiorów (A_S,P_S) jest alfabetem źródła, czyli zbiorem wszystkich symboli -- postaci danych, jakimi wyrażana jest informacja (inaczej zbiorem informacji elementarnych), a P_Sto rozkład wartości prawdopodobieństw wystąpienia poszczególnych symboli alfabetu źródła o liczności odpowiadającej liczbie symboli alfabetu dla źródeł określonych,|A_S|=|P_S|.

Współczesny rozwój technologii teleinformatycznych oraz coraz bardziej istotna rola przekazu informacji w życiu społecznym prowadzi do rosnącej liczby zastosowań, które odwołują się do semantyki przekazu, a uproszczony model probabilistyczny przekazu informacji staje się niewystarczający. Wśród wielu przykładów można wskazać wprowadzenie wspomnianego protokołu JPIP w ramach standardu JPEG2000, czy też wymagania zastosowań medycznych, przede wszystkim kodowania obrazów w celach archiwizacji lub transmisji w systemach telediagnozy z zachowaniem wiarygodności diagnostycznej obrazów. Znaczenie pojedynczych pikseli, grup pikseli, obiektów i wzajemnych relacji definiujących treść jest tutaj kluczowe.

Semantyka przekazywanej informacji odgrywa na tyle znaczącą rolę w jej użytkowaniu przez odbiorcę, zrozumieniu, ocenie, interpretacji, że winna stanowić ważny element modelowania źródeł informacji. Przykładowe rozszerzenie definicji źródła informacji o alfabet znaczeń poszczególnych symboli \Sigma_S prowadzi do modelu (A_S,P_S,\Sigma_S). Kolejnym, niezwykle istotnym aspektem w przekazie informacji jest jej prawdziwość. L. Floridi zdefiniował pojęcie semantycznej informacji jako ciąg danych dobrze uformowanych (reprezentowanych), znaczących (z niezerowym opisem semantycznym) oraz prawdziwych. Dane określonej treści, mające znaczenie dla odbiorcy tylko wtedy stanowią informację, gdy są prawdziwe. Choć taka definicja wydaje się z inżynierskiego punktu widzenia bardzo wymagająca, niewątpliwie stanowi ona pełny i wiarygodny opis pojęcia informacji.

Proces ustalania dobrze uformowanej, tj. skutecznej w danym zastosowaniu reprezentacji informacji powinien odwoływać się więc zarówno do znaczenia, jak i prawdziwości, czy też inaczej wiarygodności danych źródłowych.   

Jedną z podstawowych metod optymalizacji przekazu informacji jest dobór efektywnej reprezentacji dostarczanych danych źródłowych. Najlepiej jak jest to reprezentacja informacji semantycznej w postaci zwartej -- upakowanej, czyli rzadkiej (ang. \emph{sparse}) w sensie wymiaru dziedziny źródłowej oraz uporządkowanej (skupionej w niewielkim zakresie dziedziny). Taka reprezentacja pozwala na bardziej efektywną realizację procedur kodowania, przetwarzania, analizy, ekstrakcji treści użytecznej, selekcji informacji, itp. W przypadku zastosowań medycznych zwiększa skuteczność systemów komputerowego wspomagania diagnostyki obrazowej, rozpoznawania patologii, wydobywania treści ukrytych, czyli niedostrzegalnych w ocenie radiologa.
 
Dobór reprezentacji

Reprezentacja źródłowa Jedną z podstawowych metod optymalizacji przekazu informacji jest dobór efektywnej reprezentacji dostarczanych danych źródłowych. Rejestracja informacji z wykorzystaniem określonego sygnału wprowadza w sposób oczywisty zależności pomiędzy ciągami wartości sygnału, bo taka jest natura każdej informacji.  Przekłada się to na nadmiarowość reprezentacji źródłowej.

Treść wyrażana jest za pomocą określonych obiektów i wzajemnych relacji. Więcej różnorodnych, stosunkowo niewielkich obiektów luźno ze sobą powiązanych przekłada się na wzrost ilości  informacji zawartej w sygnale. Duże, jednorodne, podobne do siebie obiekty będące wyrazem treści oznaczają małą ilość informacji, dużą zależność danych, a więc silną nadmiarowość reprezentacji źródłowej, zwaną nadmiarowością stochastyczną. 

Rzeczywistej rejestracji sygnału towarzyszy także zapis szumu, czyli składowej wprowadzającej losowość zmian kolejnych wartości rejestrowanego sygnału. Redukcja zależności pomiędzy danymi powoduje w przypadku wzrostu energii szumów wyraźne zwiększenie entropii, rozumianej w tym przypadku jako miara nieuporządkowania. Niestety, sposób liczenia entropii nie pozwala wskazać przyczyny wzrostu jej wartości - nie wiemy, czy przybywa informacji czy też nieuporządkowanego szumu. Występowanie szumu powoduje nadmiarowość znaczeniową (semantyczną), której poziom można ustalić m.in. za pomocą semantycznych deskryptorów numerycznych, dostosowanych do specyfiki obrazów. 

Modelowanie sygnałów w celu ich kodowania, przetwarzania, analizy, ekstrakcji informacji, itp. jest bardziej użyteczne, jeśli bazuje na zwartym opisie sygnału. W przypadku naturalnych źródeł informacji zwarta, czyli upakowana reprezentacja sygnału jest rzadka (ang. \emph{sparse}) w stosunku do wymiaru dziedziny źródłowej. 

Możliwe jest wykorzystanie przekształceń \mathcal{P}:f\rightarrow w powodujących dekorelację czy nawet dających pełną niezależność danych. Przekształcenia te tworzą upakowaną, jednoznaczną reprezentację, która jest rzadka i uporządkowana w sensie lokalnego skupienia energii sygnału (przenoszącego informację) w niewielkim zakresie dziedziny przekształcenia. Znaczy, to że liczba niezerowych współczynników w obszarze tej dziedziny jest znikomo mała, czyli realny wymiar nowej dziedziny reprezentacji informacji został znacząco zredukowany. Taki zwarty opis sygnału daje zwykle jedynie przybliżoną postać wersji źródłowej, najlepiej przy zachowaniu wszystkich istotnych jego cech, a usunięciu nadmiarowości semantycznej.

Przyjmując bardziej formalnie pewną złożoność rozważanego problemu, można założyć, że sygnał f składa się z K składników o różnej morfologii f=\sum_{i=1}^K f_i , np. obraz składa się z kilku obiektów o różnej morfologii (charakterystyce teksturowej, kształcie itp.), a ponadto istnieje słownik baz \varphi, tj. zbiorów wektorów bazowych, służących efektywnej reprezentacji sygnałów. Przyjmuje się, że każdy ze składników f_i  może mieć  reprezentację \mathcal{R}_i = \varphi_i^T f_i, uzyskaną za pomocą określonej bazy \varphi_i . Celem jest dobranie reprezentacji możliwie rzadkiej w sensie pseudo-normy l_0: \|\varphi_i^T f_i \|_0, gdzie \|x\| oznacza liczbę niezerowych współczynników wektora x. Dążymy więc do \min \sum_{i=0}^K \|\varphi_i^T f_i \|_0 dobierając odpowiednie bazy dla poszczególnych składników. Najprostszy przypadek dla K=1 sprowadza się do poszukiwania bazy dającej możliwie rzadką, czyli maksymalnie upakowaną reprezentację I Znając charakterystykę zróżnicowanych składowych sygnału, które stanowią informację obrazową, dobieramy bazy maksymalnego upakowania oddzielnie dla każdego z potencjalnie niezależnych komponentów (obiektów) obrazu.

Przykładowo, na rys. 1 pokazano przybliżenia obrazów testowych, uzyskane za pomocą upakowanej reprezentacji w kilku różnych bazach -- funkcji falkowych, falek geometrycznych - kliników, falek kierunkowych - krzywek oraz funkcji szeregu fourierowskiego. Zalety bazy falkowej widać na rys.2 gdzie uzyskano bardzo wierny obraz sygnału za pomocą falkowej reprezentacji o wymiarze stanowiącym zaledwie 15% wymiaru dziedziny źródłowej. 

Rys. 1 Efekty opisu dwóch obrazów testowych (barbara i goldhill) za pomocą upakowanej reprezentacji; od lewej kolejno obrazy źródłowe o rozmiarze 512\times 512\times 8 bitów oraz ich przybliżenia z 13,6\% współczynników obrazów, uzyskanych za pomocą bazy falkowej, wedgeletowej (kliników), curveletowej (krzywek) oraz fourierowskiej.

Rys. 2 Przybliżenie sygnału źródłowego za pomocą reprezentacji zredukowanej do zaledwie 15% wymiaru dziedziny źródłowej; kolejno od lewej do prawej, zaczynając od góry - sygnał źródłowy oraz przybliżenia za pomocą baz fourierowskiej, funkcji  dyskretnej transformacji kosinusowej oraz bazy falkowej; w przypadku funkcji sinusoidalnych o nieskończonym nośniku widoczne są charakterystyczne oscylacje przy krawędziach o dużym gradiencie, w punktach nieciągłości - efekt Gibbsa.