Doskonalenie odbioru informacji multimedialnych
2. Komputerowa obróbka danych
Zasadniczym celem komputerowego przetwarzania danych jest doskonalenie przekazu informacji multimedialnej od etapu pozyskiwania danych źródłowych (rejestracji źródła przekazu) po etap prezentacji danych odbiorcy (grupie odbiorców, według scenariusza). W zależności od zastosowań, to doskonalenie zakłada różne formy wejściowe danych oraz przybiera różne formy wyjściowe dostosowane do modelu (schematu) użytkownika czy użytkowania.
Tak szeroka definicja zagadnienia obejmuje także metody kodowania (kompresji), które służą niewątpliwie doskonaleniu przekazu, podobnie jak metody indeksowania pozwalające opisać, a przez to uporządkować przekaz złożony.
Wśród zagadnień komputerowego przetwarzania danych można wyróżnić przede wszystkim:
- rejestrację danych
- kodowanie danych cyfrowych
- ulepszanie danych
- analizę danych, w tym:
- rozpoznanie wzorców
- rozumienie danych
- opis danych za pomocą numerycznych deskryptorów
- interpretację danych
- syntezę danych na podstawie:
- modeli elementarnych (strukturalnych)
- modeli złożonych (obiektowych)
- modeli probabilistycznych
- modeli fizycznych i pseudofizycnych (empirycznych)
- wyszukiwanie poindeksowanych danych podobnych
Zagadnienia te są ograniczone z jednej strony procesem rejestracji sygnałów (danych) naturalnych bądź specjalistycznych, z drugiej zaś strony -- charakterystyką użytkowania zawartych w sygnale (w danych) informacji. Pomiędzy nimi znajdują się obszary koncepcji bardziej uniwersalnych, odnoszące się do trzech kluczowych aspektów: reprezentowania danych cyfrowych (kodowanie-kompresja), rozpoznania znaczenia danych (inteligentna analiza abstrakcyjna), porządkującego opisu danych (indeksowanie z kryterium podobieństwa).
W kontekście przetwarzania danych multimedialnych dochodzi jeszcze istotny aspekt integracji strumieni informacji oraz kształtowanie synergii przekazu, obecny w jakimś stopniu w każdym z wymienionych zagadnień.
Arsenał metod KPD jest bardzo bogaty, a próba ich syntetycznego zestawienia nie jest prosta. Poniższy podział służy przede wszystkim wskazaniu najbardziej przydatnych, elementarnych algorytmów przetwarzania danych, ukazujących jednocześnie różnorodność możliwych działań na danych w celu uzyskania zamierzonych efektów aplikacyjnych.
Wśród metod komputerowego przetwarzania danych można wyróżnić
- służące przede wszystkim ulepszeniu danych
- operacje histogramowe: a) adaptacyjne - na bazie relacji histogramu źródłowego do docelowego w skali globalnej bądź lokalnej; b) według ustalonego przyporządkowania punkt źródłowy - punkt docelowy;
- filtracje splotowe: a) kontekstowe w przestrzeni źródłowej; b) skalowalne (połączone ze zmianą skali sygnału źródłowego);
- filtracje częstotliwościowe, wykorzystujące transformacje Fouriera sygnałów źródłowych oraz częstotliwościowe charakterystyki filtrów (mnożone przez widmo sygnału);
- operacje morfologii matematycznej, wykorzystujące oddziaływanie określonego elementu strukturującego (inaczej strukturalnego) na geometryczne właściwości obiektów;
- przekształcenia geometryczne źródłowych przestrzeni dyskretnych, przede wszystkim afiniczne (obrót, skalowanie, przesunięcie) w rzeczywistych przestrzeniach euklidesowych (celem np. korekty źle ustawionego obiektywu kamery czy dopasowania obrazów tej samej rzeczywistości wykonanych różnymi technikami);
- aproksymacje z wykorzystaniem liniowych rozwinięć sygnałów: a) interpolacja (np. w celu zwiększania rozdzielczości danych źródłowych - \emph{superresolution}); b) ekstrapolacja (np. w celu wypełniania dziur, czyli ogólniej - brakujących fragmentów w sygnale źródłowym - \emph{inpainting});
- służące analizie danych
- wydzielanie jednorodnych, mających określone znaczenie (semantykę) fragmentów sygnału -- zasadniczym celem jest ułatwienie ich percepcji, uproszczenie reprezentacji danych oraz ułatwienie analizy treści; przykładem są metody segmentacji obrazów, które pozwalają wydzielić obiekty obrazowanej przestrzeni;
- wydzielanie komponentów, czyli składowych sygnału nierozróżnialnych percepcyjnie, celem usunięcia nadmiarowości reprezentacji źródłowej, a więc jej uproszczenia oraz wydzielenia charakterystycznych, bardziej niezmienniczych składników ułatwiających trafną analizę;
- wyznaczanie szeregu cech opisujących właściwości istotnych fragmentów (obiektów) czy też komponentów sygnału w postaci deskryptorów numerycznych (liczbowych operacji przybliżonych) o możliwie dużych walorach semantycznych (mających znaczenie dla użytkownika);
- selekcja cech i klasyfikacja w celu automatycznego rozpoznania treści; celem jest uformowanie takiej przestrzeni cech opisujących interesujące właściwości sygnału, która pozwoli różnicować wzorce poszczególnych klas obiektów lub ich wzajemnych relacji, aby rozpoznać treść przekazu multimedialnego na ustalonym poziomie abstrakcji;
- formalizacja wiedzy dziedzinowej w celu stworzenia w miarę kompletnego, hierarchicznego i relacyjnego opisu wiedzy w danym obszarze; celem jest stworzenie mechanizmów opisu danych źródłowych (sygnału) w kategoriach semantycznych odpowiadających właściwym dla użytkownika poziomom abstrakcji; należy tu wymienić przede wszystkim a) ontologie z mechanizmami wnioskowania i możliwością integracji z deskryptorami numerycznymi; b) gramatyki formalne i języki; c) encyklopedie wykorzystujące całe \emph{continuum} metod formalizacji danych, od tekstów zapisanych w edytorach i zarejestrowanych obrazów, poprzez leksykony, semantyczne opisy, referencyjne przypadki o ustalonym znaczeniu, drzewa decyzyjne, reguły logiczne, po zaawansowane modele funkcjonalne, reguły decyzyjne czy modele błędów \cite{BaumeisterPuppe11}; d) narzędzia integracji wiedzy dziedzinowej z semantycznymi deskryptorami, mechanizmami rozpoznawania i interpretacji treści (w tym interaktywnymi) oraz wiarygodnymi modelami obliczeniowymi aproksymującymi pojęcia abstrakcyjne;
- służące syntezie danych
- konstrukcja modeli obiektów lub komponentów pozwalających na syntezę treści przekazu multimedialnego: a) na bazie danych z zaplanowanych eksperymentów (np. rejestracja sygnałów z zaprojektowanego zestawu czujników); b) na bazie reprezentatywnych danych referencyjnych (analizowanych dobranymi algorytmami); c) z wykorzystaniem wirtualnych narzędzi na bazie zestawów prostych elementów konstrukcyjnych (prymitywów), określonego typu obiektów czy procedur stochastycznych;
- projektowanie modeli odbiorcy, jego zdolności percepcji oraz preferencji użytkowych, a także okoliczności przekazu (uwarunkowań, takich jak np. charakterystyka pomieszczeń i zestawów odsłuchowych, czy perspektywy i dynamiki ruchu kamery);
- tworzenie (generację) syntetycznej postaci sygnału z kryterium możliwe efektywnej prezentacji (odsłuchu, wizualizacji), z wykorzystaniem procedur: a) zwiększających realizm (wiarygodność, np. poprzez nałożenie wiarygodnych tekstur w obrazach grafiki komputerowej); b) redukujących złożoność obliczeniową (np. poprzez redukcję liczby obliczeń rzeczywistoliczbowych, uproszczenia widoku czy formy dźwiękowej do granic zdolności percepcji); c) zapewniających niezmienniczość formy prezentacji względem przekształceń (typu przesunięcie czy obrót) w dyskretnych dziedzinach czasu i przestrzeni (np. uwzględniając problem rasteryzacji w obrazach),
- doskonalenie postaci prezentowanego sygnału poprzez miksowanie naturalnych sygnałów źródłowych z syntetycznie odtwarzanymi -- problem dopasowania czy wpasowania (\emph{registration}), lokalnego uciągania sygnału na granicach fragmentów łączonych itp.; przykładem zastosowań jest produkcja filmowa;