Podręcznik
Strona: | SEZAM - System Edukacyjnych Zasobów Akademickich i Multimedialnych |
Kurs: | Definiowanie multimediów i zdobywanie informacji |
Książka: | Podręcznik |
Wydrukowane przez użytkownika: | Gość |
Data: | piątek, 22 listopada 2024, 14:25 |
1. Multimedia, podstawowe pojęcia i definicje
Multimedia stały się ważnym składnikiem życia codziennego współczesnego człowieka. Często są narzędziem jego pracy intelektualnej i zawodowej, przyczyniają się w istotny sposób do zniesienia bariery czasu i przestrzeni pomiędzy ludźmi. Ubogacają komunikację, często są niezbędnym elementem rozrywki, nauki, poznania, wyrazu artystycznego, nowych doświadczeń. Odgrywają coraz większą rolę we wspomaganiu diagnosty medycznej, leczeniu, profilaktyce. Dla osób niepełnosprawnych są szansą skutecznej rehabilitacji, ale też aktywnego udziału w życiu świata. W rozwoju współczesnych multimediów ważny okazał się rozwój technologii doskonalących formy przekazu (telekomunikacja, teleinformaty-ka), umożliwiających hierarchiczne osadzanie treści, odwołania do ogólnie dostępnych,dynamicznych źródeł wiedzy, prostą interakcję na odległość itp. Istotne stało się pojawienie pojęcia hipertekstu, czyli tekstu, w którym wszystkie ważniejsze pojęcia mają ”niewidoczne” odnośniki (hiperłącza) encyklopedyczne i słownikowe. Odnośniki te za jednym kliknięciem przywołują teksty informacyjne odwołujące się to innych terminów i pojęć kluczowych, o których można by otrzymać informacje objaśniające itd. Miało to olbrzymie znaczenie dla rozwoju Internetu, ale też nowoczesnych nośników typu CD-ROM, a więc także dla multimediów. Współczesna definicja multimediów nie jest prosta. Można o nich mówić w różny sposób, można je rozumieć odmiennie, można wreszcie przypisywać im różną rolę praktyczną, a więc odnosić je do różnego typu zastosowań. W kręgu artystów chodzi o identyfikację praktyk twórczych o charakterze interdyscyplinarnym, łączących rozmaite elementy wizualne i środki ekspresji, takie jak: filmy, muzyka, słowo mówione, projekcje świetlne, taniec, rysunek, malarstwo, grafika, fotografia, itp. Przy czym często sztukę multimedialną definiowano w kategoriach tzw. kultury komputerowej, wspomaganej efektami grafiki komputerowej, wirtualną rzeczywistością, przekazem internetowym. Zasadnicze znaczenie słowa ”multimedia” występuje w kontekście realnego, czyli aktualnego i zamierzonego przekazu informacji. Informacja, w pierwszym przybliżeniu, to dane z przypisaną treścią, która jest użyteczna dla odbiorcy (prawdziwie lub domniemanie). Informacja przekazywana w danej chwili ma formę strumienia danych (tj. sekwencji danych potencjalnie nieograniczonej, z indeksem czasowym) o określonej reprezentacji. Środkiem przekazu staje się wszystko (sprzęt w danej technologii, protokoły, warstwa fizyczna, oprogramowanie itp.), co umożliwia przekaz informacji.
Rysunek 1: Fundament rozwoju koncepcji multimedialnych. Wielostrumieniowy przekaz informacji spina poszczególne etapy rozwoju technik służących poznaniu rzeczywistości przybliżanej za pomocą istotnych technologii, metod i zasobów. Kluczowe kryterium to wyposażenie w najdoskonalsze narzędzia poznawcze pełnej prawdy o rzeczywistości, która ma maksymalną wartość użytkową dla odbiorcy. Symboliczny nadawca, konstruktor, zarządca służy jedynie zgodnie z tym kryterium.
W kontekście przekazu komputerowego, w środowisku sieci lokalnych czy globalnych (np. pomiędzy serwerem a klientem), dużego znaczenie nabiera pojęcie \textbf{strumieniowania}, czyli przesyłania danych w formie strumienia, któremu towarzyszy wykorzystywanie kolejno napływających danych bezpośrednio po ich otrzymaniu. Typową realizacją jest bezpośrednie wyświetlanie filmu odbieranego jako otwarty strumień, bez wstępnego ustalenia całkowitego rozmiaru zamierzonego przekazu. Otrzymywany strumień może być jednocześnie rejestrowany w lokalnych archiwum lub też nie. Typowym przykładem jest monitoring kamerą z interfejsem sieciowym, kiedy to rejestrowane są jedynie fragmenty czy też usługi interaktywnej telewizji cyfrowej wykorzystującej protokół IP (IPTV): wideo na życzenie VoD (\emph Video on Demand) czy też funkcja sieciowego magnetowidu NPVR (ang. Network Personal Video Recorder), dająca możliwość nagrywania (a potem korzystania z nich) aktualnie nadawanych programów telewizyjnych na dysku sieciowym operatora.
Przyjmijmy następującą definicję multimediów:
Multimedia to zintegrowany przekaz międzyludzki, ze szczególną rolą nadawcy (zdobywcy czy wytwórcy informacji) oraz odbiorcy (użytkownika, który ustala kryteria jakości i efektywności). Zmieniają się zadania nadawcy i oczekiwania odbiorcy, sposoby i formy rejestracji oraz prezentacji informacji multimedialnej. Treść przekazu odnosi się do określonej rzeczywistości, problemu, zadań, które definiuję jego specyfikę oraz krytyczne wymagania.
Atrakcyjność multimediów wynika przede wszystkim z szybkiego dostępu do bogatych źródeł informacji, z coraz doskonalszych technologii odtwarzania i prezentacji tej informacji, możliwości jej gromadzenia, wymiany, obróbki, czy też upowszechniania własnych źródeł informacji. Bariery wynikające z fizycznych ograniczeń człowieka giną, a otwierają się nowe szanse rozwoju, współpracy, aktywnego udziału w życiu świata. W kontekście multimediów występuje istotne pojęcie mediów cyfrowych, czyli określonej formy użytkowania treści multimedialnych, takiej jak Internet, telewizja cyfrowa, telefonia komórkowa, poczta elektroniczna, dystrybucje DVD, itp. Odwołuje się ono do starszego pojęcia mediów, czyli środków audiowizualnych przekazu informacji i rozrywki, takich jak radio i telewizja, filmy, nagrania dźwiękowe, magazyny, gazety, książki, płyty, taśmy magnetofonów, plakaty itp. Coraz trudniej dziś rozróżnić pojęcia mediów od mass mediów, czyli środków masowego przekazu. Dzięki technologicznym możliwościom rejestracji i komunikacji danych, sekretny zapis dokonany w domowym zaciszu może w jednej chwili stać się informacją przekazaną na cały świat.
Podstawową cechą mediów cyfrowych jest ich zdalna dostępność przez sieci telekomunikacyjne, z której wynika konieczność unormowania sposobów reprezentacji danych i ich opisów (metadanych) jako warunek skutecznej wymiany informacji \cite{Skarbek04}. Warto także zwrócić uwagę na proces integracji poszczególnych mediów wokół przekazu multimedialnego, a więc rejestratorów dźwięku i obrazu, komputerów, edytorów tekstu, narzędzi zapewniających interaktywny przekaz, koderów, nośników, monitorów, głośników, drukarek, skanerów, kart muzycznych, telewizyjnych, graficznych, sterowników, oprogramowania, itd. Celem integracji źródeł informacji, jej treści i formy oraz sprzętu i oprogramowania systemu multimediów jest efekt synergii, spodziewany u odbiorcy.
Multimedia są technologicznym, niedoskonałym odpowiednikiem naturalnego, ludzkiego przekazu informacji, obejmującego wielość zmysłów i różnorodny charakter komplementarnych sposobów wyrażania treści (modulacja głosu, gestykulacja, wyraz i mimika twarzy, zapach, sposób dotykania, ubiór, itp.). Pozyskując, dostarczając i prezentując informacje, kształtujące w dużym stopniu wiedzę o świecie współczesnego człowieka, multimedia stają się wyspecjalizowanym narzędziem poznawania świata, łamiącym istniejące dotąd bariery ograniczeń czasowych, przestrzennych, związanych z dostępem i komunikacją globalną. Są przy tym jednocześnie źródłem wielu zagrożeń, z których warto wymienić przede wszystkim pokusę zastępowania świata realnego wytworem globalnego przekazu informacji, wykrzywiania obrazu świata realnego natłokiem zbędnych treści i selektywnie wybieranych zestawień budujących fałszywą wiedzę. Multimedia mogą stać się ucieczką, zamiast szansą. Wydaje się, że pomocnicza funkcja wspomagania z zachowaniem dominującej roli ludzkiej osoby oraz przyłożenie większej wagi do treści oraz wiarygodności przekazu nie ograniczy roli multimediów, przyczyni się natomiast do bardziej harmonijnego i spójnego ich rozwoju.
techniki multimedialne
Wśród zagadnień stanowiących podstawę opracowań współczesnych aplikacji multimedialnych znajdują się:
- pozyskanie źródłowych danych multimedialnych poprzez akwizycję, rejestrację, zapis danych z wykorzystaniem takich urządzeń jak kamery, aparaty fotograficzne, zestawy mikrofonowe, skanery, satelity, czujniki, systemy obrazowania medycznego, itp.;
- składowanie i transmisję danych multimedialnych, z istotną rolą efektywnej kompresji, transkodowania, kodowania archiwizacyjnego i nadmiarowego, kontroli i korekcji błędów transmisji, protokołów transmisji zapewniających interakcję, łatwy i szybki dostęp, struktur i mechanizmów bazodanowych, itd.;
- opis treści multimedialnych poprzez ekstrakcję efektywnych deskryptorów (hipertekst, metadane, deskryptory numeryczne, semantyczne), indeksowanie (szybkość i zasoby), wyszukiwanie (selektywność i formy zapytań), itd.;
- ulepszanie multimediów, w tym poprawa jakości (redukcja szumów, artefaktów i zniekształceń geometrycznych, zwiększanie rozdzielczości, poprawa kontrastu), poprawa percepcji treści, ekstrakcja treści ukrytej, uzupełnianie treści - wypełnianie brakujących fragmentów obrazu czy zapisu dźwiękowego, itd., syntezę treści metodami grafiki komputerowej (problem realizmu scen, wizualizacja danych), ale też metody oceny użyteczności danych multimedialnych (oceny ich jakości, wiarygodności, przydatności w konkretnych zastosowaniach);
- analiza treści multimedialnych, w tym segmentacja obiektów, ekstrakcja i selekcja cech, rozpoznawanie w inteligentnych systemach multimedialnych (rozpoznawanie twarzy, mowy, identyfikacja osób, detekcja obiektów, zmian patologicznych w obrazach medycznych, śledzenie obiektów);
- prezentacja multimediów, za pomocą wielokanałowych systemów odtwarzania dźwięku, nowoczesnych monitorów, telewizorów, systemów wizualizacji 3W, form wielkorozdzielczej reklamy dynamicznej, itp.;
- ochrona danych, w tym kryptologia, techniki szyfrowania, uwierzytelnienia, szyfrowania, ukrywanie treści metodami steganografii i znaków wodnych, itd.;
- integracja treści przekazu wielostrumieniowego, zarówno na poziomie transmisji czy składowania (różne formy synchronizacji i wzajemnego referowania danych), jak też metod odbioru przez użytkownika (zintegrowane modele odbiorcy, interakcja i sterowanie jakością);
- standaryzacja, w tym zwiększanie kompatybilności, \emph{przezroczystości} technologii, tworzenie standardów technologii przyszłości, poszukiwanie nowych technik dostosowanych do wyzwań współczesności.
- inne.
Będziemy je nazywali technikami multimedialnymi. Znajomość niezbędnych podstaw teoretycznych, algorytmicznych oraz uwarunkowań realnych implementacji ww. technik warunkuje efektywne wykorzystanie oraz twórcze kształtowanie rozwoju świata multimediów.
Bto odpowiedni kontekst dokonującego się realnie, czyli aktualnego i zamierzonego przekazu informacji, w którym istotne są:
- forma przekazu jako strumień danych, tj. sekwencja danych potencjalnie nieograniczona (bezpośrednio po otrzymaniu napływają kolejne dane), z indeksem czasu rzeczywistego, o określonej reprezentacji;
- integracja rożnych rodzajów informacji rozdzielonej na komplementarne, synchronizowane strumienie, zróżnicowane w zakresie:
- natury przekazu -- obraz, dźwięk, tekst, metadane itd.,
- charakteru treści wynikającego zazwyczaj z natury danych,
- formy reprezentowania informacji, zarówno w zakresie syntaktycznym, jak też semantycznym,
z oczekiwanym efektem synergii;
- urządzenia i systemy, w tym m.in.
- rejestratory (cyfrowe detektory obrazów, kamery, aparaty fotograficzne, zestawy mikrofonowe, studia nagrań itd.),
- procesory przetwarzania danych (sygnałowe, graficzne, procesory efektowe, korektory graficzne, stoły mikserskie itp.),
- technologie komunikacji (przewodowej, bezprzewodowej, sieci lokalne i globalne, protokoły, urządzenia dostępowe itd.),
- systemy komputerowe ze specjalizowanym oprogramowaniem (nagrywarki, odtwarzacze multimedialne, przeglądarki itp.),
- sprzęt do prezentacji (monitory, wyświetlacze, systemy wizualizacji 3W, systemy odsłuchowe, zestawy głośnikowe itd.);
- specyficzne cechy przy projektowaniu, konstruowaniu i doskonaleniu użytecznych rozwiązań, takie jak:
- naśladowanie naturalnego, ludzkiego, możliwie kompletnego sposobu przekazywania informacji, podmiotowość użytkownika -- odbiorcy przekazu;
- przełamywanie barier oraz istniejących w kontaktach międzyludzkich (schemat nadawca -- odbiorca) ograniczeń fizycznych,
- szybki i selektywny dostęp do bogatych, wiarygodnych źródeł informacji,
- stały rozwój, w tym doskonalenie technologii rejestracji, komunikacji i prezentacji, zwiększanie możliwości w zakresie gromadzenia i wymiany danych, opracowywanie skuteczniejszych metod wyszukiwania i obróbki informacji wobec rosnącej skali rozpowszechniania i poprawy łatwości obsługi, przy jednoczesnej indywidualizacji i szerszym wykorzystaniu mechanizmów oceny użyteczności itp.
Zaś media cyfrowe to
- określone formy użytkowania treści multimedialnych, takie jak Internet, telewizja cyfrowa, telefonia komórkowa, poczta elektroniczna, dystrybucje DVD itp.;
- zdalna dostępność przez sieci telekomunikacyjne, z której wynika konieczność unormowania sposobów reprezentacji danych i ich opisów (metadanych) jako warunek skutecznej wymiany informacji.
Możliwa jest też definicja multimediów jako mediów cyfrowych z
- przekazem kilku strumieni informacji w czasie, synchronizacją czasową i semantyczną przekazu;
- integracją treści i formy przekazu w celu uzyskania efektu synergii;
- treścią będącą odwzorowaniem/odbiciem naturalnych sposobów komunikacji według schematu człowiek--zmysły--poznanie.
2. Do czego zmierzamy
Nie chodzi tutaj o szczegóły metod zdobywania informacji poprzez pozyskiwanie wiarygodnych źródeł, weryfikację prawdomówności świadków, przewidywanie miejsc i zdarzeń niezwykłych, interesujących dla dużej grupy odbiorców, odpowiednie wyszukiwanie nieznanych dotąd szczegółów czy okoliczności itp. Te i wiele innych form pozyskiwania informacji reprezentuje w naszych rozważaniach ''pomiar'', który odnosi się do fizycznych, biologicznych czy chemicznych uwarunkowań rejestracji sygnałów przenoszących informację. W pomiarach tych wykorzystywana jest różnego typu aparatura, zwykle obejmująca czujniki dostosowane do fizycznych/chemicznych/biologicznych podstaw pomiaru, przetworniki analogowo-cyfrowe, elektronikę wzmacniającą i wstępnie przetwarzającą sygnał, kodery i nośniki/łącza przekazujące zarejestrowany sygnał. Ten pomiar jest szczególny, odnosi się bowiem do wielostrumieniowej natury pozyskiwanej informacji, zintegrowanej treściowo (opisują tę samą rzeczywistość z różnych stron, wzajemnie się uzupełniając w efekcie synergii) i czasowo (znaczniki synchronizujące przekaz). Uwarunkowania pomiaru zależą zarówno od charakteru informacji, przyrodniczych form jej wyrazu, jak też od technologii kanału kształtującego i przekazującego strumienie informacji.
Wszystkie te aspekty i elementy zdobywania informacji będą modelowane za pomocą końcowego efektu określonego jako źródło informacji (niezerowej) zarządzanej przez ''nadawcę'', który pragnie przekazać odbiorcy pozyskane z tego źródła informacje. Zanim jednak poznamy wybrane modele źródeł informacji oraz sposoby i konsekwencje ich wykorzystania, w tym module zajmiemy się techniczną stroną pozyskania informacji za pomocą pomiarów.
Przedstawione zostaną wybrane modele i reprezentacje sygnałów, które integrują fizyczne podstawy pomiarów z formą reprezentacji treści stanowiącej istotę przekazu informacji. Wyjaśnione więc zostaną techniczne uwarunkowania pomiaru, który służy pozyskaniu tak cennej dla multimediów informacji. Spróbujemy odpowiedzieć na pytania, jak wiernie rejestrować poznawaną rzeczywistość, jak zmierzyć sygnał, który ją opisuje, jak unikać błędów i przekłamań, jak określić zasady, formy i sposób realizacji pomiarów, by zapewnić warunki wystarczające do pozyskania pełnej informacji o wydarzeniu, zjawisku czy niezwykłej, rzadkiej, chwilowo zaistniałej sytuacji.
Sygnałem jest zapis zmiany ciśnienia czy gęstości materiału, temperatury, liczba fotonów padających na określoną powierzchnię, czy też zmieniające się natężenie pola elektromagnetycznego. Odpowiednie sensory umożliwiając rejestrację mniej lub bardziej chwilowej wartości mierzonej wielkości fizycznej nie są wolne od zniekształceń, szumów czy zakłóceń efektu końcowego. Stała rejestracja wielkości mierzonych pozwala uzyskać ciągły w kolejnych chwilach czasowych sygnał analogowy. Bezpośrednie lub pośrednie przekształcanie tego zapisu w sygnał cyfrowy daje ''rozumiany'' przez skomputeryzowane dziś technologie strumień danych -- przedmiot transmisji informatywnych sygnałów do odbiorcy.
Po teoretycznej części wstępnej, przedmiotem zainteresowania stanie się pomiar sygnałów realnych za pomocą przykładowych systemów rejestracji sygnałów, przede wszystkim obrazu i dźwięku. Szczególne znaczenie ma tutaj specyfika zmysłu wzroku i słuchu, czyli zdolności percepcji odbiorcy informacji. Jeszcze bardziej istotne są zdolności poznawcze treści, rozumienie istoty przekazu, odkrycie znaczenia informacji, a przede wszystkim trafne/owocne jej wykorzystanie przed odbiorcę. Jeszcze bardziej znaczącym sukcesem w sensie ogólnym jest zdobycie i rozwój ogólnej wiedzy poznawczej, zdobycie mądrości prowadzące do prawdy, czyli pełnego poznania rzeczywistości.
Poprawę jakości mierzonych sygnałów osiąga się zwykle poprzez wstępne przetwarzanie sygnałów, zwykle poprawiające stosunek sygnału do szumu, rekonstruujące sygnał w dziedzinie percepcji treści przekazu przez odbiorcę.
Końcowym etapem jest opis cech rejestrowanego sygnału, wstępna charakterystyka jego właściwości, często prowadząca do wyspecyfikowania rodzaju i zakresu przenoszonej informacji. Jest to opis niskopoziomowy, dotyczący podstawowych cech sygnału bez analizy jego walorów semantycznych, bez rozpoznawania znaczeń i prób interpretacji przenoszonej treści.
Efektem końcowym jest uformowanie źródłowej, cyfrowej wersji przekazu danych. To jest nasz cel w tych rozważaniach, tj. określenie warunków pozyskania cennej informacji z wykorzystaniem odpowiednich technologii, by można było uformować sygnał cyfrowy zawierający pomierzone i odpowiednio ukształtowane dane. W tych danych ukryte są nowe treści, interesujące dla odbiorcy. Dalszą ich obróbką zajmiemy się w kolejnych modułach.
Ta część dotyczy problemu skutecznego reprezentowania informacji, zwracając uwagę tak na aspekty składni, ogólniej syntaktyki, jak i semantyki. Wybór przestrzeni opisu sygnałów, usuwanie nadmiarowości, docieranie do form przekształceń porządkujących i dobrze opisujących przekaz ogrywają kluczowe znaczenie w efektywnym kodowaniu i indeksowaniu danych. Dobór sposobu reprezentacji danych możliwie zwartej, a jednocześnie odnoszącej się do przejrzystych znaczeń wyrażanych przez nie treści wpływa na użyteczność każdej aplikacji multimedialnej.
Kluczowym elementem technologii i zastosowań multimediów jest przekaz informacji. Ten przekaz rozpoczyna się od pozyskania informacji. Można ją zdobyć w przeróżny sposób: coś usłyszeć, zobaczyć, skojarzyć czy po prostu przemyśleć głęboko jakiś problem i dość do oryginalnych wniosków na podstawie doświadczeń własnych lub cudzych itp.. Taką informację można przekazać werbalnie, można to coś opisać lub namalować, a nawet wyśpiewać.
Nowoczesne technologie pozwalają taki proces przekazu zdecydowanie przyspieszyć, zwiększyć jego zasięg, skale, powtarzalność, trwałość, dając możliwość formalnego opisu informacji, porównania do innych przekazów danych, mogą ubogacić formę przekazu zwielokrotniając siłę jej oddziaływania, a nawet dokonać weryfikacji jakościowej i interpretacji przekazywanej treści w odniesieniu do bogatych zasobów danych czy wiarygodnych źródeł wiedzy. Jednak najcenniejsza jest możliwość synchronicznego łączenia kilku strumieni przekazu, niekiedy na bieżąco, jego przetworzenia i dostosowania do warunków przekazu oraz sposobu prezentacji zgodnego z potrzebami odbiorcy. Technologie/techniki multimedialne udoskonalają na różnych płaszczyznach kontakt nadawcy z odbiorcą, jednak istotą, rdzeniem jest przekazywana informacja. Sposób jej zdobycia czy pozyskania jest więc niezwykle istotny, dzięki współczesnym możliwościom technicznym może być doskonalszy, pełniejszy, lepszej jakości, bardziej wiarygodny, obiektywny.
Ta część dotyczy problemu skutecznego reprezentowania informacji, zwracając uwagę tak na aspekty składni, ogólniej syntaktyki, jak i semantyki. Wybór przestrzeni opisu sygnałów, usuwanie nadmiarowości, docieranie do form przekształceń porządkujących i dobrze opisujących przekaz ogrywają kluczowe znaczenie w efektywnym kodowaniu i indeksowaniu danych. Dobór sposobu reprezentacji danych możliwie zwartej, a jednocześnie odnoszącej się do przejrzystych znaczeń wyrażanych przez nie treści wpływa na użyteczność każdej aplikacji multimedialnej.
3. Definiowanie informacji
Reprezentowanie informacji jest zagadnieniem istotnym w każdym niemal zastosowaniu, a w różnych formach i postaciach jest także obecne w rozważaniach wielu teorii abstrakcyjnych i stosowanych. W uproszczeniu, można posłużyć się następującym schematem. By przekazać informację, istotny jest przede wszystkim sposób jej wyrażenia -- zrozumiały dla odbiorcy, ale niezbędny jest także fizyczny nośnik przekazu oraz zorganizowana forma technicznego czy technologicznego zapisu danych, czyli jej reprezentacja. Wymagana jest określona reguła tworzenia reprezentacji danych, czyli kod ustalony na etapie akwizycji (dający źródłową reprezentację danych), bądź też w dalszym procesie przekazywania i przetwarzania danych przenoszących informację (np. reprezentacja kodowa uzyskiwana wskutek kompresji danych). W sposób jawny lub niejawny, wprost lub pośrednio reprezentacja ta zawiera elementy opisu danych, w tym pewne odnośniki do ich semantyki. Zależnie od zastosowań, celów wykorzystania danych czy charakteru zawartej treści poszukiwane są skuteczne formy reprezentacji informacji.
Zarys teorii użytecznych przy wyznaczaniu efektywnej reprezentacji informacji to przede wszystkim:
- podstawy teorii sygnałów, przy czym sygnały rozumiane są przede wszystkim jako nośnik informacji czy też urealnienie przekazu informacji w naturalnych warunkach akwizycji, ucyfrowienia i kodowania sygnałów;
- zarys teorii informacji, zarówno w jej probabilistycznej koncepcji składniowej (prace Shannona), jak też w rozszerzeniu do semantycznej teorii informacji;
- podstawy teorii aproksymacji, jako poszukiwanie przybliżeń treści istotnych przekazu informacji, nawiązujących zarówno do liczbowej charakterystyki sygnału, jak też jego warstwy znaczeniowej (semantyki), odwołującej do określonego modelu odbiorcy;
- charakterystyki odbiorcy informacji, zdolności percepcji treści, np. ludzkiego systemu widzenia -- ang. visual system czy też pracy odbiorcy ze źródłami informacji, rozpoznawanie treści, jej interpretacja -- metoda ROC (ang. receiver Operating Characteristic);
- metody inteligencji obliczeniowej, przede wszystkim w zakresie wyszukiwania, ekstrakcji czy rozpoznawania informacji, a przede wszystkim jej interpretacji.
Rozdział ten obejmuje podstawy teorii informacji, zarówno w sensie matematycznej koncepcji informacji rozumianej jako poziom niepewności odbiorcy, jak też jej semantycznych rozszerzeń, tak istotnych w aplikacjach multimedialnych. Tzw. matematyczna teoria informacji abstrahuje od specyfiki zastosowań nadawanej semantycznymi modelami informacji, wymaganiami dotyczącymi charakterystyki użytkownika (odbiorcy informacji), określonej specjalistyczną wiedzą dziedzinową. Dzięki temu dostarcza modele źródeł informacji, które są przejrzyście sformalizowane, obiektywne, bardziej uniwersalne i podatne na zaawansowane rozwiązania numeryczne, optymalizacyjne, porównawcze. Poprzez semantyczne rozszerzenia tych modeli możliwa jest selekcja informacji w metodach kompresji, ekstrakcja treści istotnej z zaszumionego sygnału źródłowego, a za pomocą deskryptorów treści tworzone są mechanizmy przeszukiwania zawartości rozległych zasobów danych multimedialnych zgodnie z oczekiwaniami użytkownika.
3.1. Wprowadzenie
Informacja służy odbiorcy w realizacji określonego celu. Przekaz danych dokonuje się zawsze w kontekście określonej treści, tj. funkcji semantycznej oraz jej wartości dla odbiorcy, czyli użyteczności. Precyzyjnie określając semantykę, śledząc jej zmiany przy selektywnej lub zakłóconej komunikacji danych pośrednio definiujemy również użyteczność tych treści. Pozwala to na automatyczne wyznaczenie ilości informacji z uwzględnieniem jej semantycznych właściwości.
Podstawowy schemat przekazu informacji jest następujący:
- dane (w reprezentacji źródłowej, nad określonym alfabetem),
- znaczenie danych (przypisane pojedynczym symbolom, grupie symboli),
- treść (rozpoznanie obiektów, integracja znaczenia obiektów, znaczenie relacji pomiędzy obiektami, efekt synergii),
- informacja (relacja rozpoznana treść (gdzie pewną rolę odgrywają także źródło informacji, zdolność percepcyjna oraz interpretacyjna odbiorcy) -- odbiorca źródło, wiedza i doświadczenie).
3.2. Informacja
Punktem odniesienia przekazu informacji jest odbiorca, jego cele i poczucie użyteczności. Przesyłane dane mają określone znaczenie, opisane funkcją semantyczną, które kształtuje treść przekazu. Odbiorca rozumiejąc treść danych, weryfikuje ich użyteczność. Odbiera informację lub uznaje przesłane dane za bezużyteczne. Nadawca formując przekaz stara się zaspokoić domniemane potrzeby odbiorcy.
Wymiana informacji, o możliwie atrakcyjnej treści oraz stosownej formie (reprezentacji), jest podstawową funkcją szeroko rozumianych multimediów. Zarówno sposób -- bezpośredni przekaz (komunikacja) lub pośrednicząca archiwizacja, jak i forma uzupełniających się strumieni danych o charakterze zróżnicowanym w sensie sposobu percepcji przekazywanej treści służy wiarygodnej i użytecznej komunikacji nadawcy z odbiorcą.
Zakładając sensowność procesu wymiany danych, należy doszukiwać się występującej tam informacji, przyjmując ogólny schemat nadawcy i odbiorcy spiętych ustaloną formą kanału transmisyjnego o charakterze pozytywnym. Pozytywny znaczy choćby w minimalnym stopniu użyteczny, gdzie obok danych i treści nadmiarowych pojawia się choćby ślad informacji nadającej sens całemu przedsięwzięciu. Informacja jest wtedy sensem i istotą przekazu bez względu na jego charakter. Dlatego efektywne reprezentowanie informacji stanowi podstawowe zagadnienie wszystkich aplikacji multimedialnych.
Przekaz informacji poprzedzony jest procesem pozyskiwania informacji -- niekiedy kosztownym, innym razem dość przypadkowym, -- bazującym na złożonych, kosztownych technologiach lub przede wszystkim na ludzkiej spostrzegawczości. Pozyskanie treści jest niekiedy bardzo trudne i musi być uzupełnione złożonym procesem wydobywania treści z nadmiaru rejestrowanych danych. Istotnym okazuje się wtedy problem ekstrakcji czytelnej postaci informacji z jej formy niejawnej, subtelnej, zniekształconej, itp. Rejestrowany sygnał -- ciąg danych staje się nośnikiem określonej treści, która rozpoznawana jest jako informacja w kontekście jej użyteczności. Przekaz treści stanowiącej informację w szerokiej skali społecznej koncentruje dziś uwagę twórców najbardziej ambitnych rozwiązań w obszarze mediów cyfrowych, multimediów, telewizji, internetu, technik komputerowych i wielu innych.
Doskonalenie form przekazu oraz rosnąca cena wartościowej informacji charakteryzują współczesny rozwój sieciowego społeczeństwa informacyjnego, niezbyt szybko (a może wcale?) zmierzający w kierunku wizji nowoczesnego społeczeństwa wiedzy. Wyraźny nadmiar powielanych, sztampowych treści i pseudo-treści, które, rozsyłane, pretendując do miana informacji ''szukają łatwego zysku'', powoduje stały wzrost znaczenia wolności wyboru w wymiarze osobistym i społecznym. Intencje nadawcy nie są zwykle jednoznaczne, a korzyści odbiorcy są często rozumiane ''interesownie''. Nadawca formując przekaz stara się spełnić domniemane oczekiwania odbiorcy, albo je biznesowo kreować. Rozpoznanie informacji bazującej na przekazie prawdziwych, otwartych treści staje się sztuką, ale i koniecznością. Czas odbiorcy staje się cenny dla nadawcy, ale przede wszystkim dla samego odbiorcy. Rośnie znaczenie filtrów, automatycznego rozpoznawania treści użytecznych, innych form preselekcji przekazu.
Wymagający odbiorca korzysta z wolności wyboru źródeł przekazu, interesuje się wiarygodnością otrzymywanych danych, oddziela ewentualny komentarz czy narzuconą interpretację. Wybiera przyjazne, sprawdzone formy, by dotrzeć do istoty przekazu, rdzenia odczytywanych treści, weryfikuje ich prawdziwość. Skuteczna weryfikacja warunkowana jest dostateczną jakością danych, czytelnością treści, jej uporządkowaniem, klarownością.
Kluczowym zagadnieniem, które służy odbiorcy jest efektywne reprezentowanie informacji, czyli konwersja przekazu danych w prezentację informacji z kryterium maksymalnej użyteczności odbiorcy. Przedstawione w tej pracy zagadnienia służą przede wszystkim zrozumieniu teoretycznych i praktycznych podstaw pojęcia reprezentowanej informacji. Według założonej koncepcji wspomagania procesu przekazu, wykorzystanie ''podanej'' informacji leży w gestii odbiorcy.
3.3. Reprezentacja danych
Reprezentacja danych to sposób przedstawienia lub inaczej organizacji danych. Dane w maszynach cyfrowych mają swoją reprezentację w postaci sekwencji bitów kodu dwójkowego, kodów bardziej złożonych, łączonych w bajty, wielobajtowe słowa, bloki. Są one interpretowane w terminach wewnętrznych typów danych określonej dziedziny, struktury, za pomocą operacji na liczbach lub znakach tekstu, jako liczby całkowite i ułamki, itp.
Reprezentacja danych może być rozumiana na różnych poziomach abstrakcji. Uwzględniając znaczenie i charakter danych może być orientowana na określoną treść, hierarchię istotności, wydzielenie sygnału i redukcję szumu, uporządkowanie według przyjętych kryteriów. Sposób kształtowania reprezentacji danych może być różnorodny, zwykle jednak przebiega według typowego, nie zawsze pełnego schematu:
- reprezentacja źródłowa, opisana najprostszym kodem, np. dwójkowym;
- reprezentacja wstępnie przetworzona, z redukcją szumu i poprawionym kontrastem;
- reprezentacja estymowanego sygnału, z wydzieloną treścią użyteczną;
- reprezentacja upakowana, rzadka, po usunięciu nadmiarowości, uporządkowana, ze strukturą hierarchii, skalowalna;
- reprezentacja morfologiczna, z wydzieleniem składników, semantyczną kompozycją treści przekazu informacji.
3.4. Reprezentacja informacji
W różnego typu zastosowaniach teleinformatycznych, multimedialnych, widzenia maszynowego, obrazowania medycznego, przemysłowych, itd. metody reprezentacji danych obrazowych nabierają szczególnego znaczenia. Reprezentacja źródłowa, czyli pozyskana w procesie akwizycji/rejestracji danych, jest z natury nadmiarowa, bo zakłada \emph{a priori} maksymalny zakres dopuszczalnych zmian , zgodnie z naturalnie zróżnicowaną dynamiką rejestrowanego sygnału oraz realiami systemu akwizycji. Przykładowo, reprezentacja danych obrazowych ma zwykle postać ciągu słów kodu dwójkowego o rozmiarze 8 bitów/piksel przy założeniu skali szarości lub 24 bitów/piksel dla formy obrazu w skali barw RGB. Odpowiada to dynamice przetworników a/c, ośmiobitowych dla każdego komponentu, często stosowanych w urządzenia rejestracji obrazów. Rejestracja dźwięku przy typowej częstości próbkowania 44 lub 96 kHz daje typowo ciąg 16 lub 24 bitowych próbek zapisanych w kodzie dwójkowym. Przy ograniczonej dynamice rejestrowanego sygnału redundantna reprezentacja danych utrudnia ich przekaz, archiwizację, analizę, a nawet wizualizację czy odsłuch. Taką nadmiarowość nazywamy syntaktyczną.
Kody, czyli reguły tworzenia nowych, bardziej upakowanych sekwencji bitowych reprezentujących dane, pozwalają uzyskać nowe formy reprezentacji danych -- o zredukowanym rozmiarze, o większej odporności na zakłócenia, porządkujące występowanie danych w strumieniu (np. w formie progresji od ogółu treści do szczegółu) itp.
Metody kodowania wykorzystują proste mechanizmy modelowania danych, jak powtarzające się serie identycznych symboli (metoda kodowania długości serii) czy też zróżnicowana częstość występowania poszczególnych symboli alfabetu źródła danych (kod Huffmana). Bardziej zaawansowane kody bazują na transformacji danych do nowej dziedziny, dającej reprezentacje upakowaną, skalowalną, a nawet naturalnie uporządkowaną w sensie przyjętego kryterium progresji jakości danych (dziedzina falkowa w algorytmie kodowania standardu JPEG2000(http://www.jpeg.org/jpeg2000/). Możliwa jest też ingerencja odbiorcy w proces kodowania danych, gdzie za pomocą interaktywnego protokołu nadaje on kształt przekazu strumienia informacji definiując swoje potrzeby (interaktywny protokół JPIP(http://www.jpeg.org/jpeg2000/j2kpart9.html).
Rozumienie danych, czyli treść
Treść przypisana do ciągu, zbioru lub strumienia danych, odgrywająca kluczową rolę w przekazie informacji, związana jest bezpośrednio z naturą danych, techniką akwizycji i formowania postaci wyjściowej, określonym przeznaczeniem, intencjami nadawcy czy specyfiką rejestrowanego zjawiska. Treść rozumiana jest jako sens przekazu danych, jego wymowa koncepcyjna, ideologiczna. To wszystko, co można odkryć, zrozumieć, odczytać, analizując określony ciąg danych. Odczytanie znaczenia słów, w które układa się forma danych, właściwe ich skojarzenie w znaczenie, semantykę przekazu stanowi podstawę właściwej interpretacji danych.
Warunkiem rozumienia treści jest rozpoznanie szczegółów przekazu, percepcja wszystkich istotnych właściwości występujących elementów składowych, detekcja obiektów o rozpoznanym znaczeniu czy też grupy obiektów wraz z ich wzajemnymi odniesieniami. Rozpoznanie komputerowe naśladuje ludzkie poprzez wstępne wydzielenie obiektów i opisanie ich właściwości za pomocą dobranych deskryptorów, a następnie algorytmiczną realizację rezonansu poznawczego. Chodzi tutaj o skojarzenia parametrycznych charakterystyk obiektów ze sformalizowaną wiedzą specjalistyczną danej dziedziny, doświadczeniem gromadzonym latami w podobnych okolicznościach.
Jeśli rozpoznanie treści dokonujące się w głowach odbiorców nie sposób przełożyć na formalny model wiedzy i doświadczenia, obiektywny opis znaczeniowy treści staje się praktycznie niemożliwy. Rola, jaką przy czytaniu treści odgrywa intuicja czy intelekt odbiorcy, nie została opisana formalnie. Pozostaje jedynie naśladowanie rozumowego wnioskowania.
Odbiór informacji bazuje na rozumieniu treści, przy czym ważną role odgrywa także właściwa jej interpretacja.
Znajdująca się na wyższym poziomie abstrakcji interpretacja treści przekazu, czyli ocena zasadniczej wymowy odczytanej treści stanowi jedno z najbardziej ambitnych zadań inteligencji obliczeniowej, a właściwie obliczeniowej mądrości.
Informacja, czyli chciana treść
Kluczowym warunkiem udanego przekazu informacji jest znaczenie przesyłanych za pomocą danych treści, której reprezentacja winna umożliwić skuteczny jej odbiór na sposób zgodny ze zdolnościami percepcji treści przez odbiorcę. Semantyka, czyli znaczenie danych formułuje treść przekazu, a ta w mniejszym lub większym stopniu staje się użyteczną dla odbiorcy informacją. Informacja z założenia stanowi istotę każdego sensownego przekazu danych, służy odbiorcy w zaspokojeniu określonych potrzeb. Personifikowany nadawca zaspokaja potrzeby odbiorcy realizując swoje cele. Gdy nadawcą jest ''natura'', podglądana, rejestrowana -- odkrywamy wtedy jej tajemnice zdobywając informacje i budując wiedzę. Wymiana informacji jest podstawową funkcją życiową, wydaje się warunkiem koniecznym istnienia każdej społeczności, która trwa.
Informacja wynika z treści przekazu strumienia danych, która okazuje się znacząca dla odbiorcy. Znacząca, czyli coś daje, do czegoś się przydaje, zaspokaja określone potrzeby. Nie zawsze chodzi tutaj o dostarczenie nowych wiadomości, zobaczenie nowego filmu czy spektaklu, wideorozmowę z osobą, której nie widzieliśmy kilka lat. Czasami chcemy posłuchać ulubionej muzyki, przypomnieć sobie wzruszający serial sprzed lat, powtórzyć czy odświeżyć wiedzę, bo tego właśnie nam potrzeba, bo taki jest nastrój czy wymóg chwili. Można także dokonać wyboru treści znaczących w sposób arbitralny, niekiedy nawet wbrew woli odbiorcy, by uświadomić mu pewne fakty, pouczyć, narzucić konieczność konfrontacji z określoną tematyką, itp.
Takie subiektywne rozumienie informacji jest w dużym stopniu niejednoznaczne, z trudem poddaje się formalizacji zobiektywizowanego opisu, algorytmicznej procedurze ustalania warunków przekazu np. multimedialnego\ {Przekaz multimedialny znaczy wielostrumieniowy, ze znacznikami czasu rzeczywistego, synchronizacją treści poszczególnych strumieni, naśladujący w pewnym stopniu uwarunkowania przekazu ludzkiego.}. Selekcja treści, uporządkowanie, ustalenie względności używanych pojęć i liczb, hierarchia opisu wymaga przyjęcia pewnego modelu odbiorcy, który z natury musi być uproszczony, uogólniony, schematyczny. Brakuje formalnych rozwiązań, które dostosowują się do potrzeb indywidualnego odbiorcy. Przekaz jest więc często wspomagany różnymi formami interakcji.
Nieco inne rozumienie informacji, zakładające pewne ujednolicenie opinii dotyczących wartości przesyłanych danych, bazuje na fakcie, że pozyskanie informacji związane jest z pewnym kosztem. Koszt ten, wynikający z charakteru przekazywanych treści oraz przyjętej reprezentacji danych, jest zazwyczaj mniejszy od korzyści wynikających z jej użytkowania. Zysk mierzony różnicą wartości korzyści uzyskanych wskutek przekazu informacji w odniesieniu do poniesionych kosztów jest miarą ilości informacji. Stąd jeśli koszty przerosły zyski, przekazane dane nie były informacją. Ocena ilości informacji jest w tym przypadku możliwa jedynie w analizie retrospektywnej.
Matematyczna teoria informacji, której podstawy sformułowano pod koniec lat czterdziestych zeszłego wieku, zakłada zobiektywizowane pojęcie informacji, umożliwiające ilościową charakterystykę informacji, tworzenie modeli źródeł informacji oraz zasad zniekształceń tych źródeł, a także konstruowanie kodów dopasowanych do specyfiki danych. Claude E. Shannon, uznawany za twórcę matematycznej teorii informacji, wprowadził rozdzielenie pojęcia informacji oraz semantyki przekazu twierdząc, że semantyka nie jest istotna przy rozwiązywaniu inżynierskich problemów komunikacji. Informacja przekazu dotyczy jedynie wyboru jednej z dostępnych możliwości źródłowych. Stąd informacja została zdefiniowana jako poziom niepewności odbiorcy dotyczącej przekazywanych danych. Wśród transmitowanych danych tylko te zawierają informacje, które pozostają nieokreślone czy nieprzewidywalne (odbiorca nie ma pewności, jakie dane otrzyma). Po ich otrzymaniu poziom niepewności odbiorcy maleje.
W matematycznej teorii informacji rozważany jest więc jedynie transmisyjny (syntaktyczny, z analizą postaci informacji), a nie semantyczny aspekt informacji. Znaczy to, że nie prowadzi się formalnych rozważań dotyczących prawdziwości czy znaczenia tego, co jest przesyłane. Informacja rozumiana jest wtedy jako ciąg danych -- symboli nad ustalonym alfabetem, z określonym prawdopodobieństwem ich występowania. Przyjęto więc probabilistyczny model źródła informacji. Podstawy matematycznej teorii informacji określają metody opisu źródeł informacji, kodowania tych źródeł oraz teorie zniekształceń źródeł informacji.
Źródło informacji opisane jest w pierwszym przybliżeniu parą zbiorów jest alfabetem źródła, czyli zbiorem wszystkich symboli -- postaci danych, jakimi wyrażana jest informacja (inaczej zbiorem informacji elementarnych), a to rozkład wartości prawdopodobieństw wystąpienia poszczególnych symboli alfabetu źródła o liczności odpowiadającej liczbie symboli alfabetu dla źródeł określonych,.
Współczesny rozwój technologii teleinformatycznych oraz coraz bardziej istotna rola przekazu informacji w życiu społecznym prowadzi do rosnącej liczby zastosowań, które odwołują się do semantyki przekazu, a uproszczony model probabilistyczny przekazu informacji staje się niewystarczający. Wśród wielu przykładów można wskazać wprowadzenie wspomnianego protokołu JPIP w ramach standardu JPEG2000, czy też wymagania zastosowań medycznych, przede wszystkim kodowania obrazów w celach archiwizacji lub transmisji w systemach telediagnozy z zachowaniem wiarygodności diagnostycznej obrazów. Znaczenie pojedynczych pikseli, grup pikseli, obiektów i wzajemnych relacji definiujących treść jest tutaj kluczowe.
Semantyka przekazywanej informacji odgrywa na tyle znaczącą rolę w jej użytkowaniu przez odbiorcę, zrozumieniu, ocenie, interpretacji, że winna stanowić ważny element modelowania źródeł informacji. Przykładowe rozszerzenie definicji źródła informacji o alfabet znaczeń poszczególnych symboli prowadzi do modelu . Kolejnym, niezwykle istotnym aspektem w przekazie informacji jest jej prawdziwość. L. Floridi zdefiniował pojęcie semantycznej informacji jako ciąg danych dobrze uformowanych (reprezentowanych), znaczących (z niezerowym opisem semantycznym) oraz prawdziwych. Dane określonej treści, mające znaczenie dla odbiorcy tylko wtedy stanowią informację, gdy są prawdziwe. Choć taka definicja wydaje się z inżynierskiego punktu widzenia bardzo wymagająca, niewątpliwie stanowi ona pełny i wiarygodny opis pojęcia informacji.
Proces ustalania dobrze uformowanej, tj. skutecznej w danym zastosowaniu reprezentacji informacji powinien odwoływać się więc zarówno do znaczenia, jak i prawdziwości, czy też inaczej wiarygodności danych źródłowych.
Jedną z podstawowych metod optymalizacji przekazu informacji jest dobór efektywnej reprezentacji dostarczanych danych źródłowych. Najlepiej jak jest to reprezentacja informacji semantycznej w postaci zwartej -- upakowanej, czyli rzadkiej (ang. \emph{sparse}) w sensie wymiaru dziedziny źródłowej oraz uporządkowanej (skupionej w niewielkim zakresie dziedziny). Taka reprezentacja pozwala na bardziej efektywną realizację procedur kodowania, przetwarzania, analizy, ekstrakcji treści użytecznej, selekcji informacji, itp. W przypadku zastosowań medycznych zwiększa skuteczność systemów komputerowego wspomagania diagnostyki obrazowej, rozpoznawania patologii, wydobywania treści ukrytych, czyli niedostrzegalnych w ocenie radiologa.
Dobór reprezentacji
Reprezentacja źródłowa Jedną z podstawowych metod optymalizacji przekazu informacji jest dobór efektywnej reprezentacji dostarczanych danych źródłowych. Rejestracja informacji z wykorzystaniem określonego sygnału wprowadza w sposób oczywisty zależności pomiędzy ciągami wartości sygnału, bo taka jest natura każdej informacji. Przekłada się to na nadmiarowość reprezentacji źródłowej.
Treść wyrażana jest za pomocą określonych obiektów i wzajemnych relacji. Więcej różnorodnych, stosunkowo niewielkich obiektów luźno ze sobą powiązanych przekłada się na wzrost ilości informacji zawartej w sygnale. Duże, jednorodne, podobne do siebie obiekty będące wyrazem treści oznaczają małą ilość informacji, dużą zależność danych, a więc silną nadmiarowość reprezentacji źródłowej, zwaną nadmiarowością stochastyczną.
Rzeczywistej rejestracji sygnału towarzyszy także zapis szumu, czyli składowej wprowadzającej losowość zmian kolejnych wartości rejestrowanego sygnału. Redukcja zależności pomiędzy danymi powoduje w przypadku wzrostu energii szumów wyraźne zwiększenie entropii, rozumianej w tym przypadku jako miara nieuporządkowania. Niestety, sposób liczenia entropii nie pozwala wskazać przyczyny wzrostu jej wartości - nie wiemy, czy przybywa informacji czy też nieuporządkowanego szumu. Występowanie szumu powoduje nadmiarowość znaczeniową (semantyczną), której poziom można ustalić m.in. za pomocą semantycznych deskryptorów numerycznych, dostosowanych do specyfiki obrazów.
Modelowanie sygnałów w celu ich kodowania, przetwarzania, analizy, ekstrakcji informacji, itp. jest bardziej użyteczne, jeśli bazuje na zwartym opisie sygnału. W przypadku naturalnych źródeł informacji zwarta, czyli upakowana reprezentacja sygnału jest rzadka (ang. \emph{sparse}) w stosunku do wymiaru dziedziny źródłowej.
Możliwe jest wykorzystanie przekształceń powodujących dekorelację czy nawet dających pełną niezależność danych. Przekształcenia te tworzą upakowaną, jednoznaczną reprezentację, która jest rzadka i uporządkowana w sensie lokalnego skupienia energii sygnału (przenoszącego informację) w niewielkim zakresie dziedziny przekształcenia. Znaczy, to że liczba niezerowych współczynników w obszarze tej dziedziny jest znikomo mała, czyli realny wymiar nowej dziedziny reprezentacji informacji został znacząco zredukowany. Taki zwarty opis sygnału daje zwykle jedynie przybliżoną postać wersji źródłowej, najlepiej przy zachowaniu wszystkich istotnych jego cech, a usunięciu nadmiarowości semantycznej.
Przyjmując bardziej formalnie pewną złożoność rozważanego problemu, można założyć, że sygnał f składa się z K składników o różnej morfologii , np. obraz składa się z kilku obiektów o różnej morfologii (charakterystyce teksturowej, kształcie itp.), a ponadto istnieje słownik baz , tj. zbiorów wektorów bazowych, służących efektywnej reprezentacji sygnałów. Przyjmuje się, że każdy ze składników może mieć reprezentację , uzyskaną za pomocą określonej bazy . Celem jest dobranie reprezentacji możliwie rzadkiej w sensie pseudo-normy , gdzie oznacza liczbę niezerowych współczynników wektora . Dążymy więc do dobierając odpowiednie bazy dla poszczególnych składników. Najprostszy przypadek dla sprowadza się do poszukiwania bazy dającej możliwie rzadką, czyli maksymalnie upakowaną reprezentację I Znając charakterystykę zróżnicowanych składowych sygnału, które stanowią informację obrazową, dobieramy bazy maksymalnego upakowania oddzielnie dla każdego z potencjalnie niezależnych komponentów (obiektów) obrazu.
Przykładowo, na rys. 1 pokazano przybliżenia obrazów testowych, uzyskane za pomocą upakowanej reprezentacji w kilku różnych bazach -- funkcji falkowych, falek geometrycznych - kliników, falek kierunkowych - krzywek oraz funkcji szeregu fourierowskiego. Zalety bazy falkowej widać na rys.2 gdzie uzyskano bardzo wierny obraz sygnału za pomocą falkowej reprezentacji o wymiarze stanowiącym zaledwie 15% wymiaru dziedziny źródłowej.
Rys. 1 Efekty opisu dwóch obrazów testowych (barbara i goldhill) za pomocą upakowanej reprezentacji; od lewej kolejno obrazy źródłowe o rozmiarze bitów oraz ich przybliżenia z 13,6\% współczynników obrazów, uzyskanych za pomocą bazy falkowej, wedgeletowej (kliników), curveletowej (krzywek) oraz fourierowskiej.
Rys. 2 Przybliżenie sygnału źródłowego za pomocą reprezentacji zredukowanej do zaledwie 15% wymiaru dziedziny źródłowej; kolejno od lewej do prawej, zaczynając od góry - sygnał źródłowy oraz przybliżenia za pomocą baz fourierowskiej, funkcji dyskretnej transformacji kosinusowej oraz bazy falkowej; w przypadku funkcji sinusoidalnych o nieskończonym nośniku widoczne są charakterystyczne oscylacje przy krawędziach o dużym gradiencie, w punktach nieciągłości - efekt Gibbsa.
3.5. Nośniki informacji
Nośniki informacji, czyli ogólnie sygnały są bardzo ważnym elementem konstruowanych aplikacji multimedialnych. Sposób ich definiowania, opisu, kształtowania, modulacji treścią są nierozerwalnie związanie z zasadniczym celem skutecznego przekazu informacji. Dopasowanie sygnałów do charakteru treści, istotnych właściwości przesyłanych danych, ale też do natury opisywanego zjawiska czy faktu jest fundamentalnym, bo bardzo pragmatycznym zagadnieniem inżynierii multimediów.
3.6. Wyrażanie informacji
Treść przekazu staje się informacją w określonych okolicznościach. Treść ta może mieć charakter immanentny lub transcendentny. Przekaz immanentny towarzyszy zwykle rejestracji jakiegoś zjawiska fizycznego, obserwacji jego niedostepnej natury, odczytu stanu czujników śledzących przebieg zakrytych przed obserwatorem zdarzeń, wymaga odpowiedniego, często specjalistycznego odczytu przez fachowców, a interpretacja danych ma wtedy zawsze charakter informacji (stwierdzenie, że nic się nie dzieje w interesującym obszarze też jest informacją).
Przekaz transcendentny jest zwykle zamierzony, zbudowany na bazie zewnętrznych, uogólniających obserwacji, treść znamionująca informację jest ogólnie rozpoznawalna, podobnie interpretowalna, rozumiana dość jednozacznie tak przez nadawcę, jak i przez typowego odbiorcę, a wybór formy, sposobu i technologii przekazu jest zwykle dobierany ze względu na charakter i właściwości tej treści.
Możliwe są też rozwiązania hybrydowe, niejednoznaczne, wynikające np. z różnego rozumienia treści przez nadawcę i odbiorcę (to co było celem przekazu i miało stanowić informację okazało się nieistotne, natomiast inna właściwość przekazanej treści może okazać się przydatna odbiorcy). Może to niekiedy powodować zniekształcenie przekazu ze względu na nieodpowiednio dobraną technologię przekazu.
Różna w charakterze i formie treść może być zawarta w sygnale ciągłym, dyskretnym, cyfrowym. W grę może wchodzić zbiór danych o charakterze jednolitym, zbiory danych wzajemnie referujące na siebie, ze znacznikiem upływającego czasu lub też asynchronicznym odwoływaniem się do pewnej sekwencji zdarzeń, itp.
4. Pomiar sygnałów
Informacje zbierane są poprzez pomiar realnych sygnałów. Rejestracja rzeczywistych sygnałów ma swoje ograniczenia.
4.1. Ograniczenia procesu rejestracji danych
Praktyczne cele rejestracji sygnałów mogą być różnorakie -- przykładowo:
- utrwalenie chwili (fotografia, film, historyczna kopia zdarzeń) o takich cechach jak
- wierny, specyficzny, wysokiej jakości,
- dogodny w dalszej obróbce,
- o istotnych walorach treściowych,
- podatny na długoczasowe przechowanie,
- dostosowany do przewidywanych form odtwarzania (percepcji przez użytkownika);
- zdobycie informacji (niedogodności zapisu, duże koszty organizacyjne, wyjątkowość sytuacji, szybki przekaz), gdzie ważne jest
- ukształtowanie przekazu informacji (selekcja),
- zapewnienie wystarczającej jakości zapisu,
- uzupełnienie metodami obróbki ograniczeń uwarunkowań rejestracji;
- obserwacja natury, rzeczywistości (badania i eksperymenty, zdobycie wiedzy o świecie, obiektywizm, kompleksowość zapisu określonego stanu czy zbioru faktów, rozumienie i odzwierciedlenie praw natury) wymagające takich zasad rejestracji jak
- rzetelne i wiarygodne dostosowanie do realiów,
- wtopienie w istotę zapisywanych zjawisk, cierpliwe naśladowanie procesów i zachowań, podpatrywanie bez ingerencji czy zmiany naturalnych uwarunkowań (obojętność względem natury zjawisk),
- konsekwencja w tropieniu prawdy;
- wykorzystanie natury (symulowanie świata, modelowanie) dające
- wiarygodny świat wirtualny, tworzący nowe możliwości i szanse na bazie analizowanych, wyczerpujących zapisów natury, pozwalający dostosować realia do ograniczeń percepcji użytkownika (powodowanych np. brakiem możliwości przebywania, chorobą, upośledzeniami),
- formalny model zjawisk, który pozwala rozszerzać rzeczywistość z zachowaniem kluczowych cech natury, udostępniać na szeroką skalę, uczyć zrozumienia istoty zjawisk;
- rozwój świata technologii cyfrowych, a więc
- koncepcji internetu, cyfrowego odbicia rzeczywistości bez szeregu naturalnych ograniczeń powodowanych ciągłością czasu i miejsca, globalnego kontaktu i dostępu,
- komunikacji bez granic, bezprzewodowego, szerokopasmowego przepływu danych na niewyobrażalną skalę,
- personalnych urządzeń komputerowych ze zdolnością obróbki każdego cyfrowego odbicia realiów dowolnego miejsca i chwili.
Różnorodne metody, urządzenia czy systemy rejestracji danych definiowane są poprzez:
- fizyczne podstawy różnych koncepcji rejestracji sygnałów, czyli
- wykorzystanie właściwych zjawisk fizycznych, umożliwiających pomiar istotnych cech rejestrowanej rzeczywistości;
- ewentualne zastosowanie konwersji sygnału jako nośnika informacji do innej formy przenoszenia energii, umożliwiającej wyższej jakości pomiar informacji (np. konwersja promieniowania rentgenowskiego na świetlne za pomocą scyntylatorów w cyfrowych detektorach radiografii rentgenowskiej -- dopiero fotony o zdecydowanie niższej energii mogą być skutecznie wyłapywane przez macierze CCD czy też fotodiody sprzężone z przestrzennie dyskretnymi macierzami tranzystorów TFT (thin film transistors z amorficznego krzemu);
- projektowanie czujników/detektorów do konwersji rozkładów mierzonych wielkości fizycznych na energię elektryczną (przepływ ładunków) z zachowaniem geometrii, przestrzennych relacji i możliwej zupełności rejestrowanej treści;
- konstrukcja urządzeń i systemów zapewniających odpowiednie warunki pomiarów: a) w założonych zakresach dynamiki zmian (odpowiednio szerokich, lecz nie nadmiarowych); b) dotyczące relacji czasowych (zarówno co do czasu trwania pojedynczego pomiaru, jak i niezbędnej liczby pomiarów danej wielkości) i innych okoliczności wynikających z zastosowań;
- zapewnienie stabilności warunków rejestracji z kontrolą i śledzeniem kluczowych parametrów tego procesu (przede wszystkim stosunku sygnał/szum, zdolności rozdzielczych, zakłóceń, wiarygodności);
- zasady rejestracji sygnałów cyfrowych, uwzględniające:
- reguły próbkowania, kwantyzacji i kodowania stosowane w uniwersalnych przetwornikach analogowo-cyfrowych A/C, bądź też w określonym systemie (układzie) akwizycji sygnałów -- czego efektem jest postać cyfrowej reprezentacji sygnałów;
- procedury wstępnego przetwarzania danych, służące ulepszeniu sygnału poprzez redukcję znanych z góry ograniczeń danego systemu rejestracji (np. redukcji szumów poprzez uśrednienie sygnałów z kilku kanałów pomiarowych, wycięcia składowych pasożytniczych czy też wzmocnienia składowych użytecznych, wprowadzenia dynamicznego wzmocnienia sygnału rejestrowanego zależnie od czasu propagacji przez obszar mierzony);
- zasady gromadzenia danych, dotyczące sposobu formowania/rekonstrukcji cyfrowego sygnału zapisu oraz wyznaczania postaci reprezentacji dostosowanej do uwarunkowań systemu cyfrowego danej aplikacji; chodzi tutaj m.in. o uwzględnienie wymagań dotyczących: a) czasowej przepustowości strumienia przechwytywanych danych oraz wynikającej z tego koniecznej wydajności czasowej zapisu danych; b) standaryzacji formatu gromadzonych danych, co może pociągać za sobą konieczną konwersję (na bieżąco) reprezentacji danych zgodnie z wymogami określonej normy; c) dostosowania do uwarunkowań ewentualnej transmisji na bieżąco (\emph{on-line}) rejestrowanych danych, w tym standaryzacji formatu danych, wymogów wprowadzania wydajnych mechanizmów kolejkowania i buforowania, dostosowujących czasowe uwarunkowania rejestracji do zmiennych czasowo parametrów kanału transmisyjnego.
Ograniczenia metod rejestracji sygnałów dotyczą m.in. takich czynników jak:
- ogólna wiarygodność pomierzonego odbicia rzeczywistości względem zaistniałych realiów (przede wszystkim w zakresie podstawowych właściwości występujących obiektów i ich wzajemnych relacji, a także kompletności zbieranej informacji, uwzględnienia występujących efektów maskowania istotnych cech sygnału, selektywnego wzmacniania itp.),
- poziom i charakter występujących szumów,
- rodzaj i intensywność artefaktów, ogólniej zakłóceń,
- zdolność rozdzielcza zestawu pomiarów (możliwa skala dokładności) akwizowanych danych, jej charakter przestrzenny (kierunkowy, czy też geometryczny) oraz czasowy,
- zakres dynamiki pozwalający z wystarczającą czułością, ale i specyficznością różnicować zapisywaną treść.
Ograniczenia te stanowią istotną przeszkodą w percepcji, analizie czy interpretacji gromadzonej informacji, w kontekście określonych form jej użytkowania wielu różnorodnych zastosowań. Wymagana jest wtedy obróbka danych zmierzająca do poprawy ich użyteczności w ramach dostępnych środków sprzętowych, przy istniejących ograniczeniach realizacyjnych (dotyczących złożoności obliczeniowej, zależności czasowych, natury treści przekazu, zakresu możliwych metod i koncepcji itp.). Przykładowo w zastosowaniach medycznych stosowanie metod obróbki, które nie dają pewności zachowania wszystkich, nawet najdrobniejszych szczegółów, mogących mieć znaczenie w rozpoznaniu patologii, budzi zasadniczy sprzeciw. Dochodzą w tym przypadku także uwarunkowania rekonstrukcji jako rozwiązania problemu odwrotnego. Z kolei dostępna szybkość przetwarzania danych multimedialnych, zestawiona z rozmiarami strumienia danych wymagających obróbki, może okazać się niewystarczająca.
Zarys metod rejestracji i prezentacji danych multimedialnych, krótki opis stosowanych urządzeń sygnalizuje olbrzymią rolę systemów wejściowych, dostarczających danych źródłowych oraz wyjściowych, efektowych, służących postrzeganiu i rozumieniu treści przekazu przez użytkownika.
Wierny zapis (rejestracja) stanu rzeczywistości, unikalnej, będącej źródłem ważnych informacji w przekazie, rzeczywistości z natury wielomodalnej, jest podstawowym elementem sprawnych systemów multimedialnych.
Rejestracja danych multimedialnych jest bardzo ważnym etapem pozyskiwania informacji, przekazywanej w kolejnych etapach do odbiorcy. Różnorakie aspekty zjawisk fizycznych o odmiennej charakterystyce są rejestrowane za pomocą dostosowanych czujników, rejestratorów, złożonych systemów akwizycji, czyli ogólnie specjalistycznych urządzeń pozyskiwania danych. Zapewnienie możliwie wysokiej jakości pozyskiwanych danych oraz wyznaczenie efektywnej ich reprezentacji decyduje często o użyteczności całej aplikacji multimedialnej.
Zapis rejestrowanej treści powinien być wierny, specyficzny, dogodny w dalszej obróbce oraz dostosowany do przewidywanych form odtwarzania czy ogólniej użytkowania. Warto też uwzględnić przewidywane formy kształtowania przekazu informacji, możliwą regulację jakości danych czy też selekcji treści użytecznych.
Różnice pomiędzy systemami akwizycji danych dotyczą przede wszystkim takich dwóch podstawowych aspektów jak:
- fizyczne podstawy wykorzystywanych w rejestracji zjawisk:
- wykorzystanie właściwych zjawisk fizycznych (pomiaru cech obiektów), odpowiednich materiałów, zasad i innych uwarunkowań pomiaru;
- wybór właściwych technologii, konstrukcja urządzeń i systemów;
- projektowanie zestawu czujników/detektorów wraz z mechanizmami odczytu danych;
- kontrola jakości rejestracji;
- zasady uzyskania sygnałów cyfrowych:
- dyskretne, przestrzenno-czasowe struktury rejestracji danych;
- przetworniki A/C;
- mechanizmy próbkowania, kwantyzacji i kodowania;
- formowanie/rekonstrukcja sygnału rejestrowanego;
- wstępne przetwarzanie, ustalanie reprezentacji wyjściowej.
4.2. Obraz
Typowe urządzenia służące do rejestracji obrazów, tj. konwersji energii promieniowania optycznego (obrazu optycznego) na energię elektryczną sygnału wizyjnego wykorzystują podstawowe zjawisko fizyczne –- efekt fotoelektryczny uwalniania elektronów (przenoszenie z pasma podstawowego do pasma przewodzenia) z atomów poprzez absorpcję energii fotonów. Jeśli uwolnione elektrony pozostają w materiale detektora, mamy do czynienia z efektem wewnętrznym, zwykle wykorzystywanym w rejestratorach obrazów naturalnych. Efekt fotoelektryczny zewnętrzny, polegający na uwalnianiu elektronów np. z materiału fotokatody, jest wykorzystywany we wzmacniaczach obrazu, które są ważnym elementem rejestracji obrazów za pomocą promieniowania rentgenowskiego czy gamma.
Sam proces rejestracji obejmuje zwykle konwersję energii optycznej na elektryczną w materiale światłoczułym. Jako materiał światłoczuły wykorzystuje się zazwyczaj półprzewodniki (najczęściej monokrystaliczny krzem) o możliwie małej wartości prądu ciemnego (brak wolnych ładunków w paśmie przewodzenia przy braku oświetlenia). Są to struktury wielowarstwowe o spolaryzowanych zaporowo złączach, gdzie rejestrowany jest ruch uwolnionych elektronów oraz dziur.
Pojawiający się ładunek elektryczny jest zbierany i gromadzony za pomocą przyłożonego pola elektrycznego w punktach obrazu - pikselach o konkretnych wymiarach fizycznych. Istotnym elementem jest czas gromadzenia i odczytu ładunku z poszczególnych pikseli. Akumulacja ładunku w strukturze materiału światłoczułego także w czasie pomiędzy odczytami pozwala zdecydowanie zwiększyć liczbę ładunków odczytywanych z poszczególnych pikseli. Wykorzystuje się do tego tzw. kondensatory złączowe -- bipolarny lub MOS (zobacz rys. 3).
Rys. 3. Elementy przetwarzająco-akumulujące stosowane w analizatorach obrazów: kondensator bipolarny -- złącze p-n (po lewej), fotodioda oraz kondensator MOS (źródło: na podstawie rysunku z bibliografii)
Systemy akwizycji obrazów są silnie zróżnicowane, ale w ogólności można je podzielić na:
- kamery analogowe ze zmienna szybkością rejestracji obrazu, niskoszumowe, tanie, z sygnałem ucyfrawianym za pomocą urządzeń-kart typu frame-grabber;
- cyfrowe aparaty fotograficzne i kamery, z wysokoczułymi obiektywami, macierzami CCD (Charge Coupled Device) lub CMOS Complementary Metal Oxide Semiconductor (TFT) Thin-Film Transistor, szybkimi układami sczytywania próbek obrazu, gromadzenia, a często - kodowania;
- skanery z wysoką zdolnością rozdzielczą, liniową charakterystyką w środkowym, możliwie szerokim zakresie przenoszenia kontrastu;
- systemy specjalistyczne:
- sensory teledetekcyjne (Teledetekcja remote sensing to badanie wykonane z pewnej odległości (zdalne) w celu rozpoznawania obiektów i zjawisk poprzez wykrywanie i analizę promieniowania elektromagnetycznego w różnym zakresie widmowym. Badania teledetekcyjne są wykonywane z samolotów, przestrzeni kosmicznej lub z powierzchni ziemi.) -- lotnicze czujniki obrazowe (zdjęcia ziemi z wysokości do 35 km) oraz satelitarne czujniki obrazowe,
- mikroskopy optyczne (Mikroskopy optyczne służą silnemu powiększeniu obrazów, wykorzystując światło (naturalne lub sztuczne, niekiedy spolaryzowane) przechodzące przez specjalny układ optyczny składający się zazwyczaj z zestawu od kilku do kilkunastu soczewek optycznych. Do rejestracji obrazów stosowane są wysokiej klasy aparaty i kamery cyfrowe. Uzyskiwane powiększenia sięgają 3500x.);
- medyczne systemy obrazowania -- rentgenowski, USG, tomografii komputerowej i magnetycznego rezonansu jądrowego, medycyny nuklearnej (SPECT, PET);
- inne.
Rejestratory obrazów można także podzielić na a) aktywne, wysyłające własną wiązkę promieniowania i rejestrujące jej odbicie (np. urządzenia radarowe i laserowe, lidar) oraz b) pasywne, rejestrujące promieniowanie zewnętrzne (np. aparaty fotograficzne, kamery). Ze względu na szerokość zakresu, w jakim rejestruje się promieniowanie elektromagnetyczne, wyróżnia się rejestratory szerokopasmowe i wąskopasmowe. Dodatkowo, jeśli obraz jest jednocześnie zapisywany w kilku, kilkunastu bądź kilkudziesięciu zakresach promieniowania, wówczas takie analizatory określa się mianem wielospektralnych lub hiperspektralnych (np. w teledetekcji).
Warto zauważyć, że podstawowym źródłem strumienia wizyjnego w przekazie multimedialnym jest kamera. ''Sercem'' kamery jest przetwornik wizyjny - analizator obrazu jako urządzenie służące bezpośrednio do rejestracji obrazów. W analizatorach realizowane są trzy podstawowe procesy: konwersji energii, gromadzenia energii elektrycznej oraz jej odczytu z zachowaniem informacji o położeniu.
Reprezentantem analogowego sposobu adresowania detektora w celu odczytu obrazu jest lampa analizująca z anodą w postaci elektrody obrazowej oraz katodą emitującą wiązkę elektronów. Większemu natężeniu promieniowania oświetlającego elektrodę obrazową, czyli detektor towarzyszy większa ilość uwolnionego ładunku, co może być także analizowane jako zmniejszenie dużej rezystancji skrośnej (w objętości) materiału nieoświetlonego. Poprzez przemiatanie wiązką elektronów (adresującą, sterowaną za pomocą pół magnetycznych i elektrycznych) powierzchni detektora wykonanej z materiału światłoczułego, wytwarzany jest sygnał proporcjonalny do rezystywności danego obszaru - rys. 4.
Rys. 4 Orientacyjny szkic opisujący lampę analizującą wraz ze schematem jej działania (źródło: na podstawie rysunku z bibliografii)
Cyfrowe rejestratory obrazów
Cyfrowy analizator obrazu charakteryzuje się takimi parametrami jak czułość widmowa (rejestracja określonych przedziałów długości fal), czułość świetlna (rejestracja sygnałów świetlnych o możliwie małym natężeniu), zdolność rozdzielcza (możliwość rozdzielenia na obrazie dwóch leżących blisko siebie punktów), bezwładność (zdolność do rejestracji szybkich, dynamicznych scen). Stosowanym dziś powszechnie analizatorem (m.in. w kamerach i aparatach fotograficznych) pozwalającym uzyskać cyfrowe obrazy są zestawy elementów ze sprzężeniem ładunkowym CCD, które zastąpiły w większości popularnych zastosowań analogową lampę analizującą (przytłaczającą swoim rozmiarem i wagą, chociaż pozwalającą na uzyskanie obrazu jakości HDTV (High Definition TV -- telewizja wysokiej rozdzielczości, w pełnej wersji 1920x1080 pikseli bez przeplotu.). Jakkolwiek detektor obrazu składany jest z szeregu linijek CCD, które stanowią de facto jednowymiarowy detektor analogowy sygnału i wymagają taktowanego zegarem próbkowania w procesie odczytu, to pełna, bezpośrednia, układowa integracja procesu próbkowania i kwantyzacji pozwala traktować detektor CCD obrazu jako cyfrowy z punktu widzenia wielu zastosowań. Koszt rejestratorów CCD w znacznym stopniu zależy od częstotliwości ich taktowania.
Rejestratory CCD budowane są w strukturze monolitycznej z naniesioną półprzezroczystą elektrodą polikrzemową, jako matryca fotoczułych komórek, w których przy odpowiedniej polaryzacji gromadzony jest ładunek, zależnie od energii oświetlenia. Zderzenie fotonu z atomem komórki światłoczułej może spowodować przeskok elektronu na wyższą powłokę lub uwolnienie nośnika ładunku –- fotoefekt wewnętrzny. Uwolnione nośniki są gromadzone w kondensatorach, a następnie przesuwane za pomocą impulsów elektrycznych, wyłapywane, a powstający sygnał wzmacniany, kondensatory opróżniane. Ilość nośników zebranych w jednostce czasu odzwierciedla natężenie padającego światła.
Odczyt cyfrowy z dyskretnym adresowaniem uzyskiwany jest za pomocą rejestrów przesuwnych, tj. kaskady komórek pamięci z sekwencyjnie przesuwaną, zapamiętaną informacją w odstępach czasowych wyznaczanych przebiegiem taktującym, jednakowym dla wszystkich komórek. Komórki pamięci rejestru przesuwającego są grupowane w zwykle równoliczne ogniwa (najczęściej 2-4 komórek). Uwolnione nośniki (ładunki), które zostały zgromadzone w poszczególnych punktach obrazu ładunki (w kondensatorach), są przesuwane za pomocą impulsów elektrycznych w kierunku wzmacniacza ładunkowego, przetwarzającego sygnał ładunkowy na napięciowy (rys. 5). Zostają one tam wyłapane, a powstający sygnał napięciowy -- wzmocniony, zaś kondensatory -- opróżnione. Ilość nośników zebranych w jednostce czasu odzwierciedla natężenie padającego światła.
Rys. 5 Odczyt informacji obrazowej w macierzach CCD: trójfazowy rejestr przesuwny ze studnią potencjału, zegarem taktującym i zbierającym sygnał przetwornikiem ładunkowym (źródło: na podstawie rysunku z bibliografii).
Dokładniej, jeżeli w czasie rejestracji oświetlenia (tzw. okresie akumulacji) jedynie pierwsze elektrody w ogniwach rejestru zostaną spolaryzowane napięciem stałym, wówczas fotoładunki będą wytwarzane i akumulowane jedynie pod elektrodami ES1 każdego ogniwa. Stąd pod pierwszymi elektrodami wszystkich ogniw wytworzy się ładunkowa replika rozkładu oświetlenia wzdłuż rejestru (linii analizy). Załączenie przebiegu zegarowego i poprzez zmianę potencjału komórek sekwencyjne przesuwanie zgromadzonych fotoładunków do wyjściowego przetwornika ładunek/napięcie pozwoli uzyskać na wyjściu napięcie proporcjonalne do liczby zebranych ładunków. Ścisłe powiązanie liczby okresów przebiegu zegarowego z liczbą koniecznych
przesunięć (liczbą ogniw w linii) precyzyjnie lokalizuje miejsce pobrania ładunku. Rejestr zbudowany z odpowiedniej linii ogniw może stanowić więc analizator całej linii (wiersza) obrazu.
Pewnym problemem jest możliwość akumulacji dodatkowego ładunku w czasie przesuwu, tzw. efekt ''zaplamienia''. Podczas przesuwu fotoładunków przez kolejne komórki rejestru dodawane są nowe, pasożytnicze ładunki zbierane podczas ich ''transportowej polaryzacji'' zakłócając faktyczny rozkład natężenia oświetlenia w linii. Pojawia się smużenie oraz charakterystyczne artefakty - plamki. Zaplamienie jest strukturalną wadą rejestru CCD. Można je wyeliminować jedynie przez zaciemnienie (zasłonięcie) przetwornika podczas transferu ładunków, np. za pomocą przesłony mechanicznej lub ciekłokrystalicznej. Oba sposoby spowalniają jednak proces akwizycji i nie zawsze można je zastosować. W takich przypadkach natężenie zaplamienia można jedynie zmniejszyć minimalizując czas transferu ładunków, a więc zwiększając częstotliwość przebiegu zegarowego, co podwyższa koszt przetwornika.
Aby uzyskać obraz cyfrowy za pomocą analizatora linii, konieczne jest skanowanie rejestrowanego obrazu linią przesuwaną w kierunku prostopadłym do linii analizatora, np. w skanerach, telefaksach, kopiarkach czy kamerach do meteorologicznych zdjęć satelitarnych. W celu równoczesnej akwizycji całego obrazu konieczne jest uzupełnienie zestawu analizatorów linii rejestrem wyjściowym ze wzmacniaczem ładunkowym, zbierającym cyklicznie przesuwane ładunki zestawu analizatorów linii w kierunku prostopadłym do kierunku przesuwu. Ze względu na ''zaplamienie'' uzyskiwanego obrazu konieczna jest konstrukcja wykorzystująca dwa zestawy analizatorów linii - otwartych na światło, akumulujących ładunki gromadzone w naświetlanym polu obrazu (sekcja obrazowa) oraz zamkniętych na światło, magazynujących ładunki oczekujące na sczytanie w rejestrze wyjściowym (sekcja pamięci) - rys. 6.
Rys. 6 Koncepcja budowy analizatora obrazów CCD z przesuwem ramki, gdzie: T -- bramki transferowe; na biało zaznaczono naświetlane pole obrazu, składające się z pionowo ustawionych -- jako kolumny -- analizatorów linii (sekcja obrazowa); powyżej - pole sekcji pamięci składające się z identycznych analizatorów linii, zestawu rejestrów przesuwających zarejestrowany w poprzednim kroku obraz do rejestru wyjściowego, sekwencyjnie sczytującego kolejne wiersze obrazu (źródło: na podstawie rysunku z bibliografii).
W pierwszym etapie odczytu całego obrazu następuje akumulacja fotoładunku w sekcji obrazowej. Elektrody sterujące ES1 (lub kolejne) wszystkich ogniw wszystkich analizatorów kolumn sekcji obrazowej są polaryzowane napięciem stałym, natomiast pozostałe elektrody ogniw pozostają niespolaryzowane -- tworzona jest ładunkowa replika rejestrowanego obrazu. W tym czasie ładunki umieszczone poprzednio w rejestrach pamięci są sekwencyjnie przesuwane i za pomocą drugiego zestawu bramek transferowych przekazywane do rejestru wyjściowego. Sczytywany (adresowany) jest obraz zarejestrowany w poprzednim etapie akumulacji.
Drugi etap to przesuwanie ładunku w obu sekcjach sterowanych tym samych zegarem taktującym. Jest to czas wygaszenia pola rejestrowanego obrazu (brak akumulacji). Fotoładunki zgromadzone w ogniwach każdego analizatora kolumny sekcji obrazowej są w całości transferowane do odpowiadającej mu linii sekcji pamięci za pomocą bramek transferowych. Przesuw zarejestrowanego pola obrazu do sekcji pamięci ładunku kończony jest zdjęciem sygnału zegarowego oraz zamknięciem bramek transferowych.
Liniową charakterystykę czujnika obrazu oraz przykładowe matryce CCD przedstawiono na rys. 7.
Rys. 7 Analizator obrazu z matrycą CCD: liniowa odpowiedź czujnika CCD na pobudzenie świetlne w zakresie aktywnej pracy rejestratora (u góry po po lewej), sensor CCD zamontowany w kamerze cyfrowej (u góry po prawej) oraz inne przykłady czujników CCD (źródło: własne, Wikipedia, Internet).
Alternatywnym rozwiązaniem są detektory CMOS, stosowane m.in. w aparatach cyfrowych i kamerach internetowych. Detektory te należą do grupy czujników z aktywnymi pikselami (active pixel sensors), bazują na w pełni dyskretnej strukturze powierzchniowej i są konkurencyjne w stosunku detektorów CCD. Matryce CMOS organizowane są w postaci dwuwymiarowej struktury TFT, gdzie każdy element tranzystorowy ma aktywną elektrodę powierzchniową zbierającą sygnał z określonego obszaru pojedynczego piksela. Jako element światłoczuły wykorzystywana jest sprzężony ze strukturę TFT zestaw fotodiod - rys. 8.
Rys. 8 Przykładowe rozwiązanie detektora CMOS: a) ogólny schemat struktury; b) czujnik aktywnego piksela z fotodiodą, RS - sygnał selekcji piksela, RST - tranzystor do resetu fotodiody; c) widoczna struktura detektora 1024x1024 aktywnych pikseli (tranzystor CMOS wzmacnia sygnał z fotodiody w ramach komórki piksela) o fizycznym rozmiarze piksela 11,9 (na podstawie pracy z bibliografii).
Dzięki dyskretnej w obu wymiarach strukturze elementów gromadzących ładunek, odczyt przestrzennej informacji obrazowej jest prostszy, szybszy, selektywny (można odczytać tylko wybrany region), z redukcją zakłóceń typu ''zaplamienie''. Jednocześnie niski koszt i niewielki pobór mocy stanowią o atrakcyjności takich detektorów. Wśród wad można wymienić pewne ograniczenia w zakresie uzyskiwanej światłoczułości i dynamiki rejestrowanego sygnału, a także pewne niejednorodności odczytu z całego pola obrazu i stosunkowo duży prąd ciemny. Jednak kolejne udoskonalenia detektorów klasy CMOS prowadzą do coraz wyższej jakości uzyskiwanych obrazów.
Systemy specjalistyczne
Jako przykład współczesnego rozwiązania w obszarze \textbf{sensorów satelitarnych} można wymienić sensor TM (Thematic Mapper) rejestrujący obraz w siedmiu kanałach spektralnych. Jego następca -– sensor ETM (Enhanced Thematic Mapper), umieszczony na pokładzie satelity Landsat 7 (rozdzielczość naziemna 15m w kanale panchromatycznym, 30m w kanałach spektralnych i 60m w kanale termalnym). Rozdzielczość naziemna danych dostarczanych z innego satelity (SPOT) zmienia się od 2,5m do 20m. Dla rejestratorów lotniczych rozdzielczość naziemna jest wyższa. Przykładowo, niemieckie sensory DAIS oraz ROSIS przy 79 kanałach spektralnych pozwalają uzyskać rozdzielczość odpowiednio 5m i 1m.
Sensory hiperspektralne umieszczone na pokładach satelitów cechują się aktualnie niską rozdzielczością naziemną. Przykładowo, sensor MODIS (http://modis.gsfc.nasa.gov/data/) rejestrujący obrazy w 36 zakresach widma (pomiędzy 0,405 i 14,385 długości fali), zainstalowany na amerykańskim satelicie Terra, charakteryzuje się rozdzielczością wynosząca zależnie od zakresu spektralnego od 250 m, przez 500 m do 1000 m. Z kolei dane z sensora AVIRIS umieszczonego na samolocie NOAA Twin Otter to obrazy rejestrowane w 224 zakresach widma o rozdzielczości przestrzennej 2,2m przy robieniu zdjęć z wysokości 2000m oraz 20m -- z wysokości 20.000m - zobac.z rys. 9. Efektem doskonalenia systemów wielorozdzielczych jest rozdzielczość uzyskana za pomocą rosyjskich kamer KVR-1000 i KVR-3000, sięgająca 2m (technika skanowania zdjęć analogowych). Panchromatyczne wysokorozdzielcze zdjęcia satelitarne, rejestrowane cyfrowo, uzyskiwane z satelity IKONOS mają rozdzielczość 1m w punkcie podsatelitarnym, natomiast obrazy z Quick Birda2 – 0,61m.
Rys. 9 Zdjęcia satelitarne, spektralne o małej -- 20m (z lewej) i dużej -- 2m rozdzielczości naziemnej (na podstawie rysunku z bibliografii)
Szczególnie istotne parametry zdjęć lotniczych za pomocą fotogrametrycznych (Fotogrametria to dziedzina nauki i techniki zajmująca się odtwarzaniem kształtów, rozmiarów i wzajemnego położenia obiektów w terenie na podstawie zdjęć fotogrametrycznych (fotogramów). Typowe zastosowania to opracowywanie map, pomiary dużych obszarów i odległości, wyznaczanie wysokości obiektów. Obejmuje fotogrametrię naziemną (terrofotogrametrię) oraz fotogrametrię lotniczą (aerofotogrametrię). Zależnie od sposobu wykorzystania zdjęć rozróżnia się fotogrametrię płaską (jednoobrazową) i fotogrametrię przestrzenną (dwuobrazową), zwaną też stereofotogrametrią, w której przestrzenny obraz obiektu lub terenu uzyskuje się za pomocą stereogramu – pary zdjęć wykonanych z dwóch punktów przestrzeni.) aparatów (kamer) fotograficznych, wyposażonych w specjalne obiektywy pozbawione aberracji, to czułość i rozdzielczość przestrzenna.
Rozdzielczość uzyskiwanych obrazów fotograficznych zależy od układu optycznego kamery oraz zdolności rozdzielczej rejestratora (błony filmowej lub detektora cyfrowego -- oba te rozwiązania są stosowane). Przeciętna zdolność rozdzielcza typowych niskokontrastowych (bo takich się najczęściej używa) klisz lotniczych waha się od 100 do 150 par linii w milimetrze, co odpowiada rozdzielczości od 7500 do 11500 dpi. Możliwości skanerów wykorzystywanych do uzyskania postaci cyfrowej z negatywów są porównywalne. Zdjęcia lotnicze, wykonane najnowocześniejszymi aktualnie kamerami fotograficznymi (klisze plus skaner) przy odpowiedniej wysokości i prędkości lotu samolotu, osiągają rozdzielczość naziemną na poziomie 0,5–1cm. Z kolei za pomocą kamery cyfrowej osiągnięto rozdzielczość naziemną równą 2,5cm.
Rejestracja obrazu w kamerach cyfrowych odbywa się w dwojaki sposób: za pomocą liniowej (problemy z czasem naświetlania i rozmazem rejestrowanych obrazów) lub prostokątnej macierzy CCD. Akumulacja obrazu wykonywana jest za pomocą kilku oddzielnych macierzy (np. 4 lub 8), z których składany jest jednolity obraz o łącznym wymiarze sięgającym przykładowo 8 tys. na 14 tys. Wymiar elementów światłoczułych stosowanych w kamerach cyfrowych wynosi zazwyczaj od 12 do 14 , co odpowiada rozdzielczości 2500 dpi.
W przypadku obrazów medycznych mamy do czynienia z szeroką skalą metod i urządzeń rejestrujących obrazy. Wykorzystywane są między innymi następujące nośniki informacji oraz właściwości struktur i tkanek, które są obrazowane:
- promieniowanie rentgenowskie, zarówno w zakresie promieniowania hamowania jak i charakterystycznego, pozwalające uwidocznić przestrzenny (dwuwymiarowy) rozkład współczynnika absorpcji (uśrednionego) tkanek penetrowanych wzdłuż wiązki promieniowania; efektem są radiogramy; w przypadku tomografii komputerowej rejestrowane są poprzeczne profile danej warstwy obiektu; na ich podstawie rekonstruowany jest zbiór obrazów kolejnych warstw (uśrednionych jedynie po grubości warstwy) składających się na wolumen obrazowanych struktur wewnętrznych; efektem są tomogramy -- rys. 10;
- fale ultrasonograficzne (mechaniczne fale o częstotliwościach ponadakustycznych) pozwalające wyznaczyć rozkład oporności akustycznej w płaszczyźnie obrazu; wykorzystywane jest zjawisko odbicia fali na granicy ośrodków o różnej oporności -- rejestrowany jest czas penetracji od głowicy do powierzchni odbijającej i z powrotem oraz osłabienie amplitudy fali nośnej; efektem są charakterystyczne obrazy USG typowej projekcji B; wykorzystując zjawisko Dopplera w zbiorze ultradźwięków rozproszonych na czerwonych krwinkach szacowana jest prędkość przepływu krwi w naczyniach i komorach (na podstawie przesunięć w częstotliwościowym widmie odbieranego sygnału); efektem zaś są kolorowe mapy przepływu krwi nałożone na morfologię zobrazowanych struktur;
- fale radiowe o niskich częstotliwościach oraz silne, zewnętrzne pole magnetyczne pozwalają uporządkować, a następnie zobrazować rozkład spinów jąder atomów wodoru w danej przestrzeni 3W; metody trójwymiarowej rekonstrukcji zróżnicowań nasycenia tkanek jądrami wodoru pozwalają tworzyć obrazy w dowolnej płaszczyźnie przecięcia obiektów, dając efekt zobrazowań tomografii rezonansu magnetycznego -- rys. 10}.
Rys. 10 Przykładowe obrazy medyczne: radiogram struktur kostnych miednicy (u góry po lewej), obraz głowy w tomografii rezonansu magnetycznego (u góry po prawej) oraz trzy kolejne warstwy z badania głowy w tomografii komputerowej.
Szczególnie dynamiczny rozwój notowany jest w zakresie cyfrowym metod akwizycji radiogramów. Obok tradycyjnych klisz stosowane są również coraz doskonalsze detektory cyfrowe. Wyróżnia się dwa zasadnicze ich rodzaje:
- z konwersją pośrednią (X światło ładunek), zbudowane ze scyntylatora (zwykle jest to jodek cezu CsI) konwertującego promieniowanie X na widzialne, wykorzystujące następnie:
- macierz CCD z układem optycznym do rejestracji obrazu;
- macierz fotodiod TFD (TFD -- Thin Film Diode}, przylegającą do warstwy cienkich tranzystorów TFT z amorficznego krzemu;
- obrazowe płyty fosforowe (PSP, photostimulable storage phosphor), magazynujące energię absorbowanych fotonów w metastabilnych stanach wzbudzonych (pułapki elektronowe w powłoce walencyjnej) atomów fosforu -- wykorzystuje się najczęściej związki BaFI:Eu2+, BaFCl:Eu2+, BaFBr:Eu2+; sczytywanie zmagazynowanej energii odbywa się za pomocą stymulacji czerwonym światłem laserowym, gdzie powracające do stanu podstawowego atomy wyświecają fotony w zakresie światła widzialnego (niebieskiego) -- co jest rejestrowane za pomocą detektorów cyfrowych, przede wszystkim CCD;
- z konwersją bezpośrednią (X ładunek), bazujące na dielektrycznych elektrodach z warstwą amorficznego selenu, gdzie fotony promieniowania X generują pary ładunków elektron dziura dryfujące w przyłożonym polu elektrycznym; ładunki docierające do dodatniej elektrody są zbierane za pomocą struktury TFT.
Orientacyjne wymagania stawiane systemom radiografii cyfrowej przedstawiono w Tabeli 1. Przyjmuje się, że zdolność rozdzielcza w radiologii analogowej wynosi 15-20 pl/mm (par linii na milimetr), co odpowiada zdolności rozdzielczej sięgającej 25 . Uzyskanie takiej zdolności rozdzielczej w systemach cyfrowych jest sprawą być może niedalekiej przyszłości. Natomiast większe możliwości detektorów cyfrowych w zakresie dynamiki rejestrowanych obrazów wynikają przede wszystkim z liniowej charakterystyki konwersji przestrzennie rejestrowanej wartości dawki (proporcjonalnej do liczby fotonów zarejestrowanych w danym pikselu) na poziom jasności obrazu (gęstości optycznej obrazu na kliszy czy też wartości funkcji jasności przypisane pikselowi w obrazie cyfrowym) oraz większego zakresu wielkości rejestrowanych dawek przetwarzanych na obraz. Dodatkowo, w rozwiązaniu cyfrowym istnieje możliwość dodatkowej poprawy kontrastu metodami przetwarzania obrazów.
Tab. 1 Wymagania stawiane cyfrowym systemom detekcji w radiografii ogólnej i mammografii.
4.3. Dźwięk
Dźwięk wysokiej technicznie jakości rejestrowany jest w studiach nagrań, aczkolwiek spontaniczne zapisy niskiej klasy mikrofonami, np. aparatów komórkowych, mogą być bogate w wyjątkową, zaskakującą, informacyjną treść.
Do interesujących zagadnień należy analiza cech sygnału dźwiękowego, jak też procedura nagrywania dźwięku z wykorzystaniem odpowiedniej sali nagrań, zestawu mikrofonów, stołu mikserskiego i całego zestawu metod przetwarzania, edycji, masteringu dźwięku.
Studio nagrań to przede wszystkim sala nagraniowa oraz reżysernia. Typowe studia nagrań mają uniwersalne, bądź bardziej specjalistyczne przeznaczenie, zależenie przede wszystkim od rozmiarów sali nagrań oraz czasu pogłosu, a także rodzaju i klasy mikrofonów oraz systemów mikrofonowych. Nagrania muzyki rozrywkowej, orkiestrowej czy filmowej wyposażone są w reżysernie ze stołem mikserskim, monitorami do odsłuchu obrabianego dźwięku, zewnętrzne, dodatkowe procesory dźwięku i wzmacniacze, urządzenia do zapisu sygnałów dźwiękowych oraz archiwizacji nagrań. Wśród procesorów dźwięku warto wymienić:
- regulatory głośności, tłumiki;
- korektory barwy dźwięku: graficzne, parametryczne;
- procesory dynamiki: automatyczna regulacja wzmocnienia, kompresor, limiter, ekspander, bramka szumowa;
- procesory efektowe: pogłos, opóźnienie, studnia, zmiana wysokości dźwięku, różne efekty przestrzenne.
Szczególnie istotnym elementem systemów rejestracji dźwięku są mikrofony, które przetwarzają odbierany sygnał (energię) akustyczny na elektryczny, następnie wzmacniany i przetwarzany. Współczesne studia nagrań wykorzystują całe zestawy mikrofonów o dobranych charakterystykach częstotliwościowych i kierunkowych (techniki mikrofonowe), skutecznie rejestrując przestrzenny rozkład fali akustycznej -- rys. 11.
Skuteczność mikrofonu w polu akustycznym swobodnym jest to stosunek napięcia na nieobciążonym wyjściu mikrofonu do wartości ciśnienia akustycznego przy określonej częstotliwości
i kierunku padania dźwięku. Zaś charakterystyka kierunkowa to rozkład względnej skuteczności mikrofonu w funkcji kąta padania dźwięku na powierzchnię mikrofonu, odniesionej do maksymalnej skuteczności przy kierunku padania fali dźwiękowej 0°. Wśród podstawowych technologii wymienić należy mikrofony węglowe (działającej na zasadzie zmian rezystancji proszku węglowego ściskanego przez membranę, powodujących zmiany przepływającego prądu), dynamiczne (cewkowe, wstęgowe, wykorzystujące zjawisko indukcji elektromagnetycznej), pojemnościowe (zmiany pojemności), elektretowy (zmiany pola elektrycznego) czy optyczny.
Rys. 11 Nagrania dookólne w instytucie NHK w Japonii (Fukada): po lewej - nagranie muzyki kameralnej, po prawej - nagranie muzyki jazzowej (źródło: zaczerpnięte z (http://sound.eti.pg.gda.pl/student/tn/techniki\_mikrofonowe2.pdf).
5. Ocena jakości sygnałów
Kryteria oceny jakości obrazów nie są jednoznaczne. Zwykle obraz jest dobrej jakości, gdy według percepcji wzrokowej wygląda ''przyjemnie'', czyli jest odpowiednio skontrastowany, z dobrze widocznymi szczegółami, z naturalną paletą barw, nie ma rzucających się w oczy zniekształceń, artefaktów, a treść jest rozpoznawalna, czytelna, zrozumiała. Niekiedy o wysokiej jakości obrazu świadczy jego specyficzna użyteczność w określonym zastosowaniu, niekoniecznie związana z wysokiej jakości wrażeniem ogólnym, np. dobrze są rozpoznawalne istotne szczegóły obrazowanych struktur, których detekcja jest zasadniczym celem stosowania metod obrazowych (tak jest w radiologii, przy rozpoznawanie zmian patologicznych w obrazach medycznych).
Nie istnieje niestety jedna skuteczna miara pozwalająca określić jakość obrazu. Można generalnie wyróżnić następujące metody oceny jakości obrazów:
- obliczeniowe miary zniekształceń -- wielkości liczbowe skalarne bądź wektorowe, formy graficzne, wyznaczane automatycznie według ustalonych reguł matematycznych, a więc powtarzalne, porównywalne, obiektywne, niekiedy uwzględniające modele ludzkiego widzenia i postrzegania treści obrazowej;
- miary obserwacyjne, będące efektem testów subiektywnej oceny jakości -- psychowizualne testy oceny jakości przeprowadzane przy pomocy typowych użytkowników, bądź też grona specjalistów danej dziedziny według ustalonych procedur, z wykorzystaniem liczbowej skali ocen, z przypisanym znaczeniem poszczególnych poziomów ocen, lub też mechanizmu porządkowania obrazów w kolejności zgodnej z postrzeganą jakością obrazów;
- obliczeniowo-obserwacyjne miary jakości -- wektorowe, złożone miary obliczeniowe optymalizowane wzorcem z testów subiektywnej oceny jakości obrazów.
Ze względu na sposób oceny, metody te możemy podzielić na:
- miary absolutne, bezwzględne (univariate),
- liczbowe, takie jak miary kontrastu, parametry histogramów, przekrojów rozkładu funkcji jasności, estymatory poziomu szumów z widma spektralnego, kierunkowe współczynniki korelacji, parametry modeli regresji itp.,
- graficzne, przykładowo miara Eskicioglu, będąca słupkowym rozkładem dynamiki, odchyleń standardowych oraz liczebność klas bloków diadycznych o rozmiarze od 2x2 do 16x16, na jakie dzielony jest obraz.
- miary porównawcze, względne (bivariate)
- liczbowe, takie jak błąd średniokwadratowy, stosunek sygnału do szumów itp.,
- graficzne, przykładowo wykresy Hosaki \cite{Hosaka}, będące wykreślonym na płaszczyźnie wielokątem ukazującym różnice wartości średnich oraz odchyleń standardowych w kilku klasach bloków o różnym rozmiarze, na jakie dzielony jest obraz.
Wśród metod oceny jakości obrazów przede wszystkim ze względu na ich użyteczność, wymienić należy przede wszystkim specjalistyczne testy użyteczności obrazów -- złożone, dotyczące konkretnej aplikacji testy obserwacyjne bazujące na możliwie wiernej symulacji rzeczywistych warunków pracy z obrazami (detekcji określonych elementów, interpretacji treści), opiniach obserwatorów-specjalistów wyrażanych w formach liczbowych, możliwie wiernie symulujących realia oceny treści obrazów oraz wnikliwej analizie statystycznej odpowiednio opracowanych wyników testów klasyfikacyjnych.
Przykładem takiej oceny mogą być testy detekcji patologii w medycznych badaniach diagnostycznych z udziałem specjalistów-radiologów. Obrazy medyczne określonej modalności (ultrasonografii, tomografii komputerowej, rentgenowskie itp.) interpretowane są ze względu na obecność określonego rodzaju podejrzanych zmian patologicznych, a efekty podjętych decyzji diagnostycznych poddawane są analizie statystycznej z wykorzystaniem krzywej ROC (Receiver Operating Characteristics)
5.1. Obliczeniowe miary jakości
Do najbardziej pożądanych cech miary obliczeniowej należy zaliczyć w pierwszej kolejności: duży poziom korelacji z subiektywną oceną obserwatorów -- najczęściej ostateczną weryfikacją przydatności miary liczbowej jest jej zgodność, a przynajmniej niesprzeczność z oceną psychowizualną -- oraz wysoką podatność w analizie obliczeniowej, tj. łatwość obliczeniową, prostotę aplikacji, bogactwo narzędzi do analizy i optymalizacji oraz łatwość interpretacji. Połączenie tych dwóch oczekiwań okazuje się w praktyce bardzo trudne.
Szczególnie w przypadku miar skalarnych uzyskanie dobrej korelacji z oceną subiektywną jest niełatwe. Miary te dają jednak łatwość interpretacji i analiz porównawczych. Niech oryginalny obraz cyfrowy, wielopoziomowy ze skalą szarości, o szerokości M i wysokości N będzie opisany funkcją jasności . Wartości pikseli obrazu przetworzonego w tej samej dziedzinie oznaczono przez Do najbardziej użytecznych skalarnych miar jakości obrazów, należących do kategorii metod porównawczych liczbowych, zaliczyć należy przede wszystkim takie miary jak:
- maksymalna różnica (maximal difference):
(5.1) |
- błąd średniokwadratowy (mean square error):
(5.2) |
- szczytowy stosunek sygnału do~szumu (peak signal to~noise ratio):
(5.3) |
- średnia różnica (average difference)
(5.4) |
- znormalizowany błąd średniokwadratowy (correlation quality):
(5.5) |
- dokładność rekonstrukcji obrazu (image fidelity):
(5.6) |
- miara chi-kwadrat (chi-square measure):
(5.7) |
Do obliczeniowych miar poprawy kontrastu można zaliczyć:
- indeks poprawy kontrastu CII obliczany na~podstawie skontrastowania obiektu i tła (DR):
(5.8) |
gdzie -- średni poziom szarości obiektu, średni poziom szarości tła obiektu;
(5.9) |
gdzie to~kontrasty obiektu, liczone odpowiednio na~obrazie przetworzonym i~oryginalnym.
- miara separacji rozkładów DSM (distribution separation measure):
(5.10) |
gdzie odpowiada średniej intensywności obiektu i tła poprzetworzeniu, a to~średni poziom intensywności obiektu i tła na oryginałach (przed przetwarzaniem).
- inne miary poprawy kontrastu to stosunki średnich intensywności obiektu i tła oraz ich odchylenia standardowe i entropie.
Porównawcze miary skalarne mogą być stosowane jako dodatkowa informacja, opisująca stopień wprowadzanych w~obrazie zmian, jednak nie dają informacji o kierunku tych zmian -- poprawie percepcji zmian czy ich zniekształceniu.
5.2. Miary obserwacyjne
Miary obserwacyjne są naturalnym sposobem oceny jakości obrazu. Opierają się na~opiniach odbiorców informacji obrazowej, którzy określają ich jakość według własnych kryteriów, na podstawie doświadczenia, osobistych preferencji, czy też -- w przypadku specjalistów -- według obowiązującej wykładni danego zastosowania.
Podstawowymi problemami, związanymi ze stosowaniem miar obserwacyjnych, są: czasochłonność testów, subiektywizm (każdy ze specjalistów ocenia dany obraz w nieco inny sposób, brakuje obiektywnych, jednoznacznych kryteriów oceny), konieczność angażowania kilku niezależnych ekspertów, czynniki ludzkie, takie jak zmęczenie, możliwości pomyłek.
Skala ocen dla miar subiektywnych powinna mieć zdefiniowany zakres liczbowy oraz skojarzony z nim opis słowny. Opis ten ma charakter bezwzględny (miary absolutne) i względny (miary porównawcze). Przykłady skal z opisem podano w tabelach 2 i 3.
Tab. 2 Przykładowa skala ocen jakości obrazów, stosowana w psychowizualnych testach porównawczych do oceny metod poprawy percepcji. Służy do opisu ogólnego, subiektywnego wrażenia obserwatorów, porównujących obraz przetworzony z oryginalnym.
Tab. 3 Przykładowa skala ocen jakości obrazów, stosowana w~psychowizualnych testach miar subiektywnych. Zawiera opis słowny w~kategoriach bezwzględnych (jedynie na podstawie obserwowanego obrazu).
Na podstawie ocen cząstkowych poszczególnych osób, biorących udział w~teście, jest obliczana średnia ocena grup obrazów przez obserwatorów według zależności:
(5.11) |
gdzie K-- liczba kategorii w przyjętej skali, sk -- wartość oceny, związanej z kategorią k, nk -- liczba ocen z danej kategorii.
Analogicznie do obserwacyjnych metod subiektywnej oceny jakości obrazów przez odbiorców informacji obrazowej (obserwatorów), można mówić o subiektywnej ocenie jakości dźwięku przez odbiorców (słuchaczy) -- odsłuchowe testy subiektywne. Ogólniej, chodzi o subiektywne testy odbioru informacji multimedialnej przez osoby weryfikujące jakość przekazu multimedialnego. Ogólne zasady tych testów są takie same jak w przypadku obrazów, natomiast dobierana skala ocen powinna oddawać zasadniczy cel oceny jakości przekazu (dominującą rolę któregoś ze strumieni danych, synchronizację treści przekazu, wskazanie na strumień o najwyższej jakości, ogólne wrażenie percepcji całości informacji, itp.).