Podręcznik

1. Semantyczne modele informacji

1.8. Indeksowanie, czyli znakowanie treści

Gwałtownie rosną cyfrowe zasoby danych multimedialnych, pęcznieją przepełnione archiwa, palące stają się potrzeby sprawnego dostępu do stale rozbudowywanych hurtowni danych. Według najnowszego raportu IDC Digital Universe Study (IDC Digital Universe Study Extracting Value from Chaos, 28.06.2011, sponsored by EMC.} światowe zasoby danych cyfrowych ulegają podwojeniu co dwa lata, zaś przypuszczalna liczba danych wytworzonych i powielonych w 2011 roku  szacowana jest na poziomie 1,8 zeta bajtów (czyli 10^{21} bajtów).  Przeciążone sieci, trudności z szybkim wyszukaniem niezbędnych informacji, problem wydobycia właściwej treści z potoku nadmiarowych strumieni danych i tym podobne, coraz powszechniej występujące zjawiska wymagają coraz doskonalszych mechanizmów zarządzania zasobami danych cyfrowych. 

Szczególnego znaczenia nabierają systemy selektywnego i możliwie szybkiego wyszukiwania pożądanej treści. Przeszukiwanie baz danych o rozległych, lawinowo rosnących zasobach wymaga obok efektywnych obliczeniowo struktur danych, wygodnych mechanizmów formułowania zapytań i prezentacji odpowiedzi, osadzonych w rzetelnie realizowanych systemach teleinformatycznych, także semantycznych technologii opisu treści. Szczególnie istotnym wymaganiem jest tutaj obliczeniowe rozumienie treści danych na sposób zbliżony do intencji użytkownika.

By wyszukać dane odpowiedniej treści, należy je opisać w sposób reprezentatywny, czyli tak, by uwzględnić wszystkie najistotniejsze właściwości, by różnicować obiekty zgodnie z oczekiwaniem użytkownika (klasy, kategorie), przy jednoczesnej, możliwie upakowanej formie opisu. Metoda wyszukiwania obok reprezentatywnego opisu wykorzystuje także w niektórych przypadkach funkcję podobieństwa obiektów określonego typu, dopasowaną do ich charakteru i właściwości. Znajduje ona zastosowanie przy wyszukaniu obiektów najbardziej podobnych do przykładu zapytania. 

Zasadniczo stosowany jest opis dwojakiego rodzaju: a) tekstowy (text-based), bazujący na słowach kluczowych i określonej syntaktyce, wymagający zaangażowania osoby interpretującej treść danych; b) po zawartości (content-based), bazujący na automatycznej analizie treści oraz obliczeniowej jej charakterystyce za pomocą numerycznych deskryptorów sygnałowych. Wprzypadku obrazów konsekwencją są dwie metody wyszukiwania: TBIR (text-based image retrieval) oraz CBIR (content-based image retrieval), przedstawione schematycznie na rys. 3.1.  

Rys. 3.1 Zestawienie koncepcji wyszukiwania obrazów z wykorzystaniem koncepcji opisu tekstowego TBIR (u góry) oraz obliczeniowej charakterystyki zawartości CBIR (na podstawie rysunku zaczerpniętego z literatury).


Solidny opis tekstowy wymaga dużych nakładów ludzkiej pracy, a na efekty końcowe duży wpływ ma czynnik subiektywny. Często też nie sposób za pomocą ustalonych a priori reguł tworzenia tekstu wyrazić bogactwa treści zawartej w obrazie, filmie, czy nawet zapisie dźwiękowym. Często interpretacja treści ma charakter względny, zależny od kontekstu, okoliczności przywołania danych obiektów multimedialnych. 

Drugi sposób opisu, bazujący na automatycznej analizie zawartości danych, w przypadku obiektów multimedialnych o złożonej treści jest często mało skuteczny -- uzyskiwane efekty różnicującego opisu obiektów są ograniczone. Cechy numeryczne wyznaczane na podstawie obrazu czy zapisu dźwięku powinny potencjalnie obejmować szeroki, niemal nieograniczony zakres semantyczny możliwej treści. Teoria cyfrowego przetwarzania i analizy sygnałów dostarcza bogatego zestawu narzędzi do konstrukcji deskryptorów wizualnych opisujących obrazy, zgodnie z założonym zestawem argumentów, czy też deskryptorów audio do opisów dźwięku i mowy. Nierzadko problemem okazuje się jednak ustalenie zbioru cech reprezentatywnych oraz dobór takich kryteriów podobieństwa, które by odpowiadały oczekiwaniom użytkownika. Nieraz okazuje się, że drobny element treści obrazu, występujący na obszarze zajmującym mniej niż 1% jego powierzchni, decyduje o jego charakterze, nadaje zasadniczy sens wyrażonej treści -- specyficzny deskryptor tej cechy powinien zostać uwzględniony w pierwszej kolejności przy formułowaniu kryterium podobieństwa.