Podręcznik
1. Semantyczne modele informacji
1.11. Dobór atrybutów zawartości
Ekstrakcja i reprezentacja cech obiektów jest pierwszym etapem projektowania systemu wyszukiwania treści. Skuteczność indeksowania zawartości, służącego realizacji różnych schematów wyszukiwania treści istotnej z bazy obiektów multimedialnych zależy w pierwszej kolejności od doboru zestawu atrybutów opisujących treść w sposób specyficzny, możliwie kompletny (wieloaspektowy, hierarchiczny do poziomu istotnych szczegółów), a przy tym różnicujący ze względu na odmienne kategorie opisywanej treści. Metoda konstrukcji efektywnych w danym zastosowaniu atrybutów powinna wykorzystywać przede wszystkim: a) całą dostępną a priori wiedzę dziedzinową, b) rzetelną charakterystykę jakościową opisywanych danych, c) wiarygodne profile użytkownika, w tym możliwie zupełny zbiór przewidywanych celów wyszukiwania (można na tej podstawie zróżnicować także formę zapytań). Zwykle sposób rozwiązania problemu doboru atrybutów, czyli sposobu skutecznego opisu obiektów kolekcji ma zasadniczy wpływ na ostateczny kształt mechanizmu indeksującego oraz schemat wyszukiwania.
Najczęściej poszukiwane cechy atrybutów i deskryptorów realizujących numeryczny opis danego atrybutu to:
- precyzyjne i możliwie kompletne różnicowanie treści obiektów;
- pozwalające na proste i jednoznaczne określenie podobieństwa (odległości) cech obiektów;
- dające możliwie zwarty opis (upakowane w sensie stosunku zakresu opisywanych cech do wymiaru deskryptora);
- postać znormalizowana oraz niezmienniczość względem warunków akwizycji, przekształceń afinicznych itp.;
- pozwalające na oszczędne obliczeniowo implementacje,
- możliwie duża zgodność z intencjami użytkownika (dające semantycznie poprawną charakterystykę obiektów).
Wyszukując treść podobną rodzi się zasadnicze pytanie o sposób opisu, a następnie określenia stopnia podobieństwa treści zawartej w zbiorach danych. Jest to pytanie o semantykę danych pojedynczych, grup danych łączonych według określonego kryterium przynależności do obiektu, czy też zbioru obiektów o określonych cechach i wzajemnych relacjach. Jak opisując dane uzyskać wiarygodny wykładnik treści? Jak takie semantyczne deskryptory porównywać ze sobą, by wskazać obiekty podobne w rozumieniu treści zgodnym z intencjami użytkownika? Odpowiedzi na te pytania nie są proste, chociaż najlepsze odpowiedzi wcale nie muszą być bardzo złożone i skomplikowane.
Ponieważ atrybuty zawartości obiektów i przyporządkowane ich deskryptory służą realizacji zapytań formułowanych przez użytkownika, przy ich wyborze czy projektowaniu warto zdać sobie sprawę w przypuszczalnych intencji pytającego. W przypadku obrazów mogą one dotyczyć m.in.:
- obiektów prostych, o określonej kombinacji cech podstawowych, takich jak kolor, tekstura czy kształt -- np. znajdź obrazy zawierające prostokątne, białe tablice z napisami;
- specyficznych typów obiektów lub grupy obiektów w obrazie, np. samochodu danej marki, logo stacji telewizyjnej, czy też zestawu kanapy z fotelem;
- identyfikacji specyficznego obiektu, np. określeniu tożsamości osoby na zdjęciu czy rozpoznaniu cech szczególnych danej osoby, kategorii przynależności do określonej grupy;
- określonego zdarzenia, np. koncertu na molo, meczu futbolu amerykańskiego czy zdjęć ukazujących lwy polujące na bawoły;
- szczegółów określonego zdarzenia, dotyczących obecności danej osoby, zwierzęcia czy przedmiotu, np. meczu piłkarskiego drużyny polskiej, spotkania Jarosława Kaczyńskiego z wyborcami czy galerii wystawiających obraz Mona Lisa;
- subiektywnych emocji towarzyszących jakiemuś wydarzeniu czy ogólnie rejestrowanej scenie, np. agresji na spotkaniach z czytelnikami, szczęśliwego wyrazu twarzy; przykład -- znajdź obrazy wyrażające ludzkie cierpienie;
- właściwej interpretacji zapytania, np. w przypadku radiologicznego opisu przypadku zobrazowania trudnego w ocenie diagnostycznej;
- metadanych związanych z danym obrazem, np. dotyczących autora zdjęcia, daty powstania, miejsca, nazwisk osób zobrazowanych itp.; w tym przypadku intencją użytkownika jest nałożenie określonych ograniczeń zapytaniu o zawartość opisaną deskryptorem numerycznym.
Zarówno spodziewane zapytania, jak też dobierane cechy opisu obiektów kolekcji mogą być konstruowane na różnym poziomie abstrakcji. Zasadniczo można wyróżnić poziom:
- wizualnych cech podstawowych (primitive), gdzie rozważa się np. takie atrybuty obrazów jak kolor, kształt, tekstura, lokalizacja, a podobieństwo dotyczy tej samej kolorystyki czy tego samego kształtu, zwykle prostego prymitywu geometrycznego, bez odwołań do specjalistycznej wiedzy dziedzinowej; stosowane jest niekiedy porównanie obrazów na podstawie takiego podobieństwa użytkownik może jakby przy okazji odkryć pewne relacje treściowe -- gdy np. kolor jest decydującym wyróżnikiem szukanej treści; większą skuteczność tego rodzaju opisu uzyskuje się zwykle poprzez konstruowanie coraz dokładniejszych, adaptacyjnych i lokalnych w opisie deskryptorów oraz poprzez łączenie deskryptorów kilku atrybutów cech podstawowych w jeden złożony opis obiektów;
- identyfikacji obiektów złożonych, gdzie podobieństwo oznacza logiczną przynależność do określonej klasy, kategorii czy rodzaju danych (trzeba więc uwzględnić wiedzę specjalistyczną); zależności pomiędzy numerycznymi deskryptorami atrybutów bardziej złożonych a semantyką opisu obiektów poszukiwane są tutaj już na poziomie konstrukcji indeksu; przykładem może być deskryptor twarzy służący wyszukaniu obrazów będących zdjęciami ludzkich twarzy; im bardziej abstrakcyjny obiekt, tym konstrukcja efektywnego deskryptora trudniejsza; użytkownik może się zadowolić stopniem identyfikacji w właściwej danemu zastosowaniu hierarchii treści, może też stwierdzić nieskuteczność wyszukania pożądanej, stojącej na wyższym poziomie abstrakcji klasy obiektów; wykorzystywane są tutaj niekiedy różne formy interakcji z użytkownikiem, który weryfikując poprawność odpowiedzi pozwala doprecyzować adaptacyjne algorytmy deskryptorów identyfikujących obiekty;
- rozpoznania specyficznych obiektów abstrakcyjnych w kontekście ich pojawienia się, określonych zdarzeń czy stanów emocjonalnych; w opisie uwzględnia się specjalistyczną treść danych, znaczenie obiektów i wzajemnych relacji; występuje tutaj podobieństwo w sensie wysublimowanej semantyki, wynikającej z kontekstu wiedzy dziedzinowej; stosowane są tutaj tzw. deskryptory semantyczne, konstruowane pod kątem określonej semantyki atrybutów opisu obiektów -- opisywane cechy te mają często bardzo odmienny charakter od cech wizualnych; w takich zastosowaniach niekiedy użytkownik nawet nie jest w stanie od razu zweryfikować poprawności odpowiedzi wyszukiwarki -- potrzebny jest do tego dodatkowa weryfikacja semantycznego podobieństwa obiektów odpowiedzi do zapytania; przykładem może być wspomaganie obrazowej diagnostyki medycznej za pomocą CBIR -- zapytaniem jest wtedy trudny w opisie diagnostycznym obraz z podejrzeniem patologii, zaś referencyjne obrazy potwierdzonych klinicznie przypadków stanowiące odpowiedź stanowią sugestię interpretacji obrazu zapytania.
Zdecydowana większość komercyjnych systemów CBIR wykorzystuje jedynie podstawowy poziom, konstruując indeksy atrybutów prostych, ze zwykle łatwą weryfikacją poprawności odpowiedzi (przykładowo Blobworld, AltaVista Photofinder, Amor, Berkeley Digital Library Project, Blobworld i in.). Pfund i Marchand-Maillet wykorzystali dodatkowo metadane alfanumeryczne pochodzących z ręcznego opisu przez operatora. Warte podkreślenia są jednak liczne prace badawcze zmierzające do opracowania CBIR na poziomie identyfikacji, a nawet rozpoznania specyficznych obiektów abstrakcyjnych.
Konieczność doskonalenia deskryptorów semantycznych wynika z trzech zasadniczych problemów: luki semantycznej, polisemii i bariery sensorycznej. Pierwszym problemem ograniczającym skuteczność opisu obiektów za pomocą projektowanych sposobów liczenia cech jest luka semantyczna (semantic gap). Polega to na braku zgodności cech numerycznych, automatycznie ekstrahowanych z obrazu z cechami, które użytkownik uznaje za znaczące w opisywanych obrazach, zależnie od kontekstu ich wykorzystania. Nie znając intencji użytkownika bardzo trudno jest przewidzieć jego oczekiwania, im bardziej specjalistyczne jest zastosowanie, tym kontekst znaczenia wyszukiwanych obiektów jest łatwiejszy do przewidzenia i deskryptory mogą być skuteczniejsze.
Luka semantyczna występuje zwykle pomiędzy podstawowym a wyższymi poziomami abstrakcji opisu obiektów multimedialnych, w tym przypadku obrazów. Stosowane deskryptory nie odzwierciedlają właściwie treści obrazowej powodując formułowanie niesatysfakcjonujących użytkownika odpowiedzi -- zobacz przykład na rys. 3.2.
Rys. 3.2 Luka semantyczna procedur wyszukiwania -- przykład zaczerpnięty z literatury; dwa obrazy pomimo dzielących je, oczywistych różnic treściowych zostały mylnie określone przez CBIR jako podobne; podobieństwo koloru i do pewnego stopnia kształtu oraz rozmiaru wielu drobnych obiektów nie przekłada się w tym przypadku na wspólną semantykę.
Na rys. 3.3 pokazano sytuacje odwrotną, kiedy to podobne treściowo obrazy (gatunek tygrysa) są do siebie wizualnie mało podobne lub wręcz niepodobne na poziomie podstawowych cech obrazowych (kolorystyka, tekstury, nawet kształt).
Rys. 3.3 Ograniczenia skuteczności CBIR powodowane trudnym do opisu numerycznego podobieństwem prezentowanych obrazów -- przykład zaczerpnięty z literatury; dwa podobne znaczeniowo obrazy mają wyraźnie odmienne wizualne cechy podstawowe.
Ważnym powodem luki semantycznej jest polisemia, czyli wieloznaczność wyrazu treści obrazowej. Na rys. 3.4 ukazano trzy różne poziomy wieloznaczności obrazów. W przypadku wieloznacznej treści obrazowej trudno jest ustalić, jakie są intencje pytającego, na jakiej płaszczyźnie znaczeniowej spodziewana jest odpowiedź. Sposób formułowania zapytania, np. w formie interaktywnej, może zawierać mechanizmy precyzujące sposób interpretacji treści przez użytkownika, z określeniem rodzaju istotnej semantyki opisu obrazów. Zwykle jesteśmy w stanie dokonać tego jedynie w ograniczonym zakresie.
Rys. 3.4 Wieloznaczność treści obrazów -- przykład zaczerpnięty z literatury; od lewej -- obraz wieloznaczny (ludzie, różne rasy, biegnący ludzie, przyglądający się ludzie, zawody sportowe, barwy różnych krajów, olimpiada, doping, wysiłek), obraz o ograniczonej wieloznaczności (maszerujący ludzie, wspinaczka górska, krajobraz), obraz dość jednoznaczny (kwiaty).
Dobrym przykładem problemu polisemii jest ustalenie podobieństwa do zapytania w zastosowaniach medycznej diagnostyki obrazowej. Niekiedy może być ono rozumiane jedynie w kategorii znaczeniowej tej samej modalności zobrazowania, np. każdy obraz ultrasonograficzny (USG) jest podobny do innego obrazu USG. Zwykle jednak problem jest definiowany bardziej precyzyjnie -- chodzi o ten sam rodzaj badania, np. badanie echokardiografii, czyli USG serca. We wspomaganiu diagnostyki obrazowej istotny jest ''bardziej wymagający rodzaj podobieństwa'', definiowany przez obecność patologii, patologii o podobnych cechach lub nawet ten sam rodzaj patologii. Przykładowo, na rys. 3.5 pokazano podobne obrazy rentgenowskie płuc w sensie modalności i rodzaju badania, ale różne ze względu na obecność patologii. Im subtelniejszy, bardziej szczegółowy zakres podobieństwa, tym trudniej opracować semantyczne deskryptory pożądanych atrybutów, które pozwolą właściwie określić podobieństwo treści.
Rys. 3.5 Wieloznaczność obrazów medycznych -- obrazy podobne w sensie modalności i rodzaju zobrazowania (rentgen płuc), jednak różne w interpretacji diagnostycznej, po lewej obraz bez patologii, po prawej z guzem nowotworowym (zaczerpnięty z bazy JSRT - Japanese Society of Radiological Technology database - utworzonej przez Japońskie Towarzystwo Radiologiczne w 1998: http://www.jsrt.or.jp/web\_data/english03.php ).
W kontekście zastosowań medycznych pojawia się dodatkowy problem tzw. bariery postrzegania (sensory gap). Jest to związane z występowaniem informacji ukrytej, kiedy to cechy wizualne określonej struktury czy ogólniej obiektu są niewystarczająco wyraźne, różnicujące w stosunku do kontekstu występowania, ogólnie tła, by obiekt mógł być dostrzeżony przez obserwatora (w przypadku diagnostyki medycznej, zwykle radiologa). Na rys. 3.6 przedstawiono efekt ekstrakcji cech ukrytego symptomu choroby udaru niedokrwiennego (symptom uwidoczniono dzięki obróbce numerycznej) na podstawie wczesnego badania tomografii komputerowej mózgu. Zdolność numerycznej identyfikacji cech ukrytych, bez szans percepcji przez radiologa, ma w tym przypadku szczególnie istotne znaczenie, gdyż jedynie we wczesnej fazie udaru możliwe jest przeprowadzenie skutecznej terapii trombolitycznej, ratującej życie lub chroniącej przed trwałym inwalidztwem. Efektywne wyszukanie referencyjnych przypadków podobnych metodą CBIR pozwola zwiększyć szansę trafnej diagnozy.
Rys. 3.6 Bariera postrzegania w obrazach medycznych na przykładzie obrazowania tomografii komputerowej (TK) wczesnego udaru mózgu; od lewej kolejno a) badanie wczesne, tzn. wykonane w czasie do 3 godzin od wystąpienia incydentu udarowego, z niewidocznym obszarem hipodensyjnym, czyli bezpośrednim symptomem udaru niedokrwiennego; b) ten sam obraz w formie przetworzonej, z ekstrakcją ukrytego obszaru hipodensyjnego (ciemna plama); c)rezultat późniejszego badania TK, wykonanego temu samemu pacjentowi po kilkunastu godzinach, z widocznym już obszarem hipodensyjnym (ciemniejszym, wskazanym strzałką), potwierdzającym wcześniejsze wskazanie specjalizowanego deskryptora semantycznego obszarów hipodensyjnych.
Powodem ograniczeń zdolności postrzegania mogą być realne uwarunkowania procesu akwizycji obrazów -- zbyt mała czułość metody rejestracji w stosunku do specyfiki występującej zmiany (np. wczesnej fazy nowotworu czy incydentu udarowego). Poprawna interpretacji obrazu, a przez to stanu zdrowia pacjenta jest wtedy zagrożona, a przy braku innych symptomów, błędna. Zdarza się też tak, że cechy wizualne są powyżej bariery postrzegania, ale mają charakter niejednoznaczny ze względu na niską jakość zobrazowania zmiany. Cechy wizualne symptomów patologii są bowiem często z natury bardzo subtelne, względne, bez ustalonego, stabilnego wzorca, a ich błędna interpretacja może być tragiczna w skutkach.
Receptą jest wstępna poprawa jakości obrazów zmierzająca ku obniżeniu bariery postrzegania -- w wielu przypadkach przynosi ona pozytywne skutki poprawy skuteczności diagnozy.
Istnienie bariery postrzegania sugeruje opis obrazu za pomocą cech nie tylko wizualnych. Zdolności obliczeniowe komputera w zakresie ekstrakcji cech natury statystycznej, lokalnej transformacji redukującej nadmiarowość źródłowej przestrzeni obrazowej, określania nieliniowych zależności pomiędzy pikselami czy grupami pikseli, aproksymacji istoty sygnału, reprezentacji za pomocą dobranych atomów przestrzeni czas-częstotliwość itd., dają możliwość projektowania deskryptorów cech uwzględniających inne właściwości obiektów, niedostrzegalne przez człowieka. Wyznaczenie takich form opisu wymaga jednak często złożonych procedur optymalizacyjnych, uczenia za pomocą reprezentatywnych zbiorów treningowych, rozwiązań z zakresu sztucznej inteligencji itd. Okupione dużym kosztem obliczeniowym, szczególnie na etapie wyznaczania efektywnych form deskryptorów, przyczyniają się jednak do istotnej redukcji nie tylko bariery postrzegania, ale też luki semantycznej.