Podręcznik

1. Standardy multimedialne

1.17. Formalizacja wiedzy

Jak wspomniano, wiedza ekspertów staje się często źródłem sformalizowanych, logicznych reguł opisujących wzajemne relacje pomiędzy obiektami i ich cechami, niejako kształtuje przydatne w danym obszarze wiedzy metody wnioskowania, opisuje dane uczące czy weryfikuje rezultaty ''inteligentnych'' zachowań systemu komputerowego. Przyjrzyjmy się nieco bliżej zasadom i istniejącym możliwościom na styku ludzkiej wiedzy eksperckiej oraz komputerowych możliwości reprezentowania i opisu informacji, uzupełnionych olbrzymią mocą obliczeniową.

W użytecznych zastosowaniach komputerowej inteligencji coraz większą rolę odgrywa formalizacja wiedzy, czyli tworzenie maszynowej czy komputerowej reprezentacji wiedzy danej dziedziny (czyli wiedzy dziedzinowej), właściwej danemu zastosowaniu. Chodzi z grubsza o to, by wiedza i związane z nią umiejętności danej dziedziny wyrazić na sposób ''zrozumiały'' dla maszyny, by mogła stać się przedmiotem analiz, odwołań, wnioskowań, służących automatycznemu rozwiązywaniu zagadnień optymalizacji i aproksymacji w konkretnych realiach zastosowań.

Można to inaczej opisać jako tworzenie precyzyjnego modelu danego zakresu wiedzy, obejmującego możliwie kompletny jej zapis, z zachowaniem odpowiedniego poziomu abstrakcji hierarchii pojęć, zależności, reguł wnioskowania czy odniesień do realistycznej warstwy decyzyjnej, będącej skutkiem właściwej interpretacji wiedzy odniesionej do uwarunkowań danego przypadku. Służy temu m.in. coraz częściej stosowane narzędzie ontologii.

Filozoficzne pojęcie ontologii

Ontologia to teoria bytu, istoty, istnienia i jego sposobów, przedmiotu i jego własności, przyczynowości, czasu, przestrzeni, konieczności i możliwości. Chociaż termin ''ontologia'' pojawił się w literaturze filozoficznej dopiero w XVII wieku, to jej źródła sięgają IV w p.n.e, kiedy to Platon sformułował nową kategorię transcendencji, a Arystoteles zaproponował system uniwersalnych kategorii pod nazwą ''metafizyka'', służący klasyfikacji wszystkich istniejących bytów. Termin ''ontologia'' wywodzi się z greckich słów: ontos - byt i logos - słowo. Ontologię spopularyzowali w swoich pracach  J. Clauberg i Ch. Wolf (XVII),  gdzie oznaczał zamiennie z ''metafizyką'' arystotelesowską teorię bytu. Rozważania na temat ontologii kontynuowali tak sławni filozofowie, jak G. Leibniz, I. Kant czy B. Bolzano , definiując ją jako naukę o rodzajach i strukturach obiektów, ich właściwości, a także zdarzeń, procesów, relacji i dziedzin opisywanej rzeczywistości. Ontologia stawia pytania typu: co stanowi prazasadę i praprzyczynę rzeczywistości? - jak klasyfikować byty, - jakie klasy pojęć są niezbędne do opisu i wnioskowania na temat danego procesu? i inne.

Informatyczne pojęcie ontologii

Wykorzystanie ontologii w informatyce wymuszone zostało rozwojem tzw. technologii semantycznych i koniecznością coraz większej integracji, albo porozumienia na linii człowiek-komputer. Jako opis wybranego wycinka rzeczywistości stało się pojęciowym narzędziem służącym formalnym opisom praktycznej wiedzy i doświadczeń ekspertów, rozumianych przede wszystkim jako najbardziej wiarygodny wykładnik znaczeń i ocen, pozwalający formułować kryteria optymalizacji i szacować dopuszczalne błędy aproksymacji. Rozumienie ontologii w zupełnie nowym, teleinformatycznym kontekście wymagało oczywiście doprecyzowania podstawowych definicji oraz kształtowania zupełnie inaczej rozumianych modeli i metod. Ten proces rozpoczął się w na początku lat dziewięćdziesiątych. Jednak sam ''duch'' filozoficznej ontologii niewątpliwie przetrwał, w innym kształcie pozwala nam po nowemu opisywać stary świat, szczególnie w takich zastosowaniach jak medycyna.

Na początku, kiedy powstawały pierwsze ontologie, wśród przyczyn uzasadniających ich tworzenie wymieniano:

  • konieczność systematyzacji i objaśnienia struktury wiedzy w danej dziedzinie;
  • umożliwienie i ułatwienie współdzielenia struktury wiedzy i informacji  w danej dziedzinie, zarówno przez ludzi, jak i systemy komputerowe;
  • umożliwienie i ułatwienie ponownego użycia wiedzy (knowledge reuse) zarówno przez ludzi, jak i systemy komputerowe. 

Podstawowe definicje

Według Neches et al ontologia definiuje podstawową terminologię i relacje opisujące daną dziedzinę, jak również reguły określające jej rozszerzenia. Definicja ta oddaje intuicyjny sens konstruowania ontologii w celu formalizacji wiedzy dziedzinowej, nie podaje jednak żadnych wyróżników służących jej praktycznej realizacji. Według rozważań autorów, ontologię stanowi przede wszystkim słownik opisujący dziedzinę oraz zasady jego konstrukcji. Warto podkreślić, że ontologia obejmuje tutaj nie tylko terminologię \emph{explicite} zawartą w przyjętym modelu wiedzy, ale również to wszystko, co można z niej wydobyć poprzez wnioskowanie. 

Klasyczna, najczęściej wykorzystywana definicja ontologii została podana przez T. Grubera  w 1993 roku. Stwierdził on, że ontologia jest jawną specyfikacją warstwy pojęciowej. Zakładał, że warstwa pojęciowa (\emph{conceptualization}) to abstrakcyjny model zjawisk w ograniczonym wycinku rzeczywistości, uzyskany poprzez identyfikację istotnych pojęć (obiekty, zdarzenia, stany itp.) z nim związanych i relacje pomiędzy nimi. Słowo specyfikacja zaś oznacza, że definicje istotnych w danej dziedzinie pojęć i relacji muszą być precyzyjnie i jednoznacznie sformułowane, przy czym opis ten powinien w pierwszej kolejności uwzględniać ich znaczenie. Oznacza to, że ontologiczny model dziedziny określa strukturę wiedzy w danej dziedzinie, ograniczając możliwe interpretacje  zdefiniowanych tam pojęć i relacji. Budowa ontologii jest zawsze związana z konstrukcją słownika zawierającego zbiór formalnych definicji pojęć będących opisem modelowanej dziedziny.

Przykładowo, wynikiem bardzo pobieżnej ontologicznej analizy warstwy pojęciowej wybranego obszaru medycyny są takie pojęcia jak: choroba, symptom, diagnoza, rozpoznanie, terapia i relacje pomiędzy nimi, takie jak ''choroba wywołuje (określone) symptomy'', ''terapia leczy (tą) chorobę''. 

Przymiotnik formalna oznacza, że model musi być czytelny dla maszyny, specyfikacja to wymóg jednoznacznego sformułowania definicji pojęć i relacji, określenie wspólna odnosi się do faktu, że wiedza zawarta w ontologii powinna być akceptowana przez ogół użytkowników. 

Konkretnej, Gruber uściślił konceptualizację dziedziny jako $(C, I, R, F, A)$, gdzie: $C$ -- zbiór wszystkich pojęć opisujących dziedzinę, $I$ -- zbiór obiektów istniejących w dziedzinie, nazywanych też instancjami klas (pojęć), $R$ -- zbiór wszystkich relacji definiowanych na $C$, $F$ -- zbiór funkcji zdefiniowanych na $C$,  zwracających jako wynik działania jedno z pojęć należących do modelowanej dziedziny, $A$ --- zbiór aksjomatów nakładających ograniczenia na możliwe w modelu znaczenia pojęć, relacji i funkcji. 

Borst poszerza definicję Grubera w kierunku jeszcze bardziej użytecznym w zastosowaniach informatyki, określając ontologię jako formalną specyfikację wspólnej warstwy pojęciowej. Specyfikacja formalna znaczy tutaj - czytelna dla maszyny, wykluczająca więc raczej bezpośrednie użycie języka naturalnego. Z kolei wspólna warstwa pojęciowa to taka, która jest akceptowana przez ogół użytkowników, możliwie ustandaryzowana, stanowiąca consensus zespołów czy ośrodków, odgrywających dominującą rolę w kształtowaniu wiedzy danego obszaru.

Obok oczywistych zalet takiego rozumienia ontologii, pojawiły się także pewne wątpliwości. Obawy dotyczyły definiowania ontologii z wykorzystaniem pojęcia warstwy pojęciowej, który wywodzi się z epistemologii (inaczej teorii poznania) i dotyczy sposobu spostrzegania świata przez obserwatora, a więc subiektywnie. Modelując dziedzinę należy natomiast  dążyć do maksymalnego obiektywizmu. Wskazano także na problem wymogu współdzielenia wiedzy - czy model zbudowany na potrzeby tylko jednej aplikacji, a więc mogący wykorzystywać niekoniecznie powszechnie przyjętą wiedzę, nie ma prawa do nazywania się ontologią? 

Pojawiły się więc określania bardziej precyzyjnie i mniej kontrowersyjne, choć wydaje się -- mniej użyteczne w opisie złożonych abstrakcyjnie i nie do końca jednoznacznych realnych pojęć i relacji, które odwołują się do formalizmów logicznych. Według nich ontologia to:

  • teoria logiczna, która podaje jawną, częściową warstwę pojęciową; 
  • zbiór logicznych aksjomatów, zaprojektowanych w celu wyjaśnienia zamierzonego znaczenia słownika; 
  • hierarchiczna struktura terminów opisujących daną dziedzinę, która może być użyta do budowy bazy wiedzy ją opisującej. 

   Współczesna definicja ontologii podana przez Maedche w 2002 roku także nie korzysta z kontrowersyjnego pojęcia warstwy pojęciowej oddzielając strukturę samej ontologii od struktury opisującego ją leksykonu. Ontologię definiują tutaj dwa zbiory, zbiór $O$ określający strukturę ontologii, oraz zbiór $L$ zawierający strukturę opisującego ją leksykonu. Struktura ontologii definiująca pojęcia i występujące między nimi relacje ma postać $O=\{C, R, Hc, Rel, A\}$ gdzie kolejno: $C$ stanowi zbiór wszystkich pojęć zdefiniowanych w modelu, $R$ jest zbiorem nietaksonomicznych relacji (zwanych właściwościami, slotami lub rolami), definiowanych jako nazwane połączenie między pojęciami, $Hc$ stanowi zbiór taksonomicznych relacji pomiędzy pojęciami, $Rel$  to zdefiniowane nietaksonomiczne relacje pomiędzy pojęciami, a $A$ jest zbiorem aksjomatów.

Struktura leksykonu ma postać $L=\{Lc, Lr, F,G\}$ gdzie: $Lc$ to definicje leksykonu dla zbioru pojęć, $Lr$ oznacza  definicje leksykonu dla zbioru relacji, $F$ -- referencje dla pojęć, a $G$ to referencje dla relacji.

W definicji Maedche’a ontologię tworzą taksonomia pojęć i semantyczna interpretacja terminów użytych do ich opisu. Dlatego tłumaczenie terminów występujących w ontologii z jednego języka narodowego na drugi nie zmienia struktury pojęciowej samej ontologii.

Podsumowując, podstawowym powodem konstrukcji modeli ontologicznych są dziś zastosowania internetowe (sieciowe). Ontologii nie należy utożsamiać z katalogiem czy taksonomią (usystematyzowaniem) obiektów w danej dziedzinie. Ontologia dostarcza przesłanek pozwalających je budować. Ontologia związana jest z obiektem, a nie z jego subiektywnym odbiorem. W ontologii relacje (zależności) między obiektami nie są opisywane funkcyjnie. Istnieje wiele ontologii –- nie jest możliwe stworzenie jednej ogólnej ontologii.

Podsumowanie

Warto zwrócić uwagę przede wszystkim na rolę tworzenia dobrego, czyli wiarygodnego i upakowanego (reprezentowanego przez stosunkowo małą liczbę parametrów) modelu danych. Omawiane metody kompresji, indeksowania, a także analizy danych bazują na mniej lub bardziej abstrakcyjnym opisie zasadniczych cech treści, która stanowi najbardziej istotne dla odbiorcy przesłanie przekazu multimedialnego. Połączenie dobrej aproksymacji zasadniczej treści przekazu z doborem odpowiedniej formy zwartej reprezentacji i skutecznym opisem jej kluczowych właściwości stanowi o sukcesie nowych technologii.

Zasygnalizowane metody przetwarzania, segmentacji, ekstrakcji cech czy klasyfikacji dają bogaty arsenał w doskonaleniu przekazu multimedialnego. Ważne jest tutaj zarówno uzyskanie dużej wyrazistości w prezentacji dostarczanej informacji, jak też zautomatyzowanie metod rozumienia treści przekazu w celu selektywnego doboru danych, stanowiących informacje dla konkretnego odbiorcy. 

Uzupełnieniem tych metod w coraz większym stopniu stają się narzędzia komputerowej inteligencji. Zagadnienie inteligencji, działanie ludzkiego mózgu, przejawy komputerowej ''świadomości'', formy optymalizacyjne sztucznej inteligencji, coraz częściej znajdują odzwierciedlenie w użytecznych formach systemów ekspertowych, ewolucyjnych algorytmów optymalizacji czy tez konstrukcjach formalnego opisu wiedzy dziedzinowej. Odwoływanie się do różnych form wnioskowania, wyszukiwania rozwiązań czy dopasowania przybliżeń pełni przede wszystkim rolę wspierającą ambitne ludzkie zadania, dotyczące interpretacji danych, odkrywania treści i jej oceny, czy wreszcie podejmowania ważnych decyzji (np. w diagnostyce medycznej). Dzięki temu multimedia mogą w coraz większym stopniu służyć człowiekowi.