Podręcznik

2. Komputerowa obróbka danych

2.11. Rozpoznanie obiektów

Rozpoznawanie treści obrazowej sprowadza się zasadniczo do rozpoznania obiektów oraz określenia wzajemnych, wiążących je relacji. Właściwie rozpoznana treść jest kluczowym etapem komputerowej analizy obrazów, bo umożliwia jej zrozumienie. Rozumienie to jest z kolei warunkiem odbioru pełnego przekazu informacji i jego interpretacji.

Skuteczność algorytmizacji i praktycznej realizacji całego tego procesu zależy w pierwszej kolejności od efektywnego rozpoznawania obiektów, ogólniej określonego rodzaju wzorców zależnych od zastosowania, np. twarzy lub jej części, guza w obrazie medycznym czy określonego rodzaju komórki w badaniach mikroskopowych. Rozpoznawanie polega często na tworzeniu dodatkowego opisu obrazu, który pozwoli lepiej różnicować poszczególne obszary, wydzielać z tła odmienne fragmenty czy formować obiekty z grup pikseli o zbliżonych cechach.

Rozpoznawanie może mieć różne cele:

przydzielenie wyznaczonych wcześniej obiektów (wzorców), np. za pomocą wybranej metody segmentacji, do określonej klasy, przy czym zbiór klas może być ustalony z góry, bądź też otwarty (np. grupowane wstępnie obiekty w części dają się rozpoznać jako danej klasy, w części zaś zajmują nie opisane dotąd obszary przestrzeni cech -- na tej podstawie można rozszerzyć zbiór klas rozpoznawanych obiektów);
wyszukanie określonego rodzaju obiektu w obrazie, przy czym istotne może się okazać jedynie potwierdzenie jego obecności lub też wyznaczenie dokładnej jego lokalizacji, kształtu czy innej specyfiki;
ocenę grupy obiektów w obrazie pod kątem ich przynależności do wybranej klasy;
wydzielenie obiektów nienależących do klasy obiektów pożądanych, np. odrzucenie podróbek wartościowych rycin czy banknotów;
wyszukanie obiektu podobnego, kiedy to spośród wielu dostępnych przypadków należy znaleźć tylko te, które zawierają obiekt tożsamy z jedynym, dostępnym wzorcem, np. mając zdjęcie osoby chcemy ustalić jej tożsamość;
inne.

W pierwszym, klasycznym zastosowaniu rozpoznawania obiektów (wzorców), powstały na etapie segmentacji, symboliczny opis wstępny treści obrazu jest weryfikowany w dwóch kierunkach: samego występowania obiektu zainteresowania oraz bardziej szczegółowej identyfikacji rodzaju tego obiektu. Przykładowo, w specjalistycznym zastosowaniu medycznym polegającym na analizie mammogramów (tj. rentgenowskich obrazów sutka) segmentuje się wstępnie obszary jaśniejsze o zwartej strukturze, a następnie rozpoznaje się dwie klasy obiektów: guz lub obszar nieistotny. Rozpoznawanie może być także kontynuowane w kolejnym etapie, kiedy to obiekty zidentyfikowane jako guz są weryfikowane jako zmiany złośliwe (patologia, która wymaga interwencji terapeutycznej) lub łagodne, z zaleceniem jedynie dalszej obserwacji i okresowej kontroli.

Rozpoznawanie bazujące na wcześniej wydzielonych regionach (potencjalnych lub realnych obiektach) zawiera zwykle dwa podstawowe etapy: określenie zestawu cech dobrze opisujących specyficzne właściwości analizowanych obiektów oraz klasyfikację. Optymalizowany zestaw cech ma zwiększyć skuteczność klasyfikacji. Służą temu takie etapy jak ekstrakcja cech, selekcja cech (np. określonej liczby najmniej skorelowanych właściwości obiektów), korekcja zestawu cech na bazie dostępnej wiedzy specjalistycznej (dziedzinowej) w celu wyznaczenia najsilniej różnicującej klasy obiektów przestrzeni cech.

Proces konstrukcji optymalnej przestrzeni cech w przypadku obiektów obrazowych nie podaje się prostym schematom, zwykle nie daje się opisać analitycznie czy innym, klasycznym formalizmem matematycznym. Często zaś czerpie z eksperymentu, intuicji dobrych heurystyk czy reguł statystycznych.

Cenne jest nierzadko wskazanie w modelu dziedziny ogólnych pojęć istotnych dla danego problemu interpretacji danych (np. obrazów), w drugim etapie są one uszczegóławiane aż do poziomu semantycznych cech dyskryminacyjnych. Etap końcowy to przypisanie cechom wizualnym matematycznych deskryptorów.

W zagadnieniu klasyfikacji zasadniczym i często decydującym o sukcesie zagadnieniem jest konstrukcja odpowiedniej przestrzeni deskryptorów matematycznych, charakteryzującej klasyfikowane obiekty. Proces ten powinien się rozpocząć od opisu obiektów za pomocą cech semantycznie istotnych i reprezentatywnych dla rozwiązywanego zadania.

Jeśli każdą cechę semantyczną opiszemy formułą obliczeniową lub algorytmem, to otrzymamy formalny opis obiektów w postaci zestawów \(N\) liczb, tzw. wektorów cech. Najczęściej z jedną cechą można związać kilka deskryptorów i nie wiadomo z góry, który z nich, czy też jaka ich kombinacja okaże się najbardziej efektywna w danym zadaniu klasyfikacji. Ponadto, przestrzeń cech rozpinana na bazie zestawu numerycznych deskryptorów opisuje często właściwości obiektów w sposób ''nadmiarowy'', za pomocą cech w pewnym stopniu skorelowanych.