Podręcznik
1. Semantyczne modele informacji
1.12. Selektywność wyszukiwania
Selektywność wyszukiwania według zadanego scenariusza możemy oceniać, jeżeli znana jest semantyczna relacja równoważności pomiędzy obiektami w kolekcji. To, co nazywamy semantyczną równoważnością w danym przypadku zależne jest od kontekstu wyszukiwania. W szczególności może ona być bardzo różna dla tych samych obiektów tej samej kolekcji, zależnie od semantyki treści oraz celu użytkowania (wspomniane problemy luki semantycznej).
Będziemy dalej mówić, że zwrócony przez wyszukiwarkę obiekt multimedialny jest poprawny, jeśli jest on semantycznie równoważny z zapytaniem (obiektem wejściowym), tj. treściowa zawartość pytania i odpowiedzi jest równoważna. Konieczne jest więc zdefiniowanie semantycznej (znaczeniowej) relacji równoważności między obiektami w konkretnym zastosowaniu. Przykładowo wyszukane zdjęcia są semantycznie równoważne, jeśli przedstawiają tę samą osobę , a w innym przypadku -- jeśli przedstawiają kobietę (poruszany wcześniej problem wielu znaczeń opisywanej treści).
Powszechnie stosowanych jest kilka miar selektywności wyszukiwania, przede wszystkim precyzja (precision), przywołanie (recall), odniesienie precyzji do przywołania, stopa sukcesu (success rate) czy średnia ranga (average rank). Miary te są zwykle uśredniane po wielu zapytaniach, by wyniki miały bardziej reprezentatywny charakter.
Precyzja
charakteryzuje czułość wyszukiwania pozwalając oszacować jaka liczba (procent) odpowiedzi na zapytanie jest poprawna. Przez oznaczmy zbiór wszystkich testowych, możliwie licznych zapytań . Jeśli wśród wszystkich odpowiedzi na każde znajdzie się dokładnie odpowiedzi poprawnych (co oznacza również odpowiedzi niepoprawnych), wtedy precyzję obliczamy jako
(3.5) |
Wygodniej jest ustalić stały scenariusz wyszukiwania odpowiedzi kładąc stałe , niezależnie od zapytania. Często jest to koniecznością przy testowaniu bazy o nieznanej zawartości (nie wiemy, ile obrazów danej treści jest w bazie). Jeśli jednak znana i zróżnicowana jest reprezentacja odmiennych treściowo obiektów bazy, rzetelniejsze wyniki można uzyskać ustalając odpowiednio duże . W szczególności, by nie ograniczać liczby możliwych odpowiedzi poprawnych warto przyjąć przynajmniej , gdzie jest liczbą wszystkich obiektów bazy semantycznie równoważnych .
Przywołanie wskazuje, ile z wszystkich potencjalnych odpowiedzi poprawnych na zapytanie (ich liczba jest równa liczbie wszystkich obiektów semantycznie równoważnych , które znajdują się w bazie) znalazło się wśród obiektów zwróconych przez wyszukiwarkę. Mamy więc przywołanie zdefiniowane jako
(3.6) |
Miara ta zależy więc jeszcze silniej od scenariusza wyszukiwań testowych (tj. sposobu ustalania wartości ). Z (3.5) oraz (3.6) wynika własność .
Precyzja odniesiona do wartości przywołania jest częstym miernikiem efektywności procesu indeksowania -- zobacz rys. 3.7. Niekiedy są takie sytuacje, gdy chcielibyśmy wyznaczyć efektywność indeksowania dla pojedynczych zapytań. Można podać przynajmniej dwa przykłady takiej sytuacji. Po pierwsze, uśrednianie po wielu zapytaniach może ukryć pewne niepożądane cechy algorytmu indeksującego, występujące dla specyficznych zapytań. Po drugie, przy porównywaniu algorytmów indeksujących, może być istotna informacja, czy dany algorytm jest lepszy od innego dla każdego zapytania w określonej grupy zapytań testowych. W takich sytuacjach można zastosować pojedynczą wartość precyzji (dla każdego zapytania), traktując jako uśrednioną dla danego poziomu przywołania, zgodnie w podejściem przedstawionym powyżej. Możliwe jest także zaproponowanie innych podejść do wyznaczania precyzji, które mogą być bardziej użyteczne~, takie jak średnia precyzja dla widzianych dokumentów adekwatnych czy R--precyzja.
Rys. 3.7 Przykładowy wykres precyzji w funkcji przywołania. Standardowo precyzja jest wyznaczana dla 11 poziomów przywołania (źródło: Boninski).
Średnia precyzja dla widzianych dokumentów adekwatnych polega na wyznaczaniu precyzji poprzez uśrednianie precyzji wyznaczanej po zaobserwowaniu w zbiorze wynikowym adekwatnego dokumentu. Przykładowo, dla danych z rysunku 3.7 wartość precyzji po pojawieniu się w zbiorze wynikowym kolejnych dokumentów odpowiadających zapytaniu będzie następująca: 1, 0,66, 0,5, 0,4 oraz 0,3. Na tej podstawie możemy policzyć .
Duże wartości ) nie są zbyt użyteczne, gdyż zwykle oczekiwana jest raczej odpowiedź kilku najbardziej podobnych treściowo obiektów. Bardziej użyteczne mogą się więc okazać miary uwzględniające pozycje zwracanych odpowiedzi poprawnych.
Stopa sukcesu wskazuje na procentowy udział takich odpowiedzi na , w których na pierwszej pozycji znalazły się obiekty semantycznie równoważne zapytaniu, a mianowicie
(3.7) |
gdzie gdy na pierwszym miejscu zwrócony został obiekt równoważny zapytaniu, zaś w przeciwnym przypadku .
Miara ta zakłada porządkowanie według nierosnącego podobieństwa obiektów zwracanych do zapytania, według przyjętej funkcji podobieństwa obiektów.
Średnia ranga jest miarą bardziej złożoną, odnoszącą się do średniej pozycji odpowiedzi poprawnych w stosunku do testowych zapytań. Podobnie jak poprzednio, lista odpowiedzi jest porządkowana ze względu na nierosnące podobieństwo względem . Obraz najbardziej podobny zajmuje pozycję 1, a najmniej -- pozycję .
Średnia ranga jest uśrednioną po wszystkich wartością średniej pozycji odpowiedzi poprawnych na pojedyncze . Mamy więc
(3.8) |
gdzie jest średnią pozycją wszystkich obiektów równoważnych znajdujących się w bazie, w odniesieniu do konkretnej realizacji zapytania . Tak więc
(3.9) |