Podręcznik
7. Analiza i eksploracja danych
7.2. Systemy informacyjne oraz systemy decyzyjne
Wiele rzeczywistych problemów oraz zdarzeń może zostać opisanych przy użyciu baz danych (tablic danych), czyli tak zwanych systemów informacyjnych. Na przykład, za pomocą tych tablic możemy opisywać wybrane parametry i stan pacjentów w czasie badań medycznych. Wtedy poszczególne instancje zapisane w wierszach tablicy charakteryzują pacjenta przez odpowiednie wartości parametrów (atrybutów). Na przykład, jeżeli obiektem jest KOWALSKI, atrybutem zaś wiek, to wartością tego atrybutu dla obiektu KOWALSKI może być np. MŁODY. Rozważania dotyczące algorytmów eksploracji danych ograniczymy w większości przypadków do systemów informacyjnych o specyficznej strukturze, a mianowicie do tablic decyzyjnych, których zastosowania w systemach podejmowania i wspomagania decyzji, a także w wielu zadaniach maszynowego uczenia, są coraz powszechniejsze.
Formalnie, parę A = (U, A) nazywamy systemem informacyjnym, gdzie U – jest niepustym, skończonym zbiorem obiektów, A – jest niepustym, skończonym zbiorem atrybutów, tj. każdy element a Î A jest funkcją z U w Va, gdzie zbiór Va jest dziedziną parametru a i jest nazywany zbiorem wartości dla parametru a. Wtedy funkcja r odwzorowuje produkt U oraz A w zbiór wszystkich wartości. Przez r(ut, ai), gdzie ut Î U, ai ÎA, oznaczamy wartość atrybutu dla danego obiektu.
Często zbiór atrybutów A ma jeden lub więcej atrybutów wyróżnionych lub jest o taki atrybut rozbudowywany. Celem tych atrybutów jest podejmowanie decyzji na podstawie informacji zawartej w bazie danych. Formalnie, systemem decyzyjnym jest system informacyjny postaci A = (U, A È D), gdzie A Ç D = Æ. Atrybuty w zbiorze A nazywamy atrybutami warunkowymi, natomiast atrybuty w zbiorze D nazywamy atrybutami decyzyjnymi. Systemy decyzyjne są z reguły opisywane za pomocą tablic decyzyjnych. Wtedy, funkcja r odwzorowuje U × (A È D) w zbiór wszystkich wartości atrybutów. Przykładowy system decyzyjny dany jest w tab. 2.30. Można zauważyć, że tablica decyzyjna klasyfikuje obiekty {u1 ,..., u8} do czterech różnych klas, tj. d Î{1, 2, 3, 4}.
Tablica 2.30
A |
a1 |
a2 |
a3 |
a4 |
a5 |
a6 |
d |
1 |
0 |
0 |
1 |
1 |
0 |
0 |
1 |
2 |
1 |
* |
2 |
0 |
1 |
1 |
2 |
3 |
0 |
1 |
1 |
0 |
0 |
1 |
2 |
4 |
1 |
2 |
2 |
* |
2 |
0 |
2 |
5 |
* |
2 |
2 |
2 |
0 |
1 |
1 |
6 |
0 |
0 |
1 |
1 |
0 |
1 |
3 |
7 |
0 |
1 |
0 |
3 |
2 |
|
4 |
8 |
2 |
2 |
2 |
3 |
2 |
0 |
4 |
W obydwu przypadkach, tj. kiedy tablica opisująca system informacyjny oraz system decyzyjny ma w pełni określoną funkcję r, system nazywamy w pełni określonym. Jednakże w praktyce, dane wejściowe algorytmów eksploracji danych są często zaburzone przez brakujące wartości atrybutów [2.18]. Wtedy odpowiadająca funkcja r jest nie w pełni zdefiniowana, a systemy nazywamy nie w pełni określonymi. W [2.8] definiuje się cztery przypadki wartości atrybutów dla nie w pełni określonych tablic decyzyjnych, tj. brakujące wartości oznacza przez „?”, wartości „do not care” (bez znaczenia) przez „”, zastrzeżone wartości „do not care” przez „+”, koncepcyjne wartości atrybutów przez „–”. Dodatkowo zakłada się, że dla każdego obiektu przynajmniej jedna wartość atrybutu jest określona [2.24], [2.25]. W naszych rozważaniach dla uproszczenia przyjmujemy, że będziemy uwzględniali tablice tylko z ewentualnymi wartościami „do not care” dla niektórych atrybutów.