### Klasyfikacja gatunków irysów z wykorzystaniem perceptronu wielowarstwowego i biblioteki Keras

In [1]:
from tensorflow import keras
from keras import layers
from sklearn import datasets
from sklearn.model_selection import train_test_split




In [2]:
iris = datasets.load_iris() # wczytanie zbioru danych irys
X = iris['data'] # X - cechy
y = iris['target'] # y - etykiety

In [3]:
iris['feature_names'] # nazwy cech

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [4]:
X.shape # 150 przykładów, każdy przykład ma 4 cechy

(150, 4)

In [5]:
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [6]:
y.shape

(150,)

In [7]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [8]:
print(iris['target_names']) # nazwy klasyfikowanych gatunków

['setosa' 'versicolor' 'virginica']


#### One hot encoding

* Dla zmiennych katergorycznych należy używać takiego kodowania z gorącą jedynką (one-hot-encoding).
Jeśli działalibyśmy na początkowych wartościach (0, 1, 2) (traktowanych jako liczby) to dostajemy, że setosa jest bliżej versikolor niż virginica, co nie ma sensu.
* Zamieniamy wektor 150 liczb 0, 1, 2 na macierz 150x3, z jedynką wstawioną odpowiednio na pozycji 0, 1, 2 ([1, 0, 0] dla 0, [0, 1, 0] dla 1 i  [0, 0, 1] dla 2)

In [9]:
y_one_hot = keras.utils.to_categorical(y)

### Podział na zbiór trenujący i testowy
* losowe 20% przykładów zostawiamy jako zbiór testowy

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y_one_hot, test_size=0.2, random_state=0)

In [11]:
X_train.shape

(120, 4)

In [12]:
y_train.shape

(120, 3)

In [13]:
X_test.shape

(30, 4)

In [14]:
y_test.shape

(30, 3)

## Sieć neuronowa

In [16]:
# klasa Sequential pozwala na łatwe budowanie sieci złożonej z kolejnych warstw
model = keras.Sequential()
# dodajemy warstwę ukrytą o 5 neuronach
model.add(layers.Dense(5, activation='relu', input_shape=(4,)))
# oraz warstwę wyjściową o 3 (3 bo 3 kategorie)
model.add(layers.Dense(3, activation='softmax'))
# sdg - stochastic gradient descent - optymalizacja metodą największego spadku gradientu
# (inne potencjalnie skuteczniejsze metody: adam, rmsprop)
# funkcja straty - entropia krzyżowa dla wielu klas
# dodatkowo chcemy wyświetlać dokładność (accuracy), czyli jaka część przykładów została zaklasyfikowana poprawnie
model.compile(optimizer='sgd', loss='categorical_crossentropy', metrics = ['accuracy'])




In [17]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 5)                 25        
                                                                 
 dense_1 (Dense)             (None, 3)                 18        
                                                                 
Total params: 43 (172.00 Byte)
Trainable params: 43 (172.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


* Pierwsza warstwa sieci dostaje na wejście 4 cechy danych wejściowych i ma 5 neuronów, zatem na wyjściu tej warstwy dane mają rozmiar 5 (5 liczb - aktywacji neuronów dla każdego z przykładów uczących)
* Pierwsza warstwa ma 4 x 5 wag (każde wejście połączone z każdym neuronem) oraz 5 wyrazów wolych (biasów), po jednym dla każdego neuronu, co razem daje 20 + 5 = 25 parametrów tej warstwy
* Analogicznie drufa warstwa ma na wejściu 5 liczb i zawiera 3 neurony. Zatem ma 5 x 3 wag oraz 3 wyrazy wolne, razem 15 + 3 = 18 parametrów
* Wszystkie parametry sieci (25 + 18 = 43) będą modyfikowane w procesie uczenia

In [18]:
model.layers

[<keras.src.layers.core.dense.Dense at 0x190f5d7c9d0>,
 <keras.src.layers.core.dense.Dense at 0x190f61b3110>]

### Uczenie modelu
* batch_size - liczba przykładów ze zbioru uczącego przetwarzanych w jednej iteracji algorytmu gradientowego
* epochs - liczba epok, czyli przejść przez cały zbiór uczący

In [19]:
model.fit(X_train, y_train, batch_size=10, epochs=100)

Epoch 1/100


Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 

Epoch 79/100
Epoch 80/100
Epoch 81/100
Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<keras.src.callbacks.History at 0x190f62f2e10>

In [20]:
# ocena działania modelu na danych uczących, liczby to [wartość funkcji kosztu, dokładność]
model.evaluate(X_train, y_train)



[0.2353377342224121, 0.9583333134651184]

In [21]:
# ocena działania modelu na danych testowych 
model.evaluate(X_test, y_test)



[0.25116515159606934, 0.9666666388511658]

In [22]:
# bierzemy pierwszy przykład ze zbioru testowego i dopasowujemy kształt do wymaganego przez sieć
example0 = X_test[0].reshape(1, -1)
example0

array([[5.8, 2.8, 5.1, 2.4]])

In [23]:
example0.shape

(1, 4)

In [24]:
# wynik predykcji
model.predict(example0)



array([[1.15047791e-04, 1.18203305e-01, 8.81681621e-01]], dtype=float32)

In [25]:
# prawidłowa etykieta
y_test[0]

array([0., 0., 1.], dtype=float32)